一种语音识别方法和语音识别系统-j9九游会真人

文档序号：34947448发布日期：2023-07-29 05:39阅读：56来源：国知局

1.本技术涉及语音识别技术领域，尤其是涉及一种语音识别方法和语音识别系统。

背景技术：

2.目前语音识别就是“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域，给人们的日常生活带来极大便利。
3.相关技术中，语音识别技术常常被运用于智能家居系统中，用户发出语音指令后对语音指令进行识别，进行家居控制、音乐播放以及信息查询等功能。
4.针对上述中的相关技术，用户发出语音指令时，出现地方方言口音较重的问题，影响系统进行错误语音识别，语音识别的准确性较低，存在改进之处。

技术实现要素：

5.为了提高语音识别的准确性，本技术提供了一种语音识别方法和语音识别系统。
6.本技术提供的一种语音识别方法，采用如下的技术方案：
7.第一方面，一种语音识别方法，包括以下步骤：
8.获取语言数据库并建立数据连接，所述语言数据库包括普通话语料数据库、地方方言语料数据库以及世界语言语料数据库；
9.基于语音采集模块获取语音并输出用户语音指令；
10.获取用户语音指令并基于所述普通话语料数据库与之进行比对，若有匹配项则执行用户语音指令，若无匹配项则继续进行普通话的识别分析；
11.获取用户语音指令并基于所述地方方言语料数据库与之进行比对，若有匹配项则执行用户语音指令，若无匹配项则继续进行地方方言的识别分析；
12.获取用户语音指令并基于所述世界语言语料数据库与之进行比对，若有匹配项则执行用户语音指令，若无匹配项则继续识别分析；以及
13.建立语言训练模型并重复上述步骤进行训练。
14.优选的，获取语言数据库，其中语言数据库包括普通话语料数据库、地方方言语料数据库以及世界语言语料数据库；
15.建立所述普通话语料数据库、所述地方方言语料数据库以及所述世界语言语料数据库之间的数据连接；
16.定期对网络热词以及新造词进行检索，对所述普通话语料数据库、所述地方方言语料数据库以及所述世界语言语料数据库进行迭代。
17.优选的，基于采集单元对语音进行采集；
18.对所采集的语音中环境语音信息以及次要语音信息进行去噪处理；
19.对所采集语音中的关键词语音信息进行语音增强处理；
20.基于进行处理后的语音输出用户语音指令。
21.优选的，激活所述普通话语料数据库；
22.获取用户语音指令并将用户语音指令与所述普通话语料数据库内语料进行比对，寻找匹配项；
23.若寻找到用户语音指令的匹配项，则基于用户语音指令去执行语音指令操作；以及
24.若未寻找到用户语音指令的匹配项，则询问用户是否使用普通话模式；
25.若用户回答是，则基于所述普通话语料数据库再次对所述用户语音指令比对进行再次匹配，若再次匹配寻找到匹配项则执行用户语音指令操作，若再次匹配未寻找到匹配项则播放普通话搜寻无果语音信息，若用户回答不是，则询问用户是否使用地方方言模式；
26.若用户使用地方方言模式则进行下一步骤，若用户不使用地方方言模式则结束此次语音识别并输出语音识别失败的语音信息。
27.优选的，激活所述地方方言语料数据库；所述地方方言语料数据库包括中国各县市方言的语料；
28.获取用户语音指令并将用户语音指令与所述地方方言语料数据库内语料进行比对，寻找匹配项；
29.若寻找到用户语音指令的匹配项，则基于用户语音指令去执行语音指令操作；以及
30.若未寻找到用户语音指令的匹配项，则基于用户语音指令特点分析用户所说方言特点，判断用户方言地区以及县市并得出方言判断结果；
31.基于方言判断结果询问用户是否正确，若用户回答结果正确则提取所述地方方言语料数据库内基于方言判断结果中用户方言地区以及县市的方言语料，并将提取后的方言语料与用户语音指令再次进行比对；若再次对比找到匹配项，则基于语音指令执行操作，若仍未找到匹配项，则进行下一步骤；若方言判断结果不正确则询问用户是否使用世界语言模式；
32.若用户使用世界语言模式则进行下一步骤，若用户不使用世界语言模式则结束此次语音识别并播放语音识别失败的语音信息。
33.优选的，激活所述世界语言语料数据库，所述世界语言语料数据库包括除中国以外世界各个其他国家的语言语料；
34.获取用户语音指令并将用户语音指令与所述世界语言语料数据库内语料进行比对，寻找匹配项；
35.若寻找到用户语音指令的匹配项，则基于用户语音指令去执行语音指令操作；以及
36.若未寻找到用户语音指令的匹配项，则基于用户语音指令特点分析用户所说语言特点以及语言习惯，分析判断用户语音所属国家的语言并得出语言判断结果；
37.询问用户语言判断结果是否正确，若用户回答结果正确则提取所述世界语言语料数据库内语言判断结果中的国家语言预料，将提取后的语言语料与所述用户语音指令进行再次对比；若再次对比找到匹配项则基于匹配项执行用户语音指令，若仍未找到匹配项，则进行下一步骤；若语言判断结果不正确，则结束此次语音识别并播放语音识别失败的语音信息并让用户重复语音指令。
38.优选的，获取语音识别训练模型，所述语音识别训练模型可以自动进行语音识别；
39.建立所述语音识别训练模型与所述语言数据库以及语音采集模块之间的数据连接；
40.获取多个用户语音指令样本；
41.基于语音识别训练模型将多个用户语音指令样本重复上述步骤得到多个比对结果，基于比对结果进行鲁棒性分析对语音识别训练模型进行修正完善。
42.第二方面，本技术提供了一种语音识别系统，采用如下的技术方案：
43.一种语音识别系统，包括语言数据库，包括普通话语料数据库、地方方言语料数据库以及世界语言语料数据库；
44.语音采集模块，配置为采集用户语音并经过去噪处理以及语音增强处理后输出用户语音指令信号；
45.普通话比对模块，配置为与所述语音采集输出模块的输出端以及所述普通话语料数据库的输出端信号连接，用于将用户语音指令信号与所述普通话语料数据库内普通话语料信号进行比对，当比对成功输出普通话指令控制信号，当比对失败输出普通话比对失败信号；
46.地方方言比对模块，配置为与所述语音采集输出模块的输出端、所述地方方言语料数据库的输出端以及所述普通话比对模块的输出端信号连接，用于在接收到普通话比对失败信号后，将用户语音指令信号与所述地方方言语料数据库内的地方方言语料信号进行比对，当比对成功输出方言指令控制信号，当比对失败输出方言比对失败信号；以及
47.世界语言比对模块，配置为与所述语音采集输出模块的输出端、所述世界语言语料数据库的输出端以及所述地方方言比对模块的输出端信号连接，用于在接收到方言比对失败信号后，将用户语音指令信号与所述世界语言语料数据库内的其他国家语言语料信号进行比对，当比对成功输出世界语言指令控制信号，当比对失败输出世界语言比对失败信号。
48.优选的，所述语音采集模块包括采集单元、语音去噪单元以及语音增强单元，所述采集单元用于对现场周围声音进行收音并输出初始语音信号至语音去噪单元，所述采集单元可以使用麦克风；所述语音去噪单元接收所述初始语音信号后对用户语音进行去噪处理并输出语音去噪信号至语音增强单元，所述语音增强单元用于接收所述语音去噪信号后对关键语音信息进行音质增强并输出语音增强信号至所述普通话比对模块、所述地方方言比对模块以及所述世界语言比对模块。
49.优选的，所述语音识别系统还包括训练模型模块，所述训练模型模块包括语音识别训练模型，所述语音识别训练模型配置为与所述语言数据库以及所述语音采集模块信号连接，用于重复进行语音识别的步骤，用于自动进行语音识别功能。
50.综上所述，本技术包括以下至少一种有益技术效果：
51.1.通过语音采集模块采集用户语音进行处理输出用户语音指令，将用户语音指令分别与普通话语料数据库进行比对、地方方言语料数据库进行比对以及世界语言语料数据库进行比对，在用户发出语音指令存在方言口音较重的问题时，降低语音错误识别的概率，提高了语音识别的准确性；
52.2.借助语音识别训练模型获取多个用户语音指令样本之后重复语音识别的步骤
得到多个比对结果，对比对结果进行鲁棒性分析从而完善语音识别训练模型的完整性以及提高语音识别训练模型的准确性，进一步提高了语音识别的准确性。
附图说明
53.图1为本实施例主要体现语音识别方法的流程示意图；
54.图2为本实施例主要体现步骤s1的流程示意图；
55.图3为本实施例主要体现步骤s2的流程示意图；
56.图4为本实施例主要体现步骤s3的流程示意图；
57.图5为本实施例主要体现步骤s4的流程示意图；
58.图6为本实施例主要体现步骤s5的流程示意图；
59.图7为本实施例主要体现步骤s6的流程示意图；
60.图8为本实施例主要体现语音识别系统的模块示意图。
61.附图标记：1、语言数据库；11、普通话语料数据库；12、地方方言语料数据库；13、世界语言语料数据库；2、语音采集模块；21、采集单元；22、语音去噪单元；23、语音增强单元；3、普通话比对模块；4、地方方言比对模块；5、世界语言比对模块；6、训练模型模块。
具体实施方式
62.以下结合附图对本技术作进一步详细说明。
63.本技术实施例公开了一种语音识别方法。
64.参照图1和图2，步骤s1，获取语言数据库1并建立语言数据库1内部的数据连接，语言数据库1包括普通话语料数据库11、地方方言语料数据库12以及世界语言语料数据库13。步骤s1包括以下子步骤：
65.步骤s11，获取语言数据库1，其中语言数据库1包括普通话语料数据库11、地方方言语料数据库12以及世界语言语料数据库13。普通话语料数据库11内包括有大量普通话语料，地方方言语料数据库12包括有大量中国除普通话外其他地方方言语料，世界语言语料数据库13包括有大量除中国外世界其他国家语言语料。
66.步骤s12，建立普通话语料数据库11、地方方言语料数据库12以及世界语言语料数据库13三者之间的数据连接。
67.步骤s13，定期对网络热词以及新造词进行检索并录入信息，对普通话语料数据库11、地方方言语料数据库12以及世界语言语料数据库13进行更新迭代。
68.参照图1和图3，步骤s2，基于语音采集模块2获取用户的语音信息并输出用户语音指令。步骤s2包括以下子步骤：
69.步骤s21，基于采集单元21对周围的用户语音信息进行采集。应当指出的是，本技术实施例中的采集单元21可以使用麦克风。
70.步骤s22，基于语音去噪单元22对所采集语音内的环境语音信息以及次要语音信息进行去噪处理，降低在语音识别过程中环境语音信息以及次要语音信息对关键语音信息的影响。应当指出的是，本技术实施例中的环境语音包括风雨声、背景音乐声以及小孩玩闹声等。应当指出的是，本技术实施例中的次要语音信息包括非必要语音信息，现举例说明：嘈杂环境中的除用户关键语音指令之外的用户交谈声以及播放设备播放的影视作品中人
物交谈声。应当指出的是，本技术实施例中的语音去噪单元22可以使用维纳滤波器。
71.步骤s23，基于语音增强单元23对所采集语音中的关键词语音信息进行语音增强处理。现对关键词语音信息进行举例说明：打开\关闭灯光、打开\关闭空调、调高\调低电视播放音量等。应当指出的是，本技术实施例中的语音增强单元23可以使用基于语音识别的语音增强算法。
72.步骤s24，基于进行语音去噪以及语音增强对收集到的语音进行关键特征提取处理后的语音输出用户语音指令。
73.参照图1和图4，步骤s3，获取用户语音指令并基于普通话语料数据库11与用户语音指令进行比对，在普通话语料数据库11中寻找用户语音指令的匹配项，若有匹配项则执行用户语音指令，若无匹配项则继续进行普通话的识别分析。步骤s3包括以下子步骤：
74.步骤s31，在启用普通话语料数据库11前，对普通话语料数据库11进行激活，激活操作包括对普通话网络热词以及普通话新造词进行检索并对普通话语料数据库11进行更新迭代，减少在用户语音指令中出现普通话网络热词以及普通话新造词时识别不出来的情况发生。
75.步骤s32，获取用户语音指令并将用户语音指令与普通话语料数据库11内语料进行比对，寻找普通户语料数据库内与用户语音指令一致的匹配项语料。
76.步骤s33，若寻找到用户语音指令的匹配项，则基于用户语音指令去执行语音指令操作。若未寻找到用户语音指令的匹配项，则询问用户是否使用普通话模式进行识别。
77.步骤s34，若用户回答是使用普通话模式进行语音识别，则基于普通话语料数据库11再次寻找匹配用户语音指令的匹配项。若再次匹配后寻找到匹配项则执行用户语音指令操作。若再次匹配后未寻找到匹配项则播放普通话搜寻无果语音信息告知用户未搜索到结果，便于用户重新发出用户语音指令进行语音识别。若用户回答不是使用普通话模式进行语音识别，则询问用户是否使用地方方言模式进行语音识别。
78.步骤s35，若用户使用地方方言模式进行语音识别则进行下一步骤，若用户不使用地方方言模式进行语音识别，则结束此次语音识别并输出语音识别失败的语音信息，便于用户重新发出语音指令进行语音识别。
79.参照图1和图5，步骤s4，获取用户语音指令并基于地方方言语料数据库12内语料与用户语音指令进行比对，若有匹配项则执行用户语音指令，若无匹配项则继续进行对用户语音指令的识别分析。步骤s4包括以下子步骤：
80.步骤s41，在启用地方方言语料数据库12之前，对地方方言语料数据库12进行激活操作。激活操作包括对方言网络热词以及新造方言词进行检索并对地方方言语料数据库12进行更新迭代。地方方言语料数据库12内包括有中国各地区县市的方言语料，现在方言中每个地区省份中各个县市的方言均存在很大差异，提高了在用户有方言口音或直接使用方言说话时语音识别的准确性。
81.步骤s42，获取用户语音指令并将用户语音指令与地方方言语料数据库12内语料进行比对，寻找地方方言语料数据库12内与用户语音指令一致的匹配项语料。
82.步骤s43，若寻找到用户语音指令的匹配项，则基于用户语音指令去执行语音指令操作。若未寻找到用户语音指令的匹配项，则基于用户语音指令分析用户所说方言特点，判断用户所说方言地区以及县市并得出方言判断结果。
83.步骤s44，基于方言判断结果询问用户方言判断结果是否正确。若用户回答方言判断结果正确，则提取地方方言语料数据库12内基于方言判断结果中用户方言地区以及县市的方言语料，并将对地方方言语料数据库12提取后的方言语料与用户语音指令再次进行比对寻找匹配项。若再次对比后找到匹配项，则基于语音指令执行操作。若再次对比后仍未找到匹配项，则进行下一步骤。若用户回答方言判断结果不正确，则询问用户是否使用世界语言模式进行语音识别。
84.步骤s45，若用户使用世界语言模式进行语音识别则进行下一步骤，若用户不使用世界语言模式进行语音识别，则结束此次语音识别并播放语音识别失败的语音信息，便于用户结束语音识别或重新进行语音识别操作。
85.参照图1和图6，步骤s5，获取用户语音指令并基于世界语言语料数据库13内语料信息与用户语音指令信息进行比对搜寻匹配项，若有匹配项则执行用户语音指令，若无匹配项则继续对用户语音指令进行识别分析。
86.步骤s5，包括以下子步骤：
87.步骤s51，在启用世界语言预料数据库之前，对世界语言预料数据库进行激活操作。激活操作包括对其他国家的网络热词以及其他国家语言新造词进行检索并对世界语言语料数据库13进行更新迭代。世界语言语料数据库13包括除中国以外世界其他各个国家的语言语料，提高当用户有外语口音或直接说外语时语音识别的准确性。
88.步骤s52，获取用户语音指令并将用户语音指令与世界语言语料数据库13内语料进行比对，寻找世界语言语料数据库13内与用户语音指令一致匹配项语料。
89.步骤s53，若在世界语言语料数据库13内寻找到用户语音指令的匹配项，则基于用户语音指令去执行语音指令操作。若在世界语言语料数据库13内未寻找到用户语音指令的匹配项，则基于用户语音指令特点分析用户所说语言特点以及语言习惯，分析判断用户语音所属国家的语言并得出语言判断结果。
90.步骤s54，基于语言判断结果询问用户语言判断结果是否正确，若用户回答语言判断结果正确，则提取世界语言语料数据库13内语言判断结果中的国家语言预料，将提取后的语言语料与用户语音指令进行再次对比寻找匹配项。若再次对比找到用户语音指令的匹配项则基于匹配项执行用户语音指令，若再次对比仍未找到用户语音指令的匹配项，则进行下一步骤。若用户回答语言判断结果不正确，则结束此次语音识别并播放语音识别失败的语音信息并让用户结束语音识别或者重复用户语音指令，重新进行语音识别操作。
91.参照图1和图7，步骤s6，建立语言训练模型并重复上述步骤进行训练。步骤s6，包括以下子步骤：
92.步骤s61，获取语音识别训练模型，其中语音识别训练模型在接收到用户语音指令后可以自动进行语音识别。
93.步骤s62，建立语音识别训练模型与语言数据库1以及语音采集模块2三者之间的数据连接。
94.步骤s63，基于用户采集模块获取多个用户语音指令样本并进行储存。
95.步骤s64，基于语音识别训练模型将多个用户语音指令样本重复上述步骤得到多个比对结果，基于比对结果进行鲁棒性分析，对语音识别训练模型进行语音识别的完整性以及准确率进行修正完善。
96.本技术实施例还公开了一种语音识别系统。
97.参照图8，语音识别系统包括语言数据库1、语音采集模块2、普通话比对模块3、地方方言比对模块4、世界语言比对模块5以及语音识别训练模型。
98.语言数据库1包括普通话语料数据库11、地方方言语料数据库12以及世界语言语料数据库13。其中普通话语料数据库11包括普通话语料，地方方言语料数据库12包括中国除普通话外其他地方方言语料，世界语言语料数据库13包括除中国外世界其他国家语言语料。
99.语音采集模块2包括采集单元21、语音去噪单元22以及语音增强单元23，采集单元21的输出端与语音去噪单元22的输入端信号连接，采集单元21用于对现场周围声音进行收音并输出初始语音信号至语音去噪单元22。应当指出的是，本技术实施例中的采集单元21可以使用麦克风。
100.参照图8，语音去噪单元22的输出端与语音增强单元23的输入端信号连接，语音去噪单元22接收初始语音信号后对用户语音进行去噪处理并输出语音去噪信号至语音增强单元23。语音增强单元23的输出端分别与普通话比对模块3的输入端、地方方言比对模块4的输入端以及世界语言比对模块5的输入端信号连接。语音增强单元23用于接收语音去噪信号后对关键语音信息进行音质增强并输出语音增强信号至普通话比对模块3、地方方言比对模块4以及世界语言比对模块5。
101.普通话比对模块3的输入端分别与语音采集输出模块的输出端以及普通话语料数据库11的输出端信号连接。普通话比对模块3用于接收用户语音指令信号并将用户语音指令信号与普通话语料数据库11内普通话语料信号进行比对搜寻匹配项。当比对成功搜寻到匹配项后输出普通话指令控制信号，当比对失败搜寻不到匹配项后输出普通话比对失败信号。
102.参照图8，地方方言比对模块4的输入端分别与语音采集输出模块的输出端、地方方言语料数据库12的输出端以及普通话比对模块3的输出端信号连接。地方方言比对模块4在接收到普通话指令控制信号后输出低电平信号。地方方言比对模块4在接收到普通话比对失败信号后，接收用户语音指令信号并将用户语音指令信号与地方方言语料数据库12内的地方方言语料信号进行比对搜寻匹配项。当比对成功搜寻到匹配项后输出方言指令控制信号，当比对失败搜寻不到匹配项后输出方言比对失败信号。
103.世界语言比对模块5的输入端分别与语音采集输出模块的输出端、世界语言语料数据库13的输出端以及地方方言比对模块4的输出端信号连接。世界语言比对模块5在接收到方言指令控制信号后输出低电平信号。世界语言比对模块5在接收到方言比对失败信号后，接收用户语音指令信号并将用户语音指令信号与世界语言语料数据库13内的其他国家语言语料信号进行比对搜寻匹配项。当比对成功搜寻到匹配项后输出世界语言指令控制信号，当比对失败搜寻不到匹配项后输出世界语言比对失败信号。
104.参照图8，训练模型模块6，训练模型模块6包括语音识别训练模型，语音识别训练模型配置为与语言数据库1以及语音采集模块2信号连接。语音识别训练模型获取多个用户语音指令样本之后重复语音识别的步骤得到多个比对结果，对比对结果进行鲁棒性分析从而完善语音识别训练模型的完整性以及提高语音识别训练模型的准确性。
105.以上均为本技术的较佳实施例，并非依此限制本技术的保护范围，故：凡依本技术
的结构、形状、原理所做的等效变化，均应涵盖于本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2