1.本发明属于语音识别技术领域,具体为一种基于人工智能的呼叫器语音识别控制系统。
背景技术:
2.语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。 语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用,例如在翼卡车联网中,只需按一键通客服人员口述即可设置目的地直接导航,安全、便捷。
3.但是常见的语音控制系统任何人的语音指令都可以对系统进行操作控制,从而降低了系统的安全性。
技术实现要素:
4.本发明的目的在于:为了解决上述提出的问题,提供一种基于人工智能的呼叫器语音识别控制系统。
5.本发明采用的技术方案如下:一种基于人工智能的呼叫器语音识别控制系统,包括语音识别模块、处理器终端、声纹预输入模块、红外控制节点、控制终端、继电器控制节点、声音录入模块、预处理模块、启动开关模块、声纹识别模块、信息发送模块、5g通信模块、消息接收设备、预滤波采样模块、语音增强模块、信号预加重模块、语音分帧模块、mfcc提取模块、声纹特征提取模块、模型匹配模块,所述启动开关模块的输出端连接有所述声音录入模块的输入端,所述声音录入模块的输出端连接有所述预处理模块的输入端,所述预处理模块的输出端连接有所述语音识别模块的输入端,所述语音识别模块的输出端连接有所述处理器终端的输入端;所述处理器终端的输出端连接有所述声纹识别模块的输入端,所述声纹识别模块的输出端连接有所述控制终端和所述信息发送模块的输入端,所述控制终端的输出端固定安装有所述红外控制节点和所述继电器控制节点,所述信息发送模块的输出端连接有所述5g通信模块的输入端,所述5g通信模块的输出端连接有所述消息接收设备的输入端。
6.在一优选的实施方式中,所述声纹识别模块的外部设置有声纹预输入模块,所述声纹预输入模块的输入端设置有语音输入麦克风。
7.在一优选的实施方式中,所述预处理模块的内部固定安装有所述预滤波采样模块,所述预滤波采样模块的输出端连接有所述语音增强模块的输入端,所述语音增强模块的输出端连接有所述信号预加重模块的输入端,所述信号预加重模块的输出端连接有所述语音分帧模块的输入端。
8.在一优选的实施方式中,所述声纹识别模块的内部设置有mfcc提取模块、声纹特征提取模块和模型匹配模块,所述mfcc提取模块、声纹特征提取模块和模型匹配模块的输出端连接有所述声纹识别模块的输入端。
9.在一优选的实施方式中,所述预滤波采样模块以采用一个防混叠的带通滤波器对语音信号进 行预滤波,以抑制输入信号中频率超过 fs/2的所有分量,防止混叠干扰,以及抑制 50hz 的电源工频干扰;再经过采样就可以得到离散的语音信号,其中fs 为采样频率。
10.在一优选的实施方式中,所述语音增强模块是将带噪语音信号分解到两个子空间上:信号子空间和噪声子空间,所述语音增强模块用较大的奇异值包含信号信息,而较小奇异值包含噪声信息的特点,仅使用与较大奇异值相关联的信息来重构增强信号,所述语音增强模块将听觉掩蔽阈值引入信号子空间中,对信号子空间算法进行改进;然后利用维纳法在高信噪比下滤波效果明显,并且可以提高可懂度的特点,将维纳滤波作为二级滤波对增强后的语音信号进行加强,组成两级滤波器。
11.在一优选的实施方式中,所述信号预加重模块在语音信号取样后插入一个高通滤波器来实现, 即最终的传递函数为hz=1-uz-1
的一阶数字滤波器,其中0.93≤u≤0.97,设语音信号在n时刻的采样值为xn,经过预加重后的结果为yn=xn-ux(n-1),此时u取0.96。
12.在一优选的实施方式中,所述语音分帧模块通过可以平移的固定长度的窗口进行加权实现分帧,用窗函数w(n)乘语音信号s(n),则加窗后的语音信号xw(n)=w(n)*s(n)。
13.在一优选的实施方式中,所述声纹特征提取模块将语音信号通过一个高斯滤波器就是对其进行预加重处理,预加重的目的是提升语音信号的高频部分;语音信号数字化后,为了得到短时的语音信号,要对语音信号进行加窗;对语音信号加窗之后,窗函数平滑的在语音信号上滑动将信号很长的一段语音分成帧;之后每次处理时,一次仅处理窗中的数据,分析之后再取下一段数据在进行相应分析;经过离散余弦变换得到 mfcc,并依次计算和保存所有各帧语音信号的 mfcc 参数;将这种直接得到的 mfcc 特征作为静态特征,在将这种静态特征做一阶二阶差分,得到相应的动态特征。
14.在一优选的实施方式中,所述声纹特征提取模块采集说话者的语音,对语音进行预处理,再对已经去噪、去静音、分帧的语音数据流进行特征提取,提取特征之后需要对声纹特征进行训练,通过所述模型匹配模块即建立声纹模型,将模型加入声纹模型库或者对库中模型进行模式匹配,匹配的过程就是声纹模型匹配鉴别的过程。
15.综上所述,由于采用了上述技术方案,本发明的有益效果是:1、本发明中,声纹识别模块内部设置的mfcc提取模块、声纹特征提取模块和模型匹配模块可以对输入的语音命令进行声纹识别,从而判断是否为预输入声纹的用户,当遇到不是预输入的用户对系统进行命令操作时,此时就会通过信息发送模块配合5g通信模块,将该项操作信息发送到消息接收设备的内部,提醒用户有陌生人操作该系统,从而保证了该系统的安全性,避免了用户隐私的泄露和儿童等人的误操作,提高了该系统的便利性。
16.2、本发明中,预处理模块内部设置有预滤波采样模块、语音增强模块、信号预加重模块和语音分帧模块,可以对录入的声音进行预处理,消除声音中的杂音,并对声音的清晰度进行加强,从而使得后续的语音识别模块在对其进行处理时,缩短处理的时间,从而提高了该系统的语音识别效率和识别的准确性。
附图说明
17.图1为本发明的系统框图;
图2为本发明中预处理模块系统框图;图3为本发明中声纹识别模块系统框图。
18.图中标记:1-语音识别模块、2-处理器终端、3-声纹预输入模块、4-红外控制节点、5-控制终端、6-继电器控制节点、7-声音录入模块、8-预处理模块、9-启动开关模块、10-声纹识别模块、11-信息发送模块、12-5g通信模块、13-消息接收设备、14-预滤波采样模块、15-语音增强模块、16-信号预加重模块、17-语音分帧模块、18-mfcc提取模块、19-声纹特征提取模块、20-模型匹配模块。
具体实施方式
19.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
20.参照图1-3,实施例:一种基于人工智能的呼叫器语音识别控制系统,包括语音识别模块1、处理器终端2、声纹预输入模块3、红外控制节点4、控制终端5、继电器控制节点6、声音录入模块7、预处理模块8、启动开关模块9、声纹识别模块10、信息发送模块11、5g通信模块12、消息接收设备13、预滤波采样模块14、语音增强模块15、信号预加重模块16、语音分帧模块17、mfcc提取模块18、声纹特征提取模块19、模型匹配模块20,启动开关模块9的输出端连接有声音录入模块7的输入端,声音录入模块7的输出端连接有预处理模块8的输入端,预处理模块8内部设置有预滤波采样模块14、语音增强模块15、信号预加重模块16和语音分帧模块17,可以对录入的声音进行预处理,消除声音中的杂音,并对声音的清晰度进行加强,从而使得后续的语音识别模块1在对其进行处理时,预处理模块8的输出端连接有语音识别模块1的输入端,语音识别模块1的输出端连接有处理器终端2的输入端;处理器终端2的输出端连接有声纹识别模块10的输入端,声纹识别模块10的输出端连接有控制终端5和信息发送模块11的输入端,控制终端5的输出端固定安装有红外控制节点4和继电器控制节点6,信息发送模块11的输出端连接有5g通信模块12的输入端,声纹识别模块10内部设置的mfcc提取模块18、声纹特征提取模块19和模型匹配模块20可以对输入的语音命令进行声纹识别,从而判断是否为预输入声纹的用户,当遇到不是预输入的用户对系统进行命令操作时,此时就会通过信息发送模块11配合5g通信模块12;5g通信模块12的输出端连接有消息接收设备13的输入端。
21.声纹识别模块10的外部设置有声纹预输入模块3,声纹预输入模块3的输入端设置有语音输入麦克风。
22.预处理模块8的内部固定安装有预滤波采样模块14,预滤波采样模块14的输出端连接有语音增强模块15的输入端,语音增强模块15的输出端连接有信号预加重模块16的输入端,信号预加重模块16的输出端连接有语音分帧模块17的输入端。预处理模块8内部设置有预滤波采样模块14、语音增强模块15、信号预加重模块16和语音分帧模块17,可以对录入的声音进行预处理,消除声音中的杂音,并对声音的清晰度进行加强,从而使得后续的语音识别模块1在对其进行处理时,缩短处理的时间,从而提高了该系统的语音识别效率和识别
的准确性。
23.声纹识别模块10的内部设置有mfcc提取模块18、声纹特征提取模块19和模型匹配模块20,mfcc提取模块18、声纹特征提取模块19和模型匹配模块20的输出端连接有声纹识别模块10的输入端。声纹识别模块10内部设置的mfcc提取模块18、声纹特征提取模块19和模型匹配模块20可以对输入的语音命令进行声纹识别,从而判断是否为预输入声纹的用户,当遇到不是预输入的用户对系统进行命令操作时,此时就会通过信息发送模块11配合5g通信模块12,将该项操作信息发送到消息接收设备13的内部,提醒用户有陌生人操作该系统,从而保证了该系统的安全性,避免了用户隐私的泄露和儿童等人的误操作,提高了该系统的便利性。
24.预滤波采样模块14以采用一个防混叠的带通滤波器对语音信号进 行预滤波,以抑制输入信号中频率超过 fs/2的所有分量,防止混叠干扰,以及抑制 50hz 的电源工频干扰;再经过采样就可以得到离散的语音信号,其中fs 为采样频率。
25.语音增强模块15是将带噪语音信号分解到两个子空间上:信号子空间和噪声子空间,语音增强模块15用较大的奇异值包含信号信息,而较小奇异值包含噪声信息的特点,仅使用与较大奇异值相关联的信息来重构增强信号,语音增强模块15将听觉掩蔽阈值引入信号子空间中,对信号子空间算法进行改进;然后利用维纳法在高信噪比下滤波效果明显,并且可以提高可懂度的特点,将维纳滤波作为二级滤波对增强后的语音信号进行加强,组成两级滤波器。
26.信号预加重模块16在语音信号取样后插入一个高通滤波器来实现, 即最终的传递函数为hz=1-uz-1
的一阶数字滤波器,其中0.93≤u≤0.97,设语音信号在n时刻的采样值为xn,经过预加重后的结果为yn=xn-ux(n-1),此时u取0.96。
27.语音分帧模块17通过可以平移的固定长度的窗口进行加权实现分帧,用窗函数w(n)乘语音信号s(n),则加窗后的语音信号xw(n)=w(n)*s(n)。
28.声纹特征提取模块19将语音信号通过一个高斯滤波器就是对其进行预加重处理,预加重的目的是提升语音信号的高频部分;语音信号数字化后,为了得到短时的ms 级别语音信号,要对语音信号进行加窗;对语音信号加窗之后,窗函数平滑的在语音信号上滑动将信号很长的一段语音分成帧;之后每次处理时,一次仅处理窗中的数据,分析之后再取下一段数据在进行相应分析;经过离散余弦变换得到 mfcc,并依次计算和保存所有各帧语音信号的 mfcc 参数;将这种直接得到的 mfcc 特征作为静态特征,在将这种静态特征做一阶二阶差分,得到相应的动态特征。
29.声纹特征提取模块19采集说话者的语音,对语音进行预处理,再对已经去噪、去静音、分帧的语音数据流进行特征提取,提取特征之后需要对声纹特征进行训练,通过模型匹配模块20即建立声纹模型,将模型加入声纹模型库或者对库中模型进行模式匹配,匹配的过程就是声纹模型匹配鉴别的过程。
30.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备
所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
31.以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。