语音唤醒的方法、装置、设备、存储介质及程序产品与流程-j9九游会真人

文档序号:33320983发布日期:2023-03-03 20:37阅读:36来源:国知局


1.本技术实施例涉及语音识别技术领域,特别涉及一种语音唤醒的方法、装置、设备、存储介质及程序产品。


背景技术:

2.当前,越来越多的智能设备通过语音控制来完成任务。通常智能设备需要先通过用户语音输入唤醒词来被唤醒,从而接收指令来完成任务。另外,随着骨导器件的发展,大量的骨导麦克被应用于可穿戴设备中,通过可穿戴设备来唤醒智能设备。可穿戴设备如无线耳机、智能眼镜、智能手表等。其中,骨导麦克中的传感器是一种非声传感器,通过采集人们说话时声带的振动信号,将振动信号转换为电信号,该电信号被称为骨导信号。
3.在相关技术中,可穿戴设备安装有骨导麦克和空气麦克。为了实现可穿戴设备的低功耗,在智能设备被唤醒之前,空气麦克处于休眠状态。由于骨导麦克的功耗较低,因此可以利用骨导麦克采集骨导信号,基于骨导信号进行语音检测(如语音激活检测(voice activate detector,vad)),从而控制空气麦克的开关以降低功耗。在通过语音检测确认当前有语音输入的情况下,开启空气麦克,通过空气麦克采集气导信号,基于气导信号进行唤醒词的识别,也即进行语音唤醒。
4.然而,由于语音检测有算法延时,因此会出现输入的命令词的语音头部被截断的现象,即采集的气导信号可能丢头,从而未包含声源输入的命令词的完整信息,导致唤醒词的识别准确率较低,语音唤醒的准确率较低。


技术实现要素:

5.本技术实施例提供了一种语音唤醒的方法、装置、设备、存储介质及程序产品,能够提高语音唤醒的准确率。所述技术方案如下:
6.第一方面,提供了一种语音唤醒的方法,该方法包括:
7.根据骨导麦克采集的骨导信号进行语音检测,该骨导信号包含声源输入的命令词信息;在检测到有语音输入的情况下,基于该骨导信号进行唤醒词的检测;在检测到该命令词包括唤醒词时,对待唤醒设备进行语音唤醒。
8.在本技术实施例中,通过骨导麦克采集骨导信号进行语音检测,能够保证低功耗。另外,考虑到由于语音检测的延迟可能会导致采集的气导信号丢头,从而未包含声源输入的命令词的完整信息,而骨导麦克采集的骨导信号包含声源输入的命令词信息,即骨导信号未丢头,因此本方案基于骨导信号进行唤醒词的检测。这样,唤醒词的识别准确率较高,语音唤醒的准确度较高。
9.可选地,基于该骨导信号进行唤醒词的检测,包括:基于该骨导信号确定融合信号;对该融合信号进行唤醒词的检测。需要说明的是,基于骨导信号所确定的融合信号也包含声源输入的命令词信息。
10.可选地,基于该骨导信号确定融合信号之前,还包括:开启空气麦克,通过空气麦
克采集气导信号;基于该骨导信号确定融合信号,包括:将骨导信号的起始部分和气导信号进行融合,以得到融合信号,该骨导信号的起始部分根据语音检测的检测时延确定;或者,基于骨导信号的起始部分生成增强起始信号,将增强起始信号和气导信号进行融合,以得到融合信号,骨导信号的起始部分根据语音检测的检测时延确定;或者,将骨导信号和气导信号直接进行融合,以得到融合信号。也即是,本技术实施例提供了三种用骨导信号对气导信号进行丢头补偿的方法,即直接通过显示地信号融合以对气导信号进行丢头补偿。可选地,通过信号拼接来进行信号融合。
11.可选地,基于骨导信号确定融合信号,包括:将骨导信号确定为融合信号。也即是,本技术实施例也可以直接用骨导信号进行唤醒词的检测。
12.可选地,对融合信号进行唤醒词的检测,包括:将该融合信号包括的多个音频帧输入第一声学模型,以得到第一声学模型输出的多个后验概率向量,该多个后验概率向量与该多个音频帧一一对应,该多个后验概率向量中的第一后验概率向量用于该指示多个音频帧中的第一音频帧的音素属于多个指定音素的概率;基于该多个后验概率向量进行唤醒词的检测。也即是,先通过第一声学模型对融合信号进行处理,以得到融合信号所包括的多个音频帧分别对应的多个后验概率向量,再基于该多个后验概率向量进行唤醒词的检测,例如对该多个后验概率向量进行解码,以进行唤醒词的检测。
13.可选地,基于该骨导信号进行唤醒词的检测之前,还包括:开启空气麦克,通过空气麦克采集气导信号;基于该骨导信号进行唤醒词的检测,包括:基于该骨导信号和气导信号,确定多个后验概率向量,该多个后验概率向量与该骨导信号和气导信号包括的多个音频帧一一对应,该多个后验概率向量中的第一后验概率向量用于指示该多个音频帧中的第一音频帧的音素属于多个指定音素的概率;基于该多个后验概率向量进行唤醒词的检测。也即是,在本技术实施例中也可以不进行信号融合,而是直接基于骨导信号和气导信号确定各个音频帧分别对应的后验概率向量,以使得到的多个后验概率向量包含以音素概率的方式隐式地包含声源输入的命令词信息,也即隐式地用骨导信号对气导信号进行丢头补偿。
14.可选地,基于该骨导信号和气导信号,确定多个后验概率向量,包括:将该骨导信号的起始部分和气导信号输入第二声学模型,以得到第二声学模型输出的第一数量个骨导后验概率向量和第二数量个气导后验概率向量,该骨导信号的起始部分根据语音检测的检测时延确定,第一数量个骨导后验概率向量与骨导信号的起始部分所包括的音频帧一一对应,第二数量个气导后验概率向量与气导信号所包括的音频帧一一对应;将第一骨导后验概率向量和第一气导后验概率向量进行融合,以得到第二后验概率向量,第一骨导后验概率向量对应骨导信号的起始部分的最后一个音频帧,最后一个音频帧的时长小于帧时长,第一气导后验概率向量对应气导信号的第一个音频帧,第一个音频帧的时长小于帧时长,该多个后验概率向量包括第二后验概率向量、第一数量个骨导后验概率向量中除第一骨导后验概率向量之外的向量,以及第二数量个气导后验概率向量中除第一气导后验概率向量之外的向量。也即是,在本技术实施例中,可以通过第二声学模型分别对骨导信号的起始部分和气导信号进行处理,以得到分别对应的骨导后验概率向量和气导后验概率向量,再通过将第一骨导后验概率向量和第一气导后验概率向量进行融合,来隐式地用骨导信号对气导信号进行丢头补偿。
15.可选地,基于该骨导信号和气导信号,确定多个后验概率向量,包括:将骨导信号的起始部分和气导信号输入第三声学模型,以得到第三声学模型输出的多个后验概率向量,该骨导信号的起始部分根据语音检测的检测时延确定;或者,将骨导信号和气导信号输入第三声学模型,以得到第三声学模型输出的多个后验概率向量。也即是,在本技术实施例中,可以将骨导信号的起始部分和气导信号分别输入第三声学模型,通过第三声学模型直接得到多个后验概率向量。即,通过在第三声学模型对骨导信号的起始部分和气导信号进行处理的过程中,隐式地融合这两部分信号,即隐式地用骨导信号对气导信号进行丢头补偿。
16.可选地,基于该多个后验概率向量进行唤醒词的检测,包括:基于该多个后验概率向量和唤醒词对应的音素序列,确定该命令词对应的音素序列包括唤醒词对应的音素序列的置信度;在该置信度超过置信度阈值的情况下,确定检测到该命令词包括唤醒词。例如通过解码该多个后验概率向量以得到该置信度,进而用置信度阈值来判断该命令词是否包括唤醒词,也即在满足置信度条件的情况下,确定检测到该命令词包含唤醒词。
17.可选地,基于该多个后验概率向量进行唤醒词的检测,包括:基于该多个后验概率向量和唤醒词对应的音素序列,确定该命令词对应的音素序列包括唤醒词对应的音素序列的置信度;在该置信度超过置信度阈值,且该多个后验概率向量与多个模板向量之间满足距离条件的情况下,确定检测到该命令词包括唤醒词,该多个模板向量指示包含唤醒词的完整信息的语音信号的音素属于多个指定音素的概率。也即是,在满足置信度条件且模板匹配的情况下,确定检测到该命令词包含唤醒词,以尽量避免误唤醒。
18.可选地,在该多个后验概率向量与该多个模板向量一一对应的情况下,该距离条件包括:该多个后验概率向量与对应的模板向量之间的距离的均值小于距离阈值。即,可以通过向量间的平均距离来进行模板是否匹配的判断。
19.可选地,该方法还包括:获取骨导注册信号,该骨导注册信号包含唤醒词的完整信息;基于该骨导注册信号和唤醒词对应的音素序列,确定置信度阈值和多个模板向量。也即是,本技术实施例还可以在唤醒词的注册过程中,基于包含唤醒词的完整信息的骨导注册信号来确定置信度阈值和多个模板向量,利用这样所得到的置信度阈值和多个模板向量进行后续语音唤醒过程中的唤醒词检测,能够提高唤醒词检测的准确率,进而减少误唤醒。
20.可选地,基于该骨导注册信号和唤醒词对应的音素序列,确定置信度阈值和多个模板向量,包括:基于该骨导注册信号确定融合注册信号;基于该融合注册信号和唤醒词对应的音素序列,确定置信度阈值和多个模板向量。也即是,在唤醒词的注册过程中,也可以先通过信号融合的方式得到融合注册信号,得到的融合注册信号包含声源输入的命令词的信息,进而基于融合注册信号确定置信度阈值和多个模板向量。
21.可选地,基于该融合注册信号和唤醒词对应的音素序列,确定置信度阈值和多个模板向量,包括:将该融合注册信号包括的多个注册音频帧输入第一声学模型,以得到第一声学模型输出的多个注册后验概率向量,该多个注册后验概率向量与该多个注册音频帧一一对应,该多个注册后验概率向量中的第一注册后验概率向量指示该多个注册音频帧中的第一注册音频帧的音素属于多个指定音素的概率;将该多个注册后验概率向量确定为多个模板向量;基于该多个注册后验概率向量和唤醒词对应的音素序列确定置信度阈值。也即是,与语音唤醒的过程中对融合信号的处理类似地,在唤醒词的注册过程中,也可以先通过
第一声学模型对融合注册信号进行处理,以得到融合注册信号所包括的多个注册音频帧分别对应的多个注册后验概率向量,再基于该多个后验概率向量和唤醒词对应的音素序列确定置信度阈值。例如对该多个注册后验概率向量进行解码以确定置信度阈值。另外,还可以将该多个注册后验概率向量确定为多个模板向量。
22.可选地,基于该骨导注册信号和唤醒词对应的音素序列,确定置信度阈值之前,还包括:获取气导注册信号;基于该骨导注册信号和唤醒词对应的音素序列,确定置信度阈值,包括:基于该骨导注册信号和气导注册信号,确定多个注册后验概率向量,该多个注册后验概率向量与骨导注册信号和气导注册信号包括的多个注册音频帧一一对应,该多个注册后验概率向量中的第一注册后验概率向量指示该多个注册音频帧中的第一注册音频帧的音素属于多个指定音素的概率;基于该多个注册后验概率向量和唤醒词对应的音素序列确定置信度阈值。也即是,在唤醒词的注册过程中,也可以先不进行信号融合,而是直接基于骨导注册信号和气导注册信号确定各个注册音频帧分别对应的注册后验概率向量。
23.第二方面,提供了一种语音唤醒的装置,所述语音唤醒的装置具有实现上述第一方面中语音唤醒的方法行为的功能。所述语音唤醒的装置包括一个或多个模块,该一个或多个模块用于实现上述第一方面所提供的语音唤醒的方法。
24.也即是,提供了一种语音唤醒的装置,该装置包括:
25.语音检测模块,用于根据骨导麦克采集的骨导信号进行语音检测,该骨导信号包含声源输入的命令词信息;
26.唤醒词检测模块,用于在检测到有语音输入的情况下,基于骨导信号进行唤醒词的检测;
27.语音唤醒模块,用于在检测到该命令词包括唤醒词时,对待唤醒设备进行语音唤醒。
28.可选地,唤醒词检测模块包括:
29.第一确定子模块,用于基于骨导信号确定融合信号;
30.唤醒词检测子模块,用于对该融合信号进行唤醒词的检测。
31.可选地,该装置还包括:
32.处理模块,用于开启空气麦克,通过空气麦克采集气导信号;
33.第一确定子模块用于:
34.将骨导信号的起始部分和气导信号进行融合,以得到融合信号,该骨导信号的起始部分根据语音检测的检测时延确定;或者,
35.基于骨导信号的起始部分生成增强起始信号,将增强起始信号和气导信号进行融合,以得到融合信号,该骨导信号的起始部分根据语音检测的检测时延确定;或者,
36.将骨导信号和气导信号直接进行融合,以得到融合信号。
37.可选地,唤醒词检测子模块用于:
38.将该融合信号包括的多个音频帧输入第一声学模型,以得到第一声学模型输出的多个后验概率向量,该多个后验概率向量与该多个音频帧一一对应,该多个后验概率向量中的第一后验概率向量用于指示该多个音频帧中的第一音频帧的音素属于多个指定音素的概率;
39.基于该多个后验概率向量进行唤醒词的检测。
40.可选地,该装置还包括:
41.处理模块,用于开启空气麦克,通过空气麦克采集气导信号;
42.唤醒词检测模块包括:
43.第二确定子模块,用于基于骨导信号和气导信号,确定多个后验概率向量,该多个后验概率向量与骨导信号和气导信号包括的多个音频帧一一对应,该多个后验概率向量中的第一后验概率向量用于指示该多个音频帧中的第一音频帧的音素属于多个指定音素的概率;
44.唤醒词检测子模块,用于基于该多个后验概率向量进行唤醒词的检测。
45.可选地,第二确定子模块用于:
46.将骨导信号的起始部分和气导信号输入第二声学模型,以得到第二声学模型输出的第一数量个骨导后验概率向量和第二数量个气导后验概率向量,该骨导信号的起始部分根据语音检测的检测时延确定,第一数量个骨导后验概率向量与骨导信号的起始部分所包括的音频帧一一对应,第二数量个气导后验概率向量与气导信号所包括的音频帧一一对应;
47.将第一骨导后验概率向量和第一气导后验概率向量进行融合,以得到第二后验概率向量,第一骨导后验概率向量对应骨导信号的起始部分的最后一个音频帧,该最后一个音频帧的时长小于帧时长,第一气导后验概率向量对应气导信号的第一个音频帧,该第一个音频帧的时长小于帧时长,该多个后验概率向量包括第二后验概率向量、第一数量个骨导后验概率向量中除第一骨导后验概率向量之外的向量,以及第二数量个气导后验概率向量中除第一气导后验概率向量之外的向量。
48.可选地,第二确定子模块用于:
49.将骨导信号的起始部分和气导信号输入第三声学模型,以得到第三声学模型输出的多个后验概率向量,该骨导信号的起始部分根据语音检测的检测时延确定;或者,
50.将骨导信号和气导信号输入第三声学模型,以得到第三声学模型输出的多个后验概率向量。
51.可选地,唤醒词检测子模块用于:
52.基于该多个后验概率向量和唤醒词对应的音素序列,确定该命令词对应的音素序列包括唤醒词对应的音素序列的置信度;
53.在该置信度超过置信度阈值的情况下,确定检测到该命令词包括唤醒词。
54.可选地,唤醒词检测子模块用于:
55.基于该多个后验概率向量和唤醒词对应的音素序列,确定该命令词对应的音素序列包括唤醒词对应的音素序列的置信度;
56.在该置信度超过置信度阈值,且该多个后验概率向量与多个模板向量之间满足距离条件的情况下,确定检测到该命令词包括唤醒词,该多个模板向量指示包含唤醒词的完整信息的语音信号的音素属于多个指定音素的概率。
57.可选地,在该多个后验概率向量与该多个模板向量一一对应的情况下,该距离条件包括:该多个后验概率向量与对应的模板向量之间的距离的均值小于距离阈值。
58.可选地,该装置还包括:
59.获取模块,用于获取骨导注册信号,该骨导注册信号包含唤醒词的完整信息;
60.确定模块,用于基于骨导注册信号和唤醒词对应的音素序列,确定置信度阈值和多个模板向量。
61.可选地,确定模块包括:
62.第三确定子模块,用于基于骨导注册信号确定融合注册信号;
63.第四确定子模块,用于基于该融合注册信号和唤醒词对应的音素序列,确定置信度阈值和多个模板向量。
64.可选地,第四确定子模块用于:
65.将该融合注册信号包括的多个注册音频帧输入第一声学模型,以得到第一声学模型输出的多个注册后验概率向量,该多个注册后验概率向量与该多个注册音频帧一一对应,该多个注册后验概率向量中的第一注册后验概率向量指示该多个注册音频帧中的第一注册音频帧的音素属于多个指定音素的概率;
66.将该多个注册后验概率向量确定为多个模板向量;
67.基于该多个注册后验概率向量和唤醒词对应的音素序列确定置信度阈值。
68.可选地,该装置还包括:
69.获取模块,用于获取气导注册信号;
70.确定模块包括:
71.第五确定子模块,用于基于骨导注册信号和气导注册信号,确定多个注册后验概率向量,该多个注册后验概率向量与骨导注册信号和气导注册信号包括的多个注册音频帧一一对应,该多个注册后验概率向量中的第一注册后验概率向量指示该多个注册音频帧中的第一注册音频帧的音素属于多个指定音素的概率;
72.第六确定子模块,用于基于该多个注册后验概率向量和唤醒词对应的音素序列确定置信度阈值。
73.第三方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器用于存储执行上述第一方面所提供的语音唤醒的方法的程序,以及存储用于实现上述第一方面所提供的语音唤醒的方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序。所述存储设备的操作装置还可以包括通信总线,该通信总线用于该处理器与存储器之间建立连接。
74.第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的语音唤醒的方法。
75.第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的语音唤醒的方法。
76.上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与第一方面中对应的技术手段获得的技术效果近似,在这里不再赘述。
77.本技术实施例提供的技术方案至少能够带来以下有益效果:
78.在本技术实施例中,通过骨导麦克采集骨导信号进行语音检测,能够保证低功耗。另外,考虑到由于语音检测的延迟可能会导致采集的气导信号丢头,从而未包含声源输入的命令词的完整信息,而骨导麦克采集的骨导信号包含声源输入的命令词信息,即骨导信号未丢头,因此本方案基于骨导信号进行唤醒词的检测。这样,唤醒词的识别准确率较高,语音唤醒的准确度较高。
附图说明
79.图1是本技术实施例提供的一种声学模型的结构示意图;
80.图2是本技术实施例提供的一种语音唤醒方法所涉及的系统架构图;
81.图3是本技术实施例提供的一种电子设备的结构示意图;
82.图4是本技术实施例提供的一种语音唤醒的方法流程图;
83.图5是本技术实施例提供的一种骨导信号和气导信号产生的原理示意图;
84.图6是本技术实施例提供的一种信号时序图;
85.图7是本技术实施例提供的一种信号拼接的方法示意图;
86.图8是本技术实施例提供的一种对骨导信号进行下采样的示意图;
87.图9是本技术实施例提供的一种对骨导信号进行增益调整的示意图;
88.图10是本技术实施例提供的一种训练生成网络模型的方法示意图;
89.图11是本技术实施例提供的另一种声学模型的结构示意图;
90.图12是本技术实施例提供的又一种声学模型的结构示意图;
91.图13是本技术实施例提供的另一种语音唤醒的方法流程图;
92.图14是本技术实施例提供的又一种语音唤醒的方法流程图;
93.图15是本技术实施例提供的又一种语音唤醒的方法流程图;
94.图16是本技术实施例提供的又一种语音唤醒的方法流程图;
95.图17是本技术实施例提供的又一种语音唤醒的方法流程图;
96.图18是本技术实施例提供的又一种语音唤醒的方法流程图;
97.图19是本技术实施例提供的一种唤醒词注册的方法流程图;
98.图20是本技术实施例提供的另一种唤醒词注册的方法流程图;
99.图21是本技术实施例提供的又一种唤醒词注册的方法流程图;
100.图22是本技术实施例提供的又一种唤醒词注册的方法流程图;
101.图23是本技术实施例提供的又一种唤醒词注册的方法流程图;
102.图24是本技术实施例提供的又一种唤醒词注册的方法流程图;
103.图25是本技术实施例提供的一种训练第一声学模型的方法示意图;
104.图26是本技术实施例提供的另一种训练第一声学模型的方法示意图;
105.图27是本技术实施例提供的又一种训练第一声学模型的方法示意图;
106.图28是本技术实施例提供的又一种训练第一声学模型的方法示意图;
107.图29是本技术实施例提供的一种训练第二声学模型的方法示意图;
108.图30是本技术实施例提供的一种训练第三声学模型的方法示意图;
109.图31是本技术实施例提供的一种语音唤醒的装置的结构示意图。
具体实施方式
110.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
111.为了便于理解,首先对本技术实施例中的一些名称或术语进行解释。
112.语音识别:也称为自动语音识别(automatic speech recognition,asr)。语音识别是指通过计算机识别语音信号中包含的词汇内容。
113.语音唤醒:也称为关键词识别(keyword spotting,kws)、唤醒词检测、唤醒词识别等。语音唤醒是指在连续语音流中实时检测唤醒词,当检测到声源输入的命名词为唤醒词时唤醒智能设备。
114.深度学习(deep learning,dl):是机器学习中基于对数据进行表征的一种学习算法。
115.接下来对本技术实施例中关于语音识别所涉及的一些相关知识进行介绍。
116.语音激活检测(voice activate detector,vad)
117.vad用于判断什么时候有语音输入,什么时候是静音状态,还用于将有语音输入的有效片段截取出来。语音识别后续的操作都是在vad截取出来的有效片段上进行,从而能够减小语音识别系统噪声误识别率及系统功耗。在近场环境下,由于语音信号衰减有限,信噪比(signal-noise ratio,snr)比较高,只需要简单的方式(比如过零率、信号能量)来做语音激活检测。但是在远场环境中,由于语音信号传输距离比较远,衰减比较严重,因而导致麦克风采集数据的snr很低,这种情况下,简单的语音激活检测方法效果较差。使用深度神经网络(deep neural networks,dnn)做语音激活检测是基于深度学习的语音识别系统中常用的方法。vad是语音检测的一种实现方式,本技术实施例以通过vad来进行语音检测为例进行介绍,在其他实施例中也可以通过其他方式进行语音检测。
118.语音识别
119.对于语音识别系统而言,第一步要检测是否有语音输入,即,语音激活检测(vad)。在低功耗设计中,相比于语音识别的其它部分,vad采用始终开启(always on)的工作机制。当vad检测到有语音输入之后,vad便会唤醒后续的识别系统。识别系统主要包括特征提取、识别建模及解码得到识别结果等。其中,模型训练包括声学模型训练、语言模型训练等。语音识别本质上是音频序列到文字序列转化的过程,即在给定语音输入的情况下,找到概率最大的文字序列。基于贝叶斯原理,可以把语音识别问题分解为给定文字序列出现这条语音的条件概率以及出现该条文字序列的先验概率,对条件概率建模所得模型即为声学模型,对出现该条文字序列的先验概率建模所得模型是语言模型。
120.需要说明的是,要对语音信号进行分析和识别,就需要对语音信号分帧,也就是把语音信号切开成多个小段,每小段称为一帧。分帧操作一般不是简单的切开,而是使用窗函数来实现。分帧后相邻帧之间一般是有交叠的。本技术实施例中的一帧音频即通过分帧得到的音频帧,分帧是为了声学模型能够分析声音信号。例如,使用窗函数对语音信号进行分帧,假设窗函数指示以帧长25ms(毫秒)、帧移10ms进行分帧,那么分帧后每帧音频的长度为25ms,相邻两帧之间有25-10=15ms的交叠。
121.这里再解释两个概念。音素:单词的发音由音素构成,音素是一种发音单元。英文的音素集(即发音词典)如卡内基梅隆大学的一套由39个音素构成的音素集。汉语的音素集如直接用全部声母和韵母作为音素集,或者,还分有声调和无声调的话,音素集包括更多的音素。例如,在本技术实施例中,音素集包括100个音素。状态:可视为比音素更细致的语音单位,通常把一个音素划分成3个状态。在本技术实施例中,一帧音频对应一个音素,若干音素组成一个单词(字)。那么,只要知道每帧音频对应哪个音素,语音识别的结果也就出来了。在一些实施例中,若干帧音频对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。那么,只要知道每帧音频对应哪个状态,语音识别的结果也就出来了。
122.声学模型、解码以及语音唤醒
123.在语音识别中,以一帧音频对应一个音素为例,通过声学模型就能够知道各音频帧对应的音素为音素集中各个音素的概率,即音频对应的后验概率向量。通俗地讲,声学模型里存有一大堆参数,通过这些参数,就能够知道各音频帧对应的后移概率向量。通过训练声学模型就能够得到这些参数,声学模型的训练需要使用巨大数量的语音数据。通过声学模型得到各音频帧对应的后验概率向量之后,基于语言模型、发音词典等构建解码图(也可称为状态网络、搜索空间等),将声学模型输出的连续多帧音频对应的后验概率向量作为该解码图的输入,在该解码图中搜索最优路径,语音对应音素在这条路径上的概率最大。搜索到最优路径之后,即能够知道各音频帧对应的音素,也即得出语音识别到的最佳词串了。其中,在状态网络中搜索最优路径从而得到词串的过程可认为是一种解码,该解码是为了确定语音信号对应的词串是什么。
124.而在本技术实施例中语音唤醒的解码中,是在解码图中寻找处于解码路径上的各个音素的概率,将寻找到的各个音素的概率相加,以得到一个路径得分。其中,解码路径是指唤醒词对应的音素序列。如果该路径得分较大,则认为检测到该命令词包括唤醒词。也即是,本技术实施例中的解码是基于解码图判断语音信号对应的词串是不是唤醒词。
125.为了解释本技术实施例,这里先对本技术实施例中涉及的声学模型进行进一步介绍。声学模型是能够识别单个音素的模型,可以采用隐马尔科夫模型(hidden markov model,hmm)进行建模。声学模型是经训练的模型,可以利用声音信号的声学特征和对应的标签训练声学模型。声学模型中建立了声学信号和建模单元之间对应的概率分布,建模单元如hmm状态、音素、音节、字等,建模单元也可称为发音单元,声学模型的结构如gmm-hmm、dnn-hmm、dnn-ctc等。其中,gmm(gaussian mixed model)表示高斯混合模型,dnn表示深度神经网络,ctc(connectionist temporal classification)表示基于神经网络的时序类分类。在本技术实施例中,以建模单元为音素,声学模型为dnn-hmm模型为例进行介绍。需要说明的是,在本技术实施例中,声学模型可以逐帧音频进行处理,输出各音频帧的音素属于多个指定音素的概率,该多个指定音素可以根据发音词典确定。例如发音词典中包括100个音素,那该多个指定音素即这100个音素。
126.图1是本技术实施例提供的一种声学模型的结构示意图。该声学模型为dnn-hmm模型,声学模型的输入层的维度为3,两个隐藏层的维度为5,输出层的维度为3。其中,输入层的维度表示输入信号的特征维度,输出层的维度表示三个状态维度,每个状态维度包括多个指定音素对应的概率。
127.然后对解码进行进一步介绍。语音识别中的解码可以分为动态解码和静态解码。在动态解码的过程中,以词典树为中心,在语言模型中动态查找语言得分。而静态解码是指语言模型提前静态编进解码图,通过确定化、权重前移、最小化等一些列优化操作,提高解码效率。示例性地,本技术实施例中采用静态解码,如加权有限状态转换器(weighted finite state transducer,wfst),基于hclg网络的静态解码消除冗余信息。本技术实施例中hclg网络的生成需要语言模型、发音词典、声学模型表示成对应的fst格式,后通过组合、确定化、最小化等操作编译成一个大的解码图,hclg网络构建流程为:hclg=asl(min(rds(det(h'o min(det(c o min(det(l o g))))))))。其中,asl表示加自环,min表示最小化,rds表示去消岐符,det表示确定化,h'表示去掉自环的hmm,o表示组合。
128.在解码过程中,使用维特比(viterbi)算法在解码图中寻求最优路径,解码图中不会有相同的两条路径。在解码过程中采用累积beam剪枝,即,从当前概率最大路径得分减去beam值作为阈值,小于阈值的路径被裁剪。同时采用帧同步解码算法,找到解码图的开始节点,创建对应节点的令牌,从开始节点对应的令牌做空边(即输入不对应真实的建模单元)扩展,每一个可达的节点都绑定对应的令牌,剪枝并保留活跃令牌。每输入一帧音频,从当前活跃令牌中取出一个令牌,对应节点开始扩展后续非空边(即输入对应真实物理建模单元),遍历完所有活跃令牌,剪枝并保留当前帧活跃令牌。重复执行以上步骤,直到所有的音频帧都扩展结束,即找到得分最大令牌,回溯得到最后的识别结果。
129.网络模型
130.在本技术实施例中,网络模型是指上述声学模型。采用网络模型对语音信号进行识别,网络模型如隐马尔科夫模型hmm、高斯混合模型gmm、深度神经网络dnn、深度置信网络-隐马尔科夫模型(deep belief networks hmm,dbn-hmm)、循环神经网络(recurrent neural network,rnn)、长短时记忆(long short-term memory,lstm)网络、卷积神经网络(convolutional neural network,cnn)等。本技术实施例中采用的是cnn和hmm。
131.其中,隐马尔科夫模型是一种统计模型,目前多应用于语音信号处理领域。在该模型中,马尔科夫链中的一个状态是否转移到另一个状态取决于状态转移概率,而某一状态产生的观察值取决于状态生成概率。在进行语音识别时,hmm首先为每个识别单元建立发声模型,通过长时间训练得到状态转移概率矩阵和输出概率矩阵,在识别时根据状态转移过程中的最大概率进行判决。
132.卷积神经网络的基本结构包括两部分,一部分是特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。另一部分是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的函数(如sigmoid)作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都可紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
133.损失函数是网络模型在训练中的迭代依据。损失函数用来评价网络模型的预测值和真实值不一样的程度,损失函数的选择影响了网络模型的性能。不同的网络模型使用的损失函数一般也不一样。损失函数可分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项。本技术实施例中使用的是交叉熵损失函数(cross-entropy loss function),即ce损失函数。交叉熵损失函数本质上也是一种对数似然函数,可用于二分类和多分类任务中。当使用sigmoid作为激活函数的时候,常用交叉熵损失函数而不用均方误差损失函数,因为交叉熵损失函数可以完美解决平方损失函数权重更新过慢的问题,具有误差大的时候,权重更新快,误差小的时候,权重更新慢的良好性质。
134.在网络模型将误差反向传播,使用损失函数并采用梯度下降法从而调整网络参数。梯度下降法是一种优化算法,中心思想是沿着目标函数梯度的方向更新参数值以希望达到目标函数最小(或最大)。梯度下降法是深度学习中常用的优化算法。梯度下降是针对损失函数的,目的是为了尽快找到损失函数的最小值所对应的权重和偏置。反向传播算法
only memory,cd-rom)、压缩光盘、激光盘、数字通用光盘、蓝光光盘等)、磁盘存储介质或者其它磁存储设备,或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。存储器303独立存在,并通过通信总线302与处理器301相连接,或者,存储器303与处理器301集成在一起。
144.通信接口304使用任何收发器一类的装置,用于与其它设备或通信网络通信。通信接口304包括有线通信接口,可选地,还包括无线通信接口。其中,有线通信接口例如以太网接口等。可选地,以太网接口为光接口、电接口或其组合。无线通信接口为无线局域网(wireless local area networks,wlan)接口、蜂窝网络通信接口或其组合等。
145.可选地,在一些实施例中,该电子设备包括多个处理器,如图2中所示的处理器301和处理器305。这些处理器中的每一个为一个单核处理器,或者一个多核处理器。可选地,这里的处理器指一个或多个设备、电路、和/或用于处理数据(如计算机程序指令)的处理核。
146.在一些实施例中,该电子设备还包括输出设备306和输入设备307。输出设备306和处理器301通信,能够以多种方式来显示信息。例如,输出设备306为液晶显示器(liquid crystal display,lcd)、发光二级管(light emitting diode,led)显示设备、阴极射线管(cathode ray tube,crt)显示设备或投影仪(projector)等。输入设备307和处理器301通信,能够以多种方式接收用户的输入。例如,输入设备307包括鼠标、键盘、触摸屏设备或传感设备等中的一种或多种。
147.在本技术实施例中,输入设备307包括骨导麦克308和空气麦克309,骨导麦克308和空气麦克309分别用于采集骨导信号和气导信号。处理器301用于基于骨导信号或者基于骨导信号和气导信号,通过本技术实施例提供的语音唤醒的方法来唤醒智能设备。可选地,在唤醒智能设备之后,处理器301还用于基于骨导信号、或气导信号、或骨导信号和气导信号来控制智能设备执行任务。
148.在一些实施例中,存储器303用于存储执行本技术方案的程序代码310,处理器301能够执行存储器303中存储的程序代码310。该程序代码310中包括一个或多个软件模块,该电子设备能够通过处理器301以及存储器303中的程序代码310,来实现下文图4实施例提供的语音唤醒的方法。
149.图4是本技术实施例提供的一种语音唤醒的方法的流程图,该方法应用于可穿戴设备。请参考图4,该方法包括如下步骤。
150.步骤401:根据骨导麦克采集的骨导信号进行语音检测,骨导信号包含声源输入的命令词信息。
151.由前述可知,为了实现可穿戴设备的低功耗,在智能设备(即待唤醒设备)被唤醒之前,由于骨导麦克的功耗较低,因此可以利用骨导麦克采集骨导信号,基于骨导信号进行语音检测(如语音激活检测vad),以检测是否有语音输入。在未检测到有语音输入的情况下可穿戴设备中除骨导麦克之外的部件可以处于休眠状态从而降低功耗,而在检测到有语音输入的情况下再控制可穿戴设备的其他部件开启。例如,在可穿戴设备还安装有空气麦克的情况下,由于空气麦克是一个功耗较高的器件,对应便携式的可穿戴设备来说,为了降低功耗,会对空气麦克进行开启和关闭的控制,当检测到有语音输入的时候(如用户在说话),才会开启空气麦克进行拾音操作(即采集气导信号),这样就可以降低可穿戴设备的功耗。也即是,在智能设备被唤醒之前,空气麦克处于休眠状态以减低功耗,在检测到有语音输入
的情况下,开启空气麦克。
152.其中,可穿戴设备根据骨导麦克采集的骨导信号进行语音激活检测的实现方式可以有多种,本技术实施例对此不作限定。接下来示例性地介绍一些语音激活检测的实现方式。需要说明的是,语音激活检测主要是用于检测当前输入信号中是否存在人的语音信号。其中,语音激活检测通过对输入信号进行判断,以将语音片段与非语音片段(如只有各种背景噪声信号的片段)区分出来,使得能够分别对各段信号采取不同的处理方法。
153.可选地,语音激活检测通过提取输入信号的特征来检测是否有语音输入。例如,通过提取各帧输入信号的短时能量(short time energy,ste)和短时过零率(zero cross counter,zcc)的特征来检测是否有语音输入,即基于能量的特征进行语音激活检测。其中,短时能量指一帧信号的能量,过零率指一帧时域信号穿过0(时间轴)的次数。又如,一些精确度较高的vad会提取基于能量的特征、频域特征、倒谱特征、谐波特征、长时特征等多个特征进行综合检测。可选地,除了提取特征之外,还可以再结合阈值比较,或者结合统计的方法或机器学习的方法,来判断一帧输入信号是语音信号还是非语音信号。接下来对基于能量的特征、频域特征、倒谱特征、谐波特征、长时特征等特征分别进行简单介绍。
154.基于能量的特征:即基于ste和zcc两个特征来进行vad。在信噪比(signal-noise ratio,snr)较大的情况下,语音片段的ste相对较大而zcc相对较小,非语音片段的ste相对较小而zcc相对较大。因为有人声的语音信号通常能量较大,且绝大部分能量包含在低频带内,而噪音信号通常能量较小,且含有较多高频段的信息。因此,可以通过提取输入信号的这两个特征,从而判别语音信号与非语音信号。其中,计算ste的方法可以为,通过频谱图计算每一帧输入信号的能量的平方和。计算短时过零率的方法可以为,计算每一帧输入信号在时域上对应的过零数量,例如,在时域上将帧内所有采样点向左或向右平移一个点,平移后的各个采样点和平移前的各个采样点的幅度值在对应点做乘积,若对应的两个采样点所得积的符号为负,则说明对应采样点处过零,将帧内为负数的积的个数求出即得到短时过零率。
155.频域特征:通过短时傅里叶变换或其他时频变换方法,将输入信号的时域信号变成频域信号,以得到频谱图,基于频谱图得到频域特征。如基于频谱图提取频带的包络特征。在一些实验中,在snr为0db时,一些频带的长时包络可以区分语音片段和噪声片段。
156.倒谱特征:如包括能量倒谱峰值。对于vad来说,能量倒谱峰值确定了语音信号的基频(pitch)。在一些实施例中,将梅尔频率倒谱系数(mel-frequency cepstral coefficients,mfcc)做为倒谱特征。
157.基于谐波的特征:语音信号的一个明显特征是包含了基频及其多个谐波频率,即使在强噪声场景,谐波这一特征也是存在的。可以使用自相关的方法找到语音信号的基频。
158.长时特征:语音信号是非稳态信号,普通语速通常每秒发出10~15个音素,音素之间的谱分布是不一样的,这就导致了随着时间变化语音统计特性也是变化的。而日常的绝大多数噪声是稳态的,即变化比较慢,如白噪声等。基于此,可以提取长时特征来进行判断输入信号是语音信号还是非语音信号。
159.需要说明的是,在本技术实施例中,用于语音激活检测的输入信号为骨导麦克采集的骨导信号,对于接收到骨导信号的每一帧进行语音激活检测,以检测是否有语音输入。其中,由于骨导麦克一直处于工作状态,因此,骨导麦克持续采集的骨导信号包含声源输入
的命令词的完整信息,即骨导信号不会丢头。
160.可选地,骨导信号的采样率为32khz(千赫兹)、48khz等,本技术实施例对此不作限定。骨导麦克中的传感器是一种非声传感器,可以屏蔽周围环境噪声的影响,具有很强的抗噪性能。
161.步骤402:在检测到有语音输入的情况下,基于骨导信号进行唤醒词的检测。
162.在本技术实施例中,在检测到有语音输入的情况下,可穿戴设备基于骨导信号进行唤醒词的检测,以检测该命令词是否包括唤醒词。需要说明的是,可穿戴设备基于骨导信号进行唤醒词的检测的实现方式有多种,接下来介绍其中的两种实现方式。
163.第一种实现方式
164.在本技术实施例中,可穿戴设备基于骨导信号进行唤醒词的检测的实现方式为:基于骨导信号确定融合信号,对该融合信号进行唤醒词的检测。
165.首先介绍可穿戴设备基于骨导信号确定融合信号的实现方式。需要说明的是,可穿戴设备基于骨导信号确定融合信号的方式有多种,接下来介绍其中的四种方式。
166.基于骨导信号确定融合信号的方式1:基于骨导信号确定融合信号之前,开启空气麦克,通过空气麦克采集气导信号。例如在检测到有语音输入的情况下,开启空气麦克,通过空气麦克采集气导信号。可穿戴设备将骨导信号的起始部分和气导信号进行融合,以得到融合信号。其中,骨导信号的起始部分根据语音检测(如vad)的检测时延确定。也即是,可穿戴设备采集骨导信号以及气导信号,利用骨导信号的起始部分对气导信号进行丢头补偿,以使得到的融合信号也包含声源输入的命令词信息。另外,该融合信号的长度较短,在一定程度上能够减少数据处理量。可选地,在本技术实施例中通过信号拼接来进行信号融合,在一些实施例中也可以通过信号叠加等方式进行信号融合,下述实施例中均以通过信号拼接来进行信号融合为例进行介绍。
167.需要说明的是,骨导信号和气导信号是由同一声源产生的信号,骨导信号和气导信号的传输路径不同。如图5所示,骨导信号是振动信号(激励信号)经过人体内部骨头、组织等路径传输形成的信号,气导信号是声波经过空气传输形成的信号。
168.图6是本技术实施例提供的一种信号时序图。该信号时序图中示出了骨导信号、气导信号、vad控制信号和用户语音信号的时序关系。当声源发出语音信号时,骨导信号立即变为高电平的信号,经过

t时间后,vad确定检测到有语音输入,此时产生vad控制信号,vad控制信号控制空气麦克开启,采集气导信号,也即此时气导信号变为高电平的信号。可以看出,骨导信号与用户语音信号是同步变化的,气导信号会相比于骨导信号有

t时间的延迟,该延迟是由vad的检测时延导致的。其中,

t表示语音激活检测的检测时延,也即检测到有语音输入的时刻与用户实际输入语音的时间差。
169.需要说明的是,在本技术实施例中,vad能够检测出骨导信号中的语音片段和非语音片段,端点检测能够检测出气导信号中的语音片段和非语音片段。可穿戴设备在将骨导信号的起始部分和气导信号进行融合之前,基于vad的检测结果将骨导信号中的语音片段截取出来,基于端点检测的检测结果将气导信号中的语音片段截取出来,将截取出来的骨导信号的语音片段的起始部分与截取出来的气导信号的语音片段进行融合,以得到融合信号。以图5为例,从骨导信号中截取出来的语音片段的时间范围为[0,t],骨导信号的起始部分(即截取出来的语音片段的起始部分)的时间范围为[0,

t],从气导信号中截取出来的
语音片段的时间范围为[

t,t],得到的融合信号的时长为t。其中,

t表示语音激活检测的检测时延,t表示实际有语音输入的总时长。
[0170]
图7是本技术实施例提供的一种信号融合的方法示意图。以通过信号拼接来进行信号融合为例,参见图7,x1[n]表示骨导信号的起始部分,x2[n]表示气导信号,f(x)表示拼接函数,f(x):b[n]
0,t
=concat[x1[n]
0,

t
x2[n]
0,

t
,x2[n]

t,t
],其中,x2[n]
0,

t
为零。即通过f(x)将骨导信号的起始部分(即0至

t的语音片段)与气导信号(即

t至t的语音片段)进行拼接,得到融合信号b[n]。
[0171]
可选地,在将骨导信号的起始部分和气导信号进行融合之前,可穿戴设备对气导信号进行预处理,预处理包括前端增强。前端增强能够消除部分噪声和不同声源带来的影响等,使得前端增强后的气导信号更加能反映语音的本质特征,以提升语音唤醒的准确率。需要说明的是,对气导信号进行前端增强的方法有很多,例如,端点检测和语音增强,语音增强如回波消除、波束形成算法、噪音消除、自动增益控制、去混响等。其中,端点检测能够将气导信号的语音片段和非语音片段区分开,即准确地确定出语音片段的起始点。经端点检测之后,后续就可以只对气导信号的语音片段进行处理,这样能够提高语音识别的准确率和召回率。语音增强是为了消除环境噪声对语音片段的影响。例如,回声消除是用有效的回声消除算法来抑制远端信号的干扰,主要包括双讲检测和延时估计,如通过判断当前的讲话模式(如近讲模式、远讲模式、双讲模式等),基于当前的讲话模式采用对应的策略调整滤波器,进而通过滤波器滤除气导信号中的远端干扰,在此基础上通过后置滤波算法消除残留噪声的干扰。又如,自动增益算法用于将信号快速增益到合适的音量,本方案可以通过硬性增益处理对气导信号的所有采样点乘上对应的增益因子,在频域每个频率都同时乘上对应的增益因子。其中,可以按照等响度曲线对气导信号的频率进行加权,把响度增益因子映射到等响度曲线上,从而确定各频率的增益因子。
[0172]
可选地,在将骨导信号的起始部分和气导信号进行融合之前,可穿戴设备对骨导信号进行预处理,预处理包括下采样和/或增益调整。其中,下采样能够使骨导信号的数据量减小,提高数据处理的效率,增益调整用于使调整后的骨导信号的能量增强,例如增益调整使骨导信号的平均能量与气导信号的平均能量一致。需要说明的是,对骨导信号进行下采样和/或增益调整的方法有很多,本技术实施例对此不作限定。其中,下采样是指降低信号的采样频率(也称为采样率),是信号重采样的一种方式。采样频率是指将模拟声音波形数字化后每秒钟所抽取的声波幅度的样本次数。对采样频率为fs、包括n个采样点的气导信号x[n]进行下采样的过程中,每隔m-1个采样点抽取一个采样点,得到包括m个采样点的气导信号y[m]。根据奈奎斯特采样定理,下采样可能会造成信号的频谱混淆,因此下采样之前可以用低通去混淆滤波器对气导信号进行处理,即进行抗混叠滤波,以减轻后续下采样带来的频谱混淆。增益调整是指通过增益因子对骨导信号的采样点的幅度值进行调整,或者对骨导信号的频点的能量值进行调整。其中,增益因子可以根据增益函数确定,也可以根据气导信号与骨导信号的统计信息确定,本技术实施例对此不作限定。
[0173]
图8是本技术实施例提供的一种对骨导信号进行下采样的示意图。参见图8,假设骨导信号的采样率为48khz,先将采集的骨导信号x[n]送入抗混叠滤波器h(z),以防止信号混叠。v[n]表示经过抗混叠滤波器之后的骨导信号,采样率未变。对v[n]进行三倍下采样,得到三倍下采样后的骨导信号y[m],采样率下降为16khz。
[0174]
图9是本技术实施例提供的一种对骨导信号进行增益调整的示意图。参见图9,x[n]表示骨导信号,f(g)表示增益函数,f(g):y[n]=g*x[n],即通过f(g)所确定的增益因子g对x[n]进行增益调整,得到经增益调整的骨导信号y[n]。
[0175]
基于骨导信号确定融合信号的方式2:基于骨导信号确定融合信号之前,开启空气麦克,通过空气麦克采集气导信号。可穿戴设备基于骨导信号的起始部分生成增强起始信号,将该增强起始信号和气导信号进行融合,以得到融合信号。其中,骨导信号的起始部分根据语音检测的检测时延确定。也即是,可穿戴设备利用骨导信号的起始部分生成增强起始信号,利用该增强起始信号对采集的气导信号进行丢头补偿,以使得到的融合信号也包含声源输入的命令词信息。另外,融合信号的长度较短,在一定程度上能够减少数据处理量。
[0176]
需要说明的是,与上述基于骨导信号确定融合信号的方式1不同的地方在于,在基于骨导信号确定融合信号的方式2中,是利用骨导信号的起始部分生成增强起始信号,将该增强起始信号与气导信号进行融合,而非将骨导信号的起始部分与气导信号进行融合,除此之外,上述方式1中介绍的其他内容均适用于该方式2,在方式2中不再一一详细介绍。例如在该方式2中,也可以对骨导信号和气导信号进行语音片段的检测,以截取出语音片段,基于截取出的语音片段进行信号拼接,从而减少数据处理量。可穿戴设备还可以对骨导信号和气导信号进行预处理,例如对骨导信号进行下采样和/或增益调整等,对气导信号进行语音增强等。
[0177]
在本技术实施例中,可穿戴设备可以将骨导信号的起始部分输入生成网络模型,以得到生成网络模型输出的增强起始信号。其中,生成网络模型为基于深度学习算法训练得到的模型,生成网络模型可视为一种信号生成器,能够基于输入信号生成包含输入信号的信息且接近真实语音的语音信号。在本技术实施例中,增强起始信号包含了骨导信号的起始部分的信号信息,且增强起始信号接近于真实语音信号。需要说明的是,本技术实施例不限定生成网络模型的网络结构、训练方式、训练设备等。接下来示例性地介绍一种生成网络模型的训练方法。
[0178]
在本技术实施例中,以在计算机设备上训练得到生成网络模型为例,计算机设备获取第一训练数据集,第一训练数据集包括多个第一样本信号对。计算机设备将该多个第一样本信号对中的骨导样本信号的起始部分输入初始生成网络模型,以得到初始生成网络模型输出的多个增强起始样本信号。计算机设备将该多个增强起始样本信号和该多个第一样本信号对中的气导样本信号的起始部分输入初始判决网络模型,以得到初始判决网络模型输出的判决结果。计算机设备基于该判决结果调整初始生成网络模型的网络参数,以得到经训练的生成网络模型。其中,一个第一样本信号对包括一个骨导样本信号的起始部分和一个气导样本信号的起始部分,一个第一样本信号对对应一个命令词,骨导样本信号和气导样本信号包含对应的命令词的完整信息。
[0179]
可选地,计算机设备获取的第一样本信号对包含骨导样本信号和气导样本信号,计算机设备截取骨导样本信号的起始部分和气导样本信号的起始部分,以得到初始生成网络模型和初始判决网络模型的输入数据。也即是,计算机设备先获取完整的语音信号,再截取出起始部分,以得到训练数据。或者,计算机设备获取的第一样本信号对仅包含骨导样本信号的起始部分和气导样本信号的起始部分。
[0180]
可选地,第一训练数据集包括直接采集的语音数据、公开语音数据和/或从第三方购买的语音数据。可选地,在训练之前,计算机设备可以对获取的第一训练数据集对进行预处理,以得到经预处理的第一训练数据集,经预处理的第一训练数据集能够模拟真实语音数据的分布,以便更接近于真实场景的语音,增加训练样本的多样性。示例性地,对第一训练数据集进行备份,即额外增加一份数据,对备份的数据进行预处理。可选地,将备份的数据分为多份,对每份数据进行一种预处理,对各份数据所做的预处理可以不同,这样能够使总的训练数据加倍,且保证数据的全面性,在性能和训练开销上达到平衡,使得在一定程度上提高语音识别的准确率和鲁棒性。其中,对每份数据进行预处理的方法可以包括增加噪音(noise addition)、音量增强、增加混响(add reverb)、时移(time shifting)、改变音调(pitch shifting)、时间拉伸(time stretching)等中的一种或多种。
[0181]
示例性地,增加噪音是指将一种或多种背景噪声混入语音信号中,使得训练数据能够覆盖更多种类的噪声。例如办公室环境噪声、食堂环境噪声、街道环境噪声等背景噪声。还可以混入不同信噪比的噪声,例如信噪比可以按照正态分布的方式选择,使得信噪比的均值较优,均值可以为10db、20db等,信噪比可以从10db到30db等。其中,计算机设备可以基于信号能量s和信噪比snr通过公式snr=10*log
10
(s2/n2)来计算出噪声能量n。音量增强是指根据音量的变动系数将语音信号的音量增强或减弱,音量的变动系数的取值范围可以为0.5至1.5,或者为其他的取值范围。增加混响是指对语音信号加混响处理,混响是由于空间环境对声音信号的反射产生的。改变音调如高音修正,以改变语音喜欢的音高而不影响音速。时间拉伸是指在不影响音高的情况下改变语音信号的速度或持续时间,也即改变语速,使得训练数据能够覆盖不同的语速,语速的变动范围可以在0.9至1.1之间或者在其他范围内。
[0182]
图10是本技术实施例提供的一种训练生成网络模型的方法示意图。生成器(即初始生成网络模型)是用于生成语音信号的网络,将第一训练数据集中的骨导样本信号的起始部分输入生成器,可选地,在输入生成器之前,在骨导样本信号中叠加一个随机噪声。通过生成器对输入的骨导样本信号进行处理,以生成增强起始样本信号。判决器(即初始判决网络模型)是一个判决网络,用于判断输入的信号是不是真实的语音信号,判决器输出的判决结果指示输入信号是否为真实语音,如果输出的判决结果为1,表示判决器判定输入信号为真实的语音信号,如果输出的判决结果为0,表示判决器判定输入信号不是真实的语音信号。通过判断判决结果是否准确来调整生成器和判决器中的参数,以训练生成器和判决器。在训练的过程中,生成器的目标就是生成伪造的语音信号去骗过判决器,而判决器的目标就是能够分辨出输入信号是真实的还是生成的。可以看出,生成器和判决器实质上是通过训练数据在进行博弈,在博弈的过程中生成器和判决器的能力均得到提高,在理想情况下,训练后的判决器的准确率接近0.5。
[0183]
在训练完成后,将训练得到的生成网络模型部署到可穿戴设备中,可穿戴设备将采集的骨导信号的起始信号输入该生成网络模型,以得到该生成网络模型输出的增强起始信号。需要说明的是,除了以上介绍的增强起始信号的生成方法之外,计算机设备也可以采用其他方法基于骨导信号的起始信号生成增强起始信号,本技术实施例对此不作限定。
[0184]
基于骨导信号确定融合信号的方式3:基于骨导信号确定融合信号之前,开启空气麦克,通过空气麦克采集气导信号。可穿戴设备将骨导信号和气导信号直接进行融合,以得
到融合信号。这样,得到的融合信号也包含了声源输入的命令词信息,另外,融合信号不仅包含骨导信号中完整的语音信息,也包含了气导信号中完整的语音信息,使得融合信号所包含的语音特征更加丰富,在一定程度上提高语音识别的准确率。
[0185]
需要说明的是,与上述基于骨导信号确定融合信号的方式1不同的地方在于,在基于骨导信号确定融合信号的方式3中,可穿戴设备是直接将骨导信号与气导信号进行融合,除此之外,上述方式1中介绍的其他内容均适用于该方式3,在该方式3中不再一一详细介绍。例如在该方式3中,也可以对骨导信号和气导信号进行语音片段的检测,以截取出语音片段,对截取出的语音片段进行融合,从而减少数据处理量。还可以对骨导信号和气导信号进行预处理,例如对骨导信号进行下采样和/或增益调整,对气导信号进行端点检测和语音增强。
[0186]
示例性地,假设通过信号拼接来进行信号融合,以x1[n]表示骨导信号,x2[n]表示气导信号,f(x)表示拼接函数为例,假设f(x):b[n]
0,2t
=concat[x1[n]
0,t
,x2[n]
0,t
],其中,x2[n]
0,

t
为零。即通过f(x)将骨导信号(0至t的语音片段)与气导信号(0至t的信号片段)进行拼接,得到融合信号b[n]。或者,f(x):b[n]
0,2t
‑△
t
=concat[x1[n]
0-t
,x2[n]

t-t
]。即通过f(x)将骨导信号(0至t的语音片段)与气导信号(

t至t的信号片段)进行拼接,得到融合信号b[n]。
[0187]
基于骨导信号确定融合信号的方式4:可穿戴设备将骨导信号确定为融合信号。也即是,也可以仅利用骨导信号进行唤醒词的检测。
[0188]
需要说明的是,与上述基于骨导信号确定融合信号的方式1不同的地方在于,在基于骨导信号确定融合信号的方式4中,是直接将骨导信号作为融合信号,除此之外,上述方式1中介绍的其他内容均适用于该方式4,在该方式4中不再一一详细介绍。例如在该方式4中,也可以对骨导信号进行语音片段的检测,以截取出语音片段,将截取出了语音片段作为融合信号,从而减少数据处理量。还可以对骨导信号进行预处理,例如对骨导信号进行下采样和/或增益调整。
[0189]
接下来对可穿戴设备对融合信号进行识别,以进行唤醒词的检测的实现方式进行介绍。
[0190]
在本技术实施例中,可穿戴设备将该融合信号包括的多个音频帧输入第一声学模型,以得到第一声学模型输出的多个后验概率向量。可穿戴设备基于该多个后验概率向量进行唤醒词的检测。其中,该多个后验概率向量与该融合信号所包括的多个音频帧一一对应,即一个后验概率向量对应于该融合信号所包括的一个音频帧,该多个后验概率向量中的第一后验概率向量用于指示该多个音频帧中的第一音频帧的音素属于多个指定音素的概率,即一个后验概率向量指示相应一个音频帧的音素属于多个指定音素的概率。也即是,可穿戴设备通过第一声学模型对融合信号进行处理,以得到融合信号所包含音素的信息,从而基于音素的信息进行唤醒词的检测。可选地,在本技术实施例中,第一声学模型可以为如前述介绍的网络模型,或者为其他结构的模型。可穿戴设备将该融合信号输入第一声学模型之后,经过第一声学模型对融合信号包括的各个音频帧的处理,得到第一声学模型输出的各个音频帧分别对应的后验概率向量。
[0191]
在本技术实施例中,可穿戴设备得到第一声学模型输出的多个后验概率向量之后,基于该多个后验概率向量和该唤醒词对应的音素序列,确定声源输入的命令词对应的
音素序列包括唤醒词对应的音素序列的置信度。在该置信度超过置信度阈值的情况下,确定检测到该命令词包括该唤醒词。也即是,可穿戴设备对该多个后验概率向量进行解码,以确定一个置信度。其中,该唤醒词对应的音素序列称为解码路径,所确定的置信度可称为路径得分,置信度阈值可称为唤醒门限。
[0192]
示例性地,在本技术实施例中,通过第一声学模型得到各个音频帧对应的后验概率向量之后,将连续多个音频帧对应的多个后验概率向量输入基于语言模型和发音词典构建的解码图(也称为状态网络),在解码图中寻找处于解码路径上的各个音素的概率,将寻找到的各个音素的概率相加,以得到一个置信度。其中,解码路径是指唤醒词对应的音素序列。如果该置信度大于置信度阈值,则确定检测到该命令词包括唤醒词。
[0193]
可选地,为了降低误唤醒率,在该置信度超过置信度阈值,且该多个后验概率向量与多个模板向量之间满足距离条件的情况下,可穿戴设备确定检测到声源输入的命令词包括唤醒词。其中,该多个模板向量指示包含该唤醒词的完整信息的语音信号的音素属于多个指定音素的概率。也即是,当前输入语音不仅需要满足置信度条件,还要与模板匹配。在本技术实施例中,置信度阈值可以预先设定,例如基于经验设定,或者在注册唤醒词时根据包含唤醒词的完整信息的骨导注册信号和/或气导注册信号确定,具体实现方式在下文进行介绍。该多个模板向量是根据骨导注册信号和/或气导注册信号确定的注册后验概率向量,具体实现方式在下文进行介绍。
[0194]
可选地,在该多个后验概率向量与该多个模板向量一一对应的情况下,该距离条件包括:该多个后验概率向量与对应的模板向量之间的距离的均值小于距离阈值。需要说明的是,若该多个后验概率向量与该多个模板向量一一对应,那么可穿戴设备可以直接计算该多个后验概率向量与对应的模板向量之间的距离并求均值。例如,当前声源输入语音的时长与唤醒词注册时用户输入语音的时长一致的情况下,该多个后验概率向量与该多个模板向量可能一一对应。而若当前声源输入语音的时长与唤醒词注册时用户输入语音的时长不一致,该多个后验概率向量与该多个模板向量可能不会一一对应,那么在这种情况下,可穿戴设备可以采用动态时间规整(dynamic time warping,dtw)的方法建立该多个后验概率向量与该多个模板向量之间的映射关系,从而使得可穿戴设备能够计算该多个后验概率向量与对应的模板向量之间的距离。也即是,可穿戴设备可以通过dtw解决数据长短不一情况下的模板匹配问题。
[0195]
上述介绍了可穿戴设备基于骨导信号进行唤醒词的检测的第一种实现方式,在第一种实现方式中,可穿戴设备先是基于骨导信号确定融合信号(包括四种方式),再通过声学模型对融合信号进行处理,以得到后验概率向量。然后,可穿戴设备基于唤醒词对应的解码路径对得到的后验概率向量进行解码,以得到声源当前输入的命令词对应的置信度。在该置信度大于置信度阈值的情况下,可穿戴设备确定检测到该命令词包括唤醒词。或者,在该置信度大于置信度阈值,且得到的后验概率向量与模板向量匹配的情况下,可穿戴设备确定检测到该命令词包括唤醒词。接下来介绍可穿戴设备基于骨导信号进行唤醒词的检测的第二种实现方式。
[0196]
第二种实现方式
[0197]
在本技术实施例中,可穿戴设备基于骨导信号进行唤醒词的检测之前,开启空气麦克,通过空气麦克采集气导信号。例如,在检测到有语音输入的情况下,开启空气麦克,通
过空气麦克采集气导信号。可穿戴设备基于骨导信号和气导信号,确定多个后验概率向量,基于该多个后验概率向量进行唤醒词的检测。其中,该多个后验概率向量与骨导信号和气导信号包括的多个音频帧一一对应,该多个后验概率向量中的第一后验概率向量用于指示该多个音频帧中的第一音频帧的音素属于多个指定音素的概率。需要说明的是,该多个音频帧包括骨导信号所包括的音频帧以及气导信号所包括的音频帧。也即是,该多个后验概率向量中的每个后验概率向量对应于骨导信号或气导信号所包括的一个音频帧,一个后验概率向量指示相应一个音频帧的音素属于多个指定音素的概率。
[0198]
需要说明的是,关于骨导信号和气导信号的相关介绍可以参照前述第一种实现方式中的内容,包括骨导信号和气导信号的产生原理、对骨导信号和气导信号的预处理等等,这里不再一一赘述。
[0199]
接下来首先介绍可穿戴设备基于骨导信号和气导信号,确定多个后验概率向量的实现方式。需要说明的是,可穿戴设备基于骨导信号和气导信号,确定多个后验概率向量的方式有多种,接下来介绍其中的三种方式。
[0200]
基于骨导信号和气导信号,确定多个后验概率向量的方式1:可穿戴设备将骨导信号的起始部分和气导信号输入第二声学模型,以得到第二声学模型输出的第一数量个骨导后验概率向量和第二数量个气导后验概率向量。其中,骨导信号的起始部分根据语音检测的检测时延确定,第一数量个骨导后验概率向量与骨导信号的起始部分所包括的音频帧一一对应,第二数量个气导后验概率向量与气导信号所包括的音频帧一一对应。可穿戴设备将第一骨导后验概率向量和第一气导后验概率向量进行融合,以得到第二后验概率向量。其中,第一骨导后验概率向量对应骨导信号的起始部分的最后一个音频帧,该最后一个音频帧的时长小于帧时长,第一气导后验概率向量对应气导信号的第一个音频帧,该第一个音频帧的时长小于帧时长。可穿戴设备最终确定的多个后验概率向量包括第二后验概率向量、第一数量个骨导后验概率向量中除第一骨导后验概率向量之外的向量,以及第二数量个气导后验概率向量中除第一气导后验概率向量之外的向量。其中,第一数量和第二数量可以相同或不同。
[0201]
需要说明的是,关于骨导信号的起始部分的相关介绍也可以参照前述第一种实现方式中的内容,这里不再赘述。在本技术实施例中,骨导信号的起始部分的最后一个音频帧可能不是完整的音频帧,即该最后一个音频帧的时长小于帧时长,例如骨导信号的起始部分包括半个帧时长的音频帧。由于气导信号丢头,而导致气导信号的第一个音频帧可能不是完整的音频帧,即该第一个音频帧的时长小于帧时长,例如气导信号的第一个音频帧包括半个帧时长的音频帧。另外,骨导信号的起始部分的最后一个音频帧的时长与气导信号的第一个音频帧的时长相加可以等于帧时长。简单来说,由于语音检测(如vad)导致骨导信号的起始部分和气导信号的第一帧会存在不完整的情况,骨导信号的起始部分和气导信号的第一帧合起来表征了一个完整的音频帧的信息。需要说明的是,这个完整的音频帧是潜在的一帧音频,并不是实际的一帧。可选地,可穿戴设备将第一骨导后验概率向量和第一气导后验概率向量进行相加,以得到第二后验概率向量,可穿戴设备所得到的第二后验概率向量指示上述这个完整的音频帧的音素属于多个指定音素的概率。
[0202]
也即是,若语音检测的检测时延不是帧时长的整数倍,那么骨导信号的起始部分的最后一个音频帧的时长小于帧时长,气导信号的第一个音频帧的时长小于帧时长,可穿
戴设备需要将第二骨导后验概率向量和第二气导后验概率向量进行融合(如相加),从而得到多个后验概率向量。可选地,若语音检测的检测时延是帧时长的整数倍,那么骨导信号的起始部分的最后一个音频帧的时长等于帧时长,气导信号的第一个音频帧的时长等于帧时长,可穿戴设备将得到的第一数量个骨导后验概率向量和第二数量个气导后验概率向量作为多个后验概率向量,并进行后续的处理即可。
[0203]
图11是本技术实施例提供的另一种声学模型的结构示意图。图11所示的声学模型为在本技术实施例中的第二声学模型。可以看出,本技术实施例中的第二声学模型包括两个输入层(未示出)、一个共享网络层和两个输出层。其中,这两个输入层用于分别输入骨导信号的起始部分和气导信号。共享网络层用于分别对这两个输入层的输入数据进行处理,以分别提取骨导信号的起始部分和气导信号的特征。这两个输出层用于分别接收共享网络层的两个输出数据,并分别对这两个输出数据进行处理,以输出骨导信号的起始部分对应的第一数量个骨导后验概率向量,以及气导信号对应的第二数量个气导后验概率向量。也即是,可穿戴设备通过第二声学模型对骨导信号的起始部分和气导信号这两部分信号分别进行处理,得到这两部分信号对应的两组后验概率向量。只不过在声学模型中存在共享网络层,以供这两部分信号共享部分网络参数。
[0204]
在本技术实施例中,可穿戴设备将得到第一骨导后验概率向量和第一气导后验概率向量进行融合,以得到第二后验概率向量,从而使该多个骨导后验概率向量和多个气导后验概率向量得以融合,进而得到多个后验概率向量,即,可穿戴设备将两部分信号的后验概率进行了融合,从而使得到的多个后验概率向量包含了声源输入的命令词信息,这也可以视为基于骨导信号对气导信号进行丢头补偿的一种方法,只不过不是通过直接融合(如拼接)信号来进行补偿而已。另外,基于第二声学模型对骨导信号的起始部分和气导信号进行处理的方案,可以认为是一种多任务(multi-task)方案,即将骨导信号的起始部分和气导信号作为两个任务,采用共享网络参数的方法分别确定对应的后验概率向量,以将骨导信号的起始部分隐式地与气导信号进行融合。
[0205]
基于骨导信号和气导信号,确定多个后验概率向量的方式2:可穿戴设备将骨导信号的起始部分和气导信号输入第三声学模型,以得到第三声学模型输出的多个后验概率向量。其中,骨导信号的起始部分根据语音检测的检测时延确定。需要说明的是,关于骨导信号的起始部分的相关介绍也可以参照前述第一种实现方式中的内容,这里不再赘述。
[0206]
在本技术实施例中,如图12所示,第三声学模型包括两个输入层(如一个输入层包括dnn和cnn等层)、一个拼接层(concat层)、一个网络参数层(如包括rnn等层)和一个输出层(如包括softmax等层)。其中,这两个输入层用于分别输入骨导信号和气导信号,拼接层用于拼接两个输入层的输出数据,网络参数层用于对拼接层的输出数据进行处理,输出层用于输出一组后验概率向量。也即是,可穿戴设备将骨导信号的起始部分和气导信号同时输入第三声学模型,通过第三声学模型中的拼接层将骨导信号的起始部分和气导信号隐式地融合在一起,进而得到一组后验概率向量,从而使得到的多个后验概率向量包含了声源输入的命令词信息,这也可以视为基于骨导信号对气导信号进行丢头补偿的一种方法,只不过不是通过直接融合信号来进行补偿而已。
[0207]
基于骨导信号和气导信号,确定多个后验概率向量的方式3:可穿戴设备将骨导信号和气导信号输入第三声学模型,以得到第三声学模型输出的多个后验概率向量。也即是,
可穿戴设备直接将骨导信号和气导信号同时输入第三声学模型,通过第三声学模型输出一组后验概率向量,从而使得到的多个后验概率向量包含了声源输入的命令词信息,这也可以视为基于骨导信号对气导信号进行丢头补偿的一种方法,只不过不是通过直接融合信号来进行补偿而已。
[0208]
接下来对可穿戴设备基于该多个后验概率向量进行唤醒词的检测的实现方式进行介绍。
[0209]
在本技术实施例中,可穿戴设备基于该多个后验概率向量和该唤醒词对应的音素序列,确定声源输入的命令词对应的音素序列包括唤醒词对应的音素序列的置信度。在该置信度超过置信度阈值的情况下,确定检测到该唤醒词。具体实现方式参照前述第一种实现方式中的相关介绍,这里不再赘述。
[0210]
可选地,为了降低误唤醒率,在该置信度超过置信度阈值,且该多个后验概率向量与多个模板向量之间满足距离条件的情况下,可穿戴设备确定检测到该命令词包括唤醒词。可选地,在该多个后验概率向量与该多个模板向量一一对应的情况下,该距离条件包括:该多个后验概率向量与对应的模板向量之间的距离的均值小于距离阈值。具体实现方式参照前述第一种实现方式中的相关介绍,这里不再赘述。
[0211]
步骤403:在检测到该命令词包括唤醒词时,对待唤醒设备进行语音唤醒。
[0212]
在本技术实施例中,在检测到声源输入的命令词包括唤醒词时,可穿戴设备进行语音唤醒。例如,可穿戴设备向智能设备(即待唤醒设备)发送唤醒指令,以唤醒智能设备。或者,在可穿戴设备本身即为智能设备的情况下,可穿戴设备唤醒除骨导麦克之外的其他部件或模块,即可穿戴设备整体进入工作状态。
[0213]
由上述可知,本技术实施例提供的语音唤醒的方法有多种实现方式,如上述介绍的第一种实现方式和第二种实现方式,在这两种实现方式中又分别包括多种具体实现方式。接下来请参照图13至18对上述介绍的几种具体实现再次进行解释说明。
[0214]
图13是本技术实施例提供的另一种语音唤醒的方法流程图。图13对应于上述第一种实现方式中的方式1。以通过可穿戴设备中的多个模块来进行语音唤醒为例,可穿戴设备通过骨导麦克采集骨导信号,通过vad控制模块对骨导信号进行vad,在检测到有语音输入时vad控制模块输出高电平的vad控制信号。在未检测到有语音输入的情况下vad控制模块输出低电平的vad控制信号。vad控制模块将vad控制信号分别发送到空气麦克控制模块、前端增强模块和识别引擎。vad控制信号用于控制空气麦克控制模块、前端增强模块和识别引擎的开关。在vad控制信号为高电平的情况下,空气麦克控制模块控制空气麦克开启,以采集气导信号,前端增强模块开启以对气导信号进行前端增强,识别引擎开启以基于骨导信号和气导信号进行唤醒词的检测。其中,融合模块对骨导信号进行下采样和/或增益调整等预处理,用预处理后的骨导信号的起始部分对前端增强后的气导信号进行丢头补偿,以得到融合信号。融合模块将融合信号发送给识别引擎,识别引擎通过第一声学模型对融合信号进行识别,以得到唤醒词的检测结果。识别引擎将得到的检测结果发送给处理器(如图示的微控制单元(micro-controller unit,mcu)),处理器基于检测结果确定是否唤醒智能设备。若检测结果指示检测到声源输入的命令词包括唤醒词,则处理器对智能设备进行语音唤醒。若检测结果指示未检测到唤醒词,则处理器不唤醒智能设备。
[0215]
图14至图16是本技术实施例提供的又三种语音唤醒的方法流程图。图14、图15、图
16分别与图13的区别在于,在图14所示的方法中,融合模块基于预处理后的骨导信号的起始部分生成增强起始信号,用增强起始信号对前端增强后的气导信号进行丢头补偿,以得到融合信号。在图15所示的方法中,融合模块将预处理后的骨导信号和前端增强后的气导信号直接拼接,以对气导信号进行丢头补偿,从而得到融合信号。在图16所示的方法中,vad控制信号无需发送给空气麦克控制模块,也就无需采集气导信号,另外,识别引擎直接将预处理后的骨导信号确定为融合信号。
[0216]
图17是本技术实施例提供的又一种语音唤醒的方法流程图。图17与图13的区别在于,在图17所示的方法中,识别引擎将预处理的骨导信号的起始部分和前端增强后的气导信号分别输入第二声学模型,得到第二声学模型的两个输出层分别输出的骨导后验概率向量和气导后验概率向量,即得到后验概率对。识别引擎将骨导后验概率向量和气导后验概率向量进行融合,以得到多个后验概率向量,并通过解码该多个后验概率向量以得到唤醒词的检测结果。
[0217]
图18是本技术实施例提供的又一种语音唤醒的方法流程图。图18与图17的区别在于,在图18所示的方法中,识别引擎将预处理的骨导信号的起始部分和前端增强后的气导信号分别输入第三声学模型,或将预处理的骨导信号和前端增强后的气导信号分别输入第三声学模型,得到第三声学模型的一个输出层分别输出的多个后验概率向量。
[0218]
由上述可知,本技术实施例中,通过骨导麦克采集骨导信号进行语音检测,能够保证低功耗。在保证低功耗的同时,考虑到由于语音检测的延迟可能会导致采集的气导信号丢头,从而未包含声源输入的命令词的完整信息,而骨导麦克采集的骨导信号包含声源输入的命令词信息,即骨导信号未丢头,因此本方案基于骨导信号进行唤醒词的检测。这样,唤醒词的识别准确率较高,语音唤醒的精准度较高。在具体实现中,可以基于骨导信号对气导信号直接或隐式地进行丢头补偿,或者直接基于骨导信号进行唤醒词的检测。
[0219]
以上介绍了可穿戴设备基于骨导信号进行语音唤醒的实现过程。在本技术实施例中,还可以在可穿戴设备中注册唤醒词,可选地,还可以在注册唤醒词的同时确定上述实施例中的置信度阈值,还可以确定上述实施例中的多个模板向量。接下来将对唤醒词的注册过程进行介绍。
[0220]
在本技术实施例中,可穿戴设备首先确定唤醒词对应的音素序列。之后,可穿戴设备获取骨导注册信号,该骨导注册信号包含唤醒词的完整信息。可穿戴设备基于该骨导注册信号和该唤醒词对应的音素序列,确定置信度阈值。可选地,可穿戴设备还可以基于该骨导信号确定多个模板向量。
[0221]
可选地,可穿戴设备获取输入的唤醒词,按照发音词典确定唤醒词对应的音素序列。以用户向可穿戴设备输入唤醒词文本为例,可穿戴设备获取用户输入的唤醒词文本,按照发音词典确定唤醒词对应的音素序列。可选地,在注册唤醒词的过程中,可穿戴设备还可以在用户输入唤醒词文本之后,检测输入的唤醒词文本是否符合文本注册条件,在符合文本注册条件的情况下,可穿戴设备按照发音词典确定唤醒词文本对应的音素序列。
[0222]
示例性地,文本注册条件包括文本输入次数要求和字符要求等。以文本输入次数要求为需要用户输入一次或多次唤醒词文本为例,可穿戴设备每检测到一次用户输入的唤醒词文本,就对输入的唤醒词文本进行文本校验和分析,以检验当前输入的唤醒词文本是否符合字符要求。如果用户输入的唤醒词文本不符合字符要求,则可穿戴设备通过文字或
声音的方式来提示用户不符合要求的原因并要求重新输入。若用户一次或多次输入的唤醒词文本均符合字符要求且相同,则可穿戴设备按照发音词典确定唤醒词文本对应的音素序列。
[0223]
可选地,可穿戴设备通过文本校验来检测当前输入的唤醒词文本是否符合字符要求。示例性地,字符要求包括以下一种或多种要求:要求中文(非中文即不符合字符要求)、4至6个字(少于4个字或多于6个字即不符合字符要求)、不存在语气助词(存在即不符合字符要求)、不存在3个以上读音相同的重复字(存在即不符合字符要求)、与已有命令词均不同(存在相同则不符合字符要求)、与已有命令词的音素重叠的比例不超过70%(超过70%即不符合字符要求,用于防止误闯)、对应音素属于发音词典中的音素(不属于即不符合字符要求,是一种异常情况)。
[0224]
以上为文本注册的过程,文本注册能够确定唤醒词对应的音素序列。可穿戴设备确定唤醒词对应的音素序列之后,后续可以将该音素序列作为唤醒词的解码路径,解码路径用于在语音唤醒的过程中进行唤醒词的检测。
[0225]
除了文本注册之外,还需要语音注册。在本技术实施例中,在文本注册完成后,可穿戴设备还需获取骨导注册信号,该骨导注册信号包含唤醒词的完整信息。可选地,可穿戴设备在获取骨导注册信号的同时还获取气导注册信号。可选地,在语音注册的过程中,以可穿戴设备获取用户输入的骨导注册信号和气导注册信号为例,可穿戴设备在获取输入的骨导注册信号和气导注册信号之后,校验骨导注册信号和气导注册信号是否符合语音注册条件,在符合语音注册条件的情况下,可穿戴设备进行后续的处理,以确定置信度阈值。
[0226]
示例性地,语音注册条件包括语音输入次数要求、信噪比要求和路径得分要求等。以语音输入次数要求为需要用户输入三次唤醒词语音(包括骨导注册信号和气导注册信号)为例,可穿戴设备每检测到一次用户输入的唤醒词语音,就对输入的唤醒词语音进行发音校验和分析,以检验当前输入的唤醒词语音是否符合信噪比要求和路径得分要求。如果用户输入的唤醒词文本不符合字符要求,则可穿戴设备通过文字或声音的方式提示用户不符合要求的原因并要求重新输入。若用户三次输入的唤醒词语音均符合信噪比要求和路径得分要求,则可穿戴设备确定用户输入的唤醒词语音符合语音注册条件,可穿戴设备进行后续的处理。
[0227]
可选性,可穿戴设备可以先检测输入的唤醒词语音是否符合信噪比要求,在确定输入的唤醒词语音符合信噪比要求之后,再检测输入的唤醒词语音是否符合路径得分要求。示例性地,信噪比要求包括要求信噪比不低于信噪比阈值(低于则不符合信噪比要求),例如,要求骨导注册信号的信噪比不低于第一信噪比阈值,和/或,要求气导注册信号的信噪比不低于第二信噪比阈值。可选地,第一信噪比阈值大于第二信噪比阈值。若用户输入的唤醒词语音不符合信噪比要求,则可穿戴设备提示用户当前环境噪声较大不适合注册,需要用户找一个安静的环境重新输入唤醒词语音。路径得分要求包括基于每次输入的唤醒词语音得到的路径得分不小于校准阈值、基于三次输入的唤醒词语音得到的三个路径得分的均值不小于校准阈值、基于任意两次输入的唤醒词语音得到的两个路径得分之间相差不超过100分(或其他值)。其中,基于唤醒词语音得到路径得分的实现过程将在下文进行介绍,实质与前述语音唤醒的过程中基于骨导信号得到置信度的过程相类似。
[0228]
接下来介绍可穿戴设备基于该骨导注册信号和该唤醒词对应的音素序列,确定置
信度阈值的实现方式。与前述语音唤醒的过程中基于骨导信号得到置信度相类似,可穿戴设备可以通过多种实现方式来确定置信度阈值,接下来介绍其中的两种实现方式。
[0229]
第一种实现方式
[0230]
可穿戴设备基于骨导注册信号确定融合注册信号,基于该融合注册信号和该唤醒词对应的音素序列,确定置信度阈值和多个模板向量。
[0231]
首先介绍可穿戴设备基于骨导注册信号确定融合注册信号的实现方式。需要说明的是,可穿戴设备基于骨导注册信号确定融合注册信号的方式有多种,接下来介绍其中的四种方式。
[0232]
基于骨导注册信号确定融合注册信号的方式1:基于骨导注册信号确定融合注册信号之前,获取气导注册信号。可穿戴设备将骨导注册信号的起始部分和气导注册信号进行融合,以得到融合注册信号。其中,骨导注册信号的起始部分根据语音检测的检测时延确定。可选地,在本技术实施例中通过信号拼接来进行信号融合。
[0233]
需要说明的是,可穿戴设备将骨导注册信号的起始部分和气导注册信号进行融合的实现方式与前述实施例中基于骨导信号确定融合信号的方式1的原理类似,这里不再详细介绍。另外,可穿戴设备也可以对骨导注册信号和气导注册信号进行语音片段的检测,以截取出语音片段,基于截取出的语音片段进行信号拼接,从而减少数据处理量。还可以对骨导注册信号和气导注册信号进行预处理,例如对骨导注册信号进行下采样和/或增益调整,对气导信号进行语音增强等。具体实现方式与前述实施例中的相关内容的原理类似,请参照前述实施例,这里不再详细介绍。
[0234]
基于骨导注册信号确定融合注册信号的方式2:基于骨导注册信号确定融合注册信号之前,获取气导注册信号。可穿戴设备基于骨导注册信号的起始部分生成增强起始注册信号,将增强起始注册信号和气导注册信号进行融合,以得到融合注册信号。其中,骨导注册信号的起始部分根据语音检测的检测时延确定。
[0235]
需要说明的是,与上述基于骨导注册信号确定融合注册信号的方式1不同的地方在于,在该方式2中,可穿戴设备是利用骨导注册信号的起始部分生成增强起始注册信号,将增强起始注册信号与气导注册信号进行融合,而非将骨导注册信号的起始部分与气导信号进行融合。另外,在该方式2中,可穿戴设备也可以对骨导注册信号和气导注册信号进行语音片段的检测,以截取出语音片段,基于截取出的语音片段进行信号融合,从而减少数据处理量。可穿戴设备还可以对骨导注册信号和气导注册信号进行预处理,例如对骨导注册信号进行下采样和/或增益调整,对气导信号进行语音增强等。具体实现方式与前述实施例中的相关内容的原理类似,请参照前述实施例,这里不再详细介绍。
[0236]
在本技术实施例中,可穿戴设备可以将骨导注册信号的起始部分输入生成网络模型,以得到生成网络模型输出的增强起始注册信号。其中,该生成网络模型可以与前述介绍的生成网络模型为同一个,也可以为另外的一个生成网络模型,本技术实施例对此不作限定。本技术实施例也不限定该生成网络模型的网络结构、训练方式、训练设备等。
[0237]
基于骨导注册信号确定融合注册信号的方式3:基于骨导注册信号确定融合注册信号之前,获取气导注册信号。可穿戴设备将骨导注册信号和气导注册信号直接进行融合,以得到融合注册信号。
[0238]
需要说明的是,与上述基于骨导注册信号确定融合注册信号的方式1不同的地方
在于,在该方式3中,可穿戴设备是直接将骨导注册信号和气导注册信号进行融合,以得到融合注册信号。另外,在该方式3中,可穿戴设备也可以对骨导注册信号和气导注册信号进行语音片段的检测,以截取出语音片段,基于截取出的语音片段进行信号融合,从而减少数据处理量。可穿戴设备还可以对骨导注册信号和气导注册信号进行预处理,例如对骨导注册信号进行下采样和/或增益调整,对气导信号进行语音增强等。具体实现方式与前述实施例中的相关内容的原理类似,请参照前述实施例,这里不再详细介绍。
[0239]
基于骨导注册信号确定融合注册信号的方式4:可穿戴设备将骨导注册信号确定为融合注册信号。
[0240]
需要说明的是,与上述基于骨导注册信号确定融合注册信号的方式1不同的地方在于,在该方式4中,可穿戴设备是直接将骨导注册信号作为融合注册信号。另外,在该方式4中,可穿戴设备也可以对骨导注册信号进行语音片段的检测,以截取出语音片段,基于截取出的语音片段进行后续的处理,从而减少数据处理量。可穿戴设备还可以对骨导注册信号进行预处理,例如对骨导注册信号进行下采样和/或增益调整等。具体实现方式与前述实施例中的相关内容的原理类似,请参照前述实施例,这里不再详细介绍。
[0241]
接下来对可穿戴设备基于该融合注册信号和该唤醒词对应的音素序列,确定置信度阈值和多个模板向量的实现方式进行介绍。
[0242]
可选地,可穿戴设备将该融合注册信号包括的多个注册音频帧输入第一声学模型,以得到第一声学模型输出的多个注册后验概率向量。其中,该多个注册后验概率向量与该多个注册音频帧一一对应,该多个注册后验概率向量中的第一注册后验概率向量指示该多个注册音频帧中的第一注册音频帧的音素属于多个指定音素的概率。即,该多个注册后验概率向量中的每个注册后验概率向量对应于融合注册信号所包括的一个注册音频帧,一个注册后验概率向量指示相应一个注册音频帧的音素属于多个指定音素的概率。可穿戴设备将该多个注册后验概率向量确定为多个模板向量。可穿戴设备基于该多个注册后验概率向量和该唤醒词对应的音素序列确定置信度阈值。也即是,可穿戴设备通过第一声学模型对融合注册信号进行处理,以得到融合信号所包含音素的信息,即得到注册后验概率向量,将注册后验概率向量作为模板向量,并存储模板向量。可穿戴设备还基于该唤醒词对应的音素序列(即解码路径),对注册后验概率向量进行解码,以确定一个路径得分,将该路径得分作为置信度阈值,并存储置信度阈值。其中,第一声学模型的相关介绍请参照前述实施例,这里不再赘述。
[0243]
上述介绍了可穿戴设备基于该骨导注册信号和该唤醒词对应的音素序列,确定置信度阈值的第一种实现方式,在第一种实现方式中,可穿戴设备先是基于骨导注册信号确定融合注册信号(包括四种方式),再通过声学模型对融合注册信号进行处理,以得到注册后验概率向量。然后,可穿戴设备基于唤醒词对应的解码路径对得到的注册后验概率向量进行解码,以得到置信度阈值。可选地,可穿戴设备将得到的注册后验概率向量作为模板向量进行存储。接下来介绍可穿戴设备基于该骨导注册信号和该唤醒词对应的音素序列,确定置信度阈值的第二中实现方式。
[0244]
第二种实现方式
[0245]
在本技术实施例中,可穿戴设备基于骨导注册信号和唤醒词对应的音素序列,确定置信度阈值之前,获取气导注册信号。可穿戴设备基于骨导注册信号和气导注册信号,确
定多个注册后验概率向量。其中,该多个注册后验概率向量与骨导注册信号和气导注册信号包括的多个注册音频帧一一对应,该多个注册后验概率向量中的第一注册后验概率向量指示该多个注册音频帧中的第一注册音频帧的音素属于多个指定音素的概率。需要说明的是,该多个注册音频帧包括骨导注册信号所包括的注册音频帧以及气导注册信号所包括的注册音频帧。也即是,该多个注册后验概率向量中的每个注册后验概率向量对应于骨导注册信号或气导注册信号所包括的一个注册音频帧,一个注册后验概率向量指示相应一个注册音频帧的音素属于多个指定音素的概率。可穿戴设备基于该多个注册后验概率向量和唤醒词对应的音素序列确定置信度阈值。可选地,可穿戴设备将该多个注册后验概率向量确定为多个模板向量。
[0246]
需要说明的是,关于骨导注册信号和气导注册信号的相关介绍可以参照前述第一种实现方式中的内容,包括骨导注册信号和气导注册信号的产生原理、对骨导注册信号和气导注册信号的预处理等等,这里不再一一赘述。
[0247]
接下来首先介绍可穿戴设备基于骨导注册信号和气导注册信号,确定多个注册后验概率向量的实现方式。需要说明的是,可穿戴设备基于骨导注册信号和气导注册信号,确定多个注册后验概率向量的方式有多种,接下来介绍其中的三种方式。
[0248]
基于骨导注册信号和气导注册信号,确定多个注册后验概率向量的方式1:可穿戴设备将骨导注册信号的起始部分和气导注册信号输入第二声学模型,以得到第二声学模型输出的第三数量个骨导注册后验概率向量和第四数量个气导注册后验概率向量。可穿戴设备将第一骨导后注册验概率向量和第一气导注册后验概率向量进行融合,以得到第二注册后验概率向量。其中,骨导注册信号的起始部分根据语音检测的检测时延确定,第三数量个骨导注册后验概率向量与骨导注册信号的起始部分所包括的注册音频帧一一对应,第四数量个气导注册后验概率向量与气导注册信号所包括的注册音频帧一一对应。即,一个骨导注册后验概率向量对应骨导注册信号的起始部分所包括的一个注册音频帧,一个气导注册后验概率向量对应气导注册信号所包括的一个注册音频帧。第一骨导注册后验概率向量对应骨导注册信号的起始部分的最后一个注册音频帧,该最后一个注册音频帧的时长小于帧时长,第一气导后验概率向量对应气导注册信号的第一个注册音频帧,该第一个注册音频帧的时长小于帧时长。可穿戴设备最终所确定的多个注册后验概率向量包括第二注册后验概率向量、第三数量个骨导注册后验概率向量中除第一骨导注册后验概率向量之外的向量,以及第四数量个气导注册后验概率向量中除第一气导注册后验概率向量之外的向量。其中,第三数量和第四数量可以相同或不同,第三数量和前述第一数量可以相同或不同,第四数量和前述第二数量可以相同或不同。
[0249]
可选地,可穿戴设备将第一骨导注册后验概率向量和第一气导注册后验概率向量进行相加,以得到第二注册后验概率向量。
[0250]
需要说明的是,关于骨导注册信号的起始部分的相关介绍也可以参照前述第一种实现方式中的内容,这里不再赘述。另外,关于第二声学模型的相关介绍请参照前述实施例的相关内容,这里不再赘述。可穿戴设备通过第二声学模型得到第三数量个骨导注册后验概率向量和第四数量个气导注册后验概率向量的原理,与前述实施例中通过第二声学模型得到第一数量个骨导后验概率向量和第二数量个气导后验概率向量的原理一致,这里不再详细介绍。
[0251]
基于骨导注册信号和气导注册信号,确定多个注册后验概率向量的方式2:可穿戴设备将骨导注册信号的起始部分和气导注册信号输入第三声学模型,以得到第三声学模型输出的多个注册后验概率向量。其中,骨导注册信号的起始部分根据语音检测的检测时延确定。
[0252]
需要说明的是,关于骨导注册信号的起始部分的相关介绍也可以参照前述第一种实现方式中的内容,这里不再赘述。另外,关于第三声学模型的相关介绍请参照前述实施例的相关内容,这里不再赘述。可穿戴设备通过第三声学模型得到多个注册后验概率向量的原理,与前述实施例中通过第三声学模型得到多个后验概率向量的原理一致,这里不再详细介绍。
[0253]
基于骨导注册信号和气导注册信号,确定多个注册后验概率向量的方式3:可穿戴设备将骨导注册信号和气导注册信号输入第三声学模型,以得到第三声学模型输出的多个注册后验概率向量。也即是,可穿戴设备直接将骨导注册信号和气导注册信号同时输入第三声学模型,通过第三声学模型输出一组注册后验概率向量,从而使得到的多个注册后验概率向量包含了声源输入的唤醒词的完整信息。
[0254]
在本技术实施例中,可穿戴设备确定该多个注册后验概率向量之后,基于该多个注册后验概率向量和唤醒词对应的音素序列确定置信度阈值,原理与前述介绍的可穿戴设备基于多个后验概率向量和唤醒词的音素序列确定置信度的原理相类似,具体实现方式请参照前述相关介绍,这里不再详细介绍。
[0255]
图19至图24是本技术实施例提供的六种唤醒词注册的方法流程图。接下来将参照图19至图24对本技术实施例中唤醒词的注册过程再次进行解释说明。
[0256]
图19对应于上述唤醒词注册的第一种实现方式中的方式1,唤醒词的注册过程包括文本注册和语音注册。以可穿戴设备通过多个模块进行唤醒词注册为例,可穿戴设备首先进行文本注册。可穿戴设备的文本注册模块获取用户自定义输入的唤醒词文本,对输入的唤醒词文本进行文本校验和文本分析,并按照发音词典确定符合文本注册要求的唤醒词文本对应的音素序列,将该音素序列确定为解码路径,文本注册模块将解码路径发送给识别引擎。识别引擎存储该解码路径。可穿戴设备再进行语音注册。可穿戴设备的语音注册模块获取语音注册信号,包括骨导注册信号和气导注册信号。可选地,可穿戴设备通过vad来获取骨导注册信号和气导注册信号,还可以对获取的骨导注册信号和气导注册信号进行预处理。之后,语音注册模块对骨导注册信号和气导注册信号进行发音校验,融合模块将校验后符合语音注册要求的骨导注册信号和气导注册信号进行融合,以得到一个融合注册信号。为了区分图19至图22,这里将图19中的融合注册信号称为融合注册信号1。语音注册模块通过第一声学模型对该融合注册信号1进行处理,以得到多个注册后验概率向量,并通过解码多个注册后验概率向量,以确定一个路径得分,将该路径得分作为唤醒门限(即置信度阈值)发送给识别引擎,识别引擎存储该唤醒门限,唤醒门限用户后续语音唤醒中的一级误唤醒压制。可选地,语音注册模块将得到的多个注册后验概率向量作为多个模板向量发送给识别引擎,识别引擎存储该多个模板向量,该多个模板向量用于后续语音唤醒中的二级误唤醒压制。
[0257]
图20至图22分别对应于上述唤醒词注册的第一种实现方式中的方式2、方式3和方式4。与图19的区别在于,在图20所示的方法中,可穿戴设备的语音注册模块基于骨导注册
信号的起始部分生成为增强起始注册信号,将增强起始注册信号与气导注册信号进行融合,以得到一个融合注册信号。这里将图20中的融合注册信号称为融合注册信号2。在图21所示的方法中,语音注册模块直接将骨导注册信号和气导注册信号进行融合,以得到一个融合注册信号。这里将图21中的融合注册信号称为融合注册信号3。在图22所示的方法中,语音注册模块可以无需获取气导注册信号,直接将骨导注册信号确定为融合注册信号。这里将图22中的融合注册信号称为融合注册信号4。
[0258]
图23对应于上述唤醒词注册的第二种实现方式中的方式1。与图19的区别在于,在图23所示的方法中,可穿戴设备的语音注册模块将骨导注册信号的起始部分和气导注册信号分别输入第二声学模型中,以得到第二声学模型分别输出的第三数量个骨导注册后验概率向量和第四数量个气导注册后验概率向量。语音注册模块将第三数量个骨导注册后验概率向量和第四数量个气导注册后验概率向量进行融合,以得到多个注册后验概率向量。
[0259]
图24对应于上述唤醒词注册的第二种实现方式中的方式2和方式3。与图23的区别在于,在图24所示的方法中,可穿戴设备的语音注册模块将骨导注册信号的起始部分和气导注册信号分别输入第三声学模型中,或者将骨导注册信号和气导注册信号输入第三声学模型中,以得到第三声学模型输出的多个注册后验概率向量。
[0260]
由上述可知,在唤醒词的注册过程中对骨导注册信号和气导注册信号的处理流程,与语音唤醒的过程中对骨导信号和气导信号的处理流程相类似,只不过在唤醒词的注册过程中,是为了得到唤醒门限和模板向量,在语音唤醒的过程中,是为了对唤醒词进行检测。其中,模板向量能够提升本方案的准确性和鲁棒性。本方案通过骨导信号对气导信号直接或隐式地进行丢头补偿,或者直接基于骨导信号进行唤醒词的检测,由于骨导信号包含声源输入的命令词信息,即骨导信号未丢头,因此,唤醒词的识别准确率较高,语音唤醒的准确率较高。
[0261]
以上实施例中介绍了语音唤醒的过程以及唤醒词的注册过程。由前述可知,在本技术实施例中的声学模型需要预先训练得到,如第一声学模型、第二声学模型和第三声学模型等均需要预先训练得到,接下来以计算机设备训练声学模型为例对声学模型的训练过程进行介绍。
[0262]
在本技术实施例中,计算机设备首先获取第二训练数据集,第二训练数据集包括多个第二样本信号对,一个第二样本信号对包括一个骨导样本信号和一个气导样本信号,一个第二样本信号对对应一个命令词。可选地,第二训练数据集包括直接采集的语音数据、公开语音数据和/或从第三方购买的语音数据。可选地,在训练之前,计算机设备可以对获取的第二训练数据集对进行预处理,以得到经预处理的第二训练数据集,经预处理的第二训练数据集能够模拟真实语音数据的分布,以便更接近于真实场景的语音,增加训练样本的多样性。示例性地,对第二训练数据集进行备份,即额外增加一份数据,对备份的数据进行预处理。可选地,将备份的数据分为多份,对每份数据进行一种预处理,对各份数据所做的预处理可以不同,这样能够使总的训练数据加倍,且保证数据的全面性,在性能和训练开销上达到平衡,使得在一定程度上提高语音识别的准确率和鲁棒性。其中,对每份数据进行预处理的方法可以包括增加噪音、音量增强、增加混响、时移、改变音调、时间拉伸等中的一种或多种。
[0263]
以训练得到第一声学模型为例,计算机设备基于第二训练数据集确定多个融合样
本信号,共有四种方式。需要说明的是,这四种方式与上述实施例中识别过程(即语音唤醒的过程)中可穿戴设备基于骨导信号确定融合信号的四种方式一一对应。即,若在识别过程中,可穿戴设备将骨导信号的起始部分和气导信号进行融合,以得到融合信号,那么在训练过程中,计算机设备将该多个第二样本信号对中每个第二样本信号对包括的骨导样本信号的起始部分和气导样本信号进行融合,以得到多个融合样本信号。若在识别过程中,可穿戴设备基于骨导信号的起始部分生成增强起始信号,将增强起始信号和气导信号进行融合,以得到融合信号,那么在训练过程中,计算机设备基于该多个第二样本信号对中每个第二样本信号对包括的骨导样本信号的起始部分生成增强起始样本信号,将各个增强起始样本信号与对应的气导样本信号进行融合,以得到多个融合样本信号。若在识别过程中,计算机设备将骨导信号和气导信号直接进行融合,以得到融合信号,那么在训练过程中,计算机设备将该多个第二样本信号对中每个第二样本信号对包括的骨导样本信号和气导样本信号直接进行融合,以得到多个融合样本信号。若在识别过程中,可穿戴设备将骨导信号确定为融合信号,那么在训练过程中,计算机设备将该多个第二样本信号对包括的骨导样本信号确定为多个融合样本信号。其中,骨导样本信号的起始部分根据语音检测的检测时延确定或根据经验设定。之后,计算机设备通过该多个融合样本信号训练第一初始声学模型,以得到本技术实施例中的第一声学模型。其中,第一初始声学模型的网络结构与第一声学模型的网络结构相同。
[0264]
可选地,计算机设备在基于第二训练数据集确定多个融合样本信号之前,对第二训练数据集包括的骨导样本信号和气导样本信号进行预处理,例如对气导样本信号进行前端增强,对骨导样本信号进行下采样和增益调整等。可选地,计算机设备该多个第二样本信号对中每个第二样本信号对包括的骨导样本信号的起始部分输入生成网络模型,得到生成网络模型输出的增强起始样本信号,该生成网络模型与前述实施例中的生成网络模型为同一个模型,也可以为不同的模型,本技术实施例对此不作限定。
[0265]
示例性地,图25至图28是本技术实施例提供的基于上述四种方式分别训练得到第一声学模型的四个示意图。参见图25至图28,计算机设备获取的第二训练数据集包括骨导数据(骨导样本信号)和气导数据(气导样本信号),计算机设备通过融合模块对骨导数据进行下采样和/或增益调整,通过前端增强模块对气导数据进行前端增强。图25至图27对应于这四种方式的前三种方式,融合模块分别采用对应的方式通过骨导数据对气导信号进行丢头补偿,以得到训练输入数据。图28对应于这四种方式中的第四种方式,无需气导数据,融合模块直接将骨导数据作为训练输入数据。然后,计算机设备通过训练输入数据训练网络模型(即第一初始声学模型),并通过损失函数、以及梯度下降算法和误差反向传播来调整网络模型,从而得到经训练的第一声学模型。
[0266]
以训练第二声学模型为例,与上述语音唤醒的过程中可穿戴设备基于骨导信号和气导信号确定多个后验概率向量的方式1相对应地,在训练过程中,计算机设备将该多个第二样本信号对中各个第二样本信号对包括的骨导样本信号的起始部分和气导样本信号作为第二初始声学模型的输入,以训练第二初始声学模型,得到第二声学模型。其中,第二初始声学模型的网络结构与第二声学模型的网络结构相同。即,第二初始声学模型也包括两个输入层、一个共享网络层和两个输出层。
[0267]
图29是本技术实施例提供的一种训练得到第二声学模型的示意图。参见图29,计
算机设备获取的第二训练数据集包括骨导数据(骨导样本信号)和气导数据(气导样本信号),计算机设备对骨导数据进行下采样和/或增益调整,对气导数据进行前端增强。计算机设备将骨导数据作为训练输入数据1,将气导数据作为训练输入数据2。计算机设备通过训练输入数据1和训练输入数据2训练网络模型(即第二初始声学模型),并通过损失函数、以及梯度下降算法和误差反向传播来调整网络模型,从而得到经训练的第二声学模型。其中,训练输入数据1和训练输入数据2可以对应同一个损失函数或不同的损失函数,本技术实施例对此不作限定。
[0268]
以训练第三声学模型为例,与上述语音唤醒的过程中可穿戴设备基于骨导信号和气导信号确定多个后验概率向量的方式2相对应地,在训练过程中,计算机设备将该多个第二样本信号对中各个第二样本信号对包括的骨导样本信号的起始部分和气导样本信号作为第三初始声学模型的输入,以训练第三初始声学模型,得到第三声学模型。或者,与上述语音唤醒的过程中可穿戴设备基于骨导信号和气导信号确定多个后验概率向量的方式3相对应地,在训练过程中,计算机设备将该多个第二样本信号对中各个第二样本信号对包括的骨导样本信号和气导样本信号作为第三初始声学模型的输入,以训练第三初始声学模型,得到第三声学模型。其中,第三初始声学模型的网络结构与第三声学模型的网络结构相同。即,第三初始声学模型也包括两个输入层、一个拼接层、一个网络参数层和一个输出层。
[0269]
示例性地,图30是本技术实施例提供的一种训练得到第三声学模型的示意图。参见图30,计算机设备获取的第二训练数据集包括骨导数据(骨导样本信号)和气导数据(气导样本信号),计算机设备对骨导数据进行下采样和/或增益调整,对气导数据进行前端增强。计算机设备将骨导数据或骨导数据中的起始部分作为训练输入数据1,将气导数据作为训练输入数据2。计算机设备通过训练输入数据1和训练输入数据2训练网络模型(即第三初始声学模型),并通过损失函数、以及梯度下降算法和误差反向传播来调整网络模型,从而得到经训练的第三声学模型。
[0270]
综上所述,在本技术实施例中,在训练过程中,也通过骨导样本信号对气导注册信号直接或者隐式地进行丢头补偿,从而构造训练输入数据来训练初始声学模型,得到经训练的声学模型。在语音唤醒的过程中用同样的方式通过骨导信号对气导信号进行直接地或隐式地丢头补偿,由于骨导信号包含声源输入的命令词信息,即骨导信号未丢头,因此本方案基于骨导信号进行唤醒词的检测的识别准确率较高,语音唤醒的准确率较高,且鲁棒性也得到提高。
[0271]
图31是本技术实施例提供的一种语音唤醒的装置3100的结构示意图,该语音唤醒的装置3100可以由软件、硬件或者两者的结合实现成为电子设备的部分或者全部,该电子设备可以为图2所示的可穿戴设备。参见图31,该装置3100包括:语音检测模块3101、唤醒词检测模块3102和语音唤醒模块3103。
[0272]
语音检测模块3101,用于根据骨导麦克采集的骨导信号进行语音检测,该骨导信号包含声源输入的命令词信息;
[0273]
唤醒词检测模块3102,用于在检测到有语音输入的情况下,基于骨导信号进行唤醒词的检测;
[0274]
语音唤醒模块3103,用于在检测到该命令词包括唤醒词时,对待唤醒设备进行语音唤醒。
[0275]
可选地,唤醒词检测模块3102包括:
[0276]
第一确定子模块,用于基于骨导信号确定融合信号;
[0277]
唤醒词检测子模块,用于对该融合信号进行唤醒词的检测。
[0278]
可选地,该装置3100还包括:
[0279]
处理模块,用于开启空气麦克,通过空气麦克采集气导信号;
[0280]
第一确定子模块用于:
[0281]
将骨导信号的起始部分和气导信号进行融合,以得到融合信号,该骨导信号的起始部分根据语音检测的检测时延确定;或者,
[0282]
基于骨导信号的起始部分生成增强起始信号,将增强起始信号和气导信号进行融合,以得到融合信号,该骨导信号的起始部分根据语音检测的检测时延确定;或者,
[0283]
将骨导信号和气导信号直接进行融合,以得到融合信号。
[0284]
可选地,唤醒词检测子模块用于:
[0285]
将该融合信号包括的多个音频帧输入第一声学模型,以得到第一声学模型输出的多个后验概率向量,该多个后验概率向量与该多个音频帧一一对应,该多个后验概率向量中的第一后验概率向量用于指示该多个音频帧中的第一音频帧的音素属于多个指定音素的概率;
[0286]
基于该多个后验概率向量进行唤醒词的检测。
[0287]
可选地,该装置3100还包括:
[0288]
处理模块,用于开启空气麦克,通过空气麦克采集气导信号;
[0289]
唤醒词检测模块3102包括:
[0290]
第二确定子模块,用于基于骨导信号和气导信号,确定多个后验概率向量,该多个后验概率向量与骨导信号和气导信号包括的多个音频帧一一对应,该多个后验概率向量中的第一后验概率向量用于指示该多个音频帧中的第一音频帧的音素属于多个指定音素的概率;
[0291]
唤醒词检测子模块,用于基于该多个后验概率向量进行唤醒词的检测。
[0292]
可选地,第二确定子模块用于:
[0293]
将骨导信号的起始部分和气导信号输入第二声学模型,以得到第二声学模型输出的第一数量个骨导后验概率向量和第二数量个气导后验概率向量,该骨导信号的起始部分根据语音检测的检测时延确定,第一数量个骨导后验概率向量与骨导信号的起始部分所包括的音频帧一一对应,第二数量个气导后验概率向量与气导信号所包括的音频帧一一对应;
[0294]
将第一骨导后验概率向量和第一气导后验概率向量进行融合,以得到第二后验概率向量,第一骨导后验概率向量对应骨导信号的起始部分的最后一个音频帧,该最后一个音频帧的时长小于帧时长,第一气导后验概率向量对应气导信号的第一个音频帧,该第一个音频帧的时长小于帧时长,该多个后验概率向量包括第二后验概率向量、第一数量个骨导后验概率向量中除第一骨导后验概率向量之外的向量,以及第二数量个气导后验概率向量中除第一气导后验概率向量之外的向量。
[0295]
可选地,第二确定子模块用于:
[0296]
将骨导信号的起始部分和气导信号输入第三声学模型,以得到第三声学模型输出
的多个后验概率向量,该骨导信号的起始部分根据语音检测的检测时延确定;或者,
[0297]
将骨导信号和气导信号输入第三声学模型,以得到第三声学模型输出的多个后验概率向量。
[0298]
可选地,唤醒词检测子模块用于:
[0299]
基于该多个后验概率向量和唤醒词对应的音素序列,确定该命令词对应的音素序列包括唤醒词对应的音素序列的置信度;
[0300]
在该置信度超过置信度阈值的情况下,确定检测到该命令词包括唤醒词。
[0301]
可选地,唤醒词检测子模块用于:
[0302]
基于该多个后验概率向量和唤醒词对应的音素序列,确定该命令词对应的音素序列包括唤醒词对应的音素序列的置信度;
[0303]
在该置信度超过置信度阈值,且该多个后验概率向量与多个模板向量之间满足距离条件的情况下,确定检测到该命令词包括唤醒词,该多个模板向量指示包含唤醒词的完整信息的语音信号的音素属于多个指定音素的概率。
[0304]
可选地,在该多个后验概率向量与该多个模板向量一一对应的情况下,该距离条件包括:该多个后验概率向量与对应的模板向量之间的距离的均值小于距离阈值。
[0305]
可选地,该装置3100还包括:
[0306]
获取模块,用于获取骨导注册信号,该骨导注册信号包含唤醒词的完整信息;
[0307]
确定模块,用于基于骨导注册信号和唤醒词对应的音素序列,确定置信度阈值和多个模板向量。
[0308]
可选地,确定模块包括:
[0309]
第三确定子模块,用于基于骨导注册信号确定融合注册信号;
[0310]
第四确定子模块,用于基于该融合注册信号和唤醒词对应的音素序列,确定置信度阈值和多个模板向量。
[0311]
可选地,第四确定子模块用于:
[0312]
将该融合注册信号包括的多个注册音频帧输入第一声学模型,以得到第一声学模型输出的多个注册后验概率向量,该多个注册后验概率向量与该多个注册音频帧一一对应,该多个注册后验概率向量中的第一注册后验概率向量指示该多个注册音频帧中的第一注册音频帧的音素属于多个指定音素的概率;
[0313]
将该多个注册后验概率向量确定为多个模板向量;
[0314]
基于该多个注册后验概率向量和唤醒词对应的音素序列确定置信度阈值。
[0315]
可选地,该装置3100还包括:
[0316]
获取模块,用于获取气导注册信号;
[0317]
确定模块包括:
[0318]
第五确定子模块,用于基于骨导注册信号和气导注册信号,确定多个注册后验概率向量,该多个注册后验概率向量与骨导注册信号和气导注册信号包括的多个注册音频帧一一对应,该多个注册后验概率向量中的第一注册后验概率向量指示该多个注册音频帧中的第一注册音频帧的音素属于多个指定音素的概率;
[0319]
第六确定子模块,用于基于该多个注册后验概率向量和唤醒词对应的音素序列确定置信度阈值。
[0320]
在本技术实施例中,通过骨导麦克采集骨导信号进行语音检测,能够保证低功耗。另外,考虑到由于语音检测的延迟可能会导致采集的气导信号丢头,从而未包含声源输入的命令词的完整信息,而骨导麦克采集的骨导信号包含声源输入的命令词信息,即骨导信号未丢头,因此本方案基于骨导信号进行唤醒词的检测。这样,唤醒词的识别准确率较高,语音唤醒的准确度较高。
[0321]
需要说明的是:上述实施例提供的语音唤醒的装置在进行语音唤醒时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音唤醒的装置与语音唤醒的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0322]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如:同轴电缆、光纤、数据用户线(digital subscriber line,dsl))或无线(例如:红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质,或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如:软盘、硬盘、磁带)、光介质(例如:数字通用光盘(digital versatile disc,dvd))或半导体介质(例如:固态硬盘(solid state disk,ssd))等。值得注意的是,本技术实施例提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。
[0323]
应当理解的是,本文提及的“至少一个”是指一个或多个,“多个”是指两个或两个以上。在本技术实施例的描述中,除非另有说明,“/”表示或的意思,例如,a/b可以表示a或b;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,为了便于清楚描述本技术实施例的技术方案,在本技术的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
[0324]
以上所述为本技术提供的实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图