语音处理方法、语音处理装置、存储介质及电子设备与流程-j9九游会真人

文档序号:35684259发布日期:2023-10-09 02:01阅读:20来源:国知局


1.本公开涉及语音处理技术领域,具体而言,涉及一种语音处理方法、语音处理装置、计算机可读存储介质及电子设备。


背景技术:

2.音频数据中的多声源音频数据是多个声源音频在一个音频文件中加性融合,不同声源数据互相干扰。通过声源分离技术可以将多声源混合音频划分为几段独立的音频,每段音频对应一个声源,便于后续的处理和应用。如可以将会议室录入的多人的对话语音进行分离,得到每个人单独的音频。
3.相关技术中主要有传统数学方法和深度学习两种进行多声源分离的方法,随着深度学习技术的不断发展,基于深度学习的方法的多声源分离性能已经远超过传统数学方法。
4.但是,相关技术中的基于深度学习的多声源分离方法感受野不足,导致多声源分离的准确性降低。
5.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

6.本公开的目的在于提供一种语音处理方法、语音处理装置、计算机可读介质和电子设备,进而至少在一定程度上提高多声源语音分离的准确性。
7.根据本公开的第一方面,提供一种语音处理方法,包括:通过目标编码器对待分离混合语音进行编码,以得到所述待分离混合语音的编码特征;将所述编码特征输入到目标主干网络中,基于所述目标主干网络对所述编码特征进行多尺度特征提取,以得到所述待分离混合语音的分离位置掩码估计值,其中,所述目标主干网络包括至少一个多尺度特征提取模块,每个所述多尺度特征提取模块包括多尺度卷积子模块,所述多尺度卷积子模块包括m-1个级联的膨胀率不同的膨胀深度可分卷积单元,m为大于1的整数;将所述编码特征和所述分离位置掩码估计值输入到目标解码器中,以得到所述待分离混合语音的语音分离结果。
8.在一种示例性的实施方式中,基于前述实施方式,所述目标编码器包括卷积模块和第一激活函数,所述通过目标编码器对待分离混合语音进行编码,以得到所述待分离混合语音的编码特征包括:通过所述目标编码器的卷积模块,对所述待分离混合语音进行特征提取,以得到候选特征矩阵;通过所述第一激活函数对所述候选特征矩阵进行非线性映射,以过滤掉所述候选特征矩阵中的非负参数,得到所述编码特征。
9.在一种示例性的实施方式中,基于前述实施方式,所述目标主干网络包括的每个多尺度特征提取模块之间密集连接。
10.在一种示例性的实施方式中,基于前述实施方式,每个所述多尺度特征提取模块
还包括输入门,所述输入门用于对所述多尺度特征提取模块的输入特征进行通道数量调整,以使得调整后的输入特征通道数量和所述多尺度特征提取模块中的多尺度卷积子模块的输入通道数量相同。
11.在一种示例性的实施方式中,基于前述实施方式,所述目标主干网络中的每个所述多尺度特征提取模块通过以下方式对所述编码特征进行特征提取:所述多尺度特征提取模块中的所述多尺度卷积子模块根据所述多尺度特征提取模块的输入门的输出特征通道数量,对所述输入门的输出特征在通道维度进行划分,以得到m组分组特征;将所述m组分组特征中的前m-1个分组特征分别对应的输入到m-1个级联的膨胀率不同的膨胀深度可分卷积单元中,以对应的得到每个膨胀深度可分卷积单元的输出特征;合并m-1个膨胀深度可分卷积单元的输出特征和第m组分组特征,以得到所述多尺度卷积子模块的输出特征;根据所述多尺度卷积子模块的输出特征,得到所述多尺度特征提取模块的输出特征。
12.在一种示例性的实施方式中,基于前述实施方式,所述将所述m组分组特征中的前m-1个分组特征分别对应的输入到m-1个级联的膨胀率不同的膨胀深度可分卷积单元中,以对应的得到每个膨胀深度可分卷积单元的输出特征,包括:针对所述m-1个级联的膨胀深度可分卷积单元中的第i个膨胀深度可分卷积单元,基于第i个膨胀深度可分卷积单元的输出通道数量,对所述第i个膨胀深度可分卷积单元的输出进行切分,以得到第一输出特征和第二输出特征;将所述第一输出特征传递至第i 1个膨胀深度可分卷积单元,以基于所述第i个膨胀深度可分卷积单元的第一输出特征和所述m组分组特征中的第i 1个分组特征,确定出所述第i 1个膨胀深度可分卷积单元的输入特征;将所述第二输出特征确定为所述第i个膨胀深度可分卷积单元的输出特征。
13.在一种示例性的实施方式中,基于前述实施方式,每个所述多尺度特征提取模块还包括输出门,所述输出门包括第一一维卷积单元和第二一维卷积单元,所述根据所述多尺度卷积子模块的输出特征,得到所述多尺度特征提取模块的输出特征,包括:通过所述第一一维卷积单元对所述多尺度卷积子模块的输出特征进行非线性映射,以得到第一候选特征;通过所述第二一维卷积单元对从所述多尺度卷积子模块的输出特征中选择出有效特征,以得到第二候选特征;根据所述第一候选特征和所述第二候选特征的哈达玛积,得到所述多尺度特征提取模块的输出特征。
14.在一种示例性的实施方式中,基于前述实施方式,所述每个多尺度卷积子模块包括的m-1个膨胀深度可分卷积单元的膨胀率范围不同。
15.在一种示例性的实施方式中,基于前述实施方式,所述解码器包括转置卷积模块和第二激活函数。
16.根据本公开的第二方面,提供一种语音处理装置,包括:编码模块,被配置为通过目标编码器对待分离混合语音进行编码,以得到所述待分离混合语音的编码特征;多尺度特征提取模块,被配置为将所述编码特征输入到目标主干网络中,基于所述目标主干网络对所述编码特征进行多尺度特征提取,以得到所述待分离混合语音的分离位置掩码估计值,其中,所述目标主干网络包括至少一个多尺度特征提取模块,每个所述多尺度特征提取模块包括多尺度卷积子模块,所述多尺度卷积子模块包括m-1个级联的膨胀率不同的膨胀深度可分卷积单元,m为大于1的整数;解码模块,被配置为将所述编码特征和所述分离位置掩码估计值输入到目标解码器中,以得到所述待分离混合语音的语音分离结果。
17.根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的第一方面所述的语音处理方法。
18.根据本公开的第四方面,提供一种电子设备,其特征在于,包括:一个或多个处理器;以及存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的第一方面所述的语音处理方法。
19.根据本公开的第五方面,提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如第一方面所述的语音处理方法的步骤。
20.本公开的技术方案具有以下有益效果:
21.在本公开中,通过目标主干网络对待分离混合语音进行语音特征提取,而目标主干网络中包括多个级联的膨胀率不同的膨胀深度可分卷积单元,因此可以提取到多尺度的语音特征,即既有语音的全局特征,也有语音的细节特征,从而可以提高语音特征的提取性能,进而提高待混合语音的分离准确性。
22.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
23.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
24.图1示出本公开一示例性实施例中的一种相关技术中的多声源分离方法的流程示意图;
25.图2示出可以应用本公开示例性实施例的一种系统架构的示意图;
26.图3示出本公开一示例性实施例中的一种语音处理方法的流程示意图;
27.图4示出本公开一示例性实施例中的一种混合语音分离模型的示意图;
28.图5示出本公开一示例性实施例中的一种多尺度特征提取模块进行多尺度特征提取的方法的流程示意图;
29.图6示出本公开一示例性实施例中的一种多尺度特征提取模块的示意图;
30.图7示出本公开一示例性实施例中的一种多尺度卷积子模块的示意图;
31.图8示出本公开一示例性实施例中的一种膨胀深度可分卷积单元的示意图;
32.图9示出本公开示例性实施例中的一种语音处理装置的组成示意图;
33.图10示出可以应用本公开示例性实施例的一种电子设备的示意图。
具体实施方式
34.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
35.此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标
记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
36.非结构化数据中常包含混合音频数据,即一段音频中包含多个声源(一般是包含多个有效信息声源,无效信息声源视作噪声)。这些声源之间会相互干扰,导致后续难以准确的提取出音频片段中的有效数据。
37.如数据编织平台中需要涉及到提取非结构化数据项的问题,而语义、内容不清晰的数据项不仅无法提取其中的信息,还会对平台内部的知识图谱的建立造成影响。使用多声源语音分离技术可以将混合多人语音的音频数据分离,提取出只包含单个声源的音频片段,便于平台清晰方便的提取出音频片段中的信息进行后续知识图谱的建立。
38.假设某个混合音频中有c个声源,每个声源的音频分别为b1(t),b2(t),b3(t),......,其中t为时间,则混合音频可通过如下的公式(1)进行表示:
[0039][0040]
而声源分离算法的目的是将每个声源bi(t)都可以清晰可懂的分离出来。其目标函数可简写为下的公式(2):
[0041]
argmin|w1x(t)-s1(t)|

|wcx(t)-sc(t)|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0042]
即通过拟合[w1,w2,...,wc]
t
将混合音频分离成多个单声源音频数据。
[0043]
相关技术中的声源分离方法主要包括两种,一是传统数学方法,二是深度学习方法。基于深度学习的方法的性能优于传统数学方法,因此基于深度学习的混合声源分离方法是目前的主流方法。
[0044]
其中,一种基于深度学习的混合声源分离方法的处理过程可以参考图1所示,即对原始音频先进行数据预处理,如对原始音频进行归一化处理。然后,对预处理后的原始音频进行短时傅里叶变换,再基于分离模型进行混合语音分离,再经过逆短时傅里叶变换还原出纯净的单声源音频。其中,分离模型使用的是lstm(long short-term memory,长短时记忆网络)模型。
[0045]
然而,相关技术中的基于深度学习的方法感受野不足,难以提取语音信号这种超长时间序列的长时依赖性,导致其对混合语音的分离准确性较低。
[0046]
鉴于上述问题,本公开的示例性实施方式提供了一种语音处理方法。
[0047]
下面,先结合图2对本示例性实施方式运行环境的系统架构进行示例性说明。
[0048]
图2示出了系统架构的示意图,该系统架构200可以包括终端210与服务器220。其中,终端210可以是智能手机、平板电脑、台式电脑、笔记本电脑、智能穿戴式电子设备(如智能手表)等终端设备,服务器220泛指提供本示例性实施方式中语音处理方法的相关服务的后台系统。其中,服务器220可以是云服务器。终端210与服务器220之间可以通过有线或无线的通信链路形成连接,以进行数据交互。
[0049]
在一种示例性的实施方式中,可以由终端210执行本公开中的语音处理方法。例如,终端中可以存储预先训练好的目标编码器、目标主干网络和目标解码器的模型,然后,
基于目标编码器对待分离混合语音进行编码,得到编码特征,再将编码特征输入到目标主干网络中,得到待分离混合语音的分离位置掩码估计值,然后将分离位置掩码估计值和编码特征输入到目标解码器中,以得到语音分离结果。
[0050]
在另一种示例性的实施方式中,也可以由服务器220执行本公开中的语音处理方法。例如,服务器220中可以预先存储有训练好的目标编码器、目标主干网络和目标解码器的模型,服务器220获取到待分离混合语音后,可以先对待分离混合语音进行编码,得到编码特征,然后将编码特征作为目标主干网络的输入,基于目标主干网络得到待分离混合语音的分离位置掩码估计值,再将编码特征和分离位置掩码估计值输入到目标解码器中,通过目标解码器得到待分离语音的语音分离结果。
[0051]
由上可知,本示例性实施方式中的语音处理方法的执行主体可以是上述终端210,也可以是上述的服务器220,本公开对此不做限定。
[0052]
下面结合图3对本示例性实施方式中的一种语音处理方法进行说明,图3示出了该语音处理方法的示例性流程,其可以包括:
[0053]
步骤s310,通过目标编码器对待分离混合语音进行编码,以得到所述待分离混合语音的编码特征;
[0054]
步骤s320,将所述编码特征输入到目标主干网络中,基于所述目标主干网络对所述编码特征进行多尺度特征提取,以得到所述待分离混合语音的分离位置掩码估计值,其中,所述目标主干网络包括至少一个多尺度特征提取模块,每个所述多尺度特征提取模块包括多尺度卷积子模块,所述多尺度卷积子模块包括m-1个级联的膨胀率不同的膨胀深度可分卷积单元,m为大于1的整数;
[0055]
步骤s330,将所述编码特征和所述分离位置掩码估计值输入到目标解码器中,以得到所述待分离混合语音的语音分离结果。
[0056]
基于上述方法,通过目标主干网络对待分离混合语音进行语音特征提取,而目标主干网络中包括多个级联的膨胀率不同的膨胀深度可分卷积单元,因此可以提取到多尺度的语音特征,即既有语音的全局特征,也有语音的细节特征,从而可以提高语音特征的提取性能,进而提高待混合语音的分离准确性。
[0057]
下面对图3所示的步骤进行具体说明。
[0058]
在步骤s310中,通过目标编码器对待分离混合语音进行编码,以得到所述待分离混合语音的编码特征。
[0059]
举例而言,本公开中的混合语音分离模型包括3个部分,分别为编码器、主干网络和解码器。其中,目标编码器可以理解为对初始混合语音分离模型进行训练后得到的编码器。
[0060]
本公开中的编码器和解码器作用类似于短时傅里叶变换和逆短时傅里叶变换,编码器在非负约束下将输入待噪语音线性转换为某种表示形式,解码器则将编码器输出重建为纯净语音。编解码框架能够避免频域方法中的相位估计不完全导致无法高精度重建目标语音的问题,并且其参数可变的特性使得网络能够不断学习最优的编解码器结构,以提升网络整体性能表现。主干网络则基于编码器的输出特征计算出一组加权函数(分离位置掩码估计值),再将分离位置掩码估计值与编码器的输出特征相乘后输入解码器还原成语音。
[0061]
在一种示例性的实施方式中,目标编码器包括卷积模块和第一激活函数。基于此,
通过目标编码器对待分离混合语音进行编码,以得到所述待分离混合语音的编码特征可以包括:通过目标编码器的卷积模块,对所述待分离混合语音进行特征提取,以得到候选特征矩阵;通过第一激活函数对所述候选特征矩阵进行非线性映射,以过滤掉所述候选特征矩阵中的非负参数,得到所述编码特征。
[0062]
其中,卷积模块可以包括一维卷积模块,激活函数可以为relu(linear rectification function,修正线性单元)。
[0063]
举例而言,本公开中的编码器可以包括一维卷积模块和relu激活函数。在进行混合语音分离模型训练时,假设输入语音信号为其中,b为一次训练时输入中包含的混合语音个数,t为采样点数,则编码器可以通过如下的公式(3)进行表示:
[0064]
x=relu(-·
s) (3)
[0065]
在公式(3)中,l为采样后的语音长度,n为每个采样点编码后的位数,x为编码后的特征矩阵,w为编码器的转换矩阵。编码器的卷积核尺寸为k
23c
,步长为s
23c
。混合语音输入到编码器中后与转换矩阵相乘得到候选特征矩阵,再通过relu函数滤除其中的非负参数,从而得到编码器输出的编码特征。其中,w可以为一维卷积模块的参数,目标编码器中的w可以通过对一初始的编码器进行训练后得到。
[0066]
接下来,在步骤s320中,将所述编码特征输入到目标主干网络中,基于所述目标主干网络对所述编码特征进行多尺度特征提取,以得到所述待分离混合语音的分离位置掩码估计值。
[0067]
其中,目标主干网络包括至少一个多尺度特征提取模块,每个多尺度特征提取模块包括多尺度卷积子模块,多尺度卷积子模块包括m-1个级联的膨胀率不同的膨胀深度可分卷积单元,m为大于1的整数。
[0068]
在一种示例性的实施方式中,目标主干网络中包括的每个多尺度特征提取模块之间密集连接。即每一个多尺度特征提取模块的输出会通过密接连接传给其后面的每个多尺度特征提取模块。
[0069]
示例性的,图4示出本公开一示例性实施例中的一种混合语音分离模型的示意图。参考图4,如前所述,本公开中的混合语音分离模型可以包括编码器41、主干网络42和解码器43。其中,编码器41包括一维卷积模块conv1d和第一激活函数relu,主干网络42包括瓶颈层、多个密集连接的多尺度特征提取模块、扩展层和输出门。解码器43包括一维转置卷积模块trconv1d和第二激活函数。
[0070]
其中,瓶颈层可以通过卷积的方式减少输入到主干网络的编码特征的通道数,扩张层可以将瓶颈层缩放的通道数进行还原。这样,在不影响主干网络的处理准确性的情况下,可以提高主干网络的计算效率。
[0071]
举例而言,编码器41可以对输入的待分离混合语音进行编码,得到编码特征,然后将编码特征输入到主干网络42中,主干网络可以基于编码特征对待分离混合语音进行多尺度特征提取,以得到分离位置掩码估计值,然后将分离位置掩码估计值和编码特征输入到解码器43中,基于解码器43输出待分离混合语音的分离结果。
[0072]
在一种示例性的实施方式中,每个多尺度特征提取模块还包括输入门,所述输入门用于对所述多尺度特征提取模块的输入特征进行通道数量调整,以使得调整后的输入特
征通道数量和所述多尺度特征提取模块中的多尺度卷积子模块的输入通道数量相同。
[0073]
示例性的,图5示出本公开一示例性实施例中的一种多尺度特征提取模块进行多尺度特征提取的方法的流程示意图。参考图5,该方法可以包括步骤s510至步骤s540。
[0074]
在步骤s510中,多尺度特征提取模块中的多尺度卷积子模块根据所述多尺度特征提取模块的输入门的输出特征通道数量,对所述输入门的输出特征在通道维度进行划分,以得到m组分组特征。
[0075]
示例性的,图6示出本公开一示例性实施例中的一种多尺度特征提取模块的示意图。参考图6,多尺度特征提取模块包括输入门61、多尺度卷积子模块62和输出门63。其中,图6中的输出门63后面连接的denseconv和resconv分别用于对密集连接和残差连接进行特征通道数量调整,以适应后续所连接的模块的输入特征通道数量。
[0076]
举例而言,第j个多尺度特征提取模块的输入特征输入后首先基于如下的公式(4)通过输入门61进行卷积计算:
[0077]finput
=activation(normlization(conv1d(f
j-1
))) (4)
[0078]
在公式(4)中,f
j-1
为第j-1个多尺度特征提取模块的输出特征,为第j个多尺度特征提取模块输入门输出的特征,m为多尺度卷积子模块中的特征分组数,=为输入的混合语音的批次数量,l为特征长度,h为特征通道数。
[0079]
换言之,多尺度特征提取模块的输入门包括一维卷积层conv1d、正则化层normlization和激活函数层activation。输入门的作用是将输入特征通道维度进行扩维,保证分组操作后每组特征的通道维度与多尺度卷积子模块62的输入特征的通道维度相同。这使得多尺度卷积子模块能够有效的提取全局不同尺度的特征,若不扩维直接输入,则会导致每组膨胀深度可分卷积模块提取的特征不能完全体现特征f
j-1
在该尺度下的表现,破坏各组特征之间的相关性。
[0080]
经过当前的多尺度特征提取模块的输入门,对输入到当前的多尺度特征提取模块中的特征在特征通道维度进行扩维后,可以得到输入门的输出特征f
input
。输入门的输出特征可以输入到多尺度卷积子模块中,以进行多尺度特征提取。
[0081]
示例性的,图7示出本公开一示例性实施例中的一种多尺度卷积子模块的示意图。参考图7,多尺度卷积子模块可以包括分组单元71,多个级联的膨胀深度可分卷积单元72和concat拼接单元73。其中,分组单元用于对输入门的输出特征在通道维度进行分组,多个级联的膨胀深度可分卷积单元用于提取不同尺度的语音特征,cconcat单元用于对多个级联的膨胀深度可分卷积单元的输出特进行拼接合并,以得到多尺度卷积子模块的输出特征。
[0082]
举例而言,多尺度卷积子模块中的分组单元71可以根据预设的分组数量m对输入门的输出特征在通道维度上进行划分,以得到m组分组特征。以输入门的输出特征是f
input
为例,可以通过如下公式(5)将输入门的输出特征根据通道维度划分为m组。
[0083]
g1,g2,g3,...,gm=group(f
input
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0084]
在公式(5)中,为第i组特征,group()为分组操作,即将f
input
根据其通道数量将其进行划分,得到m组特征。以f
input
的特征通道数量为48,m为4为例,则可以将f
input
分为4组,每组12个通道。
[0085]
其中,m可以根据经验或者预训练过程确定。如可以分别设置m为不同的数值,对初
始混合语音分离模型进行训练,训练完成后,基于测试数据集对基于不同m训练得到的目标混合语音分离模型进行测试,将最终的混合语音分离模型中的m确定测试性能最好的目标混合语音分离模型中的m。
[0086]
在步骤s520中,将所述m组分组特征中的前m-1个分组特征分别对应的输入到m-1个级联的膨胀率不同的膨胀深度可分卷积单元中,以对应的得到每个膨胀深度可分卷积单元的输出特征。
[0087]
举例而言,得到m组分组特征后,可以将第1到第m-1组特征分别输入到m-1个级联的膨胀可分深度深度卷积单元72中进行处理,处理前后特征通道数维持不变,从而得到每个膨胀深度可分卷积单元的输出特征。
[0088]
示例性的,步骤s520的一种具体实施方式可以包括:针对所述m-1个级联的膨胀深度可分卷积单元中的第i个膨胀深度可分卷积单元,基于第i个膨胀深度可分卷积单元的输出通道数量,对所述第i个膨胀深度可分卷积单元的输出进行切分,以得到第一输出特征和第二输出特征;将所述第一输出特征传递至第i 1个膨胀深度可分卷积单元,以基于所述第i个膨胀深度可分卷积单元的第一输出特征和所述m组分组特征中的第i 1个分组特征,确定出所述第i 1个膨胀深度可分卷积单元的输入特征;将所述第二输出特征确定为所述第i个膨胀深度可分卷积单元的输出特征。
[0089]
举例而言,参考图7,每个膨胀深度可分卷积单元的输入可以包括两个部分,一部分是m-1个分组特征,一部分根据上一个膨胀深度可分卷积单元的输出确定。
[0090]
示例性的,图8示出本公开一示例性实施例中的一种膨胀深度可分卷积单元的示意图。参考图8,k为卷积核尺寸,对于每个膨胀深度可分卷积单元而言,其前一个膨胀深度可分卷积单元传递的特征from next与对应的分组特征from group合并后作为其输入,该输入依次通道卷积和尺寸为1的卷积(即逐点卷积)层、正则化层normalization、激活函数层activation、卷积核尺寸为3的膨胀卷积层dwconv(逐通道卷积)层进行处理,整个处理过程可以参考公式(6)所示:
[0091]di
=dwconv(activation(normalization(conv1d([gi,n
i-1
]))))
ꢀꢀꢀꢀ
(6)
[0092]
在公式(6)中,为上一个膨胀深度可分卷积单元向当前膨胀深度可分卷积单元传递的特征,为第i个膨胀深度可分卷积的输出,其中ci=h c
i-1
/2,即为n
i-1
和gi的通道数之和,当i=1时d1中不包括上一个膨胀深度可分卷积单元中的信息,即c1=h。第i个膨胀深度可分卷积的输出di根据通道数量切分为相同的两部分ni和oi(即ni和oi通道数量相同),ni传递至下一个膨胀深度可分卷积单元中进行更高精度的建模,oi则保留其固有特征作为当前的膨胀深度可分卷积单元的输出,也即作为多尺度卷积输出的一部分。即ni可以理解为上述的第一输出特征(即图8中的feature next),oi可以理解为上述的第二输出特征(即图8中的feature output)。
[0093]
换言之,对于前m-2个膨胀深度可分卷积单元而言,其输出特征为上述的第二输出特征,即oi,而对于第m-1个膨胀深度可分卷积单元而言,由于其不需要向下传递特征,所以不需要对其输出进行切分,其输出特征为d
m-1
,也可以对其进行切分,但其输出特征为n
m-1
和o
m-1

[0094]
在步骤s530中,合并m-1个膨胀深度可分卷积单元的输出特征和第m组分组特征,以得到所述多尺度卷积子模块的输出特征。
[0095]
举例而言,可以将m-1个膨胀深度可分卷积的输出特征与第m组分组特征拼接合并作为多尺度卷积子模块的输出,即可以通过如下的公式(7)确定出多尺度卷积子模块的输出特征f
ms

[0096]fms
=[o1,o2,...,o
m-1
,n
m-1
,gm]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0097]
继续参考图5,接下来,在步骤s540中,根据所述多尺度卷积子模块的输出特征,得到所述多尺度特征提取模块的输出特征。
[0098]
如前所述,每个所述多尺度特征提取模块还可以包括输出门。其中,输出门可以包括第一一维卷积单元和第二一维卷积单元。基于此,步骤s540的一种示例性实施方式可以包括:通过所述第一一维卷积单元对所述多尺度卷积子模块的输出特征进行非线性映射,以得到第一候选特征;通过所述第二一维卷积单元对从所述多尺度卷积子模块的输出特征中选择出有效特征,以得到第二候选特征;根据所述第一候选特征和所述第二候选特征的哈达玛积,得到所述多尺度特征提取模块的输出特征。
[0099]
举例而言,随着网络的层数的不断加深,f
ms
中会包含过多的之前层中的历史信息,其中有些是无用的信息,会阻碍网络中有效信息的传递,导致网络性能下降。因此,可以采用输出门滤除f
ms
中的无用信息,选择有用的数据传递至下层网络。如图6所示,输出门由两个并行的一维卷积模块组成,但两者激活函数不同,一个为tanh激活函数,一个为sigmoid激活函数,输出门的计算过程可以通过如下公式(8)表示:
[0100][0101]
在公式(8)中,为多尺度特征提取模块的输出门的输出,即第j个多尺度特征提取模块的输出,为哈达玛积。换言之,在本公开中,输出门首先通过tanh函数对特征进行非线性映射,再使用sigmoid函数对特征进行取舍,选择有效特征输出至下一个多尺度特征提取模块中,以此达到控制网络中信息流动的目的。
[0102]
在一种示例性的实施方式中,第i个膨胀深度可分卷积模块的膨胀率为2
i-1
,膨胀率随着层数的加深逐渐增大,这使得网络能够有不同大小的感受野来提取不同尺度的特征。多个膨胀模块堆叠后可视为小型的tcn(temporal convolutional network,时间卷积网络)网络。该小型tcn网络中,较浅的层感受野较小,且前面层传递来的特征较少,用于提取语音信号中的细节成分,而较深的层感受野较大,且接受了更多来自其他组的信息,用于提取语音信号中的全局成分。本公开中使用不同感受野处理不同组特征的方式,使得多尺度卷积输出的特征包含不同层次的信息,利于网络对语音信号类的长时间序列进行高精度的建模。
[0103]
在一种示例性的实施方式中,每个多尺度卷积子模块包括的m-1个膨胀深度可分卷积单元的膨胀率范围不同。
[0104]
举例而言,每个多尺度卷积子模块中的第1个膨胀深度可分卷积单元的膨胀率2
i-1
的i的起始值不同。如第1个多尺度特征提取模块中的多尺度卷积子模块的第1个膨胀深度可分卷积单元的膨胀率为1,即i的起始值为1,其m-1个膨胀深度可分卷积单元的膨胀率范围即为20到2
m-2
次方;第2个多尺度特征提取模块中的多尺度卷积子模块的第1个膨胀深度可分卷积单元的膨胀率为2,即i的起始值为2,其m-1个膨胀深度可分卷积单元的膨胀率范围即为21到2
m-1
次方;第3个多尺度特征提取模块中的多尺度卷积子模块的第1个膨胀深度
可分卷积单元的膨胀率为4,即i的起始值为3,其m-1个膨胀深度可分卷积单元的膨胀率范围即为22到2m次方,以此类推,可以确定出每个多尺度特征提取模块的多尺度卷积子模块中包括的m-1个膨胀深度可分卷积单元的膨胀率。
[0105]
通过不同多尺度特征提取模块和每个多尺度特征提取模块中的多个膨胀深度可分卷积单元,可以从多个维度提取到不同尺度的语音特征,进一步提高混合语音分离模型的建模精度,提高语音分离的准确性。
[0106]
继续参考图3,接下来,在步骤s330中,将所述编码特征和所述分离位置掩码估计值输入到目标解码器中,以得到所述待分离混合语音的语音分离结果。
[0107]
在一种示例性的实施方式中,解码器包括转置卷积模块和第二激活函数。也就是说,解码器可以理解为编码器的逆运算,从而还原出待分离混合语音中的每个单独的单声源。其中,解码器中的转置卷积模块可以理解为一维转置卷积模块,其步长和卷积核尺寸均与编码器中的一维卷积模块的步长和卷积核尺寸相同。
[0108]
举例而言,如图4所示,目标主干网络输出的分离位置掩码估计值与编码器输出相乘后,作为解码器的输入,通过解码器重建出待分离混合语音中的每个单独的纯净语音,可以用如下公式的(9)表示:
[0109][0110]
在公式(9)中,为解码器输出的每个单独的纯净语音,-*
为解码器的重构矩阵,mask为目标主干网络输出的分离位置掩码估计值,x为编码器输出的编码特征。
[0111]
在本公开中,先将多声源混合音频数据转换到频域进行编码,再对其进行不同尺度特征的提取,每一层网络都会提取音频数据的多尺度特征输入至下一层,并且每层的尺度在不断变大,最后将所有层的输出通过密集连接结合进行输出。该输出的多尺度特征包含了各个尺度的信息,即有小尺度的细节信息,也有大尺度的全局信息,等同于扩大了网络的感受野,以此获得更好的分离性能。
[0112]
与相关技术中的在频域框架下进行傅里叶变换以对输入的混合语音进行编码的方式相比,本公开使用编码器自适应的对语音进行编码,可以让网络自动学习最适合语音的编码方式。
[0113]
本公开中的主干网络中加入了瓶颈层、扩展层和输出门,加深了网络结构,增强了网络建模能力,提升性能。
[0114]
本公开相比于相关技术中的基于深度学习的多声源分离方法,还加入了多尺度特征提取模块。多尺度特征提取模块使用分组处理的方式,将一段长语音特征分段进行处理,每段特征使用不同的感受野大小的膨胀深度可分卷积单元处理,生成不同尺度的特征。每一个膨胀深度可分卷积单元的输入都是对应的分组特征和上一层膨胀深度可分卷积单元的输出,这导致不同尺度的特征之间是强相关的。最后将所有不同尺度特征结合输出,输出中包含语音从细节到全局的全方位信息,这使得网络能够对语音进行精细化的建模。
[0115]
此外,本公开中还通过使用多种结构和思想使得网络中的信息能充分的流动,以及减少计算量。其中,密集连接将所有多尺度特征提取模块的输入输出两两相连,以保证浅层的信息能流动至深层网络中。如图4所示,瓶颈结构(即主干网络中的瓶颈层、扩张层)通过缩放通道维度减少主干网络参数,主干网络中的输出门中包含门控机制筛选出特征中的冗余信息。其中,主干网络的输出门结构和多尺度特征提取模块的输出门的结构相同,此处
不再进行赘述。
[0116]
与此同时,本公开中的多尺度卷积子模块的分组操作在扩张感受野的同时也减小了网络计算量,即每个膨胀深度可分卷积单元只需计算本组部分的特征,而非全部的输入语音特征。
[0117]
需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0118]
进一步的,参考图9所示,本示例的实施方式中还提供了一种语音处理装置900,该语音处理装置900可以包括编码模块910、多尺度特征提取模块920、解码模块930。其中:
[0119]
编码模块910,被配置为通过目标编码器对待分离混合语音进行编码,以得到所述待分离混合语音的编码特征;
[0120]
多尺度特征提取模块920,被配置为将所述编码特征输入到目标主干网络中,基于所述目标主干网络对所述编码特征进行多尺度特征提取,以得到所述待分离混合语音的分离位置掩码估计值,其中,所述目标主干网络包括至少一个多尺度特征提取模块,每个所述多尺度特征提取模块包括多尺度卷积子模块,所述多尺度卷积子模块包括m-1个级联的膨胀率不同的膨胀深度可分卷积单元,m为大于1的整数;
[0121]
解码模块930,被配置为将所述编码特征和所述分离位置掩码估计值输入到目标解码器中,以得到所述待分离混合语音的语音分离结果。
[0122]
在一种示例性的实施方式中,基于前述实施例,所述目标编码器包括卷积模块和第一激活函数,基于此,所述编码模块910可以被具体配置为:通过所述目标编码器的卷积模块,对所述待分离混合语音进行特征提取,以得到候选特征矩阵;通过所述第一激活函数对所述候选特征矩阵进行非线性映射,以过滤掉所述候选特征矩阵中的非负参数,得到所述编码特征。
[0123]
在一种示例性的实施方式中,基于前述实施例,所述目标主干网络包括的每个多尺度特征提取模块之间密集连接。
[0124]
在一种示例性的实施方式中,基于前述实施例,每个所述多尺度特征提取模块还包括输入门,所述输入门用于对所述多尺度特征提取模块的输入特征进行通道数量调整,以使得调整后的输入特征通道数量和所述多尺度特征提取模块中的多尺度卷积子模块的输入通道数量相同。
[0125]
在一种示例性的实施方式中,基于前述实施例,所述目标主干网络中的每个所述多尺度特征提取模块通过以下方式对所述编码特征进行特征提取:所述多尺度特征提取模块中的所述多尺度卷积子模块根据所述多尺度特征提取模块的输入门的输出特征通道数量,对所述输入门的输出特征在通道维度进行划分,以得到m组分组特征;将所述m组分组特征中的前m-1个分组特征分别对应的输入到m-1个级联的膨胀率不同的膨胀深度可分卷积单元中,以对应的得到每个膨胀深度可分卷积单元的输出特征;合并m-1个膨胀深度可分卷积单元的输出特征和第m组分组特征,以得到所述多尺度卷积子模块的输出特征;根据所述多尺度卷积子模块的输出特征,得到所述多尺度特征提取模块的输出特征。
[0126]
在一种示例性的实施方式中,基于前述实施例,所述将所述m组分组特征中的前m-1个分组特征分别对应的输入到m-1个级联的膨胀率不同的膨胀深度可分卷积单元中,以对
应的得到每个膨胀深度可分卷积单元的输出特征,包括:针对所述m-1个级联的膨胀深度可分卷积单元中的第i个膨胀深度可分卷积单元,基于第i个膨胀深度可分卷积单元的输出通道数量,对所述第i个膨胀深度可分卷积单元的输出进行切分,以得到第一输出特征和第二输出特征;将所述第一输出特征传递至第i 1个膨胀深度可分卷积单元,以基于所述第i个膨胀深度可分卷积单元的第一输出特征和所述m组分组特征中的第i 1个分组特征,确定出所述第i 1个膨胀深度可分卷积单元的输入特征;将所述第二输出特征确定为所述第i个膨胀深度可分卷积单元的输出特征。
[0127]
在一种示例性的实施方式中,基于前述实施例,每个所述多尺度特征提取模块还包括输出门,所述输出门包括第一一维卷积单元和第二一维卷积单元,所述根据所述多尺度卷积子模块的输出特征,得到所述多尺度特征提取模块的输出特征,包括:通过所述第一一维卷积单元对所述多尺度卷积子模块的输出特征进行非线性映射,以得到第一候选特征;通过所述第二一维卷积单元对从所述多尺度卷积子模块的输出特征中选择出有效特征,以得到第二候选特征;根据所述第一候选特征和所述第二候选特征的哈达玛积,得到所述多尺度特征提取模块的输出特征。
[0128]
在一种示例性的实施方式中,基于前述实施例,所述每个多尺度卷积子模块包括的m-1个膨胀深度可分卷积单元的膨胀率范围不同。
[0129]
在一种示例性的实施方式中,基于前述实施例,所述解码器包括转置卷积模块和第二激活函数。
[0130]
上述装置中各模块的具体细节在方法部分实施方式中已经详细说明,未披露的细节内容可参见方法部分的实施方式内容,因而不再赘述。
[0131]
本公开的示例性实施方式还提供一种用于执行上述语音处理方法的电子设备,该电子设备可以是上述的终端210。一般的,该电子设备可以包括处理器与存储器,存储器用于存储处理器的可执行指令,处理器配置为经由执行可执行指令来执行上述的语音处理方法。
[0132]
下面以图10中的移动终端1000为例,对该电子设备的构造进行示例性说明。本领域技术人员应当理解,除了特别用于移动目的的部件之外,图10中的构造也能够应用于固定类型的设备。
[0133]
如图10所示,移动终端1000具体可以包括:处理器1001、存储器1002、总线1003、移动通信模块1004、天线1、无线通信模块1005、天线2、显示屏1006、摄像模块1007、音频模块1008、电源模块1009与传感器模块1010。
[0134]
处理器1001可以包括一个或多个处理单元,例如:处理器1010可以包括ap(application processor,应用处理器)、调制解调处理器、gpu(graphics processing unit,图形处理器)、isp(image signal processor,图像信号处理器)、控制器、编码器、解码器、dsp(digital signal processor,数字信号处理器)、基带处理器和/或npu(neural-network processing unit,神经网络处理器)等。
[0135]
处理器1001可以通过总线1003与存储器1002或其他部件形成连接。
[0136]
存储器1002可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器1001通过运行存储在存储器1002的指令,执行移动终端1000的各种功能应用以及数据处理。存储器1002还可以存储应用数据,例如存储图像、视频、音频等文件。
[0137]
移动终端1000的通信功能可以通过移动通信模块1004、天线1、无线通信模块1005、天线2、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块204可以提供应用在移动终端1000上2g、3g、4g、5g等移动通信j9九游会真人的解决方案。无线通信模块1005可以提供应用在移动终端1000上的无线局域网、蓝牙、近场通信等无线通信j9九游会真人的解决方案。
[0138]
显示屏1006用于实现显示功能,如显示用户界面、图像等。摄像模块1007用于实现拍摄功能,如拍摄图像、视频等。音频模块1008用于实现音频功能,如播放音频,采集待分离混合语音等。电源模块1009用于实现电源管理功能,如为电池充电、为设备供电、监测电池状态等。传感器模块1010可以包括深度传感器10101、速度传感器10102、陀螺仪传感器10103、气压传感器10104等,以实现相应的感应检测功能。
[0139]
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
[0140]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以从网络上被下载和安装,和/或基于可拆卸介质被安装。在该计算机程序被中央处理单元(cpu)执行时,执行本技术的方法和装置中限定的各种功能。
[0141]
本公开的示例性实施方式还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤,例如可以执行图3中的任意一个或多个步骤。
[0142]
本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0143]
在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或上述的任意合适的组合。
[0144]
此外,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、c 等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0145]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本技术旨在涵盖本公开的任何变型、用途或适应性变化,这些变型、用途或适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
[0146]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图