1.本技术涉及音频编码技术领域,特别涉及一种基于深度学习的音频降噪方法、系统、编码器及介质。
背景技术:
2.在语音通信中,往往需要对语音进行降噪,其中现有技术中,谱减法是使用较多的降噪方法,其中在谱减法中首先进行时频变换:将时域信号转换到频域,通常由傅里叶变换实现;噪声估计与消除:在安静或只有噪声时,基于频谱系数估计噪声谱,并将噪声谱减去,得到更新的谱系数;时频逆变换:将更新的谱系数转换到时域,通常由傅里叶逆变换实现;重叠相加:得到平滑的音频输出。但是该种方法对非平稳噪声的处理则存在弊端。另外其他基于神经网络的音频降噪方法,在特征提取过程中以频点为单位进行计算,使用了三层深度神经网络,存在占用很大的存储空间,运算量很大,较难部署在低功耗蓝牙设备。
技术实现要素:
3.针对语音降噪过程中,运算量大,需要较大的存储空间,无法部署在低功耗蓝牙设备中的问题,本技术提出一种基于深度学习的音频降噪方法、系统、编码器及介质。
4.第一方面,本技术提出一种基于深度学习的音频降噪方法,包括:在音频编码过程中,得到音频帧的原始谱系数,并对音频帧进行长期后置滤波器处理,确定融合因子;
5.通过预训练的多个神经网络对原始谱系数进行降噪处理,得到对应的多个增强谱系数;根据融合因子对多个增强谱系数进行融合,得到融合增强谱系数;根据融合增强谱系数继续完成对音频帧的编码。
6.可选的,通过预训练的多个神经网络对原始谱系数进行降噪处理,得到对应的多个增强谱系数,包括:通过预训练的第一神经网络在幅度谱上对原始谱系数进行降噪处理,得到第一增强谱系数;通过预训练的第二神经网络在倒谱上对原始谱系数进行降噪处理,得到第二增强谱系数。
7.可选的,通过预训练的第一神经网络在幅度谱上对原始谱系数进行降噪处理,得到第一增强谱系数,包括:根据原始谱系数确定对应的幅度谱特征;通过预训练的第一神经网络对幅度谱特征进行处理,得到降噪增益;根据降噪增益对原始谱系数进行降噪,得到第一增强谱系数。
8.可选的,通过预训练的第二神经网络在倒谱上对原始谱系数进行降噪处理,得到第二增强谱系数,包括:根据原始谱系数确定对应的倒谱特征;通过预训练的第二神经网络对倒谱特征进行处理,得到降噪倒谱;对降噪倒谱进行倒谱逆运算,得到第二增强谱系数。
9.可选的,第一神经网络的预训练过程包括:分别获取纯净语音和带噪语音的幅度谱特征;将纯净语音和带噪语音的幅度谱特征输入到神经网络中进行训练,使得经训练得到的第一神经网络根据输入的带噪语音的幅度谱特征输出降噪增益,从而根据降噪增益对带噪语音进行降噪。
10.可选的,第二神经网络的预训练过程包括:分别获取纯净语音和带噪语音的倒谱特征;将纯净语音和带噪语音的倒谱特征输入到神经网络中进行训练,使得经训练得到的第二神经网络根据输入的带噪语音的倒谱特征输出降噪倒谱,对带噪语音进行降噪。
11.可选的,在音频编码过程中,得到音频帧的原始谱系数,并对音频帧进行长期后置滤波器处理,确定融合因子,包括:通过长期后置滤波器对音频帧进行处理,得到音频帧对应的浊音参数;根据浊音参数计算融合因子,其中根据融合因子对第一增强谱系数和第二增强谱系数的融合比例进行调整。
12.第二方面,本技术提出一种基于深度学习的音频降噪系统,包括:用于在音频编码过程中,得到音频帧的原始谱系数,并对音频帧进行长期后置滤波器处理,确定融合因子的模块;用于通过预训练的多个神经网络对原始谱系数进行降噪处理,得到对应的多个增强谱系数的模块;用于根据融合因子对多个增强谱系数进行融合,得到融合增强谱系数的模块;用于根据融合增强谱系数继续完成对音频帧的编码的模块。
13.第三方面,本技术提出一种音频编码器,包括方案二中的基于深度学习的音频降噪系统。
14.第四方面,本技术提出一种计算机可读存储介质,其存储有计算机程序,其中计算机程序被操作以执行方案一中的基于深度学习的音频降噪方法。
15.第五方面,本技术提出一种计算机设备,其包括处理器和存储器,存储器存储有计算机程序,其中:处理器操作计算机程序以执行方案一中的基于深度学习的音频降噪方法。
16.本技术在编码过程中利用基于深度学习训练的多个神经网络,分别对音频帧进行谱系数增强,以实现音频降噪。然后对经过多个神经网络处理得到的增强谱系数进行融合,得到最终的谱系数。本技术基于现有的编码过程进行音频降噪,适用于低功耗蓝牙设备,避免算法延迟,提高用户体验。
附图说明
17.为了更清楚地说明本技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图示例性的示出了本技术的一些实施例。
18.图1是本技术基于深度学习的音频降噪方法的一个实施方式的示意图;
19.图2是本技术神经网络训练的一个实例的示意图;
20.图3是本技术音频降噪过程一个实例的示意图;
21.图4是本技术音频编码过程的一个实例的示意图;
22.图5是本技术基于深度学习的音频降噪系统的一个实施方式的示意图。
23.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
24.下面结合附图对本技术的较佳实施例进行详细阐述,以使本技术的优点和特征能更易于被本领域技术人员理解,从而对本技术的保护范围做出更为清楚明确的界定。
25.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
26.在语音通信中,往往需要对语音进行降噪,其中现有技术中,谱减法是使用较多的降噪方法,其中在谱减法中首先进行时频变换:将时域信号转换到频域,通常由傅里叶变换实现;噪声估计与消除:在安静或只有噪声时,基于频谱系数估计噪声谱,并将噪声谱减去,得到更新的谱系数;时频逆变换:将更新的谱系数转换到时域,通常由傅里叶逆变换实现;重叠相加:得到平滑的音频输出。但是该种方法对非平稳噪声的处理则存在弊端。另外其他基于神经网络的音频降噪方法,在特征提取过程中以频点为单位进行计算,使用了三层深度神经网络,存在占用很大的存储空间,运算量很大,较难部署在低功耗蓝牙设备。
27.针对上述问题,本技术提出一种基于深度学习的音频降噪方法、系统、编码器及介质。该方法包括:在音频编码过程中,得到音频帧的原始谱系数,并对音频帧进行长期后置滤波器处理,确定融合因子;通过预训练的多个神经网络对原始谱系数进行降噪处理,得到对应的多个增强谱系数;根据融合因子对多个增强谱系数进行融合,得到融合增强谱系数;根据融合增强谱系数继续完成对音频帧的编码。
28.本技术在编码过程中利用基于深度学习训练的第一神经网络和第二神经网络对音频帧进行谱系数增强,以实现音频降噪。然后对经过第一神经网络和第二神经网络处理得到的增强谱系数进行融合,得到最终的谱系数。本技术基于现有的编码过程,利用编码过程中已有的谱系数,通过基于深度学习的神经网络进行处理,能够降低算力,从而适用于低功耗蓝牙设备,避免算法延迟,提高用户体验。
29.下面,以具体的实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
30.图1是本技术基于深度学习的音频降噪方法的一个实施方式的示意图。
31.在图1所示的实施方式中,本技术的基于深度学习的音频降噪方法包括过程s101,在音频编码过程中,得到音频帧的原始谱系数,并对音频帧进行长期后置滤波器处理,确定融合因子。
32.在该实施方式中,本技术基于深度学习的音频降噪方法基于现有的编码过程进行,利用音频编码过程中对音频帧处理得到的原始谱系数进行降噪处理,得到增强的后的谱系数。另外,本技术采用两个神经网络对原始谱系数进行处理,后续通过融合因子对这两个处理结果进行融合。
33.可选的,在音频编码过程中,得到音频帧的原始谱系数,并对音频帧进行长期后置滤波器处理,确定融合因子,包括:通过长期后置滤波器对音频帧进行处理,得到音频帧对应的浊音参数;根据浊音参数计算融合因子,其中根据融合因子对第一增强谱系数和第二
增强谱系数的融合比例进行调整。
34.在该可选实施例中,在音频编码过程中,对音频帧进行重采样和长期后置滤波器处理后,输出相应的浊音参数。其中浊音参数包括基音存在标志pitch
present
,长期后置滤波器激活参数ltpf
active
,nc,以及normcorr等,其中基音存在标志pitch
present
表示当前音频帧中存在基音,长期后置滤波器激活参数ltpf
active
表示当前帧有基音且需要在解码器中激活长期后置滤波器,这两个标志为1都指示了当前音频帧中有较强的浊音成分。normcorr和nc分别为当前帧的归一化自相关和校准归一化自相关,其值范围为[0,1],其值越大表示其中的基音成分越强,当前帧越有可能是浊音。
[0035]
关于融合因子的计算过程如下公式所示:
[0036][0037]
上述公式中,是基音门限,表示当前帧有极低概率包含基音,此时当前音频帧通常不是浊音帧。具体的,关于基音门限的取值,可以根据典型的语音取经验值,譬如0.3。其中关于门限的取值,可根据实际的应用进行相应的调整。
[0038]
在图1所示的实施方式中,本技术的基于深度学习的音频降噪方法包括过程s102,通过预训练的多个神经网络对原始谱系数进行降噪处理,得到对应的多个增强谱系数。
[0039]
在该实施方式中,根据音频帧的不同类型,本技术采用不同的降噪处理。因此通过预训练的多个神经网络对音频帧的原始谱系数进行降噪处理,得到相应的多个增强谱系数。
[0040]
可选的,通过预训练的多个神经网络对原始谱系数进行降噪处理,得到对应的多个增强谱系数,包括:通过预训练的第一神经网络在幅度谱上对原始谱系数进行降噪处理,得到第一增强谱系数;通过预训练的第二神经网络在倒谱上对原始谱系数进行降噪处理,得到第二增强谱系数。
[0041]
在该可选实施例中,现有技术中的音频降噪方法,要么在降噪时对语音中的清音恢复较好,但浊音谐波损失较大,影响了音质;要么对浊音谐波恢复较好,但清音部分损失较多,音质不够明亮,并且现有技术网络结构复杂,不适合嵌入式系统部署。因此在本技术的方法中,通过第一神经网络在幅度谱上对音频进行降噪,从而保证对带噪清音的降噪效果;通过第二神经网络在倒谱上对音频进行降噪,保证对带噪浊音的降噪效果。本技术通过将第一神经网络和第二神经网络进行结合,分别在不同的领域对音频进行降噪,综合各种降噪的优点,并避免对应的缺点,提高降噪效果。可选的,通过预训练的第一神经网络在幅度谱上对原始谱系数进行降噪处理,得到第一增强谱系数,包括:根据原始谱系数确定对应的幅度谱特征;通过预训练的第一神经网络对幅度谱特征进行处理,得到降噪增益;根据降噪增益对原始谱系数进行降噪,得到第一增强谱系数。
[0042]
在该可选实施例中,在通过预训练的第一神经网络对音频帧的原始谱系数进行处理时,对原始谱系数进行特征提取,得到对应的幅度谱特征,然后通过第一神经网络对幅度谱特征进行处理,得到降噪增益。再利用得出的降噪增益处理原始谱系数,得到第一增强谱
系数。
[0043]
具体的,第一神经网络可选择cnn神经网络。通过cnn神经网络对原始谱系数进行处理时,首先按帧输入语音信号,并进行特征提取,得到幅度谱特征。然后将幅度谱特征输入到神经网络中,输出该音频帧原始谱系数对应的降噪增益,记为gain
nn
(k)。然后利用降噪增益对原始谱系数进行处理,得到第一增强谱系数,具体公式如下:
[0044]
x
′
(k)=x(k)*gain
nn
(k),k=0...n
f-1
[0045]
其中x(k)表示原始谱系数,x
′
(k)表示第一增强谱系数。然后继续后续的编码过程。
[0046]
可选的,第一神经网络的预训练过程包括:分别获取纯净语音和带噪语音的幅度谱特征;将纯净语音和带噪语音的幅度谱特征输入到神经网络中进行训练,使得经训练得到的第一神经网络根据输入的带噪语音的幅度谱特征输出降噪增益,从而根据降噪增益对带噪语音进行降噪。
[0047]
在该可选实施例中,对第一神经网络进行训练时,首先获取纯净语音和带噪语音,其中带噪语音可通过纯净语音和噪声的混合得到。然后在神经网络训练过程中,对纯净语音和带噪语音分别进行特征提取得到相应的幅度谱特征。通过纯净幅度谱特征和带噪幅度谱特征对神经网络进行训练,使得神经网络能够根据输入的带噪幅度谱特征,输出相应的降噪增益,从而实现对带噪语音的降噪处理。在该训练过程中,纯净幅度谱特征为训练目标。
[0048]
具体的,在对第一神经网络进行训练时,基于ld-mdct提取纯净语音和带噪语音的特征,具体如下:
[0049]
先计算谱系数:纯净语音:x(m)
→
x(k),带噪语音:xn(m)
→
xn(k);然后计算幅度谱最大值:纯净幅度谱最大值:带噪幅度谱最大值:再计算归一化幅度谱:纯净幅度谱特征:带噪幅度谱特征:
[0050]
然后计算降噪增益,即神经网络训练时的目标幅度谱增益:
[0051]
gain
target
(k)=y(k)/yn(k)
[0052]
同时计算损失函数,对神经网络的训练结果进行控制,保证训练出来的神经网络在进行音频帧处理时,保证处理的准确性。损失函数表示如下:loss=∑(gain
target
(k)-gain
nn
(k))2,其中其中yn(k)是神经网络的输入,gain
nn
(k)是神经网络的输出,训练的目标就是输入幅度谱、输出幅度谱增益,通过输出幅度谱增益和目标幅度谱增益的误差调整神经网络的权重和偏置,使得误差最小化。
[0053]
在图1所示的实施方式中,本技术的基于深度学习的音频降噪方法包括过程s103,通过预训练的第二神经网络对原始谱系数进行降噪处理,得到第二增强谱系数。
[0054]
在该实施方式中,本技术通过第二神经网络对原始谱系数进行处理,得到该音频帧对应的第二增强谱系数。在音频编码中,根据对音频帧的判断,音频帧大致可分为浊音帧,可能为浊音帧以及非浊音帧。因对针对音频帧的不同情况,对音频帧的降噪处理也会进行适当调整,以达到最优的降噪效果。因此,本技术通过第二神经网络对原始谱系数进行处理,得到第二增强谱系数。
[0055]
可选的,通过预训练的第二神经网络对原始谱系数进行降噪处理,得到第二增强谱系数,包括:根据原始谱系数确定对应的倒谱特征;通过预训练的第二神经网络对倒谱特征进行处理,得到降噪倒谱;对降噪倒谱进行倒谱逆运算,得到第二增强谱系数。
[0056]
在该可选实施例中,第二神经网络在对原始谱系数处理时,是在倒谱上进行处理。第一神经网络是在幅度谱上进行降噪处理。因此通过两个神经网络在不同方面进行降噪处理,在对不同该类型音频帧降噪处理时,仍然保证有较好的降噪效果。通过预训练的第二神经网络对原始谱系数的倒谱特征进行处理,得到降噪后的降噪倒谱,然后利用降噪倒谱进行倒谱逆运算,得到的人增强谱系数。
[0057]
具体的,第二神经网络可选择rnn神经网络,通过第二神经网络进行音频帧的降噪处理的过程如下:首先按帧输入语音信号并执行特征提取,得到倒谱特征;然后将带噪倒谱特征输入神经网络,输出降噪倒谱c
nn
(k);对倒谱c
nn
(k)取指数、执行逆dct-ii得到降噪谱系数,也就是第二增强谱系数,具体计算公式如下:
[0058][0058]
然后根据得到的第二增强谱系数继续完成其余编码模块,包括变换域噪声整形、时域噪声整形、量化、噪声电平估计、算术编码残差编码与码流封装,得到降噪后的lc3码流。
[0059]
可选的,第二神经网络的预训练过程包括:分别获取纯净语音和带噪语音的倒谱特征;将纯净语音和带噪语音的倒谱特征输入到神经网络中进行训练,使得经训练得到的第二神经网络根据输入的带噪语音的倒谱特征输出降噪倒谱,对带噪语音进行降噪。
[0060]
在该可选实施例中,在对第二神经网络进行训练时,也是基于纯净语音和带噪语音进行训练。首先基于ld-mdct提取纯净语音和带噪语音的特征:
[0061]
首先计算音频帧的谱系数:纯净语音:x(m)
→
x(k),带噪语音:xn(m)
→
xn(k);然后计算幅度谱对数:纯净幅度谱对数:y(k)=in x2(k),k=0...n
f-1,带噪幅度谱对数:yn(k)=ln x
n2
(k),k=0...n
f-1;再计算纯净倒谱特征:执行dct-ii得到带噪倒谱特征:cn(k),计算方法同上。然后根据纯净倒谱特征和带噪倒谱特征对神经网络进行训练,使得经训练得到的第二神经网络根据输入的带噪语音的倒谱特征输出降噪倒谱。为了保证第二神经网络的训练效果,通过损失函数:loss=∑(c(n)-c
nn
(n))2进行神经网络训练结果的调整,保证经训练的第二神经网络进行降噪的准确性。
[0062]
具体的,图2是本技术神经网络训练的一个实例的示意图。
[0063]
如图2所示,本技术的第一神经网络和第二神经网络均适用于图2所示的神经网络训练过程。分别提取纯净语音特征和带噪语音特征并训练神经网络,训练结束输出网络模型和参数用于在线语音增强。其中关于噪声的获取可通过将噪声与纯净语音按帧相加,设一帧噪声n(m),一帧纯净语音x(m),此混合相加模块用于仿真实际中的带噪语音信号,具体叠加公式如下:xn(m)=x(m) n(m),m=0,1,...,n
f-1。
[0064]
在图1所示的实施方式中,本技术的基于深度学习的音频降噪方法包括过程s104,根据融合因子对第一增强谱系数和第二增强谱系数进行融合,得到第三增强谱系数。
[0065]
在该实施方式中,本技术通过多种方式进行音频的降噪,在得到第一增强谱系数和第二增强谱系数的降噪结果后,根据当前音频帧的不同类型,根据融合因子进行两个融合谱系数的融合,得到新的融合谱系数。
[0066]
具体的,图3是本技术音频降噪过程一个实例的示意图。
[0067]
如图3所示,在对音频帧编码时,对音频帧的原始谱系数分别进行特征提取,然后将得到的带噪幅度谱和带噪倒谱分别输入到第一神经网络cnn和第二神经网络rnn中进行处理,得到降噪增益和降噪倒谱。然后结合原始谱系数分别进行谱系数增强和倒谱逆变换,得到第一增强谱系数和第二增强谱系数,然后根据通过浊音参数确定的融合因子进行谱系数融合,得到最终的融合增强谱系数,然后进行继续进行后续的编码过程。
[0068]
具体的,图4是本技术音频编码过程的一个实例的示意图。
[0069]
如图4所示,图4所示的是一个完整的编码流程,其中本技术的降噪过程在如图中所示的降噪模块实现。本技术的降噪方法结合现有的编码过程,实现音频的降噪,不需要增加额外的处理模块,能够降低功耗和算力,符合低功耗蓝牙设备的要求。
[0070]
本技术在编码过程中利用基于深度学习训练的第一神经网络和第二神经网络对音频帧进行谱系数增强,以实现音频降噪。然后对经过第一神经网络和第二神经网络处理得到的增强谱系数进行融合,得到最终的谱系数。本技术基于现有的编码过程进行音频降噪,适用于低功耗蓝牙设备,避免算法延迟,提高用户体验。既可以用于低功耗蓝牙音频,也可以用于经典蓝牙(配合lc3编解码器),既可以用于蓝牙领域,也可以用于其他无线通信领域,特别是需要降噪的场景。
[0071]
图5是本技术基于深度学习的音频降噪系统的一个实施方式的示意图。
[0072]
在图5所示的实施方式中,本技术的基于深度学习的音频降噪系统包括:用于在音频编码过程中,得到音频帧的原始谱系数,并对音频帧进行长期后置滤波器处理,确定融合因子的模块501;用于通过预训练的多个神经网络对原始谱系数进行降噪处理,得到对应的多个增强谱系数的模块502;用于根据融合因子对多个增强谱系数进行融合,得到融合增强谱系数的模块503;以及用于根据融合增强谱系数继续完成对音频帧的编码的模块504。
[0073]
可选的,通过预训练的多个神经网络对原始谱系数进行降噪处理,得到对应的多个增强谱系数,包括:通过预训练的第一神经网络在幅度谱上对原始谱系数进行降噪处理,得到第一增强谱系数;通过预训练的第二神经网络在倒谱上对原始谱系数进行降噪处理,得到第二增强谱系数。
[0074]
可选的,通过预训练的第一神经网络在幅度谱上对原始谱系数进行降噪处理,得到第一增强谱系数,包括:根据原始谱系数确定对应的幅度谱特征;通过预训练的第一神经网络对幅度谱特征进行处理,得到降噪增益;根据降噪增益对原始谱系数进行降噪,得到第一增强谱系数。
[0075]
可选的,通过预训练的第二神经网络在倒谱上对原始谱系数进行降噪处理,得到第二增强谱系数,包括:根据原始谱系数确定对应的倒谱特征;通过预训练的第二神经网络对倒谱特征进行处理,得到降噪倒谱;对降噪倒谱进行倒谱逆运算,得到第二增强谱系数。
[0076]
可选的,第一神经网络的预训练过程包括:分别获取纯净语音和带噪语音的幅度谱特征;将纯净语音和带噪语音的幅度谱特征输入到神经网络中进行训练,使得经训练得到的第一神经网络根据输入的带噪语音的幅度谱特征输出降噪增益,从而根据降噪增益对
带噪语音进行降噪。
[0077]
可选的,第二神经网络的预训练过程包括:分别获取纯净语音和带噪语音的倒谱特征;将纯净语音和带噪语音的倒谱特征输入到神经网络中进行训练,使得经训练得到的第二神经网络根据输入的带噪语音的倒谱特征输出降噪倒谱,对带噪语音进行降噪。
[0078]
可选的,在音频编码过程中,得到音频帧的原始谱系数,并对音频帧进行长期后置滤波器处理,确定融合因子,包括:通过长期后置滤波器对音频帧进行处理,得到音频帧对应的浊音参数;根据浊音参数计算融合因子,其中根据融合因子对第一增强谱系数和第二增强谱系数的融合比例进行调整。
[0079]
本技术的基于深度学习的音频降噪系统在编码过程中利用基于深度学习训练的第一神经网络和第二神经网络对音频帧进行谱系数增强,以实现音频降噪。然后对经过第一神经网络和第二神经网络处理得到的增强谱系数进行融合,得到最终的谱系数。本技术基于现有的编码过程进行音频降噪,适用于低功耗蓝牙设备,避免算法延迟,提高用户体验。既可以用于低功耗蓝牙音频,也可以用于经典蓝牙(配合lc3编解码器),既可以用于蓝牙领域,也可以用于其他无线通信领域,特别是需要降噪的场景。
[0080]
在本技术的一个实施方式中,一种音频编码方法,其包括如上述任一实施例中的基于深度学习的音频降噪方法。
[0081]
在本技术的一个实施方式中,一种音频编码器,其包括上述任一实施例中的基于深度学习的音频降噪系统。
[0082]
在本技术的一个实施方式中,一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行任一实施例描述的音基于深度学习的音频降噪方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
[0083]
软件模块可驻留在ram存储器、快闪存储器、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可装卸盘、cd-rom或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
[0084]
处理器可以是中央处理单元(英文:central processing unit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digital signal processor,简称:dsp)、专用集成电路(英文:application specific integrated circuit,简称:asic)、现场可编程门阵列(英文:field programmable gate array,简称:fpga)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如dsp与微处理器的组合、多个微处理器、结合dsp核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在asic中。asic可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
[0085]
在本技术的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的基于深度学习的音频降噪方法。
[0086]
在本技术所提供的实施方式中,应该理解到,所揭露的装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑
功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0087]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0088]
以上仅为本技术的实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。