1.本发明涉及数字音频信号处理技术领域,尤其涉及一种音频传输方法及系统。
背景技术:2.opus编码是一种有损声音编码,适用于网络上低延迟的即时声音传输。opus可以无缝调节高低比特率,在编码器内部它在较低比特率时使用线性预测编码在高比特率时候使用变换编码(在高低比特率交界处也使用两者结合的编码方式)。opus具有非常低的算法延迟(默认为22.5 ms),非常适合用于低延迟语音通话的编码,像是网络上的即时声音流、即时同步声音旁白等等,此外opus也可以通过降低编码比特率,达成更低的算法延迟,最低可以到5 ms。在多个听觉盲测中,opus都比mp3、aac、he-aac等常见格式,有更低的延迟和更好的声音压缩率。
3.opus集成了两种声音编码的技术:以语音编码为导向的silk和低延迟的celt。silk编码分支,主要负责语音信息的处理;celt编码分支,负责非语音信息的高频信号处理。然而在应急手持设备的应用上,如对讲机上应用算法流程,抢险现场除工作人员语音外,还有各种自然杂音,这些非语音信息一般是低频和中频,而采用原有的celt编码就增加了对带宽和存储资源的需求。
4.因此,亟需提供一种方案改善上述问题。
技术实现要素:5.本发明的目的在于提供一种音频传输方法及系统,对非语音音频进行压缩感知采样传输,能够更加高效地表示复杂场景下的非语音信号,实现更好的压缩比和音质,改善了原celt编码需要更多的带宽和存储资源的问题。
6.本发明提供的一种音频传输方法采用如下的技术方案:基于全连接层和inception模块构建压缩感知编码分支;基于inception结构并嵌入长短期记忆递归网络,得到改进的inception模型;基于所述改进的inception模型构建压缩感知解码分支;构建silk编码分支和silk解码分支;获取音频信号进行预处理后,得到待压缩信号;将所述待压缩信号的语音信号输入所述silk编码分支后,输出语音编码信号;将所述待压缩信号的非语音信号进行离散变换后,输入所述压缩感知编码分支,输出非语音编码信号;接收所述语音编码信号并输入所述silk解码分支后,输出语音解码信号;接收所述非语音编码信号并输入所述压缩感知解码分支后,输出非语音解码信号;融合所述语音解码信号和所述非语音解码信号,得到无损音频信号。
7.如上所述的一种音频传输方法,其中,将待压缩信号的非语音信号进行离散变换时,所述离散变换为基于n/8点快速傅里叶变换的改进的离散余弦变换(mdct)。
8.如上所述的一种音频传输方法,其中,对非语音信号进行基于n/8点快速傅里叶变换的改进的离散余弦变换的过程中,包括:将输入的n点非语音信号,经过改进的离散余弦变换后得到n/2点的频域信号,所述改进的离散余弦变换过程可以通过对所述非语音信号进行预处理并利用三角函数的对称性,简化为一个四型离散余弦变换模型, 表示为:,,式中,表示变换矩阵,表示四型离散余弦变换核矩阵因子,表示非语音信号的采样点,和为循环变量;基于三角函数的奇偶对称性,将所述四型离散余弦变换模型分解为两个n/4点的二型离散余弦变换模型进行双路并行计算,表示为:,,,式中,表示频域信号的偶数部分,表示频域信号的奇数部分,矩阵和均为n/4点的二型离散余弦变换的变换值,a和b表示由矩阵m旋转得到的输入信号,表示二型离散余弦变换核矩阵因子,表示单位矩阵;为组成的n/4
×
1的列阵列,为 组成的n/4
×
1的列阵列,。
9.如上所述的一种音频传输方法,其中,执行简化为一个四型离散余弦变换模型的过程中,包括:对所述非语音信号进行预处理,即左乘矩阵,表示为:表示为:表示为:,式中,表示重排矩阵;利用四型离散余弦变换核矩阵因子的余弦偶对称性,将所述预处理后的非语音信号两两相加,然后引入单位矩阵,矩阵m表示为:
。
10.如上所述的一种音频传输方法,其中,所述二型离散余弦变换模型分别采用n/8点快速傅里叶变换来实现,具体步骤包括组合成复数、旋转、n/8点快速傅里叶变换、旋转和双路输出。
11.如上所述的一种音频传输方法,其中,基于全连接层网络和inception模块构建压缩感知编码分支的过程中,包括:构建观测矩阵;将所述观测矩阵作为权重参数构建三个全连接层网络,分别为第一全连接层网络、第二全连接层网络和第三全连接层网络;构建inception模块;将所述第一全连接层网络、所述第二全连接层网络、所述inception模块和所述第三全连接层网络依次连接构建压缩感知编码分支。
12.如上所述的一种音频传输方法,其中,执行构建inception模块的过程中,包括:所述inception模块的第一条分支包含1
×
1卷积核和1
×
3卷积核,第二条分支包含1
×
1卷积核和1
×
3卷积核,第三条分支包含池化层和1
×
1卷积核,第四条分支包含1
×
1卷积核;将所述第一条分支、所述第二条分支、所述第三条分支和所述第四条分支的输出进行堆叠拼接后,经过卷积融合为一维特征并输出。
13.如上所述的一种音频传输方法,其中,得到改进的inception模型的过程中,包括:构建第一分支,所述第一分支由1
×
5卷积核构建而成;构建第二分支,所述第二分支由1
×
3卷积核和1
×
1卷积核构建而成;构建第三分支,所述第三分支由1
×
7卷积核构建而成;构建第四分支,所述第四分支由长短期记忆递归网络、激活层、全连接层和卷积层依次连接构建而成;将所述第一分支、所述第二分支、所述第三分支和所述第四分支的输出进行堆叠拼接后,经过卷积融合为一维特征并输出。
14.如上所述的一种音频传输方法,其中,基于所述改进的inception模块构建压缩感知解码分支的过程中,包括:基于全连接层网络、所述改进的inception模块、卷积层和激活函数构建重构网络,所述重构网络接收所述非语音编码信号并输出重构信号;将所述重构信号进行逆向改进的离散余弦变换后,输出非语音解码信号。
15.如上所述的一种音频传输系统,包括:信号处理模块,用于获取音频信号进行预处理后,得到待压缩信号;压缩感知编码模块,用于接收进行离散变换后的所述待压缩信号的非语音信号并输出非语音编码信号;压缩感知解码模块,用于接收所述非语音编码信号并输出非语音解码信号;silk编码模块,用于接收所述待压缩信号的语音信号并输出语音编码信号;silk解码模块,用于接收所述语音编码信号并输出语音解码信号;
融合模块,用于融合所述语音解码信号和所述非语音解码信号,得到无损音频信号。
16.本发明提供的一种音频传输方法及系统,其有益效果在于:1、本发明对opus编码流程进行改进,采用压缩感知编码替换原celt编码流程,更加高效地表示出复杂场景下的非语音信号,实现更好的压缩比和音质,在保持较低码率的同时,减少了对带宽和存储资源的需求。
17.2、本发明采用基于n/8点快速傅里叶变换的mdct将信号从时域转换为频域,实现计算复杂度低、处理速度快,更适宜在硬件平台实现,提高运行速度。
附图说明
18.图1为本发明实施例提供的音频传输方法流程图;图2为本发明实施例提供的压缩感知编码分支结构图;图3为本发明实施例提供的重构网络结构图。
具体实施方式
19.为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另外定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本文中使用的“包括”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
20.下面结合附图和实施例对本发明进一步说明:参见图1,本发明实施例提供了一种音频传输方法,包括:s1、基于全连接层和inception模块构建压缩感知编码分支;s2、基于inception结构并嵌入长短期记忆递归网络,得到改进的inception模型;基于所述改进的inception模型构建压缩感知解码分支;s3、构建silk编码分支和silk解码分支;s4、获取音频信号进行预处理后,得到待压缩信号;s5、将所述待压缩信号的语音信号输入所述silk编码分支后,输出语音编码信号;将所述待压缩信号的非语音信号进行离散变换后,输入所述压缩感知编码分支,输出非语音编码信号;s6、接收所述语音编码信号并输入所述silk解码分支后,输出语音解码信号;接收所述非语音编码信号并输入所述压缩感知解码分支后,输出非语音解码信号;s7、融合所述语音解码信号和所述非语音解码信号,得到无损音频信号。
21.在一些实施例中,将待压缩信号的非语音信号进行离散变换时,所述离散变换为基于n/8点快速傅里叶变换的改进的离散余弦变换。
22.在一些实施例中,对非语音信号进行基于n/8点快速傅里叶变换的改进的离散余弦变换的过程中,包括:
将输入的n点非语音信号,经过改进的离散余弦变换后得到n/2点的频域信号,所述改进的离散余弦变换过程可以通过对所述非语音信号进行预处理并利用三角函数的对称性,简化为一个四型离散余弦变换模型, 表示为:,,式中,表示变换矩阵,表示四型离散余弦变换核矩阵因子,表示非语音信号的采样点,和为循环变量;基于三角函数的奇偶对称性,将所述四型离散余弦变换模型分解为两个n/4点的二型离散余弦变换模型进行双路并行计算,表示为:,,,式中,表示频域信号的偶数部分,表示频域信号的奇数部分,矩阵和均为n/4点的二型离散余弦变换的变换值,a和b表示由矩阵m旋转得到的输入信号,表示二型离散余弦变换核矩阵因子,表示单位矩阵;为组成的n/4
×
1的列阵列,为 组成的n/4
×
1的列阵列,。
23.在一些实施例中,执行简化为一个四型离散余弦变换模型的过程中,包括:对所述非语音信号进行预处理,即左乘矩阵,表示为:表示为:表示为:,式中,表示重排矩阵;利用四型离散余弦变换核矩阵因子的余弦偶对称性,将所述预处理后的非语音信号两两相加,然后引入单位矩阵,矩阵m表示为:。
24.在一些实施例中,所述二型离散余弦变换模型分别采用n/8点快速傅里叶变换来
实现,具体步骤包括组合成复数、旋转、n/8点快速傅里叶变换、旋转和双路输出。
25.具体的,以为例,组合成复数的过程表示为:,式中,表示组合成的复数,为中个的第个值,为虚数单位。
26.进一步的,将组合成的复数进行旋转操作,表示为:,式中,表示旋转后的结果,为指数函数。
27.进一步的,对旋转后的结果进行n/8点快速傅里叶变换,可以表示为:,式中,表示快速傅里叶变换操作,为频域自变量。
28.再进一步的,对n/8点快速傅里叶变换后的结果再次旋转,表示为:,式中,表示旋转后的结果。
29.在一些实施例中,参见图2,基于全连接层网络和inception模块构建压缩感知编码分支的过程中,包括:构建观测矩阵;将所述观测矩阵作为权重参数构建三个全连接层网络,分别为第一全连接层网络、第二全连接层网络和第三全连接层网络;构建inception模块;将所述第一全连接层网络、所述第二全连接层网络、所述inception模块和所述第三全连接层网络依次连接构建压缩感知编码分支。
30.在一些实施例中,将非语音信号进行离散变换后输入观测矩阵进行压缩后得到输出信号,可以表示为:,式中,表示输出信号,表示观测矩阵,表示进行离散变换后的非语音信号。
31.进一步的,将所述非语音信号进行离散变换后作为第一全连接层网络的输入,所
述观测矩阵作为上述三个全连接层网络的权重参数,所述输出信号为第一全连接层网络的输出,第二全连接层网络将该输出信号作为输入,inception模块将第二全连接层网络的输出作为输入,第三全连接层网络将该inception模块的输出作为输入,第三全连接层网络的输出作为压缩感知编码分支的输出。
32.在一些实施例中,执行构建inception模块的过程中,包括:所述inception模块的第一条分支包含1
×
1卷积核和1
×
3卷积核,第二条分支包含1
×
1卷积核和1
×
3卷积核,第三条分支包含池化层和1
×
1卷积核,第四条分支包含1
×
1卷积核;将所述第一条分支、所述第二条分支、所述第三条分支和所述第四条分支的输出进行堆叠拼接后,经过卷积融合为一维特征并输出。
33.具体的,第一条分支中由一个1
×
1卷积核和两个1
×
3卷积核依次连接构建而成,第二条分支由一个1
×
1卷积核和一个1
×
3卷积核依次连接构建而成,第三条分支由一个池化层和一个1
×
1卷积核依次连接构建而成,第四条分支由一个1
×
1卷积核构建而成。
34.具体的,进行融合的卷积可以为1
×
1卷积。
35.在一些实施例中,参见图3,得到改进的inception模型的过程中,包括:构建第一分支,所述第一分支由1
×
5卷积核构建而成;构建第二分支,所述第二分支由1
×
3卷积核和1
×
1卷积核构建而成;构建第三分支,所述第三分支由1
×
7卷积核构建而成;构建第四分支,所述第四分支由长短期记忆递归网络、激活层、全连接层和卷积层依次连接构建而成;将所述第一分支、所述第二分支、所述第三分支和所述第四分支的输出进行堆叠拼接后,经过卷积融合为一维特征并输出。
36.具体的,第一分支由一个1
×
5卷积核构建而成,第二分支由一个1
×
3卷积核和一个1
×
1卷积核依次连接构建而成,第三分支由一个1
×
7卷积核构建而成,第四分支由一个长短期记忆递归网络、一个激活函数、一个全连接层和一个卷积层依次连接构建而成。具体的,激活函数可以为tanh函数。
37.在一些实施例中,基于所述改进的inception模块构建压缩感知解码分支的过程中,包括:基于全连接层网络、所述改进的inception模块、卷积层和激活函数构建重构网络,参见图3,所述重构网络接收所述非语音编码信号并输出重构信号;将所述重构信号进行逆向改进的离散余弦变换后,输出非语音解码信号。
38.在一些实施例中,一种音频传输系统,包括:信号处理模块,用于获取音频信号进行预处理后,得到待压缩信号;压缩感知编码模块,用于接收进行离散变换后的所述待压缩信号的非语音信号并输出非语音编码信号;压缩感知解码模块,用于接收所述非语音编码信号并输出非语音解码信号;silk编码模块,用于接收所述待压缩信号的语音信号并输出语音编码信号;silk解码模块,用于接收所述语音编码信号并输出语音解码信号;融合模块,用于融合所述语音解码信号和所述非语音解码信号,得到无损音频信
号。
39.虽然在上文中详细说明了本发明的实施方式,但是对于本领域的技术人员来说显而易见的是,能够对这些实施方式进行各种修改和变化。但是,应理解,这种修改和变化都属于权利要求书中所述的本发明的范围和精神之内。而且,在此说明的本发明可有其它的实施方式,并且可通过多种方式实施或实现。