声音处理装置以及声音处理方法与流程-j9九游会真人

文档序号：34946743发布日期：2023-07-29 04:16阅读：10来源：国知局

1.本发明的一实施方式涉及声音处理装置以及声音处理方法，尤其涉及减小噪声的技术。

背景技术：

2.专利文献1的噪声门基于声音信号的频率谱估计稳定噪声的噪声谱。噪声门在声音信号的频率谱与噪声谱的信号电平比为阈值以上的情况下，直接输出频率谱。噪声门在声音信号的频率谱与噪声谱的信号电平比小于阈值的情况下，减小增益并输出。
3.现有技术文献
4.专利文献
5.专利文献1：日本特开2010-122617号公报
6.导致在根据噪声电平与声音的电平(level)之比(s/n)进行增益控制的情况下，在输入说话者声音时混有噪声。

技术实现要素：

7.考虑到以上的情况，本公开的一个方式的目的在于提供能够减小在输入说话者声音时的噪声的声音处理装置。
8.声音处理装置具备：收音部，对声音进行收音并生成第一声音信号；噪声估计部，估计噪声；增益控制部，基于由所述噪声估计部估计的噪声，对所述第一声音信号的增益进行控制，并输出第二声音信号；以及滤波器部，基于由所述噪声估计部估计的噪声，进行使所述第二声音信号的规定频带的成分减小的滤波器处理。
9.发明效果
10.根据本发明的一实施方式，能够减小在输入说话者声音时的噪声。
附图说明
11.图1是表示声音处理装置1的结构的框图。
12.图2是表示处理器12的功能性结构的框图。
13.图3是表示处理器12的动作的流程图。
14.图4是表示噪声减小部121的增益以及s/n的关系的图。
15.图5是表示eq122的增益以及噪声功率估计值的关系的图。
16.图6是表示多个频带各自的噪声成分的估计结果的图。
17.图7是表示噪声功率估计值的时间变化的图。
18.图8是作为参考例表示基于某带域(例如0～250hz)的噪声功率求出噪声功率估计值的情况下的噪声功率估计值的时间变化的图。
19.图9是表示变形例2所涉及的处理器12的功能性结构的框图。
20.图10是表示eq122的增益以及噪声功率估计值的关系的图。
21.图11是表示对每个带域的增益进行变更的情况下的eq122的增益以及噪声功率估计值的关系的图。
22.附图标记说明
23.1：声音处理装置；11：麦克风；12：处理器；13：ram；14：闪速存储器；15：通信部；20：相机；121：噪声减小部；122：eq；123：增益计算部；124：eq控制部；125：第一噪声估计部；126：第二噪声估计部；141：声音处理程序。
具体实施方式
24.图1是表示声音处理装置1的结构的框图。声音处理装置1具备麦克风11、处理器12、ram13、闪速存储器14以及通信部15。
25.麦克风11对声音进行收音。处理器12将由麦克风11收音的声音信号经由通信部15向外部的个人计算机(pc)等发送。
26.处理器12由cpu、dsp或者soc(片上系统(system on a chip))等构成。处理器12通过从作为存储介质的闪速存储器(闪存)14读出程序，并临时存储至ram13，从而进行各种各样的动作。程序包含声音处理程序141。
27.闪速存储器14存储处理器12的动作用程序。例如，闪速存储器14存储有上述声音处理程序141。处理器12通过声音处理程序141执行本发明的声音处理方法。
28.图2是表示处理器12的功能性结构的框图。图3是表示声音处理方法的动作的流程图。处理器12具有噪声减小部121、均衡器(eq)122、增益计算部123、eq控制部124、第一噪声估计部125以及第二噪声估计部126。这些功能性结构由声音处理程序141构成。噪声减小部121以及增益计算部123是本发明的增益控制部的一例。eq122以及eq控制部124是本发明的滤波器部的一例。
29.麦克风11对声音进行收音，生成第一声音信号(s11)。声音包含说话者的声音或者噪声。麦克风11将生成的第一声音信号向处理器12输出。
30.首先，第一噪声估计部125基于第一声音信号估计噪声功率(s12)。噪声功率的估计方法是何种方法皆可。例如，第一噪声估计部125将第一声音信号的规定区间的功率平均值中的最小值估计为噪声功率。
31.增益计算部123基于由第一噪声估计部125估计的噪声功率，计算噪声减小部121中的第一声音信号的增益(s13)。例如，增益计算部123以使噪声减小部121作为维纳滤波器发挥功能的方式，基于第一声音信号的功率s与噪声功率n之比(s/n)决定噪声减小部121的增益。
32.图4是表示噪声减小部121的增益以及s/n的关系的图。图4的图表的横轴是s/n，纵轴是噪声减小部121的增益。如图4所示，增益计算部123在s/n小的情况下使噪声减小部121的增益变小，在s/n大的情况下使噪声减小部121的增益变大。
33.噪声减小部121以由增益计算部123计算出的增益而输入第一声音信号，并输出第二声音信号(s14)。由此，噪声减小部121在说话者未发言的情况下使第二声音信号的电平变小，因此减小噪声。另一方面，噪声减小部121在说话者正发言的情况下使第二声音信号的电平变大，因此不会减小说话者的声音。
34.第二噪声估计部126基于第一声音信号的一部分带域估计噪声。例如，第二噪声估
计部126基于由第一噪声估计部125计算出的噪声功率之中的1khz以下的噪声功率，求出噪声功率估计值(s15)。
35.eq控制部124基于由第二噪声估计部126求出的噪声功率估计值，计算eq122的增益(s16)。eq122基于由eq控制部124计算的增益，进行使第二声音信号的规定频带的成分减小的处理(s17)。例如，eq122使第二声音信号的1khz以下的带域减小。
36.图5是表示eq122的增益以及噪声功率估计值的关系的图。图5的图表的横轴是噪声功率估计值，纵轴是eq122的增益。如图5所示，eq控制部124在噪声功率估计值小的情况下使eq122的增益变大，在噪声功率估计值大的情况下使eq122的增益变小。在图5的例中，eq控制部124在噪声功率估计值比规定值n1低的情况下，将eq122的增益设为最大值(例如0db)。也就是说，在噪声功率估计值比规定值n1低的情况下不进行eq122中的减小处理。在图5的例中，eq控制部124在噪声功率估计值比规定值n2高的情况下，将eq122的增益设为最小值(例如-36db)。eq控制部124在噪声功率估计值为规定值n1以上、n2以下的情况下，使eq122的增益与噪声功率估计值相应地以线性变化。
37.如上所述，噪声减小部121在说话者未发言的情况下使第二声音信号的电平变小，因此减小噪声。另一方面，噪声减小部121在说话者正发言的情况下使第二声音信号的电平变大，因此有时在第二声音信号中混有噪声。特别是，1khz以下的低频中包含的噪声在听觉上明显。但是，本实施方式的eq122以及eq控制部124基于噪声功率估计值使1khz以下的低频减小，因此能够减小在输入说话者声音时的噪声。此外，本实施方式的eq控制部124不依赖于第一声音信号的功率而仅基于噪声功率估计值设定eq122的增益。因此，能够不依赖于说话者的声音的电平而始终减小噪声。
38.(变形例1)
39.第二噪声估计部126也可以在多个频带中分别估计噪声成分，并基于该多个频带各自的噪声成分的估计结果估计噪声。
40.例如，第二噪声估计部126求出0～250hz的第一带域、250～500hz的第二带域、500～750hz的第三带域以及750～1000hz的第四带域各自的噪声功率。但是，带域的数量以及带宽不限于该例。
41.进而，第二噪声估计部126对各带域的噪声功率进行加权。对于在听觉上影响大的带域使权重大，对于在听觉上影响小的带域使权重小。例如，第二噪声估计部126将第一带域的加权系数设为0.8，将第二带域的加权系数设为0.1，将第三带域的加权系数设为0.05，将第四带域的加权系数设为0.05，对各带域的噪声功率乘以各自的加权系数，算出期待值。第二噪声估计部126将各带域的期待值相加。第二噪声估计部126将相加结果设为噪声功率估计值。
42.图6是表示多个频带各自的噪声成分的估计结果的图。第二噪声估计部126分别求出10db、20db、5db以及15db作为第一带域、第二带域、第三带域以及第四带域的噪声功率。第二噪声估计部126乘以各带域的加权系数，分别求出8、2、0.25、0.75作为第一带域、第二带域、第三带域以及第四带域的期待值。第二噪声估计部126将各带域的期待值相加，算出噪声功率估计值＝11。
43.这样，第二噪声估计部126划分为能够预测为噪声的影响大的带域与能够预测为噪声的影响小的带域并进行噪声估计。由此，第二噪声估计部126能够使eq122的滤波器处
理稳定。
44.图7是表示由第二噪声估计部126求出的噪声功率估计值的时间变化的图，图8是作为参考例表示基于某带域(例如0～250hz)的噪声功率求出噪声功率估计值的情况下的噪声功率估计值的时间变化的图。
45.如图8所示，在基于某带域(例如0～250hz)的噪声功率求出噪声功率估计值的情况下，有时在该带域中噪声功率瞬间变大或者变小，噪声功率估计值出现波动。因此，eq122的增益有可能出现波动。
46.相对于此，如图7所示，变形例1的第二噪声估计部126在多个频带中分别求出噪声功率并进行加权相加，由此即使在某带域中噪声功率瞬间变大或者变小的情况下，噪声功率估计值也不会出现波动。从而，变形例1的第二噪声估计部126能够使eq122的增益稳定。
47.另外，eq122也可以在比第二噪声估计部126估计的多个频带(第一带域至第四带域)窄的带域中进行滤波器处理。例如，eq122也可以仅对听觉上影响最大的带域(例如第一带域)进行滤波器处理。由此，eq122能够将音质的变化抑制到最低限度。
48.(变形例2)
49.第一噪声估计部125或者第二噪声估计部126也可以取得图像数据，并基于所取得的图像数据估计噪声。图9是表示变形例2所涉及的处理器12的功能性结构的框图。在该例中，声音处理装置1具备用于取得图像数据的相机20。此外，在该例中，第二噪声估计部126从相机20取得图像数据，并基于取得的图像数据估计噪声。
50.具体而言，第二噪声估计部126对图像数据中包含的噪声源进行辨识，并与辨识出的噪声源的状态相应地求出噪声功率估计值。噪声源例如包含人、pc、空调、换气扇或者吸尘器等。
51.第二噪声估计部126例如基于在规定时间内辨识的移动物体(例如步行者)的数量求出噪声功率估计值。在规定时间内辨识的移动物体(例如步行者)的数量越多，第二噪声估计部126将噪声功率估计值估计得越大，在规定时间内辨识的移动物体(例如步行者)的数量越少，第二噪声估计部126将噪声功率估计值估计得越小。
52.或者，第二噪声估计部126也可以基于远方的人物的数量求出噪声功率估计值。第二噪声估计部126也可以对空调的图像进行辨识，基于空调的状态(例如风扇的转速)求出噪声功率估计值。或者，第二噪声估计部126也可以基于空调的周围的物体的状态(例如窗帘的摆动程度)求出噪声功率估计值。或者，第二噪声估计部126也可以对空调的遥控器进行辨识，基于该遥控器所显示的设定温度求出噪声功率估计值。在制冷运行的空调的情况下，设定温度越低，第二噪声估计部126将噪声功率估计值估计得越大，设定温度越高，第二噪声估计部126将噪声功率估计值估计得越小。在制热运行的空调的情况下，设定温度越高，第二噪声估计部126将噪声功率估计值估计得越大，设定温度越低，第二噪声估计部126将噪声功率估计值估计得越小。
53.另外，既可以是第一噪声估计部125从相机20取得图像数据，并基于所取得的图像数据估计噪声，也可以是第一噪声估计部125以及第二噪声估计部126这双方从相机20取得图像数据，并基于所取得的图像数据估计噪声。此外，第一噪声估计部125或者第二噪声估计部126也可以基于第一声音信号以及图像数据估计噪声功率。
54.本实施方式的说明应该认为在全部方面均为例示，而不作限定。本发明的范围不
是由上述的实施方式而是由本发明的保护范围示出。进而，本发明的范围包含与本发明的保护范围均等的范围。
55.例如，eq控制部124也可以基于由第一噪声估计部125求出的噪声功率估计值，计算eq122的增益。eq控制部124也可以基于第一声音信号的功率s与噪声功率n之比(s/n)计算eq122的增益。
56.此外，在图5中，eq控制部124在噪声功率估计值为规定值n1以上、n2以下的情况下，使eq122的增益与噪声功率估计值相应地以线性变化。但是，eq控制部124不必须使eq122的增益与噪声功率估计值相应地以线性变化。
57.图10是表示eq122的增益以及噪声功率估计值的关系的图。图5的图表的横轴是噪声功率估计值，纵轴是eq122的增益。如图10所示，eq控制部124也可以在噪声功率估计值小的情况下，与噪声功率估计值相应地使eq122的增益缓慢变化，在噪声功率估计值以某种程度大的情况下，使eq122的增益急剧变化，在噪声功率估计值大的情况下，使eq122的增益缓慢变化。此外，eq控制部124也可以在噪声功率估计值为规定值以上的情况下，将eq122的增益设为最小值，在噪声功率估计值小于规定值的情况下，将eq122的增益设为最大值。
58.此外，如变形例1所示，在第二噪声估计部126在多个频带中分别求出噪声功率并求出噪声功率估计值的情况下，eq控制部124也可以基于求出的噪声功率估计值对eq122的每个带域的增益进行变更。
59.例如，图11是表示对每个带域的增益进行变更的情况下的eq122的增益以及噪声功率估计值的关系的图。在该例中，eq控制部124基于噪声功率估计值对eq122的第一带域以及第二带域各自的增益进行变更。在该例中，第一带域的最小值的增益比第二带域的最小值的增益小。也就是说，第一带域的减小量在总体上大，第二带域的减小量相对地小。在该例中，eq122不对第三带域以及第四带域的增益进行变更。
60.这样，eq控制部124也可以按每个带域对基于噪声功率估计值的eq122的增益进行变更。由此，eq122能够将音质的变化抑制为最低限度，并且准确地减小噪声。

当前第1页1