1.本技术涉及数据处理技术领域,特别涉及一种车辆异响音频数据提取方法、装置、设备及可读存储介质。
背景技术:
2.随着时代发展,人们的品质意识越来越强。其中,在汽车消费领域,人们对车辆异响性能越来越关注,因此车辆异响性能的好坏将直接影响客户的购买意愿,于是各汽车制造商竭尽所能对其进行评价和控制。相关技术中,当汽车出现异响问题时,工作人员会对异响进行录音,并对异响进行评价,而后剔除录音文件中无用的、与异响无关的数据,再从录音文件中将异响数据提取出来,以进行进一步分析。
3.由此可见,目前异响音频数据的提取还是采用人工方法,即通过手工截取异响发生时间内的音频数据,该种方式不仅费时费力,效率低下,且截取数据的质量得不到保证。
技术实现要素:
4.本技术提供一种车辆异响音频数据提取方法、装置、设备及可读存储介质,以解决相关技术中通过人工手段提取异响音频数据而存在的效率低且质量无法得到保证的问题。
5.第一方面,提供了一种车辆异响音频数据提取方法,包括以下步骤:
6.对与待处理异响音频文件对应的帧序列数据中的每一帧数据进行mfcc分析,得到每一帧数据对应的mfcc参数序列;
7.基于mfcc参数序列分别计算每相邻两帧数据间的余弦相似度和幅值比率,得到与帧序列数据对应的余弦相似度序列和幅值比率序列;
8.根据所述余弦相似度序列和所述幅值比率序列确定出异响开始时刻和异响结束时刻;
9.基于所述异响开始时刻和所述异响结束时刻对所述帧序列数据进行数据提取,得到异响音频数据。
10.一些实施例中,在所述基于所述异响开始时刻和所述异响结束时刻对所述帧序列数据进行数据提取,得到异响音频数据的步骤之后,还包括:
11.根据分别与所述异响音频数据对应的异响持续时长、余弦相似度以及幅值比率计算得到异响风险指数;
12.基于所述异响风险指数对所述异响音频数据进行异响严重程度评价,得到异响评价结果。
13.一些实施例中,所述异响风险指数的计算公式为:
[0014][0015]
式中,risk_index表示异响风险指数,s_ref表示余弦相似度参考值,s表示余弦相似度,amp表示幅值比率,amp_ref表示幅值比率参考值,duration表示异响持续时长,
duration_ref表示异响持续时长参考值,w1、w2以及w3分别表示余弦相似度、幅值比率、异响持续时长的权重系数。
[0016]
一些实施例中,所述基于mfcc参数序列分别计算每相邻两帧数据间的余弦相似度和幅值比率,得到与帧序列数据对应的余弦相似度序列和幅值比率序列,包括:
[0017]
将帧序列数据中每相邻两帧数据对应的mfcc参数序列分别代入以下第一计算公式,得到每相邻两帧数据对应的余弦相似度,并生成与帧序列数据对应的余弦相似度序列;
[0018]
所述第一计算公式为:
[0019][0020]
式中,s(i)表示第i 1帧数据与第i帧数据之间的余弦相似度,m(i,t)表示第i帧数据对应的mfcc参数序列中的第t个mfcc参数,m(i 1,t)表示第i 1帧数据对应的mfcc参数序列中的第t个mfcc参数,t表示mfcc参数的总数。
[0021]
一些实施例中,所述基于mfcc参数序列分别计算每相邻两帧数据间的余弦相似度和幅值比率,得到与帧序列数据对应的余弦相似度序列和幅值比率序列,包括:
[0022]
将帧序列数据中每相邻两帧数据对应的mfcc参数序列分别代入以下第二计算公式,得到每相邻两帧数据对应的幅值比率,并生成与帧序列数据对应的幅值比率序列;
[0023]
所述第二计算公式为:
[0024][0025]
式中,amp(i)表示第i 1帧数据与第i帧数据之间的幅值比率,m(i,t)表示第i帧数据对应的mfcc参数序列中的第t个mfcc参数,m(i 1,t)表示第i 1帧数据对应的mfcc参数序列中的第t个mfcc参数,t表示mfcc参数的总数。
[0026]
一些实施例中,所述根据所述余弦相似度序列和所述幅值比率序列确定出异响开始时刻和异响结束时刻,包括:
[0027]
将余弦相似度序列中每个余弦相似度分别与余弦相似度阈值进行比较,并将幅值比率序列中的每个幅值比率分别与幅值比率第一阈值、幅值比率第二阈值进行比较;
[0028]
当余弦相似度序列中的第i个余弦相似度小于余弦相似度阈值且所述幅值比率序列中的第i个幅值比率大于幅值比率第一阈值,基于第i 1帧数据确定出异响开始时刻;
[0029]
当余弦相似度序列中的第j个余弦相似度小于余弦相似度阈值且所述幅值比率序列中的第j个幅值比率小于幅值比率第二阈值,基于第j帧数据确定出异响结束时刻。
[0030]
一些实施例中,在所述对与待处理异响音频文件对应的帧序列数据中的每一帧数据进行mfcc分析,得到每一帧数据对应的mfcc参数序列的步骤之前,还包括:
[0031]
对待处理异响音频文件进行分帧和加窗的预处理,以得到与所述待处理异响音频文件对应的帧序列数据。
[0032]
第二方面,提供了一种车辆异响音频数据提取装置,包括:
[0033]
处理单元,其用于对与待处理异响音频文件对应的帧序列数据中的每一帧数据进行mfcc分析,得到每一帧数据对应的mfcc参数序列;
[0034]
计算单元,其用于基于mfcc参数序列分别计算每相邻两帧数据间的余弦相似度和幅值比率,得到与帧序列数据对应的余弦相似度序列和幅值比率序列;
[0035]
确定单元,其用于根据所述余弦相似度序列和所述幅值比率序列确定出异响开始时刻和异响结束时刻;
[0036]
提取单元,其用于基于所述异响开始时刻和所述异响结束时刻对所述帧序列数据进行数据提取,得到异响音频数据。
[0037]
第三方面,提供了一种车辆异响音频数据提取设备,包括:存储器和处理器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现前述的车辆异响音频数据提取方法。
[0038]
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,以实现前述的车辆异响音频数据提取方法。
[0039]
本技术提供了一种车辆异响音频数据提取方法、装置、设备及可读存储介质,包括对与待处理异响音频文件对应的帧序列数据中的每一帧数据进行mfcc分析,得到每一帧数据对应的mfcc参数序列;基于mfcc参数序列分别计算每相邻两帧数据间的余弦相似度和幅值比率,得到与帧序列数据对应的余弦相似度序列和幅值比率序列;根据所述余弦相似度序列和所述幅值比率序列确定出异响开始时刻和异响结束时刻;基于所述异响开始时刻和所述异响结束时刻对所述帧序列数据进行数据提取,得到异响音频数据。本技术根据异响数据规律并结合余弦相似度序列、幅值比率序列来准确确定出异响开始时刻和异响结束时刻等信息,进而实现了异响音频数据的精确提取,不仅有效提升了异响音频数据的提取效率,还保证了异响音频数据的提取质量。
附图说明
[0040]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]
图1为本技术实施例提供的一种车辆异响音频数据提取方法的流程示意图;
[0042]
图2为本技术实施例提供的一种车辆异响音频数据提取装置的结构示意图;
[0043]
图3为本技术实施例提供的一种车辆异响音频数据提取设备的结构示意图。
具体实施方式
[0044]
为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0045]
本技术实施例提供了一种车辆异响音频数据提取方法、装置、设备及可读存储介质,其能解决相关技术中通过人工手段提取异响音频数据而存在的效率低且质量无法得到保证的问题。
[0046]
图1是本技术实施例提供的一种车辆异响音频数据提取方法,包括以下步骤:
[0047]
步骤s10:对与待处理异响音频文件对应的帧序列数据中的每一帧数据进行mfcc分析,得到每一帧数据对应的mfcc参数序列;
[0048]
示范性的,可以理解的是,相比传统的频谱分析,mfcc(mel frequency cepstrum coefficient,mel频率倒谱系数)考虑了人耳的听觉特性,更加深刻地描述了声音的音色特征,即将mfcc分析用于异响音频数据的提取及评价是十分适宜的。比如,有两帧音频数据,其频谱数据有差异,但人耳听起来是一样的,若采用传统的频谱分析方法,数据分析结果与人的主观感受是不一致的;但若采用mfcc分析方法,则由于mfcc考虑了人耳的听觉特性,因此其分析结果将是两帧数据无差异,即其与人的主观感受是一致的。
[0049]
因此,本实施例将对帧序列数据中的每一帧数据进行mfcc分析,以计算其mfcc参数,进而得到每一帧数据对应的mfcc参数序列,记为m;其中,第i帧数据的第t个mfcc参数可记为m(i,t),i、t为自然数,1≤i≤f,1≤t≤t,f为帧序列数据的总帧数,t为每一帧数据的mfcc参数的总个数,即每一帧数据有t个mfcc参数,可将其作为一个向量。
[0050]
进一步的,在所述对与待处理异响音频文件对应的帧序列数据中的每一帧数据进行mfcc分析,得到每一帧数据对应的mfcc参数序列的步骤之前,还包括:
[0051]
对待处理异响音频文件进行分帧和加窗的预处理,以得到与所述待处理异响音频文件对应的帧序列数据。
[0052]
示范性的,在本实施例中,将对录制得到的待处理的异响音频文件进行分帧和加窗的预处理。应当理解的是,异响音频文件是以一定的采样频率fs对声音信号进行采样得到的,而对于异响音频数据而言,其为瞬态信号,因此若将异响音频文件作为一个整体进行分析时,是无法得到有价值的信息的。由此可见,本实施例分帧的目的正是对音频数据进行分段,以保证异响特征分析有足够高的时间分辨率,进而得到更有价值的信息。
[0053]
具体的,将n个连续采样点集合成一个数据分析单位,该数据分析单位称为帧,则n为帧长;其中,n一般为2的指数次幂,即n=2z(z为自然数),以方便后续对音频数据进行特征提取。此外,本实施例还会对每一帧数据进行加窗操作(即施加窗函数),以减少频谱泄露。因此,经分帧和加窗的预处理后,即可得到帧序列x,设数据总帧数为f,则第i帧数据记为x(i),i为自然数,且1≤i≤f。
[0054]
步骤s20:基于mfcc参数序列分别计算每相邻两帧数据间的余弦相似度和幅值比率,得到与帧序列数据对应的余弦相似度序列和幅值比率序列;
[0055]
示范性的,可以理解的是,余弦相似度是描述两向量间贴近程度的参数,于是本实施例将运用余弦相似度描述相邻两帧mfcc向量(即相邻两帧数据分别对应的mfcc参数序列)的贴近程度,即相邻两帧音色(mfcc参数可理解为音色)的贴近程度;因此,将通过mfcc参数序列计算帧序列数据中每相邻两帧数据之间的余弦相似度,进而得到帧序列数据对应的余弦相似度序列。
[0056]
同时,应当理解的是,在异响音频文件中,异响发生时刻的幅值通常比其它时刻(即没有发生异响的时刻)的幅值要大。因此,本实施例中,将每一帧数据的mfcc参数序列视为一个向量,以计算其幅值,并通过计算相邻两帧数据的mfcc参数的幅值之比,得到每相邻两帧数据对应的mfcc参数之间的幅值比率,进而得到与帧序列数据对应的值比率序列。
[0057]
一些实施例中,所述基于mfcc参数序列分别计算每相邻两帧数据间的余弦相似度和幅值比率,得到与帧序列数据对应的余弦相似度序列和幅值比率序列,包括:
[0058]
将帧序列数据中每相邻两帧数据对应的mfcc参数序列分别代入以下第一计算公式,得到每相邻两帧数据对应的余弦相似度,并生成与帧序列数据对应的余弦相似度序列;
[0059]
所述第一计算公式为:
[0060][0061]
式中,s(i)表示第i 1帧数据与第i帧数据之间的余弦相似度,m(i,t)表示第i帧数据对应的mfcc参数序列中的第t个mfcc参数,m(i 1,t)表示第i 1帧数据对应的mfcc参数序列中的第t个mfcc参数,t表示mfcc参数的总数。
[0062]
示范性的,在本实施例中,将通过计算余弦相似度来获取相邻两帧数据间音色的突变特征,即基于以下第一计算公式计算得到每相邻两帧数据对应的余弦相似度:
[0063][0064]
式中,1≤i≤f-1,s(i)表示第i 1帧数据与第i帧数据之间的余弦相似度,其值为[0,2];m(i,t)表示第i帧数据对应的mfcc参数序列中的第t个mfcc参数,m(i 1,t)表示第i 1帧数据对应的mfcc参数序列中的第t个mfcc参数,t表示mfcc参数的总数。
[0065]
其中,式(1)等号右边第一项的取值范围为[-1,1],其值越大,表示两向量(即两帧数据对应的mfcc参数序列)越相似;其值越小,则表示两向量越不相似。因此,s(i)表示相邻两帧数据间音色的差异程度,其值越小,表示相邻两帧数据的参数差异越大,音色突变越大;其值越大,表示相邻两帧数据的参数差异越小,音色突变越小。此外,本实施例在式(1)等号右边第一项后面加1的目的是保证s(i)不为负值,以便于后续异响风险指数的计算处理。再将所有余弦相似度s(i)添加至同一集合中,即可形成余弦相似度序列,可记为s。
[0066]
一些实施例中,所述基于mfcc参数序列分别计算每相邻两帧数据间的余弦相似度和幅值比率,得到与帧序列数据对应的余弦相似度序列和幅值比率序列,包括:
[0067]
将帧序列数据中每相邻两帧数据对应的mfcc参数序列分别代入以下第二计算公式,得到每相邻两帧数据对应的幅值比率,并生成与帧序列数据对应的幅值比率序列;
[0068]
所述第二计算公式为:
[0069][0070]
式中,amp(i)表示第i 1帧数据与第i帧数据之间的幅值比率,m(i,t)表示第i帧数据对应的mfcc参数序列中的第t个mfcc参数,m(i 1,t)表示第i 1帧数据对应的mfcc参数序列中的第t个mfcc参数,t表示mfcc参数的总数。
[0071]
示范性的,在本实施例中,将通过计算幅值比率来获取相邻两帧数据间mfcc参数幅值的变化特征,即基于以下第二计算公式计算得到每相邻两帧数据对应的幅值比率:
[0072]
[0073]
式中,1≤i≤f-1,amp(i)表示第i 1帧数据与第i帧数据之间的幅值比率,其值大于0;m(i,t)表示第i帧数据对应的mfcc参数序列中的第t个mfcc参数,m(i 1,t)表示第i 1帧数据对应的mfcc参数序列中的第t个mfcc参数,t表示mfcc参数的总数
[0074]
需要说明的是,当amp(i)的值大于1时(即第i 1帧数据对应的幅值比第i帧的大),其值越大,表示相邻两帧数据中,第i 1帧数据对应的幅值与第i帧的差异越大;当amp(i)的值大于0且小于1时(即第i 1帧数据对应的幅值比第i帧的小),其值越小,表示相邻两帧数据中,第i 1帧数据对应的幅值与第i帧的差异越大。再将所有幅值比率amp(i)添加至同一集合中,即可形成幅值比率序列,可记为a。
[0075]
步骤s30:根据所述余弦相似度序列和所述幅值比率序列确定出异响开始时刻和异响结束时刻;
[0076]
具体的,所述根据所述余弦相似度序列和所述幅值比率序列确定出异响开始时刻和异响结束时刻,包括:
[0077]
将余弦相似度序列中每个余弦相似度分别与余弦相似度阈值进行比较,并将幅值比率序列中的每个幅值比率分别与幅值比率第一阈值、幅值比率第二阈值进行比较;
[0078]
当余弦相似度序列中的第i个余弦相似度小于余弦相似度阈值且所述幅值比率序列中的第i个幅值比率大于幅值比率第一阈值,基于第i 1帧数据确定出异响开始时刻;
[0079]
当余弦相似度序列中的第j个余弦相似度小于余弦相似度阈值且所述幅值比率序列中的第j个幅值比率小于幅值比率第二阈值,基于第j帧数据确定出异响结束时刻。
[0080]
示范性的,在本实施例中,将依据异响数据规律并结合余弦相似度序列、幅值比率序列,来获取包括异响开始时刻和异响结束时刻在内的异响特征时间。具体的,将对余弦相似度阈值进行预设置并记为s_limit;同时对幅值比率第一阈值和幅值比率第二阈值进行预设置,且将幅值比率第一阈值记为amp_limit1,其值可在大于1的自然数中选取;将幅值比率第二阈值记为amp_limit2,且其值可在(0,1)之间选取。需要说明的是,上述阈值的具体值可以根据实际需求设定,也可以在对大量异响相关数据进行统计处理后而获得。
[0081]
在实现相关阈值的设定后,将对余弦相似度序列s与幅值比率序列a进行检索,以判断余弦相似度序列s中各个余弦相似度s(i)与余弦相似度阈值s_limit之间的大小,以及幅值比率序列a中各个幅值比率amp(i)分别与幅值比率第一阈值amp_limit1、幅值比率第二阈值amp_limit2之间的大小,并根据判断结果确定出异响开始时刻和异响结束时刻。
[0082]
具体的,若s(i)《s_limit且amp(i)》amp_limit1,则定义第i 1帧数据为异响开始时刻的数据,1≤i≤f-1,此时异响开始时刻t_start可按下式进行计算:t_start=i*n/fs,其中,n为帧长,fs为异响音频文件的采样频率,n/fs即为每一帧数据的时间长度;而若s(j)《s_limit且amp(j)《amp_limit2,则定义第j帧数据为异响结束时刻的数据,1≤j≤f-1,此时异响结束时刻t_end可按下式进行计算:t_end=j*n/fs,其中,n为帧长,fs为异响音频文件的采样频率。
[0083]
比如,假设有连续的6帧数据,则余弦相似度序列s为(x1,x2,x3,x4,x5),幅值比率序列a为(y1,y2,y3,y4,y5),若s(1)=x1《s_limit且amp(1)=y1》amp_limit1,则第2帧数据为异响开始时刻的数据;若s(5)=x5《s_limit且amp(5)=y5《amp_limit2,则第5帧数据为异响结束时刻的数据。
[0084]
步骤s40:基于所述异响开始时刻和所述异响结束时刻对所述帧序列数据进行数
据提取,得到异响音频数据。
[0085]
示范性的,应当理解的是,一个异响音频文件中,可能存在同一个异响事件(由同一部件、同一原因、同一故障导致的异响)的多段异响数据,即存在多个异响开始时刻和异响结束时刻,且异响开始时刻和异响结束时刻是成对出现的。因此,通过成对出现的异响开始时刻和异响结束时刻即可从帧序列数据中将异响音频数据精确地提取出来。需要说明的是,若存在多个异响开始时刻和异响结束时刻,则可从帧序列数据中提取出多个异响音频数据。
[0086]
由此可见,本实施例通过对异响音频文件进行分帧、加窗和mfcc参数计算,为异响特征处理做好准备;通过计算余弦相似度来获取相邻两帧数据间音色的突变特征;通过计算幅值比率来获取相邻两帧数据间mfcc参数幅值的变化特征;依据异响数据规律,并结合余弦相似度序列、幅值比率序列来取得异响开始时刻和异响结束时刻等信息,实现了异响音频数据的精确提取,不仅有效提升了异响音频数据的提取效率,还保证了异响音频数据的提取质量。
[0087]
进一步的,在所述基于所述异响开始时刻和所述异响结束时刻对所述帧序列数据进行数据提取,得到异响音频数据的步骤之后,还包括:
[0088]
根据分别与所述异响音频数据对应的异响持续时长、余弦相似度以及幅值比率计算得到异响风险指数;其中,所述异响风险指数的计算公式为:
[0089][0090]
式中,risk_index表示异响风险指数,s_ref表示余弦相似度参考值,s表示余弦相似度,amp表示幅值比率,amp_ref表示幅值比率参考值,duration表示异响持续时长,duration_ref表示异响持续时长参考值,w1、w2以及w3分别表示余弦相似度、幅值比率、异响持续时长的权重系数;
[0091]
基于所述异响风险指数对所述异响音频数据进行异响严重程度评价,得到异响评价结果。
[0092]
示范性的,可以理解的是,异响给人的主观感受的好坏程度与异响幅值大小、异响音色的突变程度以及异响的持续时间有关,即异响幅值越大、异响音色突变越大、异响持续时间越长,给人的主观感受越差。而目前主要采用主观评价方式来实现异响评价,不过由于该种方式主观性强,以致评价结果因人而异,无法得到统一的、确切的、令人信服的评价结果,且无客观数据支撑。因此,本实施例为了解决上述问题,将通过设定一变量来评价异响给人的主观感受的好坏程度,该变量可称为异响风险指数,记为risk_index,其值越大,说明异响给人的主观感受越差。具体可结合余弦相似度s、幅值比率amp以及异响持续时长这三个参数来确定异响风险指数的计算方法。
[0093]
其中,异响持续时长duration可由异响开始时刻t_start和异响结束时刻t_end计算得到,即duration=t_end-t_start=(j-i)*n/fs,且可将异响开始时刻、异响结束时刻和异响持续时长统称为异响特征时间。通过以下计算公式即可计算得到异响风险指数risk_index:
[0094]
[0095]
式中,s_ref表示余弦相似度参考值,amp_ref表示幅值比率参考值,duration_ref表示异响持续时长参考值,w1、w2以及w3分别表示余弦相似度、幅值比率、异响持续时长的权重系数,且0《w1《1,0《w2《1,0《w3《1,w1 w2 w3=1;需要说明的是,余弦相似度参考值s_ref、幅值比率参考值amp_ref以及异响持续时长参考值duration_ref可通过对大量异响相关数据进行统计处理后而获得。
[0096]
应当理解的是,一个异响音频文件中,可能存在同一个异响事件的多段异响数据,即存在多个异响开始时刻、异响结束时刻和异响持续时间;且每段异响数据的开始时刻均对应一个余弦相似度和一个幅值比率。因此,可将各段异响数据开始时刻的余弦相似度和幅值比率分别进行平均,即得到式(3)中的余弦相似度s和幅值比率amp;且由于每段异响数据均对应一个异响持续时长,因此可将各段异响数据的异响持续时长进行平均,即得到式(3)中的异响持续时长。
[0097]
此外,在式(3)中等号右边乘10的目的是使异响风险指数的取值位于0至10之间,使之符合评价结果取值惯例。因此,在确定了异响音频数据对应的异响风险指数后,就可以通过该异响风险指数进行异响严重程度评价,以得到异响评价结果。
[0098]
可以理解的是,可直接将异响风险指数作为量化的异响评价结果,也可通过构建异响风险指数与异响严重程度等级之间的映射关系来确定异响评价结果。比如,异响风险指数的取值范围为[0,10],假设risk_index∈[0,1)对应异响严重程度为无影响,risk_index∈[1,3)对应异响严重程度为轻度,risk_index∈[3,6)对应异响严重程度为中度,risk_index∈[6,8)对应异响严重程度为重度,risk_index∈[8,10]对应异响严重程度为极重度;因此,若异响风险指数等于2.3,则异响评价结果是异响严重程度为轻度。需要说明的是,以上仅是实施例的呈现,还可以根据实际需求来进行等级划分,在此不作限定。
[0099]
由此可见,本实施例通过分析异响给人的主观感受的影响因素,结合余弦相似度、幅值比率以及异响持续时长这三个参数,确定了异响风险指数的计算方法,并对异响的严重程度进行了量化。综上,本实施例原理简单且计算简便,能自动获取异响开始时刻和结束时刻,方便了异响音频数据的提取;同时还运用客观测试数据对异响的严重程度进行了量化,得到了科学、合理以及令人信服的评价结果。
[0100]
参见图2所示,本技术还提供了一种车辆异响音频数据提取装置,包括:
[0101]
处理单元,其用于对与待处理异响音频文件对应的帧序列数据中的每一帧数据进行mfcc分析,得到每一帧数据对应的mfcc参数序列;
[0102]
计算单元,其用于基于mfcc参数序列分别计算每相邻两帧数据间的余弦相似度和幅值比率,得到与帧序列数据对应的余弦相似度序列和幅值比率序列;
[0103]
确定单元,其用于根据所述余弦相似度序列和所述幅值比率序列确定出异响开始时刻和异响结束时刻;
[0104]
提取单元,其用于基于所述异响开始时刻和所述异响结束时刻对所述帧序列数据进行数据提取,得到异响音频数据。
[0105]
进一步的,所述装置还包括评价单元,其用于:
[0106]
根据分别与所述异响音频数据对应的异响持续时长、余弦相似度以及幅值比率计算得到异响风险指数;
[0107]
基于所述异响风险指数对所述异响音频数据进行异响严重程度评价,得到异响评
价结果。
[0108]
进一步的,所述异响风险指数的计算公式为:
[0109][0110]
式中,risk_index表示异响风险指数,s_ref表示余弦相似度参考值,s表示余弦相似度,amp表示幅值比率,amp_ref表示幅值比率参考值,duration表示异响持续时长,duration_ref表示异响持续时长参考值,w1、w2以及w3分别表示余弦相似度、幅值比率、异响持续时长的权重系数。
[0111]
进一步的,所述计算单元具体用于:
[0112]
将帧序列数据中每相邻两帧数据对应的mfcc参数序列分别代入以下第一计算公式,得到每相邻两帧数据对应的余弦相似度,并生成与帧序列数据对应的余弦相似度序列;
[0113]
所述第一计算公式为:
[0114][0115]
式中,s(i)表示第i 1帧数据与第i帧数据之间的余弦相似度,m(i,t)表示第i帧数据对应的mfcc参数序列中的第t个mfcc参数,m(i 1,t)表示第i 1帧数据对应的mfcc参数序列中的第t个mfcc参数,t表示mfcc参数的总数。
[0116]
进一步的,所述计算单元具体还用于:
[0117]
将帧序列数据中每相邻两帧数据对应的mfcc参数序列分别代入以下第二计算公式,得到每相邻两帧数据对应的幅值比率,并生成与帧序列数据对应的幅值比率序列;
[0118]
所述第二计算公式为:
[0119][0120]
式中,amp(i)表示第i 1帧数据与第i帧数据之间的幅值比率,m(i,t)表示第i帧数据对应的mfcc参数序列中的第t个mfcc参数,m(i 1,t)表示第i 1帧数据对应的mfcc参数序列中的第t个mfcc参数,t表示mfcc参数的总数。
[0121]
进一步的,所述确定单元具体用于:
[0122]
将余弦相似度序列中每个余弦相似度分别与余弦相似度阈值进行比较,并将幅值比率序列中的每个幅值比率分别与幅值比率第一阈值、幅值比率第二阈值进行比较;
[0123]
当余弦相似度序列中的第i个余弦相似度小于余弦相似度阈值且所述幅值比率序列中的第i个幅值比率大于幅值比率第一阈值,基于第i 1帧数据确定出异响开始时刻;
[0124]
当余弦相似度序列中的第j个余弦相似度小于余弦相似度阈值且所述幅值比率序列中的第j个幅值比率小于幅值比率第二阈值,基于第j帧数据确定出异响结束时刻。
[0125]
进一步的,所述处理单元还用于:
[0126]
对待处理异响音频文件进行分帧和加窗的预处理,以得到与所述待处理异响音频文件对应的帧序列数据。
[0127]
需要说明的是,所属本领域的技术人员可以清楚地了解到,为了描述的方便和简
洁,上述描述的装置和各单元的具体工作过程,可以参考前述车辆异响音频数据提取方法实施例中的对应过程,在此不再赘述。
[0128]
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图3所示的车辆异响音频数据提取设备上运行。
[0129]
本技术实施例还提供了一种车辆异响音频数据提取设备,包括:通过系统总线连接的存储器、处理器和网络接口,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行,以实现前述的车辆异响音频数据提取方法的全部步骤或部分步骤。
[0130]
其中,网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0131]
处理器可以是cpu,还可以是其他通用处理器、dsp(digital signal processor,数字信号处理器)、asic(application specific integrated circuit,专用集成电路)、fpga(field programmable gatearray,现场可编程逻辑门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器,或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
[0132]
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像数据等)等。此外,存储器可以包括高速随存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、smc(smart media card,智能存储卡)、sd(secure digital,安全数字)卡、闪存卡(flash card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。
[0133]
本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现前述的车辆异响音频数据提取方法的全部步骤或部分步骤。
[0134]
本技术实施例实现前述的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、rom(read-only memory,只读存储器)、ram(random access memory,随机存取存储器)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0135]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、服务器或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的
计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0136]
本技术是参照根据本技术实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0137]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0138]
以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。