音频检测方法、装置、计算机设备和存储介质与流程-j9九游会真人

文档序号：33319105发布日期：2023-03-03 18:59阅读：19来源：国知局

1.本技术涉及计算机技术领域，特别是涉及一种音频检测方法、装置、计算机设备和存储介质。

背景技术：

2.随着科学技术的发展，发音设备被应用于各行各业，比如，刷脸支付设备可通过喇叭等发音设备对支付结果进行语音播报。由于发音设备的应用广泛，因此，各发音设备的生产厂商在生产发音设备时，均会对所生产的发音设备进行质检，以确定发音设备所播放的音频为正常音频。
3.目前，主要是按比例抽取一定数量的发音设备，并采集抽取出的发音设备所播放的待检测音频，通过音频实验室中的硬件检测设备，对待检测音频进行检测，得到检测结果，并根据检测结果确定相应发音设备的质检结果。然而，通过硬件检测设备对待检测音频检测时所需要的试验环境较为复杂，从而导致音频检测的效率低。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够提升音频检测的效率的音频检测方法、装置、计算机设备和存储介质。
5.一种音频检测方法，所述方法包括：
6.获取待检测音频中的多个音频片段，确定第一检测模型和第二检测模型，其中，所述第一检测模型和第二检测模型为通过集成学习得到的模型；
7.提取每个音频片段分别在多个不同音频维度下的子音频特征；
8.通过所述第一检测模型，对由所述音频片段的至少一个子音频特征构成的第一特征集合进行音频检测处理，得到与所述音频片段对应的第一检测结果；
9.通过所述第二检测模型，对由所述音频片段的至少一个子音频特征构成的第二特征集合进行音频检测处理，得到与所述音频片段对应的第二检测结果；其中，所述第二特征集合中具有所述第一特征集合中没有的子音频特征：
10.根据各音频片段分别对应的第一检测结果和第二检测结果，确定与所述待检测音频对应的音频检测结果。
11.一种音频检测装置，所述装置包括：
12.特征获取模块，用于获取待检测音频中的多个音频片段，确定第一检测模型和第二检测模型，其中，所述第一检测模型和第二检测模型为通过集成学习得到的模型；提取每个音频片段分别在多个不同音频维度下的子音频特征；
13.检测处理模块，用于通过所述第一检测模型，对由所述音频片段的至少一个子音频特征构成的第一特征集合进行音频检测处理，得到与所述音频片段对应的第一检测结果；通过所述第二检测模型，对由所述音频片段的至少一个子音频特征构成的第二特征集合进行音频检测处理，得到与所述音频片段对应的第二检测结果；其中，所述第二特征集合
中具有所述第一特征集合中没有的子音频特征；
14.结果确定模块，用于根据各音频片段分别对应的第一检测结果和第二检测结果，确定与所述待检测音频对应的音频检测结果。
15.在一个实施例中，所述音频检测装置还用于获取待质检发音设备播放的待检测音频，并通过预设的分段时长和分段步长，对所述待检测音频进行分段处理，得到多个音频片段；根据所述待检测音频的音频检测结果，确定所述发音设备的质检结果。
16.在一个实施例中，所述音频检测装置还用于提取不同音频维度下的子音频特征；所述音频维度至少包括音色维度、音调维度和饱和度维度；所述音色维度的子音频特征包括梅尔倒谱特征和频谱质心特征；所述音调维度的子音频特征包括梅尔频谱特征；所述饱和度维度的子音频特征包括过零率特征和频谱平坦度特征；所述第一特征集合包括梅尔频谱特征和梅尔倒谱特征；所述第二特征集合包括梅尔频谱特征、梅尔倒谱特征、频谱质心特征过零率特征和频谱平坦度特征。
17.在一个实施例中，所述特征获取模块还用于确定快速傅里叶变换的采样点数与不同音频维度下的各子音频特征之间的对应关系；通过所述对应关系所包括的多个采样点数，对音频片段进行快速傅里叶变换，得到多个频谱图；根据所述对应关系，分别从每个频谱图中进行相应子音频特征的提取。
18.在一个实施例中，所述检测处理模块还包括第一检测模块，用于将与所述音频片段对应的频谱图分别与第一特征集合中的各子音频特征进行特征拼接处理，得到多个第一待处理特征；由所述第一检测模型对所述多个第一待处理特征进行特征处理，得到特征处理结果，并根据所述特征处理结果，得到所述音频片段的第一检测结果。
19.在一个实施例中，所述第一检测模型包括多个第一处理层；所述第一检测模块还用于通过多个第一处理层中的首个第一处理层，对所述多个第一待处理特征进行特征处理，得到首个第一处理层输出的结果；对于除首个第一处理层之外的各个第一处理层，均将相应第一处理层之前的前序第一处理层的输出结果作为相应第一处理层的输入数据，每个第一处理层均对各自的输入数据进行特征处理，得到各个第一处理层各自输出的结果；根据最后一层第一处理层输出的结果和所述多个第一待处理特征，得到与所述第一特征集合对应的特征处理结果。
20.在一个实施例中，所述检测处理模块还包括第二检测模块，用于将与所述音频片段对应的频谱图分别与第二特征集合中的各子音频特征进行特征拼接处理，得到多个第二待处理特征；由所述第二检测模型对所述多个第二待处理特征进行特征处理，得到特征处理结果，并根据所述特征处理结果，得到所述音频片段的第二检测结果。
21.在一个实施例中，所述第二检测模型包括多个第二处理层；所述第二检测模块还用于通过多个第二处理层中的首个第二处理层，对所述多个第二待处理特征进行特征处理，得到首个第二处理层输出的结果；对于除首个第二处理层之外的各个第二处理层，均将多个第二待处理特征、以及相应第二处理层之前的前序第二处理层的输出结果，作为相应第二处理层的输入数据，每个二处理层均对各自的输入数据进行特征处理，得到各个第二处理层各自输出的结果；根据最后一层第二处理层输出的结果，得到与所述第二特征集合对应的特征处理结果。
22.在一个实施例中，所述第二处理层包括池化层和卷积层；所述第二检测模块还用
于对于除首个第二处理层之外的各个第二处理层，均通过当前第二处理层中的卷积层，对位于当前第二处理层之前的前序第二处理层的输出结果和多个第二待处理特征进行卷积处理，得到卷积结果；通过所述当前第二处理层中的池化层对所述卷积结果和多个第二待处理特征进行池化处理，得到池化结果，并将所述池化结果作为当前第二处理层的输出结果。
23.在一个实施例中，所述结果确定模块还包括修正模块，用于确定所述第一检测模型和第二检测模型各自对应的模型权重；根据各音频片段分别对应的第一检测结果，确定待检测音频中正常音频片段与总音频片段之间的第一比值，并根据所述第一检测模型所对应的模型权重，对所述第一比值进行修正处理，得到第一修正值；根据各音频片段分别对应的第二检测结果，确定待检测音频中正常音频片段与总音频片段之间的第二比值，并根据所述第二检测模型所对应的模型权重，对所述第二比值进行修正处理，得到第二修正值；根据所述第一修正值和第二修正值，确定与所述待检测音频对应的音频检测结果。
24.在一个实施例中，所述修正模块还用于根据所述第一修正值和第二修正值，得到修正后的待检测音频所包括的正常音频片段的第一数量值和异常音频片段的第二数量值；当所述第一数量值大于第二数量值时，确定所述待检测音频为正常音频；当所述第一数量值小于或等于第二数量值时，确定所述待检测音频为异常音频。
25.在一个实施例中，所述音频检测装置还包括训练模块，用于获取第一样本语音、以及与所述第一样本语音对应的第一样本标签，获取第二样本语音以及与所述第二样本语音对应的第二样本标签；提取所述第一样本语音中的每个音频片段分别在多个不同音频维度下的子音频特征，得到第一样本特征集合；提取所述第二样本语音分别在多个不同音频维度下的子音频特征，得到第二样本特征集合；所述第二样本特征集合中具有第一样本特征集合中没有的子音频特征；通过待训练的第一检测模型对所述第一样本特征集合进行音频预测处理，得到与所述第一样本语音对应的第一预测结果；通过待训练的第二检测模型对所述第二样本特征集合进行音频预测处理，得到与所述第二样本语音对应的第二预测结果；通过所述第一预测结果和所述第一样本标签，对所述第一检测模型进行第一训练，直至达到第一训练停止条件时停止，得到训练完成的第一检测模型；通过所述第二预测结果和所述第二样本标签，对所述第二检测模型进行第二训练，直至达到第二训练停止条件时停止，得到训练完成的第二检测模型；综合训练完成的第一检测模型和第二检测模型，得到训练完成的音频检测模型。
26.在一个实施例中，所述训练模块还用于获取测试语音、以及与所述测试语音对应的测试标签；通过训练完成的第一检测模型对所述测试语音进行第一语音测试处理，得到第一测试结果，并确定所述第一测试结果与所述测试标签之间的第一差异；通过训练完成的第二检测模型对所述述测试语音进行第二语音测试处理，得到第二测试结果，并确定所述第二测试结果与所述测试标签之间的第二差异；根据所述第一差异与所述第二差异，确定所述第一检测模型与第二检测模型各自对应的模型权重；根据训练完成的第一检测模型、第一检测模型所对应的模型权重、训练完成的第二检测模型以及第二检测模型所对应的模型权重，得到训练完成的音频检测模型。
27.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
28.获取待检测音频中的多个音频片段，确定第一检测模型和第二检测模型，其中，所述第一检测模型和第二检测模型为通过集成学习得到的模型；
29.提取每个音频片段分别在多个不同音频维度下的子音频特征；
30.通过所述第一检测模型，对由所述音频片段的至少一个子音频特征构成的第一特征集合进行音频检测处理，得到与所述音频片段对应的第一检测结果；
31.通过所述第二检测模型，对由所述音频片段的至少一个子音频特征构成的第二特征集合进行音频检测处理，得到与所述音频片段对应的第二检测结果；其中，所述第二特征集合中具有所述第一特征集合中没有的子音频特征：
32.根据各音频片段分别对应的第一检测结果和第二检测结果，确定与所述待检测音频对应的音频检测结果。
33.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
34.获取待检测音频中的多个音频片段，确定第一检测模型和第二检测模型，其中，所述第一检测模型和第二检测模型为通过集成学习得到的模型；
35.提取每个音频片段分别在多个不同音频维度下的子音频特征；
36.通过所述第一检测模型，对由所述音频片段的至少一个子音频特征构成的第一特征集合进行音频检测处理，得到与所述音频片段对应的第一检测结果；
37.通过所述第二检测模型，对由所述音频片段的至少一个子音频特征构成的第二特征集合进行音频检测处理，得到与所述音频片段对应的第二检测结果；其中，所述第二特征集合中具有所述第一特征集合中没有的子音频特征：
38.根据各音频片段分别对应的第一检测结果和第二检测结果，确定与所述待检测音频对应的音频检测结果。
39.一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行以下步骤：获取待检测音频中的多个音频片段，确定第一检测模型和第二检测模型，其中，所述第一检测模型和第二检测模型为通过集成学习得到的模型；提取每个音频片段分别在多个不同音频维度下的子音频特征；通过所述第一检测模型，对由所述音频片段的至少一个子音频特征构成的第一特征集合进行音频检测处理，得到与所述音频片段对应的第一检测结果；通过所述第二检测模型，对由所述音频片段的至少一个子音频特征构成的第二特征集合进行音频检测处理，得到与所述音频片段对应的第二检测结果；其中，所述第二特征集合中具有所述第一特征集合中没有的子音频特征：根据各音频片段分别对应的第一检测结果和第二检测结果，确定与所述待检测音频对应的音频检测结果。
40.上述音频检测方法、装置、计算机设备、存储介质和计算机程序，通过获取待检测音频的音频片段，可对音频片段进行特征提取，得到多个不同音频维度下的子音频特征。通过得到多个不同音频维度下的子音频特征，可对各子音频特征进行划分，得到第一特征集合和第二特征集合，从而可基于第一检测模型对第一特征集合进行音频检测处理，得到第一检测结果，基于第二检测模型对第二特征集合进行音频检测处理，得到第二检测结果。通过确定各音频片段各自对应的第一检测结果和第二检测结果，可综合第一检测结果和第二
检测结果自动生成与待检测音频相对应的音频检测结果，从而提升了音频检测结果的准确性。由于是检测模型对待检测音频进行检测的，相比于传统的通过硬件检测设备对待检测音频进行检测，本技术无需部署复杂的试验环境，如此，便提升了音频检测的效率。
41.此外，由于硬件检测设备一般都较为昂贵，通过检测模型对待检测音频进行检测，还可以大大降低检测成本。
附图说明
42.图1为一个实施例中音频检测方法的应用环境图；
43.图2为一个实施例中音频检测方法的流程示意图；
44.图3为一个实施例中模型训练步骤的流程示意图；
45.图4为一个实施例中样本语音的示意图；
46.图5为一个实施例中模型训练的流程示意图；
47.图6为一个实施例中模型训练的整体框架示意图；
48.图7为一个实施例中发音设备质检的流程示意图；
49.图8为一个具体实施例中音频检测步骤的流程示意图；
50.图9为另一个具体实施例中音频检测步骤的流程示意图；
51.图10为一个实施例中音频检测装置的结构框图；
52.图11为一个实施例中音频检测装置的结构框图；
53.图12为一个实施例中计算机设备的内部结构图。
具体实施方式
54.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
55.图1为一个实施例中描述音频检测方法的应用环境图。参照图1，该音频检测方法应用于音频检测系统100。该音频检测系统100包括发音设备102和终端104和服务器106。终端104和服务器106均可单独用以执行音频检测方法，也可协同执行音频检测方法。下述以终端104和服务器106协同执行音频检测方法为例进行说明。终端104中部署有音频采集器，通过音频采集器可采集发音设备102所播放的音频，得到待检测音频，并将待检测音频发送至服务器106。服务器106中还可运行有音频检测模型，通过音频检测模型可对待检测音频进行音频检测，得到音频检测结果，并将音频检测结果返回至终端104，以使终端104对应展示检测结果。
56.其中，发音设备102可以是喇叭、音响、扬声器等用以进行声音播放的设备。终端104可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等，但并不局限于此。服务器106可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端104和服务器106可通过网络进行连接。本技术在此不作限定。
57.在一个实施例中，如图2所示，提供了一种音频检测方法，以该方法应用于图1中的计算机设备为例进行说明，其中，计算机设备包括终端和服务器。音频检测方法包括以下步
骤：
58.步骤s202，获取待检测音频中的多个音频片段，确定第一检测模型和第二检测模型，其中，第一检测模型和第二检测模型为通过集成学习得到的模型。
59.其中，第一检测模型和第二检测模型均为已经训练完成的具有音频检测能力的机器学习模型。计算机设备可获取通用的机器学习模型的模型结构和模型参数，并将该模型参数导入第一检测模型或第二检测模型，得到带有模型参数的第一检测模型或第二检测模型，并通过训练样本对带有模型参数的第一检测模型或第二检测模型进行训练，得到训练完成的第一检测模或第二检测模型。
60.其中，第一检测模型和第二检测模型为通过集成学习得到的模型。集成学习指的是利用多个学习器来实现学习任务的一种机器学习模型。其一般结构是先产生一组“个体学习器”,再用某种策略将它们结合起来。该“个体学习器”即可为本技术中的第一检测模型或第二检测模型，通过结合第一检测模型和第二检测模型，即可实现音频检测。
61.具体地，当需要对待检测音频进行音频检测时，由于一般待检测音频所持续的时长较长，为了便于音频的检测，可对待检测音频进行分段处理，得到多个音频片段。在一个实施例中，计算机设备中安装有音频采集器，通过音频采集器采集待检测音频。其中，音频采集器可为话筒、听筒、麦克风等用以进行声音采集的设备。
62.在一个实施例中，当对待检测音频进行划分，得到多个音频片段时，计算机设备可识别多个音频片段中的静音片段，并将静音片段对应删除，得到非静音的音频片段。进一步地，计算机设备提取非静音片段分别在不同音频维度下的子音频特征。由于静音片段所包含的音频特征较少，会降低第一检测模型或第二检测模型对该音频片段进行音频检测的准确性，因此，将静音片段对应删除，可以提升音频检测的准确性。
63.在一个实施例中，获取待检测音频中的多个音频片段，包括：获取待质检发音设备播放的待检测音频，并通过预设的分段时长和分段步长，对待检测音频进行分段处理，得到多个音频片段；方法还包括：根据待检测音频的音频检测结果，确定发音设备的质检结果。
64.具体地，在使用发音设备之前，可对发音设备的质量进行质检，以确定发音设备所播放的音频是否为正常音频，也即，确定发音设备是否无声音、以及确定发音设备所播放的音频是否具有爆破音和噪音。
65.当获取得到待质检发音设备时，用户可控制待质检发音设备进行音频的播放，并控制计算机设备对播放的音频进行采集，得到待检测音频。为了提升发音设备的质检准确性，用户可控制计算机设备采集一定时长的待检测音频。比如，可控制计算机设备采集一分钟以上的待检测音频。
66.进一步地，计算机设备确定预设的分段时长和分段步长，并根据分段时长生成滑动窗口，按照分段步长控制滑动窗口在待检测音频中进行滑动，将滑动后的滑动窗口所框选的音频作为一个音频片段。比如，当分段时长为3秒，分段步长为2秒时，计算机设备将待检测音频中的第0秒至第3秒的音频，作为一个音频片段，将第2秒至第5秒的音频，作为另一个音频片段，依次类推，直至得到最后一个音频片段。
67.进一步地，当获取得到多个音频片段时，针对每一个音频片段，计算机设备均可通过第一检测模型和第二检测模型对该音频片段进行音频检测处理，得到该音频片段的检测结果，并综合各音频片段的检测结果，得到待检测音频的音频检测结果。当音频检测结果表
征该待检测音频有声音、且无爆破音和噪音时，计算机设备确定播放该待检测音频的发音设备为正常发音设备。当音频检测结果表征该待检测与无声音或者有爆破音，亦或者有噪音时，计算机设备确定播放该待检测音频的发音设备为异常发音设备。
68.在其中一个实施例中，计算机设备可根据各音频片段分别对应的第一检测结果和第二检测结果，确定待检测音频中爆破音或者噪音出现的频次，并根据爆破音或者噪音出现的频次，确定待质检发音设备的质检结果。当待检测音频中出现爆破音或者噪音的频次小于预设频次阈值时，确定待质检发音设备为正常发音设备。当待检测音频中出现爆破音或者噪音的频次大于或等于预设阈值时，确定待质检发音设备为异常发音设备。
69.上述实施例中，通过对待检测音频进行分段处理，可将时长较长的待检测音频划分为时长较短的音频片段，从而便于后续对音频片段的音频检测。
70.步骤s204，提取每个音频片段分别在多个不同音频维度下的子音频特征。
71.其中，音频维度至少包括音色维度、音调维度、饱和度维度、感知维度和能量维度中的一种。音色维度下的子音频特征可用于表征音频的音色特征；音调维度下的子音频特征可用于表征音频的音调特征；饱和度维度下的子音频特征可用于表征音频的饱和度特征；感知维度下的子音频特征可用于表征人耳对音频的感受；能量维度下的子音频特征可用于表征音频在一定时间范围内所蕴含的能量。
72.其中，音色又称音品，是声音的属性之一，它主要反映了每个物体发出声音的特有品质，比如，音色反映了不同声音在波形方面的与众不同的特性。音调反映了声音频率的高低，音调主要由声音的频率决定，同时也与声音强度有关。对一定强度的纯音，音调随频率的升降而升降。饱和度反映了中频的厚度，中频越厚则饱和度越高，比如，当声音在人耳听觉范围内的各个频段内都很均匀，且达到一定响度要求时，可认为该声音的饱和度较高。感知维度下的子音频特征可用于表征人耳对音频的感受，比如，感知维度下的子音频特征可用于表征人耳主观感受到的声音响度的强弱、以及声音的尖锐程度。
73.具体地，对于多个音频片段中的每个音频片段，计算机设备均可对当前音频片段进行傅里叶变换，将当前音频片段从时域转换为频域，得到当前音频片段的频谱图。进一步地，计算机设备通过预设的多种特征提取策略对频谱图进行处理，以从频谱图中提取出当前音频片段在不同音频维度下的子音频特征。
74.预设的特征提取策略可以是预设的特征特征提取算法或者预先训练完成的特征提取机器学习模型，等。特征提取机器学习模型可通过样本学习具备音频特征提取能力。机器学习模型可采用神经网络模型、双路径网络模型(dpn，dualpathnetwork)、支持向量机或者逻辑回归模型等。
75.在一个实施例中，特征提取机器学习模型可以是已经训练完成的通用的具有特征提取能力的机器学习模型。在将通用的机器学习模型用于特定场景进行提取时效果不佳，因此需要通过专用于特定场景的样本对通用的机器学习模型进行进一步训练和优化。特征提取机器学习模型可以是由多层互相连接而形成的复杂网络模型。特征提取机器学习模型可包括多层特征提取层，每层特征提取层都有对应的模型参数，每层的模型参数可以是多个，每层特征提取层中的模型参数对输入的音频片段进行线性或非线性变化，得到特征图(feature map)作为运算结果。
76.在一个实施例中，当获取得到当前音频片段时，计算机设备可对当前音频片段进
行分帧处理，得到多个音频帧，并对多个音频帧中的每个音频帧均进行傅里叶变换，得到每个音频帧各自对应的频谱子图。进一步地，计算机设备按照时间维度对各音频帧各自对应的频谱子图进行拼接，得到当前音频片段所对应的频谱图，从而特征提取机器学习模型从频谱图中提取出相应的子音频特征。
77.步骤s206，通过第一检测模型，对由音频片段的至少一个子音频特征构成的第一特征集合进行音频检测处理，得到与音频片段对应的第一检测结果。
78.具体地，当提取得到音频片段在不同音频维度下的子音频特征时，计算机设备可对多个子音频特征进行划分，得到第一特征集合和第二特征集合。其中，第二特征集合具有第一特征集合中没有的子音频特征。进一步地，计算机设备将第一特征集合输入至预训练的第一检测模型中，通过第一检测模型对第一特征集合进行特征处理，以实现对相应音频片段的音频检测处理，得到对应的第一检测结果。容易理解地，计算机设备可通过第一检测模型对待检测音频中的每个音频片段均进行音频检测处理，得到各音频片段各自对应的第一检测结果。
79.步骤s208，通过第二检测模型，对由音频片段的至少一个子音频特征构成的第二特征集合进行音频检测处理，得到与音频片段对应的第二检测结果；其中，第二特征集合中具有第一特征集合中没有的子音频特征。
80.具体地，当获取得到第二特征集合时，计算机设备可将第二特征集合输入至预训练的第二检测模型中，通过第二检测模型对第二特征集合进行特征处理，以实现对相应音频片段的音频检测处理，得到对应的第二检测结果。容易理解地，计算机设备可通过第二检测模型对待检测音频中的每个音频片段均进行音频检测处理，得到各音频片段各自对应的第二检测结果。
81.在一个实施例中，计算机设备可按照第一检测模型和第二检测模型的模型特点，对多个子音频特征进行划分，得到第一特征集合和第二特征集合。比如，当第一检测模型能够对音色维度和音调维度下的子音频特征进行较优处理时，计算机设备将音色维度和音调维度下的子音频特征划分至第一特征集合。当第二检测模型能够对音色维度、音调维度和饱和度维度下的子音频特征进行较优处理时，计算机设备将音色维度、音调维度和饱和度维度下的子音频特征划分至第二特征集合。又比如，相比于第一检测模型，第二检测模型能够处理更多种类的子音频特征时，计算机设备可将提取得到的多个子音频特征中的大部分子音频特征划分为第二特征集合，将提取得到的多个子音频特征中的小部分子音频特征划分为第一特征集合。
82.在一个实施例中，由于第一检测模型和第二检测模型为通过集成学习得到的互补模型。因此，可按照音频维度对提取到的多个子音频特征进行划分，得到第一特征集合和第二特征集合，以使第一检测模型和第二检测模型可从不同的音频维度出发，对同一音频片段进行音频检测处理，得到第一检测结果和第二检测结果，进而使得综合第一检测结果和第二检测结果得到的音频检测结果能够更为准确。
83.步骤s210，根据各音频片段分别对应的第一检测结果和第二检测结果，确定与待检测音频对应的音频检测结果。
84.具体地，对于多个音频片段中的每个音频片段，计算机设备均可基于与当前音频片段相对应的第一检测结果和第二检测结果，确定与当前音频片段相对应的综合检测结
果，基于各音频片段各自对应的综合检测结果，确定与待检测音频对应的音频检测结果。其中，综合检测结果可以为音频片段为正常音频片段，以及可以为音频片段为异常音频片段。当基于综合检测结果确定音频片段为正常音频片段时，可确定该音频片段有声音、且无爆破音和噪音；当基于综合检测结果确定音频片段为异常音频片段时，可确定该音频片段无声或有爆破音，亦或有噪音。
85.在一个实施例中，计算机设备可综合各音频片段分别对应的第一检测结果和第二检测结果，对音频片段进行投票，并根据投票结果确定与待检测音频对应的音频检测结果。对于多个音频片段中的每个音频片段，当基于与当前音频片段相对应的第一检测结果和第二检测结果，确定当前音频片段的综合检测结果为正常音频片段时，计算机设备将票投至正常音频片段，当基于与当前音频片段相对应的第一检测结果和第二检测结果，确定当前音频片段的综合检测结果为异常音频片段时，计算机设备将票投至异常音频片段。投票结束后，计算机设备分别统计正常音频片段和异常音频片段所得的票数，当正常音频片段所得票数高于异常音频片段所得票数时，确定音频检测结果为该待检测音频为正常音频；当正常音频片段所得票数等于或低于异常音频片段所得票数时，确定音频检测结果为该待检测音频为异常音频。
86.在一个实施例中，第一检测结果和第二检测结果可均为一个数值，比如，第一检测结果和第二检测结果可均为确定音频片段为正常音频片段的概率值值。进一步地，计算机设备可确定第一检测模型和第二检测模型各自对应的权重，综合权重、第一检测结果和第二检测结果，得到最终的音频片段为正常音频片段的概率值(也可称作综合检测结果)。比如，计算机设备可对第一检测结果和第二检测结果进行加权求和运算，得到最终的音频片段为正常音频片段的概率值。当概率值大于预设概率阈值时，确定该音频片段为正常音频片段，当概率值小于预设概率阈值时，确定该音频片段为异常音频片段。通过综合第一检测结果、第二检测结果和权重，来确定音频片段为正常音频片段的概率值，可大大提升所确定的概率值的准确性，从而提升音频检测结果的准确性。
87.上述音频检测方法中，通过获取待检测音频的音频片段，可对音频片段进行特征提取，得到多个不同音频维度下的子音频特征。通过得到多个不同音频维度下的子音频特征，可对各子音频特征进行划分，得到第一特征集合和第二特征集合，从而可基于第一检测模型对第一特征集合进行音频检测处理，得到第一检测结果，基于第二检测模型对第二特征集合进行音频检测处理，得到第二检测结果。通过确定各音频片段各自对应的第一检测结果和第二检测结果，可综合第一检测结果和第二检测结果自动生成与待检测音频相对应的音频检测结果，从而提升了音频检测结果的准确性。由于是检测模型对待检测音频进行检测的，相比于传统的通过硬件检测设备对待检测音频进行检测，本技术无需部署复杂的试验环境，如此，便提升了音频检测的效率。
88.此外，由于硬件检测设备一般都较为昂贵，通过检测模型对待检测音频进行检测，还可以大大降低检测成本。
89.在一个实施例中，音频维度至少包括音色维度、音调维度和饱和度维度；音色维度的子音频特征包括梅尔倒谱特征和频谱质心特征；音调维度的子音频特征包括梅尔频谱特征；饱和度维度的子音频特征包括过零率特征和频谱平坦度特征；第一特征集合包括梅尔频谱特征和梅尔倒谱特征；第二特征集合包括梅尔频谱特征、梅尔倒谱特征、频谱质心特征
过零率特征和频谱平坦度特征。
90.具体地，计算机设备可从音频片段中提取出音色维度的梅尔倒谱特征和频谱质心特征。其中，梅尔倒谱特征指的是对语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量。频谱质心特征指的是信号频谱中能量的集中点，其反映了音色的明亮程度，越明亮的信号能量越集中于高频部分，相应的谱质心的值也就越大。进一步地，计算机设备可通过梅尔滤波器对音频片段的频谱图进行滤波处理，得到音调维度的梅尔频谱特征，通过梅尔频谱特征可以反映人耳听觉对声音频率的敏感程度，当声音频率越高时，声音的音调也就越高。计算机设备还可从音频片段中提取出饱和度维度下的过零率特征和频谱平坦度。其中，过零率特征反映了声音信号在单位时间内通过零点的次数，频谱平坦度特征反映了声音信号与噪音之间的相似度，当该值越大时，说明信号越有可能是噪音。容易理解地，一个子音频特征也可能属于多个音频维度，比如，梅尔倒谱特征考虑了人耳对不同频率的感知程度，因此，也可将该特征归为感知维度。
91.当获取得到多个音频维度下的多个子音频特征时，由于第一检测模型适于对音色维度和音调维度的子音频特进行处理，第二检测模型适于对音色维度、音调维度和饱和度维度的子音频特征进行处理，因此，计算机设备可将梅尔频谱特征和梅尔倒谱特征作为第一特征集合，将梅尔频谱特征、梅尔倒谱特征、频谱质心特征过零率特征和频谱平坦度特征作为第二特征集合。当然，计算机设备还可根据用户的指定操作，根据用户需求对各子音频特征进行划分，得到第一特征集合和第二特征集合。本实施例在此不做限定。
92.本实施例中，通过提取出不同音频维度下的不同子音频特征，使得后续可基于不同音频维度的子音频特征对音频片段进行全面的音频检测，从而提升了音频检测的检测准确性。
93.在一个实施中，提取每个音频片段分别在多个不同音频维度下的子音频特征，包括：确定快速傅里叶变换的采样点数与不同音频维度下的各子音频特征之间的对应关系；通过对应关系所包括的多个采样点数，对音频片段进行快速傅里叶变换，得到多个频谱图；根据对应关系，分别从每个频谱图中进行相应子音频特征的提取。
94.其中，快速傅里叶变换是离散傅立叶变换的一种快速算法，所有的离散傅立叶变换都可以理解成对连续的频谱进行采样，因此，快速傅里叶变换的采样点数指的是对零至目标采样率这段范围内的频谱进行均匀采样的次数。采样点数越多，快速傅里叶变换的计算精度也就越高。
95.具体地，由于可从不同精度的频谱图中提取出不同的子音频特征，而不同精度的频谱图所对应的采样点数不同，因此，可预先建立快速傅里叶变换的采样点数与不同音频维度下的各子音频特征之间的对应关系，从而当需要从音频片段中提取出多个音频维度下的子音频特征时，计算机设备可基于该对应关系，确定提取各子音频特征所需的采样点数，并通过每个所确定的采样点数对音频片段进行快速傅里叶变换，得到多个频谱图。进一步地，计算机设备根据快速傅里叶变换的采样点数与不同音频维度下的各子音频特征之间的对应关系，分别从每个频谱图中进行相应子音频特征的提取。
96.比如，当采样点数为4096时，计算机设可从基于采样点数4096所确定的频谱图中提取出梅尔频谱特征；当采样点数为2048时，计算机设备可从基于采样点数2048所确定的频谱图中提取出梅尔倒谱特征；当采样点数为1024时，计算机设备可从基于采样点数1024
所确定的频谱图中提取出频谱质心特征、过零率特征和频谱平坦度特征。
97.本实施例中，通过确定快速傅里叶变换的采样点数与不同音频维度下的各子音频特征之间的对应关系，可基于该对应关系生成相应的频谱图，从而可基于相应的频谱图中准确提取出相应的子音频特征，如此，便大大提升了所提取出的子音频特征的准确性。
98.在一个实施例中，通过第一检测模型，对由音频片段的至少一个子音频特征构成的第一特征集合进行音频检测处理，得到与音频片段对应的第一检测结果，包括：将与音频片段对应的频谱图分别与第一特征集合中的各子音频特征进行特征拼接处理，得到多个第一待处理特征；由第一检测模型对多个第一待处理特征进行特征处理，得到特征处理结果，并根据特征处理结果，得到音频片段的第一检测结果。
99.具体地，当获取得到第一特征集合以及与音频片段对应的频谱图后，计算机设备可将该频谱图与第一特征集合中的各子音频特征进行拼接，得到第一待处理特征集合。其中，第一待处理特征集合包括有多个第一待处理特征。进一步地，第一检测模型可对第一待处理特征集合进行特征处理，也即对第一待处理特征集合中的多个第一待处理特征进行特征处理，得到与第一待处理集合相对应的特征处理结果。其中，第一检测模型可对第一待处理集合中的每个第一待处理特征依次进行特征处理，得到处理子结果，并综合各处理子结果，得到与第一特征集合相对应的特征处理结果。第一检测模型还可对第一待处理特征集合中的多个第一待处理特征同时进行特征处理，得到与第一特征集合相对应的特征处理结果。本实施例在此不作限定。
100.进一步地，第一检测模型中可包括有全连层、归一化层、最大池化层和输出层。当生成特征处理结果时，第一检测模型将特征处理结果依次输入至全连层、归一化层、最大池化层和输出层，并通过输出层输出音频片段的第一检测结果。其中，输出层可包括有sigmoid激活函数，通过sigmoid激活函数将输出音频片段为正常音频片段的概率值。
101.在其中一个实施例中，计算机设备可将频谱图所对应的频谱数据拼接至子音频特征之后，得到相应的第一待处理特征。
102.上述实施例中，通过将频谱图与子音频特征进行拼接，可以使得拼接后的第一待处理特征包含有更多的声音信息，进而使得基于包含有更多声音信息的第一待处理特征得到的第一检测结果可以更为准确。
103.在一个实施例中，第一检测模型包括多个第一处理层；由第一检测模型对多个第一待处理特征进行特征处理，得到特征处理结果，包括：通过多个第一处理层中的首个第一处理层，对多个第一待处理特征进行特征处理，得到首个第一处理层输出的结果；对于除首个第一处理层之外的各个第一处理层，均将相应第一处理层之前的前序第一处理层的输出结果作为相应第一处理层的输入数据，每个第一处理层均对各自的输入数据进行特征处理，得到各个第一处理层各自输出的结果；根据最后一层第一处理层输出的结果和多个第一待处理特征，得到与第一特征集合对应的特征处理结果。
104.其中，前序第一处理层指的是与当前第一处理层相邻的、且位于当前第一处理层之前的一个第一处理层。
105.具体地，第一检测模型中可包括有多个第一处理层，计算机设备可将多个第一待处理特征输入至多个第一处理层中的首个第一处理层，通过首个第一处理层对多个待处理特征进行卷积池化处理，得到首个第一处理层的输出结果。进一步地，第一检测模型将首个
第一处理层的输出结果作为第二层第一处理层的输入数据，通过第二层第一处理层对输入数据进行特征处理，得到第二层第一处理层的输出结果。第一检测模型继续将第二层第一处理层的输出结果作为第三层第一处理层的输入数据，由第三层第一处理层对输入数据进行特征处理，得到第三层第一处理层的输出结果。依次类推，直至得到最后一层第一处理层的输出结果。
106.进一步地，为了减少梯度消失的概率，第一检测模型将最后一层第一处理层输出的结果和多个第一待处理特征输入至全连层，通过全连层对最后一层第一处理层输出的结果和多个第一待处理特征进行处理，得到与第一特征集合对应的特征处理结果，并对该特征处理结果进行归一化、池化和激活处理，得到与音频片段对应的第一检测结果。
107.在其中一个实施例中，第一检测模型还可将每个第一处理层的输入数据传输至全连层，通过全连层对最后一层第一处理层输出的结果、多个第一待处理特征以及各输入数据进行处理，得到与第一特征集合对应的特征处理结果。
108.在其中一个实施例中，第一处理层包括卷积层和池化层，第一处理层可通过卷积层对输入数据进行卷积处理，得到卷积结果，并将卷积结果输入至池化层，通过池化层对卷积结果进行处理，得到池化结果，将该池化结果作为该第一处理层的输出结果。其中，卷积层的卷积核可为3*3，步长(stride)可为1，填充(padding)可为1。池化层可为最大池化层(maxpolling)，其窗口(windows)可为2*2，步长(stride)可为2。
109.上述实施例中，只需对第一待处理特征进行特征处理，即可得到音频片段的音频检测结果，如此，大大提升了音频检测的检测效率。
110.在一个实施例中，通过第二检测模型，对由音频片段的至少一个子音频特征构成的第二特征集合进行音频检测处理，得到与音频片段对应的第二检测结果，包括：将与音频片段对应的频谱图分别与第二特征集合中的各子音频特征进行特征拼接处理，得到多个第二待处理特征；由第二检测模型对多个第二待处理特征进行特征处理，得到特征处理结果，并根据特征处理结果，得到音频片段的第二检测结果。
111.具体地，当获取得到第二特征集合时，计算机设备将音频片段的频谱图分别与第二特征集合中的各子音频特征进行特征拼接，得到第二待处理特征集合。其中，第二待处理特征集合包括有多个第二待处理特征。进一步地，计算机设备将第二待处理特征集合输入至第二检测模型，通过第二检测模型对第二待处理特征集合中的第二待处理特征进行特征处理，得到特征处理结果，并将特征处理结果依次输入至第二检测模型中的全连层、归一化层、最大池化层和输出层，并通过输出层输出音频片段的第二检测结果。其中，输出层可包括有sigmoid激活函数，通过sigmoid激活函数将输出音频片段为正常音频片段的概率值。
112.本实施例中，通过第二检测模型中的多个模型层对第二待处理特征进行充分的处理，使得最终得到的特征处理结果可以更为准确。
113.在一个实施例中，第二检测模型包括多个第二处理层；由第二检测模型对多个第二待处理特征进行特征处理，得到特征处理结果，包括：通过多个第二处理层中的首个第二处理层，对多个第二待处理特征进行特征处理，得到首个第二处理层输出的结果；对于除首个第二处理层之外的各个第二处理层，均将多个第二待处理特征、以及相应第二处理层之前的前序第二处理层的输出结果，作为相应第二处理层的输入数据，每个二处理层均对各自的输入数据进行特征处理，得到各个第二处理层各自输出的结果；根据最后一层第二处
理层输出的结果，得到与第二特征集合对应的特征处理结果。
114.其中，前序第二处理层指的是与当前第二处理层相邻的、且位于当前第二处理层之前的一个第二处理层。
115.具体地，为了解决过拟合问题，第二待处理模型采用了更为密集的连接机制，也即，除了将前序第二处理层的输出结果输入至当前第二处理层，第二检测模型还将多个第二待处理特征均输入至每一个第二处理层。当获取得到第二待处理特征集合时，第二检测模型将第二待处理特征集合输入至多个第二处理层中的首个第二处理层，通过首个第二处理层对第二待处理特征集合进行特征处理，得到首个第二处理层的输出结果。进一步地，第二检测模型将第二待处理特征集合、以及首个第二处理层的输出结果作为第二层第二处理层的输入数据，通过第二层第二处理层对输入数据进行特征处理，得到第二层第二处理层的输出结果。第二检测模型继续将第二层第二处理层的输出结果、以及第二待处理特征集合作为第三层第二处理层的输入数据，由第三层第二处理层对输入数据进行特征处理，得到第三层第二处理层的输出结果。依次类推，直至得到最后一层第二处理层的输出结果。
116.进一步地，第二检测模型将最后一层第二处理层的输出结果输入至全连层，通过全连层输出与第二特征集合相对应的特征处理结果，并对特征处理结果进行归一化、池化和激活处理，得到音频片段的第二检测结果。
117.本实施例中，只需对第二待处理特征进行特征处理，即可得到音频片段的音频检测结果，如此，大大提升了音频检测的检测效率。
118.在一个实施例中，第二处理层包括池化层和卷积层；每个二处理层均对各自的输入数据进行特征处理，得到各个第二处理层各自输出的结果，包括：对于除首个第二处理层之外的各个第二处理层，均通过当前第二处理层中的卷积层，对位于当前第二处理层之前的前序第二处理层的输出结果和多个第二待处理特征进行卷积处理，得到卷积结果；通过当前第二处理层中的池化层对卷积结果和多个第二待处理特征进行池化处理，得到池化结果，并将池化结果作为当前第二处理层的输出结果。
119.具体地，第二处理层包括池化层和卷积层，对于除首个第二处理层之外的各个第二处理层，第二检测模型均将前序第二处理层的输出结果和多个第二待处理特征作为当前第二处理层中的卷积层的输入数据，通过卷积层对输入数据进行卷积处理，得到卷积结果。进一步地，第二检测模型将多个第二待处理特征、和当前第二处理层中卷积层输出的卷积结果，作为当前第二处理层中的池化层的输入数据，通过池化层对输入数据进行池化处理，得到池化结果，并将池化结果作为当前第二处理层的输出结果。
120.在其中一个实施例中，对于多个第二处理层中的首个第二处理层，第二检测模型将多个第二待处理特征输入至首个第二处理层中的卷积层，通过卷积层对多个第二待处理特征进行卷积处理，得到卷积结果，并将该卷积结果、以及多个第二待处理特征输入至数个第二处理层中的池化层，通过池化层对输入的数据进行池化处理，得到首个第二处理层的输出结果。
121.在其中一个实施例中，第二处理层中的卷积层的卷积核可为3*3，步长(stride)可为1，填充(padding)可为1。第二处理层中的池化层可为最大池化层(maxpolling)，其窗口(windows)可为2*2，步长(stride)可为2。
122.上述实施例中，通过将多个第二待处理特征额外输入至各第二处理层，可减少模
型过拟合的概率，从而提升输出结果的准确性。
123.在一个实施例中，根据各音频片段分别对应的第一检测结果和第二检测结果，确定与待检测音频对应的音频检测结果，包括：确定第一检测模型和第二检测模型各自对应的模型权重；根据各音频片段分别对应的第一检测结果，确定待检测音频中正常音频片段与总音频片段之间的第一比值，并根据第一检测模型所对应的模型权重，对第一比值进行修正处理，得到第一修正值；根据各音频片段分别对应的第二检测结果，确定待检测音频中正常音频片段与总音频片段之间的第二比值，并根据第二检测模型所对应的模型权重，对第二比值进行修正处理，得到第二修正值；根据第一修正值和第二修正值，确定与待检测音频对应的音频检测结果。
124.具体地，由于是综合第一检测模型输出的第一检测结果和第二检测模型输出的第二检测结果，来确定待检测音频的音频检测结果，因此，还可以根据第一检测模型和第二检测模型的检测准确度，确定各检测模型自对应的权重，通过权重对第一检测结果和第二检测结果进行修正处理，以提升最终得到的音频检测结果的准确性。
125.当获取得到各音频片段各自对应的第一检测结果和第二检测结果时，计算机设备可获取第一检测模型的第一模型权重，以及获取第二检测模型的第二模型权重，并根据第一检测结果统计待检测音频中正常音频片段与总音频片段之间的第一比值，根据第二检测结果统计待检测音频中正常音频片段与总音频片段之间的第二比值。进一步地，计算机设备根据第一模型权重对第一比值进行修正处理，得到第一修正值，根据第二模型权重对第二比值进行修正处理，得到第二修正值，并综合第一修正值和第二修正值，得到与待检测音频对应的音频检测结果。比如，计算机设备将第一模型权重乘以第一比值，得到第一修正值，将第二模型权重乘以第二比值，得到第二修正值，并对第一修正值与第二修正值进行求和运算，得到修正总值，将修正总值乘以待检测音频所包括的音频片段的总数量，得到待检测音频所包含的正常音频片段的数量，并基于正常音频片段的数量，得到待检测音频对应的音频检测结果。
126.本实施例中，通过各检测模型各自对应的模型权重对检测结果进行修正，使得基于修正后的检测结果而确定的与待检测音频对应的音频检测结果可以更为准确。
127.在一个实施例中，根据第一修正值和第二修正值，确定与待检测音频对应的音频检测结果，包括：根据第一修正值和第二修正值，得到修正后的待检测音频所包括的正常音频片段的第一数量值和异常音频片段的第二数量值；当第一数量值大于第二数量值时，确定待检测音频为正常音频；当第一数量值小于或等于第二数量值时，确定待检测音频为异常音频。
128.具体地，计算机设备可对第一修正值和第二修正值进行求和运算，得到修正总值，并将修正总值乘以待检测音频所包括的音频片段的总数量，得到待检测音频所包含的正常音频片段的第一数量，将音频片段的总数量减去正常音频片段的第一数量，得到异常音频片段的第二数量。当第一数量值大于第二数量值时，计算机设备确定待检测音频为正常音频；当第一数量值小于或等于第二数量值时，计算机设备确定待检测音频为异常音频。比如，当第一检测模型确定待检测音频中正常音频片段与总音频片段之间的第一比值为8/10，第二检测模型确定待检测音频中正常音频片段与总音频片段之间的第一比值4/10，第一检测模型的第一模型权重为0.6，第二检测模型的第二模型权重为0.4，则待检测音频中
所包括的正常音频片段的第一数量为(0.8*0.6 0.4*0.4)*待检测音频所包含的音频片段的总数量。
129.本实施例中，由于是综合第一修正值和第二修正值来确定待检测音频的音频检测结果，可以提升音频检测结果的准确性。
130.在一个实施例中，音频检测方法由音频检测模型执行，音频检测模型包括第一检测模型和第二检测模型，音频检测模型通过模型训练步骤训练获得，参考图3，模型训练步骤包括：
131.步骤s302，获取第一样本语音、以及与第一样本语音对应的第一样本标签，获取第二样本语音以及与第二样本语音对应的第二样本标签。
132.步骤s304，提取第一样本语音中的每个音频片段分别在多个不同音频维度下的子音频特征，得到第一样本特征集合。
133.步骤s306，提取第二样本语音分别在多个不同音频维度下的子音频特征，得到第二样本特征集合；第二样本特征集合中具有第一样本特征集合中没有的子音频特征。
134.具体地，在对第一检测模型和第二检测模型进行训练之前，计算机设备可对多个正常发音设备所播放的音频进行采集、以及对多个异常发音设备所播放的音频进行采集，得到第一样本语音和第二样本语音，并根据播放音频的发音设备的正常性和异常性，对第一样本语音和第二样本语音进行标签标注，得到第一样本标签和第二样本标签。其中，第一样本语音和第一样本标签用以对第一检测模型进行训练，第二样本语音和第二样本标签用以对第二检测模型进行训练。进一步地，计算机设备可提取第一样本语音中的每个音频片段分别在多个不同音频维度下的子音频特征，得到第一样本特征集合，以及提取第二样本语音中的每个音频片段分别在多个不同音频维度下的子音频特征，得到第二样本特征集合，
135.步骤s308，通过待训练的第一检测模型对第一样本特征集合进行音频预测处理，得到与第一样本语音对应的第一预测结果。
136.步骤s310，通过待训练的第二检测模型对第二样本特征集合进行音频预测处理，得到与第二样本语音对应的第二预测结果。
137.具体地，计算机设备将第一样本特征集输入至第一检测模型，由第一检测模型对第一样本特征集进行音频预测处理，得到与第一样本语音对应的第一预测结果。计算机设备将第二样本特征集输入至第二检测模型，由第二检测模型对第二样本特征集进行音频预测处理，得到第二样本语音的第二预测结果。
138.步骤s312，通过第一预测结果和第一样本标签，对第一检测模型进行第一训练，直至达到第一训练停止条件时停止，得到训练完成的第一检测模型。
139.步骤s314，通过第二预测结果和第二样本标签，对第二检测模型进行第二训练，直至达到第二训练停止条件时停止，得到训练完成的第二检测模型。
140.步骤s316，综合训练完成的第一检测模型和第二检测模型，得到训练完成的音频检测模型。
141.具体地，第一检测模型可采样上述对第一待处理特征集合进行特征处理的方式，对第一样本特征集合进行音频预测处理，以及第二检测模型可采样上述对第二待处理特征集合进行特征处理的方式，对第二样本特征集合进行音频预测处理。进一步地，计算机设备
确定第一预测结果与相应第一样本标签之间的差异，基于第一预测结果与相应第一样本标签之间的差异对第一检测模型进行训练，直至到达第一训练停止条件时停止，得到训练完成的第一检测模型。计算机设备确定第二预测结果与相应第二样本标签之间的差异，基于第二预测结果与相应第二样本标签之间的差异对第二检测模型进行训练，直至到达第二训练停止条件时停止，得到训练完成的第二检测模型。其中，第一训练停止条件和第二训练停止条件均可根据需求自由设置。进一步地，计算机设备综合训练完成的第一检测模型和第二检测模型，得到训练完成的音频检测模型。
142.在其中一个实施例中，可预先准备多个正常发音设备和异常发音设备，并设置多个采样频率和采样位数，从而音频采集设备可按照所设置的采样频率和采样位数，对正常发音设备和异常发音设备所播放的音频进行采集，得到第一样本语音和第二样本语音。比如，参考图4，可设置采样频率为16kb、32kb和48kb，设置采样位数为16bit，当发音设备为双通道发音设备时，音频采集设备可按照16kb和16bit对正常发音设备和异常发音设备所播放的音频进行采集，得到样本语音，以及可按照32kb和16bit对正常发音设备和异常发音设备所播放的音频进行采集，得到另一批样本语音，亦可按照48kb和16bit对正常发音设备和异常发音设备所播放的音频进行采集，得到另一批样本语音。进一步地，计算机对所采集得到的样本语音进行划分，得到第一样本语音集和第二样本语音集。图4示出了一个实施例中样本语音的示意图。
143.在其中一个实施例中，计算机设备可将第一设备集中的正常发音设备和异常发音设备播放的语音，作为第一样本语音，将第二设备集中的正常发音设备和异常发音设备播放的语音，作为第二样本语音。并将与第一设备集中的正常发音设备所播放的语音相对应的第一样本标签设置为正常，将与第一设备集中的异常发音设备所播放的语音相对应的第一样本标签设置为异常。相应的，计算机设备还可基于语音来源，对第二样本语音的第二样本标签进行设置。
144.在其中一个实施例中，当发音设备为双通道发音设备时，计算机设备还可对采集得到的音频转换为单通道音频，得到第一样本语音或者第二样本语音。
145.在其中一个实施例中，参考图5，计算机设备可采集正常发音设备和异常发音设备所播放的声音，得到第一样本语音和第二样本语音，并通过预设的步长和分段时长对第一样本语音以及第二样本语音进行分段处理，得到音频片段。计算机设备将各音频片段从时域转换为频率，得到多个频谱图，从多个频谱图中进行特征提取，得到第一样本特征集合和第二样本特征集合。计算机设备通过第一样本特征集合和第二样本特征集合分别对第一检测模型和第二检测模型进行训练，以得到训练好的第一检测模型和第二检测模型。图5示出了一个实施例中模型训练的流程示意图。
146.上述实施例中，通过对第一检测模型和第二检测模型进行训练，使得后续可基于训练完成的第一检测模型和第二检测模型进行音频检测，以确定待检测音频的音频检测结果。
147.在一个实施例中，综合训练完成的第一检测模型和第二检测模型，得到训练完成的音频检测模型，包括：获取测试语音、以及与测试语音对应的测试标签；通过训练完成的第一检测模型对测试语音进行第一语音测试处理，得到第一测试结果，并确定第一测试结果与测试标签之间的第一差异；通过训练完成的第二检测模型对述测试语音进行第二语音
测试处理，得到第二测试结果，并确定第二测试结果与测试标签之间的第二差异；根据第一差异与第二差异，确定第一检测模型与第二检测模型各自对应的模型权重；根据训练完成的第一检测模型、第一检测模型所对应的模型权重、训练完成的第二检测模型以及第二检测模型所对应的模型权重，得到训练完成的音频检测模型。
148.具体地，计算机设备可获取多个测试语音以及每个测试语音各自对应的测试标签。计算机设备依次将多个测试语音输入至第一检测模型，通过第一检测模型对各测试语音进行语音测试处理，得到每个测试语音各自对应的第一测试结果。相应的，计算机设备也可以将多个测试语音输入至第二检测模型，通过第二检测模型对各测试语音进行语音测试处理，得到每个测试语音各自对应的第二测试结果。计算机设备确定每个第一测试结果与相应测试标签之间的第一差异，并根据第一差异，确定第一检测模型所输出的测试结果的正确率。相应地，计算机设备确定每个第二测试结果与相应测试标签之间的第二差异，并根据第二差异，确定第二检测模型所输出的测试结果的正确率。
149.计算机设备根据第一检测模型所输出的测试结果的正确率与第二检测模型所输出的测试结果的正确率之间的比值，确定第一检测模型和第二检测模型各自对应的模型权重，根据训练完成的第一检测模型、第一检测模型所对应的模型权重、训练完成的第二检测模型以及第二检测模型所对应的模型权重，得到训练完成的音频检测模型。比如，当第一检测模型的正确率为80％，第二检测模型的正确率为40％时，第一检测模型所对应的模型权重即可为2/3，第二检测模型所对应的模型权重即可为1/3。
150.在其中一个实施例中，参考图6，图6示出了一个实施例中模型训练的整体框架示意图。计算机设备可收集多个样本语音，并通过音频特征工程提取各样本语音在多个音频维度下的多个子音频特征。用户可对待训练的第一检测模型和第二检测模型的模型结构进行设计，并通过子音频特征对设计好的第一检测模型和第二检测模型进行训练。当确定第一检测模型和第二检测模型训练完成时，计算机设备还可通过测试集对第一检测模型和第二检测模型进行模型评估，以确定第一检测模型和第二检测模型各自对应的模型权重。
151.上述实施例中，由于是根据测试结果与测试标签之间的差异，来确定相应检测模型的模型权重的，因此，可以给正确率较高的检测模型赋予高模型权重，给正确率较低的检测模型赋予低模型权重，从而使得基于模型权重所修正的第一比值和第二比值可以更为准确。
152.本技术还提供一种应用场景，该应用场景应用上述的音频检测方法。具体地，该音频检测方法在该应用场景的应用如下：
153.刷脸支付是指用户在刷脸设备前通过摄像头刷脸、识别身份后进行的一种9游会的支付方式。在支付的过程中，刷脸设备可通过喇叭语音播报刷脸支付结果。刷脸设备的生产流程主要涉及dvt(设计验证与测试阶段)、evt1(工程验证与测试阶段1)、evt2(工程验证与测试阶段2)、mp(量产阶段)，可在dtv阶段对刷脸设备中的喇叭进行质检，以提前发现异常喇叭。也可在mp阶段进行质检，以用于事后诊断和分析异常喇叭。当需要对喇叭进行质检时，参考图7，计算机设备可采集待质检喇叭播放的待检测音频，对待检测音频进行分段处理，得到多个音频片段，并生成各音频片段各自对应的频谱图。计算机设备频谱图中提取出多个子音频特征，并分别将多个子音频特征与频谱图进行拼接，得到第一待处理特征和第二待处理特征。计算机设备将第一待处理特征输入至第一检测模型，将第二待处理特征输入至第二
检测模型，由第一检测模型和第二检测模型输出各音频片段分别对应的第一检测结果和第二检测结果，从而计算机设备基于第一检测结果和第二检测结果进行投票，并根据投票结果确定与待检测音频对应的音频检测结果，并得到待质检喇叭的质检结果。图7示出了一个实施例中发音设备质检的流程示意图。
154.本技术还另外提供一种应用场景，该应用场景应用上述的音频检测方法。具体地，该音频检测方法在该应用场景的应用如下：
155.当需要对终端中的扬声器进行质检时，计算机设备可采集扬声器发出的待检测音频，并按照上述音频检测方法对该待检测音频进行音频检测，以基于音频检测结果确定扬声器的质检结果。
156.上述应用场景仅为示意性的说明，可以理解，本技术各实施例所提供的音频检测方法的应用不局限于上述场景。
157.在一个具体实施中，参考图8提供了一种音频检测方法，该音频检测方法包括以下步骤：
158.s802，获取待质检发音设备播放的待检测音频，并通过预设的分段时长和分段步长，对待检测音频进行分段处理，得到多个音频片段；确定第一检测模型和第二检测模型，其中，第一检测模型和第二检测模型为通过集成学习得到的模型。
159.s804，确定快速傅里叶变换的采样点数与不同音频维度下的各子音频特征之间的对应关系；通过对应关系所包括的多个采样点数，对音频片段进行快速傅里叶变换，得到多个频谱图。
160.s806，根据对应关系，分别从每个频谱图中进行相应子音频特征的提取；音频维度至少包括音色维度、音调维度和饱和度维度；音色维度的子音频特征包括梅尔倒谱特征和频谱质心特征；音调维度的子音频特征包括梅尔频谱特征；饱和度维度的子音频特征包括过零率特征和频谱平坦度特征；第一特征集合包括梅尔频谱特征和梅尔倒谱特征；第二特征集合包括梅尔频谱特征、梅尔倒谱特征、频谱质心特征过零率特征和频谱平坦度特征。
161.s808，将与音频片段对应的频谱图分别与第一特征集合中的各子音频特征进行特征拼接处理，得到多个第一待处理特征；第一检测模型包括多个第一处理层；通过多个第一处理层中的首个第一处理层，对多个第一待处理特征进行特征处理，得到首个第一处理层输出的结果。
162.s810，对于除首个第一处理层之外的各个第一处理层，均将相应第一处理层之前的前序第一处理层的输出结果作为相应第一处理层的输入数据，每个第一处理层均对各自的输入数据进行特征处理，得到各个第一处理层各自输出的结果；根据最后一层第一处理层输出的结果和多个第一待处理特征，得到与第一特征集合对应的特征处理结果。
163.s812，将与音频片段对应的频谱图分别与第二特征集合中的各子音频特征进行特征拼接处理，得到多个第二待处理特征；其中，第二特征集合中具有第一特征集合中没有的子音频特征。
164.s814，第二检测模型包括多个第二处理层；通过多个第二处理层中的首个第二处理层，对多个第二待处理特征进行特征处理，得到首个第二处理层输出的结果。
165.s816，对于除首个第二处理层之外的各个第二处理层，均通过当前第二处理层中的卷积层，对位于当前第二处理层之前的前序第二处理层的输出结果和多个第二待处理特
征进行卷积处理，得到卷积结果。
166.s818，通过当前第二处理层中的池化层对卷积结果和多个第二待处理特征进行池化处理，得到池化结果，并将池化结果作为当前第二处理层的输出结果；根据最后一层第二处理层输出的结果，得到第二特征集合的特征处理结果。
167.s820，确定第一检测模型和第二检测模型各自对应的模型权重；根据各音频片段分别对应的第一检测结果，确定待检测音频中正常音频片段与总音频片段之间的第一比值，并根据第一检测模型所对应的模型权重，对第一比值进行修正处理，得到第一修正值。
168.s822，根据各音频片段分别对应的第二检测结果，确定待检测音频中正常音频片段与总音频片段之间的第二比值，并根据第二检测模型所对应的模型权重，对第二比值进行修正处理，得到第二修正值。
169.s824，根据第一修正值和第二修正值，得到修正后的待检测音频所包括的正常音频片段的第一数量值和异常音频片段的第二数量值；当第一数量值大于第二数量值时，确定待检测音频为正常音频；当第一数量值小于或等于第二数量值时，确定待检测音频为异常音频。
170.s826，根据待检测音频的音频检测结果，确定发音设备的质检结果。
171.上述音频检测方法，通过获取待检测音频的音频片段，可对音频片段进行特征提取，得到多个不同音频维度下的子音频特征。通过得到多个不同音频维度下的子音频特征，可对各子音频特征进行划分，得到第一特征集合和第二特征集合，从而可基于第一检测模型对第一特征集合进行音频检测处理，得到第一检测结果，基于第二检测模型对第二特征集合进行音频检测处理，得到第二检测结果。通过确定各音频片段各自对应的第一检测结果和第二检测结果，可综合第一检测结果和第二检测结果自动生成与待检测音频相对应的音频检测结果，从而提升了音频检测结果的准确性。由于是检测模型对待检测音频进行检测的，相比于传统的通过硬件检测设备对待检测音频进行检测，本技术无需部署复杂的试验环境，如此，便提升了音频检测的效率。
172.在一个具体实施中，参考图9，提供了一种音频检测方法，该音频检测方法包括以下步骤：
173.s902，获取第一样本语音、以及与第一样本语音对应的第一样本标签，获取第二样本语音以及与第二样本语音对应的第二样本标签。
174.s904，提取第一样本语音中的每个音频片段分别在多个不同音频维度下的子音频特征，得到第一样本特征集合；提取第二样本语音分别在多个不同音频维度下的子音频特征，得到第二样本特征集合；第二样本特征集合中具有第一样本特征集合中没有的子音频特征。
175.s906，通过待训练的第一检测模型对第一样本特征集合进行音频预测处理，得到第一样本语音的第一预测结果；通过待训练的第二检测模型对第二样本特征集合进行音频预测处理，得到第二样本语音的第二预测结果。
176.s908，通过第一预测结果和第一样本标签，对第一检测模型进行第一训练，直至达到第一训练停止条件时停止，得到训练完成的第一检测模型；通过第二预测结果和第二样本标签，对第二检测模型进行第二训练，直至达到第二训练停止条件时停止，得到训练完成的第二检测模型。
177.s910，获取测试语音、以及与测试语音对应的测试标签。
178.s912，通过训练完成的第一检测模型对测试语音进行第一语音测试处理，得到第一测试结果，并确定第一测试结果与测试标签之间的第一差异。
179.s914，通过训练完成的第二检测模型对述测试语音进行第二语音测试处理，得到第二测试结果，并确定第二测试结果与测试标签之间的第二差异。
180.s916，根据第一差异与第二差异，确定第一检测模型与第二检测模型各自对应的模型权重；根据训练完成的第一检测模型、第一检测模型所对应的模型权重、训练完成的第二检测模型以及第二检测模型所对应的模型权重，得到训练完成的音频检测模型。
181.s918，获取待检测音频中的多个音频片段，确定第一检测模型和第二检测模型，提取每个音频片段分别在多个不同音频维度下的子音频特征；其中，第一检测模型和第二检测模型为通过集成学习得到的模型。
182.s920，通过第一检测模型，对由音频片段的至少一个子音频特征构成的第一特征集合进行音频检测处理，得到与音频片段对应的第一检测结果。
183.s922，通过第二检测模型，对由音频片段的至少一个子音频特征构成的第二特征集合进行音频检测处理，得到与音频片段对应的第二检测结果；其中，第二特征集合中具有第一特征集合中没有的子音频特征。
184.s924，根据各音频片段分别对应的第一检测结果和第二检测结果，确定与待检测音频对应的音频检测结果。
185.应该理解的是，虽然图2-图3、图8-图9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图3、图8-图9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
186.在一个实施例中，如图10所示，提供了一种音频检测装置1000，该装置可采用软件模块或硬件模块，或二者的结合成为计算机设备的一部分，该装置具体包括：特征获取模块1002、检测处理模块1004和结果确定模块1006，其中：
187.特征获取模块1002，用于获取待检测音频中的多个音频片段，确定第一检测模型和第二检测模型，其中，第一检测模型和第二检测模型为通过集成学习得到的模型；提取每个音频片段分别在多个不同音频维度下的子音频特征。
188.检测处理模块1004，用于通过第一检测模型，对由音频片段的至少一个子音频特征构成的第一特征集合进行音频检测处理，得到与音频片段对应的第一检测结果；通过第二检测模型，对由音频片段的至少一个子音频特征构成的第二特征集合进行音频检测处理，得到与音频片段对应的第二检测结果；其中，第二特征集合中具有第一特征集合中没有的子音频特征。
189.结果确定模块1006，用于根据各音频片段分别对应的第一检测结果和第二检测结果，确定与待检测音频对应的音频检测结果。
190.在一个实施例中，参考图11，音频检测装置1000还用于获取待质检发音设备播放
的待检测音频，并通过预设的分段时长和分段步长，对待检测音频进行分段处理，得到多个音频片段；根据待检测音频的音频检测结果，确定发音设备的质检结果。
191.在一个实施例中，音频检测装置1000还用于提取不同音频维度下的子音频特征；音频维度至少包括音色维度、音调维度和饱和度维度；音色维度的子音频特征包括梅尔倒谱特征和频谱质心特征；音调维度的子音频特征包括梅尔频谱特征；饱和度维度的子音频特征包括过零率特征和频谱平坦度特征；第一特征集合包括梅尔频谱特征和梅尔倒谱特征；第二特征集合包括梅尔频谱特征、梅尔倒谱特征、频谱质心特征过零率特征和频谱平坦度特征。
192.在一个实施例中，特征获取模块1002还用于确定快速傅里叶变换的采样点数与不同音频维度下的各子音频特征之间的对应关系；通过对应关系所包括的多个采样点数，对音频片段进行快速傅里叶变换，得到多个频谱图；根据对应关系，分别从每个频谱图中进行相应子音频特征的提取。
193.在一个实施例中，检测处理模块1004还包括第一检测模块1041，用于将与音频片段对应的频谱图分别与第一特征集合中的各子音频特征进行特征拼接处理，得到多个第一待处理特征；由第一检测模型对多个第一待处理特征进行特征处理，得到特征处理结果，并根据特征处理结果，得到音频片段的第一检测结果。
194.在一个实施例中，第一检测模型包括多个第一处理层；第一检测模块1041还用于通过多个第一处理层中的首个第一处理层，对多个第一待处理特征进行特征处理，得到首个第一处理层输出的结果；对于除首个第一处理层之外的各个第一处理层，均将相应第一处理层之前的前序第一处理层的输出结果作为相应第一处理层的输入数据，每个第一处理层均对各自的输入数据进行特征处理，得到各个第一处理层各自输出的结果；根据最后一层第一处理层输出的结果和多个第一待处理特征，得到与第一特征集合对应的特征处理结果。
195.在一个实施例中，检测处理模块1004还包括第二检测模块1042，用于将与音频片段对应的频谱图分别与第二特征集合中的各子音频特征进行特征拼接处理，得到多个第二待处理特征；由第二检测模型对多个第二待处理特征进行特征处理，得到特征处理结果，并根据特征处理结果，得到音频片段的第二检测结果。
196.在一个实施例中，第二检测模型包括多个第二处理层；第二检测模块1042还用于通过多个第二处理层中的首个第二处理层，对多个第二待处理特征进行特征处理，得到首个第二处理层输出的结果；对于除首个第二处理层之外的各个第二处理层，均将多个第二待处理特征、以及相应第二处理层之前的前序第二处理层的输出结果，作为相应第二处理层的输入数据，每个二处理层均对各自的输入数据进行特征处理，得到各个第二处理层各自输出的结果；根据最后一层第二处理层输出的结果，得到与第二特征集合对应的特征处理结果。
197.在一个实施例中，第二处理层包括池化层和卷积层；第二检测模块1042还用于对于除首个第二处理层之外的各个第二处理层，均通过当前第二处理层中的卷积层，对位于当前第二处理层之前的前序第二处理层的输出结果和多个第二待处理特征进行卷积处理，得到卷积结果；通过当前第二处理层中的池化层对卷积结果和多个第二待处理特征进行池化处理，得到池化结果，并将池化结果作为当前第二处理层的输出结果。
198.在一个实施例中，结果确定模块1006还包括修正模块1061，用于确定第一检测模型和第二检测模型各自对应的模型权重；根据各音频片段分别对应的第一检测结果，确定待检测音频中正常音频片段与总音频片段之间的第一比值，并根据第一检测模型所对应的模型权重，对第一比值进行修正处理，得到第一修正值；根据各音频片段分别对应的第二检测结果，确定待检测音频中正常音频片段与总音频片段之间的第二比值，并根据第二检测模型所对应的模型权重，对第二比值进行修正处理，得到第二修正值；根据第一修正值和第二修正值，确定与待检测音频对应的音频检测结果。
199.在一个实施例中，修正模块1061还用于根据第一修正值和第二修正值，得到修正后的待检测音频所包括的正常音频片段的第一数量值和异常音频片段的第二数量值；当第一数量值大于第二数量值时，确定待检测音频为正常音频；当第一数量值小于或等于第二数量值时，确定待检测音频为异常音频。
200.在一个实施例中，音频检测装置1000还包括训练模块1008，用于获取第一样本语音、以及与第一样本语音对应的第一样本标签，获取第二样本语音以及与第二样本语音对应的第二样本标签；提取第一样本语音中的每个音频片段分别在多个不同音频维度下的子音频特征，得到第一样本特征集合；提取第二样本语音分别在多个不同音频维度下的子音频特征，得到第二样本特征集合；第二样本特征集合中具有第一样本特征集合中没有的子音频特征；通过待训练的第一检测模型对第一样本特征集合进行音频预测处理，得到与第一样本语音对应的第一预测结果；通过待训练的第二检测模型对第二样本特征集合进行音频预测处理，得到与第二样本语音对应的第二预测结果；通过第一预测结果和第一样本标签，对第一检测模型进行第一训练，直至达到第一训练停止条件时停止，得到训练完成的第一检测模型；通过第二预测结果和第二样本标签，对第二检测模型进行第二训练，直至达到第二训练停止条件时停止，得到训练完成的第二检测模型；综合训练完成的第一检测模型和第二检测模型，得到训练完成的音频检测模型。
201.在一个实施例中，训练模块1008还用于获取测试语音、以及与测试语音对应的测试标签；通过训练完成的第一检测模型对测试语音进行第一语音测试处理，得到第一测试结果，并确定第一测试结果与测试标签之间的第一差异；通过训练完成的第二检测模型对述测试语音进行第二语音测试处理，得到第二测试结果，并确定第二测试结果与测试标签之间的第二差异；根据第一差异与第二差异，确定第一检测模型与第二检测模型各自对应的模型权重；根据训练完成的第一检测模型、第一检测模型所对应的模型权重、训练完成的第二检测模型以及第二检测模型所对应的模型权重，得到训练完成的音频检测模型。
202.关于音频检测装置的具体限定可以参见上文中对于音频检测方法的限定，在此不再赘述。上述音频检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
203.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备
的数据库用于存储音频检测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频检测方法。
204.本领域技术人员可以理解，图12中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
205.在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
206.在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
207.在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。
208.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。
209.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
210.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

当前第1页1