基于音频数据预测异常状态的卷积神经网络模型tbsp-j9九游会真人

文档序号：35695008发布日期：2023-10-11 17:52阅读：5来源：国知局

基于音频数据预测异常状态的卷积神经网络模型tbsp-net
技术领域
1.本发明属于异常状态诊断预测领域，尤其涉及一种基于音频数据预测异常状态的卷积神经网络模型tbsp-net。

背景技术：

2.异常状态是指物体处于非正常条件下的一种工作状态，其表现可多种多样，如各种异常状态的表现裸露于外部，自然可方便得知，但对于一些内部状态异常，由于视觉上的封闭则不易获知，比如各种运转的机器，就不易探测内部可能发生的异常状态，需要拆卸物体或以侵入性的方式探测异常的产生的原因，且检测结果并不完全准确。但一些异常状态产生后，如机器继续运转，则会伴随着不同特性的音频，因此可针对音频数据进行建模，从而获取机器内部相应的异常状态，无需拆卸物体或以侵入性的方式探测物体的异常。目前已有基于音频数据的诊断模型对物体异常状态进行诊断预测，但对于一些故障不同，但由于故障而出现的音频数据相近，其诊断预测的结果并不足够准确，因此如何基于音频数据预测诊断物体的异常状态进行建模，从而更好地预测物体的异常状态仍值得探究。

技术实现要素：

3.鉴于上述现有技术中存在的问题，本发明的主要目的在于提供一种基于音频数据预测异常状态的卷积神经网络模型tbsp-net，以缓解过拟合现象，提高以个体为单位的异常状态的诊断预测准确率，弥补以音频数据预测个体为单位的异常状态的诊断预测的不足。
4.本发明的目的通过如下技术方案得以实现：
5.本发明提供了一种基于音频数据预测异常状态的卷积神经网络模型tbsp-net，包括输入模块，特征提取模块以及分类模块，所述输入模块以预设采样频率获取音频数据，并对获取的所述音频数据进行预处理，对所述音频数据进行预处理包括以下步骤：
6.利用控制单元对获取的所述音频数据进行修整，从而生成向量v；
7.使所述向量v在时域上随机向左/向右时移滚动，从而获取时移向量v
roll
，计算公式为：
8.v
roll
[i]＝v[(i r*fs)mod n],for i＝0,1,
…
,n-1；
[0009]
其中，v
roll
[i]代表向量v第i个采样点滚动后的位置；i代表向量v采样点的索引；r代表向量v在时域上的滚动时间长度；fs代表音频采样频率；mod代表求模运算，用于实现向量v的循环滚动；n为向量v的长度；
[0010]
对获取的所述时移向量v
roll
进行短时傅里叶变换，从而获取其时频邻域特征v[w,m]，计算公式为：
[0011][0012]
其中，w代表频率；m代表第m个时间段之间的起始采样点；len代表向量v的长度；
win_len代表滑动窗口的大小；k代表频率索引；win[k]代表窗函数；input代表输入帧；hop_len代表两个滑动窗帧之间的距离；j代表虚数单位；
[0013]
对获取的所述时频邻域特征v[w,m]在频域上进行随机掩蔽，从而获取频域向量s(m,k)，计算公式为：
[0014][0015]
其中，mk代表第m个时间段上随机选择的频率分量索引，f_mask代表遮蔽的频率或时域数目；
[0016]
将获取的所述频域向量s(m,k)输入到所述特征提取模块，从而获取特征向量；
[0017]
将获取的所述特征向量输入到所述分类模块，从而对获取的所述特征向量进行分类。
[0018]
作为上述技术方案的进一步描述，在步骤“所述输入模块以预设采样率获取音频数据”中，所述的预设采样率为44100hz。
[0019]
作为上述技术方案的进一步描述，在步骤“利用控制单元对获取的所述音频数据进行修整，从而生成向量v”中，所述的控制单元为时间常数τ为0.5s的1个控制通道。
[0020]
作为上述技术方案的进一步描述，所述特征提取模块包括依次连接的第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块；
[0021]
每一卷积块均包括卷积层、批量归一化层和最大池化层。
[0022]
作为上述技术方案的进一步描述，所述第一卷积块的卷积层由尺寸为5
×
5的第一卷积核组成，无激活函数，其中所述第一卷积核的步长为2；
[0023]
所述第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块的卷积层均由尺寸为3
×
3的第二卷积核组成，无激活函数，其中所述第二卷积核的步长为2。
[0024]
作为上述技术方案的进一步描述，所述第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块的批量归一化层均载有relu函数；
[0025]
所述第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块的最大池化层均由尺寸为2
×
2的池化核组成，无激活函数。
[0026]
作为上述技术方案的进一步描述，所述分类模块包括第一全连接层、第二全连接层及分类层；其中，
[0027]
所述第一全连接层的输入端通过信息传递通道与所述第六卷积块的最大池化层的输出端连接；
[0028]
所述第二全连接层的输入端通过信息传递通道与所述第一全连接层的输出端连接；
[0029]
所述分类层的输入端通过信息传递通道与所述第二全连接层的输出端连接。
[0030]
作为上述技术方案的进一步描述，所述第一全连接层和第二全连接层后均加有dropout层，所述第一全连接层后加有的dropout层的丢弃概率值为0.5；
[0031]
所述第二全连接层后加有的dropout层的丢弃概率值为0.3。
[0032]
作为上述技术方案的进一步描述，所述第一全连接层和第二全连接层均载有sigmod函数。
[0033]
作为上述技术方案的进一步描述，所述的基于音频数据预测异常状态的卷积神经
网络模型tbsp-net用于对个体的异常状态的诊断预测。
[0034]
综上所述，本发明的突出效果为：
[0035]
本发明所提供的基于音频数据预测异常状态的卷积神经网络模型tbsp-net可在其输入模块中将获取的只体现时域信息的音频数据转换为时频皆有的复合数据，可防止过拟合现象，继而利用其特征提取模块对转换后的复合数据进行特征提取，再利用分类模块对其分类，提高了以个体为单位的异常状态的诊断预测准确率。
附图说明
[0036]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0037]
图1为本发明实施例中基于音频数据预测异常状态的卷积神经网络模型tbsp-net的结构简图。
具体实施方式
[0038]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0039]
在本发明的描述中，需要说明的是，术语“上”、“中”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或组件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。
[0040]
请参阅图1，本发明实施例提供了一种基于音频数据预测异常状态的卷积神经网络模型tbsp-net，其包括输入模块，特征提取模块以及分类模块三部分，其中，所述输入模块以预设采样频率获取音频数据并对其进行预处理，将获取的只体现时域信息的音频数据转换为时频皆有的复合数据，所述特征提取模块对经所述输入模块预处理后的复合数据进行特征提取，而由所述特征模块提取的特征向量会输入至所述分类模块中进行分类，即实现了对异常状态的分类，提高了以个体为单位的异常状态的诊断预测准确率。
[0041]
具体的，本实施例中，所述输入模块获取音频数据的采样频率为44100hz。当然的，在其他可选的实施例中，所述的采样频率也可以依实际需要设置为其他值。
[0042]
具体的，本实施例，所述输入模块对采样的音频数据进行预处理，包括以下步骤：
[0043]
首先其会利用控制单元对获取的所述音频数据进行修整，从而生成向量v，在此过程中，所述的控制单元为时间常数τ为0.5s的1个控制通道，因此采样的音频数据会被修整为v(1,22050)；
[0044]
接着对所述向量v进行数据增强，即使其在时域上进行数据增广，随机向左/向右时移滚动，从而获取了时移向量v
roll
，计算公式如下：
[0045]vroll
[i]＝v[(i r*fs)mod n],for i＝0,1,
…
,n-1；
[0046]
其中，v
roll
[i]代表对向量v第i个采样点滚动后的位置；；i代表向量v采样点的索引；r代表向量v在时域上的滚动时间长度，以秒为单位，正值代表向左滚动，负值则代表向右滚动；fs代表音频采样频率；mod代表求模运算，用于实现向量v的循环滚动；n为向量v的长度；
[0047]
之后再对获取的所述时移向量v
roll
进行短时傅里叶变换，从而获取了其时频邻域特征v[w,m]，计算公式如下：
[0048][0049]
其中，w代表频率；m代表第m个时间段之间的起始采样点；len代表向量v的长度；win_len代表滑动窗口的大小；k代表频率索引；win[k]代表窗函数；input代表输入帧；hop_len代表两个滑动窗帧之间的距离；j代表虚数单位，此过程即获取了所述时移向量v
roll
的功率图谱；
[0050]
继而对获取的所述时频邻域特征v[w,m]进行数据增强，即使其在频域上进行随机掩蔽，从而获取了频域向量s(m,k)，计算公式如下：
[0051][0052]
其中，mk代表第m个时间段上随机选择的频率分量索引，f_mask代表遮蔽的频率或时域数目。
[0053]
至此，使得只体现时域信息的音频数据在所述输入模块中转换为了时频皆有的复合数据，可缓解过拟合现象，保证了后续的诊断预测性能。
[0054]
而后，将获取的所述频域向量s(m,k)输入到所述特征提取模块从而获取特征向量，最后再将获取的所述特征向量输入到所述分类模块，从而对获取的所述特征向量进行分类，即实现了对异常状态的分类，实现了以个体为单位的异常状态的预测诊断，且预测诊断性能优良。
[0055]
具体的，本实施例中，所述特征提取模块包括依次连接的第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块；每一卷积块均包括卷积层、批量归一化层和最大池化层，所述输入模块采样的音频数据经预处理为频域向量s(m,k)后，输入至所述特征提取模块，首先经过第一卷积块的卷积层进行特征提取，而后该卷积层输出的特征图被传递给第一卷积块所包括的批量归一化层进行特征标准化，继而再传递至所述第一卷积块的最大池化层进行特征压缩和信息过滤，经压缩和过滤后的输出数据会传递至下一卷积块，由其所包括的卷积层、批量归一化层、最大池化层进一步地进行特征提取、特征标准化以及特征压缩和信息过滤，最后由所述第六卷积块的最大池化层压缩和过滤后的输出数据经展平处理后会输入至分类模块进行异常状态的分类。
[0056]
具体的，本实施例中，所述第一卷积块的卷积层由尺寸为5
×
5的第一卷积核组成，无激活函数，其中所述第一卷积核的步长为2；所述第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块的卷积层均由尺寸为3
×
3的第二卷积核组成，无激活函数，其中所述第二卷积核的步长为2。
[0057]
具体的，本实施例中，所述第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块的批量归一化层均载有relu函数；所述第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块的最大池化层均由尺寸为2
×
2的池化核组成，无激活函数。
[0058]
具体的，本实施例中，所述分类模块包括第一全连接层、第二全连接层及分类层；其中，所述第一全连接层的输入端通过信息传递通道与所述第六卷积块的最大池化层的输出端连接，所述第二全连接层的输入端通过信息传递通道与所述第一全连接层的输出端连接；所述分类层的输入端通过信息传递通道与所述第二全连接层的输出端连接。从而使得经所述第六卷积块的最大池化层压缩和过滤后的输出数据经展平处理后能首先传递至所述第一全连接层进行特征提取，而后经所述第一全连接层特征提取的输出数据被传递至所述第二全连接层进行特征提取，经所述第一全连接层特征提取的输出数据被传递至所述分类层进行分类，从而得知不同的异常状态。
[0059]
具体的，本实施例中，所述第一全连接层和第二全连接层后均加有dropout层，从而防止模型过拟合，提高模型的泛化能力，其中，所述第一全连接层后加有的dropout层的丢弃概率值为0.5，所述第二全连接层后加有的dropout层的丢弃概率值为0.3。
[0060]
具体的，本实施例中，所述第一全连接层和第二全连接层均载有sigmod函数作为激活函数，以保证模型网络充分拟合，后续可对异常状态的准确分类。
[0061]
具体的，本实施例中，所述的基于音频数据预测异常状态的卷积神经网络模型tbsp-net用于对个体的异常状态的诊断预测。应当理解的是，本实施例中，所述“异常状态”为需要关注的非疾病状态，可以为需长期连续监测的非疾病状态，需不定期间断监测的非疾病状态，需短期连续监测的非疾病状态等。例如，变压站变压器在合闸通电运行后，铁芯中交变的磁通会在铁芯硅钢片中产生一种力的振动，会有“嗡嗡”的响声发出，这一声音的大小和施加于变压器上的电压和电流成正比，正常运行中，这一声音是均匀发出的，而当出现异常电流或电压，或是变压器出现铁芯故障、零件松动、匝间短路等问题，均会导致这一声音的特性出现不同的变化，故利用该模型可实现对变压器的长期连续性监测，从而准确诊断预测单个变压器的故障问题，即最终可诊断预测单个变压器异常的具体是由于异常电流或电压，还是变压器出现铁芯故障、零件松动还是匝间短路而导致的，因此本实施例中分类层由5个节点组成，分别对应4种异常典型状态以及正常运行状态下的声音信号。当然的，在其他实施例中，分类层的节点个数可由需监测状态的分类数量进行设置。
[0062]
针对的所述异常状态除为需要关注的非疾病状态，还可以进行延伸拓展。例如目前对结核病的诊断检测通常依赖于昂贵的专门设备，且流程复杂，但是结核病患病人群通常为低收入群体，并且占发展中国家传染病死亡人数的95％。在这种环境下，很多有其他肺部疾病的患者容易被进行无用的肺结核诊断检测，这不仅浪费了时间和金钱，还有可能延误病期。而咳嗽是结核病的常见症状，故其可用作诊断疾病的生物标志物，从而利用本发明所公开基于音频数据预测异常状态的卷积神经网络模型tbsp-net以非侵入性的方式更有效的对结核病人进行诊断，这样也可以提高以个体为单位的肺结核诊断预测准确率，弥补以音频数据预测肺结核阳性的空缺。
[0063]
最后应说明的是：以上所述仅为本发明的优选实施例而已，并不限于限制本发明，尽管参照前述实施例对本发明进行了详细说明，对于本领域的技术人员来说，其仍然可以
对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何更改、等同替换、改进等，均应包含在本发明的保护范围之内。

当前第1页1