1.本发明涉及电梯安全技术领域,具体为一种电梯困人场景的语音识别方法、系统、设备及介质。
背景技术:
2.随着近年来深度学习技术的快速发展,语音识别技术在各行各业得到了广泛应用,为人们的生活带来了便利和创新。然而,在某些特定场景下,如通过语音识别检测电梯是否困人的情境,语音识别模型可能面临一些挑战和限制。在这种场景下,现有技术往往仅将语音转换为文本并通过匹配关键字进行困人事件的判断,往往不能满足实际需求。而且由于语音信号的噪声、口音差异、说话环境等因素,导致语音识别的准确率不够高,从而引发误检和漏检的问题。这些误检和漏检可能会对用户的体验和安全造成不利影响,因此需要更加精确和可靠的困人事件检测方法。
技术实现要素:
3.鉴于以上所述现有技术的缺点,本发明提供一种电梯困人场景的语音识别方法、系统、设备及介质,以解决上述技术问题。
4.本发明提供的一种电梯困人场景的语音识别方法,包括:
5.获取电梯场景下的语音数据,并对所述语音数据进行预处理,得到第一语音特征;
6.将所述第一语音特征作为深度神经网络的输入,输出得到识别文本和困人概率值;
7.根据所述识别文本和困人概率值进行困人判定,输出得到困人判定结果。
8.于本发明中,所述预处理包括:
9.获取所述语音数据的时长,按照预设的时间间隔对所述语音数据进行分段,得到分段特征;
10.获取所述语音数据的频率,根据所述时间间隔和所述频率计算得到所述分段特征的特征长度;
11.根据所述分段特征的特征长度和分段的段数,集合得到所述第一语音特征。
12.于本发明中,所述深度神经网络为卷积神经网络。
13.于本发明中,所述将所述第一语音特征作为深度神经网络的输入,输出得到识别文本和困人概率值,具体包括:
14.将所述第一语音特征作为输入,输入至第一卷积层进行计算,得到第二语音特征;
15.将所述第二语音特征作为输入,输入至四层transformer进行编码,得到输出编码;
16.根据预设的字典对所述输出编码进行解码,得到所述识别文本;
17.将所述输出编码作为输入,输入至第二卷积层进行计算,得到输出编码特征;
18.将所述输出编码特征作为输入,输入至两层全连接层进行计算,得到维度为一的
特征值;
19.将所述特征值输入预设的困人概率函数,得到所述困人概率值。
20.于本发明中,所述根据预设的字典对所述输出编码进行解码,得到所述识别文本,具体包括:
21.根据所述字典生成概率矩阵,其中,所述概率矩阵每行向量都包含3001个概率值,前3000个概率值对应字典中的每个汉字,第3001个概率值对应空字符;
22.根据所述解码和所述概率矩阵,获取概率值最高的位置,即找到概率最大的字,输出为识别字符;
23.重复至获取编码中所有的识别字符,对所述识别字符进行后处理,生成识别文本,其中,所述后处理包括去除相邻字符中的重复字符,并去除空字符。
24.于本发明中,所述困人概率函数为:
[0025][0026]
其中,f(x)为困人概率函数,x为特征值。
[0027]
于本发明中,所述根据所述识别文本和困人概率值进行困人判定,输出得到困人判定结果,具体包括:
[0028]
当所述困人概率值小于或等于第一阈值时,困人判定结果为无困人事件发生;
[0029]
当所述困人概率值大于第一阈值且小于第二阈值时,对所述识别文本进行关键字匹配,当存在关键字时,困人判定结果为有困人事件发生,当不存在关键字时,困人判定结果为无困人事件发生;
[0030]
当所述困人概率值大于第二阈值时,困人判定结果为有困人事件发生。
[0031]
本发明还提供一种电梯困人场景的语音识别系统,包括:
[0032]
获取数据模块:获取电梯场景下的语音数据,并对所述语音数据进行预处理,得到第一语音特征;
[0033]
输出信息模块:将所述第一语音特征作为深度神经网络的输入,输出得到识别文本和困人概率值;
[0034]
综合判定模块:根据所述识别文本和困人概率值进行困人判定,输出得到困人判定结果。
[0035]
本发明还提供一种电子设备,所述电子设备包括:
[0036]
一个或多个处理器;
[0037]
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如上述任一项所述的一种电梯困人场景的语音识别方法。
[0038]
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行如上述任一项所述的一种电梯困人场景的语音识别方法。
[0039]
本发明提供一种电梯困人场景的语音识别方法、系统、设备及介质,所述方法通过获取电梯场景下的语音数据,并对所述语音数据进行预处理,得到第一语音特征;将所述第一语音特征作为深度神经网络的输入,输出得到识别文本和困人概率值;根据所述识别文
本和困人概率值进行困人判定,输出得到困人判定结果,产生的有益效果包括:
[0040]
1、提高困人事件检测准确性:通过使用深度神经网络和特定的编码解码过程,该方法能够更准确地处理电梯场景下的语音数据,从而提高对困人事件的检测准确性。
[0041]
2、实时性和高效性:该方法采用深度学习技术,具有较强的计算能力和并行处理能力,可以实现实时的语音识别和困人判定,提高了响应速度和处理效率。
[0042]
3、自动化和智能化:该方法利用深度神经网络对语音数据进行自动编码和解码,不需要人工干预,实现了对困人事件的智能识别,降低了人工操作的需求。
[0043]
4、减少误检和漏检:通过将困人概率值与阈值进行比较,并结合识别文本进行综合判断,该方法能够减少误检和漏检的情况,提高了困人事件的判定准确性。
[0044]
上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
[0045]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0046]
图1为本发明的一示例性实施例示出的一种电梯困人场景的语音识别方法的流程图;
[0047]
图2为本发明的一示例性实施例示出的一种电梯困人场景的语音识别方法中预处理的流程图;
[0048]
图3为本发明的一示例性实施例示出的一种电梯困人场景的语音识别方法中深度神经网络输出的流程图;
[0049]
图4为本发明的一示例性实施例示出的一种电梯困人场景的语音识别系统结构示意图。
具体实施方式
[0050]
以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
[0051]
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0052]
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易
见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
[0053]
首先需要说明的是,卷积神经网络(convolutional neural network,cnn)是一种深度学习算法,专门用于处理具有网格结构的数据,例如图像和语音等。在计算机视觉领域取得了巨大的成功,并在许多图像识别、目标检测、图像生成等任务中表现出色。
[0054]
cnn的主要特点是其局部连接和权值共享机制。它利用卷积层(convolutional layer)对输入数据进行卷积操作,提取不同尺寸的特征。卷积操作通过滑动一个滤波器(也称为卷积核)在输入数据上,将滤波器的权重与输入数据的对应区域相乘并求和,生成输出的特征图。
[0055]
在卷积过程中,权值共享的特点使得不同区域的输入共用相同的权重,这样可以大大减少需要学习的参数数量,从而降低了网络的复杂性,减少了过拟合的风险,加快了模型的训练速度。
[0056]
cnn通常由多个卷积层、激活函数层(如relu层)、池化层(如maxpooling层)和全连接层(fully connected layer)组成。池化层用于减小特征图的尺寸,降低计算复杂度,并提取主要特征。全连接层则将池化层的输出连接到输出层,用于分类、回归等任务。
[0057]
cnn通过反向传播算法进行训练,优化权重以最小化损失函数,使得网络输出与真实标签尽可能接近。在大规模数据集上进行训练后,cnn能够学习到有效的特征表示,并在未见过的数据上进行准确的预测。
[0058]
图1为本发明的一示例性实施例示出的一种电梯困人场景的语音识别方法的流程图;
[0059]
如图1所示,本发明提供的一种电梯困人场景的语音识别方法,包括:
[0060]
步骤s110:获取电梯场景下的语音数据,并对所述语音数据进行预处理,得到第一语音特征;
[0061]
步骤s120:将所述第一语音特征作为深度神经网络的输入,输出得到识别文本和困人概率值;
[0062]
步骤s130:根据所述识别文本和困人概率值进行困人判定,输出得到困人判定结果。
[0063]
具体的,在步骤s110中,对所获取的语音数据进行预处理,得到第一语音特征。目的在于提取语音数据中的关键特征,为后续的语音识别提供更有用的信息。在步骤s120中,通过深度神经网络的强大学习能力使得它能够从大量数据中学习到复杂的语音特征表示,从而提高语音识别的准确性和鲁棒性。在步骤s130中,通过综合考虑识别文本和困人概率值的方法,可以提高困人事件的判断准确性,并且能够区分出不同概率范围内的困人事件,增加了系统的灵活性和可调节性。
[0064]
图2为本发明的一示例性实施例示出的一种电梯困人场景的语音识别方法中预处理的流程图;
[0065]
如图2所示,本发明提供的一种电梯困人场景的语音识别方法,所述预处理包括:
[0066]
步骤s210:获取所述语音数据的时长,按照预设的时间间隔对所述语音数据进行分段,得到分段特征;
[0067]
步骤s220:获取所述语音数据的频率,根据所述时间间隔和所述频率计算得到所
述分段特征的特征长度;
[0068]
步骤s230:根据所述分段特征的特征长度和分段的段数,集合得到所述第一语音特征。
[0069]
具体的,在步骤s210中,获取所述语音数据的时长t。根据预设的时间间隔t,将语音数据进行分段,共分为n=[t/t]段,[]为取整函数且为向上取整,每个语音段的时长为预设的时间间隔t,最后一段语音时长不足补空。在步骤s220中,获取所述语音数据的频率hhz,则每段特征长度为l=t*h。在步骤步骤s230中,根据分段特征的特征长度l和分段的段数n,最终得到尺寸为n*l的第一语音特征。
[0070]
于一示例性的实施例中,所述深度神经网络为卷积神经网络。
[0071]
具体的,在对卷积神经网络进行训练时,收集电梯场景下历史语音样本,分为两个类别:困人关键语音类,有n个样本;普通语音类,包括收集的所有样本中除去困人关键语音样本外的其他样本,有m个样本。
[0072]
标注样本,对于一个语音样本:标注语音对应的文本标签;标注是否为困人关键语音,困人关键语音类样本则标注1,普通语音类样本则标注0。
[0073]
根据构建的电梯困人语音识别模型,使用样本、对应文本标签、对应困人关键标签进行24轮次的模型训练。其中,电梯困人语音识别模型包括语音识别模块、困人概率模块和困人判断模块和,语音识别模块基于编码-解码结构,将语音转为文本;困人概率模块可以输出当前语音是困人事件相关语音的概率;困人判断模块能够联合前面两个模块输出的文本与困人概率进行电梯是否困人判断。
[0074]
图3为本发明的一示例性实施例示出的一种电梯困人场景的语音识别方法中深度神经网络输出的流程图;
[0075]
如图3所示,本发明提供的一种电梯困人场景的语音识别方法,所述将所述第一语音特征作为深度神经网络的输入,输出得到识别文本和困人概率值,具体包括:
[0076]
步骤s310:将所述第一语音特征作为输入,输入至第一卷积层进行计算,得到第二语音特征;
[0077]
步骤s320:将所述第二语音特征作为输入,输入至四层transformer进行编码,得到输出编码;
[0078]
步骤s330:根据预设的字典对所述输出编码进行解码,得到所述识别文本;
[0079]
步骤s340:将所述输出编码作为输入,输入至第二卷积层进行计算,得到输出编码特征;
[0080]
步骤s350:将所述输出编码特征作为输入,输入至两层全连接层进行计算,得到维度为一的特征值;
[0081]
步骤s360:将所述特征值输入预设的困人概率函数,得到所述困人概率值。
[0082]
具体的,在步骤s310中,通过2层卷积层对步骤230中尺寸为n*l的第一语音特征做两次3*3、stride=2的卷积,获得尺寸为n*(l/4)的第二语音特征。在步骤s320中,通过四层transformer对第二语音特征进行编码,获得尺寸为n*256的输出编码。在步骤s330中,根据预设的字典对输出编码进行解码,预设的字典包含有常用汉字3000个,获得识别文本。在步骤s340、s350和s360中,将输出编码作为输入;对编码进行两次尺寸3*3、stride=2卷积,得到尺寸为n*64的输出编码特征;将输出编码特征输入至两层全连接层,获得维度为一的特
征值;将特征值输入预设的困人概率函数,得到困人概率值p。
[0083]
于一示例性的实施例中,所述根据预设的字典对所述输出编码进行解码,得到所述识别文本,具体包括:
[0084]
根据所述字典生成概率矩阵,其中,所述概率矩阵每行向量都包含3001个概率值,前3000个概率值对应字典中的每个汉字,第3001个概率值对应空字符;
[0085]
根据所述解码和所述概率矩阵,获取概率值最高的位置,即找到概率最大的字,输出为识别字符;
[0086]
重复至获取编码中所有的识别字符,对所述识别字符进行后处理,生成识别文本,其中,所述后处理包括去除相邻字符中的重复字符,并去除空字符。
[0087]
具体的,根据包含有常用汉字3000个的字典生成概率矩阵,每行向量3001个概率值,前3000个概率一一对应字典总字符,第3001个概率值对应空字符,每行最高概率值对应字典中的字符的字为输出,共获得n个字符,先消除相邻字符中的重复字符,再去除空字符,最终获得识别文本,其中,识别文本为txt格式。
[0088]
于一示例性的实施例中,所述困人概率函数为:
[0089][0090]
其中,f(x)为困人概率函数,x为特征值。
[0091]
具体的,将特征值代入困人概率函数f(x),可以保证输出取值区间为(0,1)。
[0092]
于一示例性的实施例中,所述根据所述识别文本和困人概率值进行困人判定,输出得到困人判定结果,具体包括:
[0093]
当所述困人概率值小于或等于第一阈值时,困人判定结果为无困人事件发生;
[0094]
当所述困人概率值大于第一阈值且小于第二阈值时,对所述识别文本进行关键字匹配,当存在关键字时,困人判定结果为有困人事件发生,当不存在关键字时,困人判定结果为无困人事件发生;
[0095]
当所述困人概率值大于第二阈值时,困人判定结果为有困人事件发生。
[0096]
具体的,在一可行的实施例中,第一阈值被设置为0.35,第二阈值被设置为0.65,则:如果p《=0.35,则直接判定无困人事件发生;如果0.35《p《0.65,则在文本中匹配“打不开”、“门坏”、“救命”等关键词,若匹配成功,判定有困人事件,否则无困人事件;如果p》=0.65,直接判定有困人事件。通过联合识别文本与概率p值共同判断,可以过滤掉许多误检,并避免漏检。
[0097]
本方法提供的一种电梯困人场景的语音识别方法与单一语音识别 关键字匹配的对比测试结果如下表所示,其中召回率=检出你真实困人事件数量/所有真实困人事件数量,此值越大说明漏检越少;精度=检出真实困人事件数量/检出困人事件数量,此值越大说明误检越少。
[0098] 召回率精度语音识别 关键字匹配93.6%95.1%一种电梯困人场景的语音识别方法96.1%97.4%
[0099]
图4为本发明的一示例性实施例示出的一种电梯困人场景的语音识别系统结构示意图;
[0100]
如图4所示,该示例性的一种电梯困人场景的语音识别系统,包括:
[0101]
获取数据模块401:获取电梯场景下的语音数据,并对所述语音数据进行预处理,得到第一语音特征;
[0102]
输出信息模块402:将所述第一语音特征作为深度神经网络的输入,输出得到识别文本和困人概率值;
[0103]
综合判定模块403:根据所述识别文本和困人概率值进行困人判定,输出得到困人判定结果。
[0104]
需要说明的是,上述实施例所提供的一种电梯困人场景的语音识别系统与上述实施例所提供的一种电梯困人场景的语音识别方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的一种电梯困人场景的语音识别系统在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
[0105]
本技术的实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述各个实施例中提供的一种电梯困人场景的语音识别方法。
[0106]
本技术的实施例还提供了一种电子设备的计算机系统。需要说明的是,电子设备的计算机系统仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0107]
具体的,计算机系统包括中央处理单元(central processing unit,cpu),其可以根据存储在只读存储器(read-only memory,rom)中的程序或者从储存部分加载到随机访问存储器(random access memory,ram)中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在ram中,还存储有系统操作所需的各种程序和数据。cpu、rom以及ram通过总线彼此相连。输入/输出(input/output,i/o)接口也连接至总线。
[0108]
以下部件连接至i/o接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(cathode ray tube,crt)、液晶显示器(liquid crystal display,lcd)等以及扬声器等的输出部分;包括硬盘等的储存部分;以及包括诸如lan(local area network,局域网)卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至i/o接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入储存部分。
[0109]
特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(cpu)执行时,执行本技术的系统中限定的各种功能。
[0110]
需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算
机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0111]
描述于本技术实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
[0112]
本技术的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述的一种电梯困人场景的语音识别方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
[0113]
本技术的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的一种电梯困人场景的语音识别方法。
[0114]
上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。