语音识别方法、装置、电子设备及可读存储介质与流程-j9九游会真人

文档序号:34865104发布日期:2023-07-23 17:42阅读:25来源:国知局


1.本技术属于人工智能技术领域,具体涉及一种语音识别方法、装置、电子设备及可读存储介质。


背景技术:

2.随着人工智能技术在各行各业的加速落地,智能外呼系统应运而生,智能外呼系统可根据业务场景,自动发起电话外呼任务,通过与人的语音对话交互收集业务结果,并对数据加以统计处理。
3.现有的智能外呼系统是基于任务式的话术流程,通常仅识别语音对话的单意图,缺少针对用户多意图的识别及应答话术流程设计,对于多意图的语音识别不准确,造成了用户的体验不佳。


技术实现要素:

4.本技术实施例的目的是提供一种语音识别方法、装置、电子设备及可读存储介质,能够解决现有的语音识别方法的意图识别结果不准确的问题。
5.第一方面,本技术实施例提供了一种语音识别方法,所述方法包括:获取待识别语音数据,并将所述待识别语音数据转换为待识别文本数据;对所述待识别文本数据进行多次意图识别及文本数据简化,以确定所述待识别文本数据的多个意图,其中,所述文本数据简化为根据所述意图识别的结果从所述待识别文本数据中去除与所述意图识别的结果对应的子文本数据。
6.可选地,所述对所述待识别文本数据进行多次意图识别及文本数据简化,以确定所述待识别文本数据的多个意图,包括:识别所述待识别文本数据对应的第一意图;获取所述待识别文本数据中与所述第一意图最匹配的第一子文本数据;获取从所述待识别文本数据中去除所述第一子文本数据后的第二文本数据,识别所述第二文本数据的第二意图,获取所述第二文本数据中与所述第二意图最匹配的第二子文本数据;获取从所述第二文本数据中去除所述第二子文本数据后的第三文本数据,识别所述第三文本数据对应的第三意图;获取所述第三文本数据中与所述第三意图最匹配的第三子文本数据,并对去除所述第三子文本数据后的剩余的文本数据继续进行意图识别与文本数据简化,直至所述待识别文本数据识别完成,得到所述待识别文本数据的多个意图,所述多个意图包括所述第一意图、所述第二意图和所述第三意图。
7.可选地,在所述确定所述待识别文本数据的多个意图之后,所述方法还包括:获取所述多个意图各自对应的多个预设应答语音;基于所述多个预设应答语音,对所述待识别语音数据进行应答。
8.可选地,所述基于所述多个预设应答语音,对所述待识别语音数据进行应答,包括:获取所述多个意图各自对应的重要性分值;按照所述重要性分值对所述多个意图进行排序,以得到第一排序;确定所述多个预设应答语音与所述第一排序对应的第二排序;基于所述多个预设应答语音,按照所述第二排序进行应答。
9.可选地,对所述待识别文本数据的意图识别基于意图识别模型实现,所述方法还包括:获取文本训练集,其中,所述文本训练集包括多条文本数据以及每条所述文本数据对应的意图标签;将所述多条文本数据作为特征值,每条所述文本数据对应的意图标签作为标签值,对所述意图识别模型进行训练。
10.第二方面,本技术实施例提供了一种语音识别装置,所述装置包括:获取模块,用于获取待识别语音数据,并将所述待识别语音数据转换为待识别文本数据;识别模块,用于对所述待识别文本数据进行多次意图识别及文本数据简化,以确定所述待识别文本数据的多个意图,其中,所述文本数据简化为根据所述意图识别的结果从所述待识别文本数据中去除与所述意图识别的结果对应的子文本数据。
11.可选地,所述识别模块还用于:识别所述待识别文本数据对应的第一意图;获取所述待识别文本数据中与所述第一意图最匹配的第一子文本数据;获取从所述待识别文本数据中去除所述第一子文本数据后的第二文本数据,识别所述第二文本数据的第二意图,获取所述第二文本数据中与所述第二意图最匹配的第二子文本数据;获取从所述第二文本数据中去除所述第二子文本数据后的第三文本数据,识别所述第三文本数据对应的第三意图;获取所述第三文本数据中与所述第三意图最匹配的第三子文本数据,并对去除所述第三子文本数据后的剩余的文本数据继续进行意图识别与文本数据简化,直至所述待识别文本数据识别完成,得到所述待识别文本数据的多个意图,所述多个意图包括所述第一意图、所述第二意图和所述第三意图。
12.可选地,所述装置还包括应答模块,所述应答模块用于:获取所述多个意图各自对应的多个预设应答语音;基于所述多个预设应答语音,对所述待识别语音数据进行应答。
13.可选地,所述应答模块还用于:获取所述多个意图各自对应的重要性分值;按照所述重要性分值对所述多个意图进行排序,以得到第一排序;确定所述多个预设应答语音与所述第一排序对应的第二排序;基于所述多个预设应答语音,按照所述第二排序进行应答。
14.可选地,所述装置还包括训练模块,所述训练模块用于:
获取文本训练集,其中,所述文本训练集包括多条文本数据以及每条所述文本数据对应的意图标签;将所述多条文本数据作为特征值,每条所述文本数据对应的意图标签作为标签值,对所述意图识别模型进行训练。
15.第三方面,本技术实施例提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的语音识别方法的步骤。
16.第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的语音识别方法的步骤。
17.在本技术实施例中,在将待识别语音数据转换为待识别文本数据后,对待识别文本数据进行多次意图识别及文本数据简化,文本数据简化可以减少待识别文本数据中的文本数据量,文本数据量越少,待识别文本数据中不同的文本数据之间的意图干扰就越小,意图识别的结果越准确。并且多次意图识别和文本数据简化可最大程度地利用待识别文本数据中的所有文本数据的信息,通过上述过程确定待识别语音数据的多个意图,提高了对于待识别语音数据的意图识别结果的准确性。
附图说明
18.图1为本技术实施例提供的语音识别方法的流程示意图之一;图2为本技术实施例提供的语音识别方法的流程示意图之二;图3为本技术实施例提供的语音识别装置的结构示意图;图4为本技术实施例提供的电子设备的结构示意图。
具体实施方式
19.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
20.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象 可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
21.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的方法进行详细地说明。
22.图1是本技术实施例提供的一种语音识别方法的流程示意图,如图1所示,本技术实施例的语音识别方法包括如下步骤:步骤s1,获取待识别语音数据,并将所述待识别语音数据转换为待识别文本数据,待识别语音数据可以是在计算机与人的语音对话交互过程中实时采集到的数据,也可以是预先存储在数据库中的数据。
23.在获取了待识别语音数据之后,通过自动语音识别(automatic speech recognition,asr)技术将语音数据转换为计算机可读的待识别文本数据,待识别文本数据的数据类型可以是二进制编码、字符序列等。
24.步骤s2,对所述待识别文本数据进行多次意图识别及文本数据简化,以确定所述待识别文本数据的多个意图,其中,所述文本数据简化为根据所述意图识别的结果从所述待识别文本数据中去除与所述意图识别的结果对应的子文本数据。
25.在将待识别语音数据转换为待识别文本数据后,对待识别文本数据执行多次意图识别以及文本数据简化的操作,例如可以是每执行一次意图识别操作后,将相应地执行一次文本数据简化操作。文本数据简化为根据对应的意图识别的结果,从待识别文本数据中去除与意图识别结果对应的子文本数据。
26.需要说明的是,待识别文本数据由子文本数据组成,子文本数据的数量可以是一个或多个。在子文本数据的数量为一个的情况下,待识别文本数据的意图为子文本数据的意图,不存在多个子文本数据之间产生相互干扰的问题,保证了待识别语音数据的意图识别结果的准确性。在子文本数据的数量为多个的情况下,对待识别文本数据进行一次意图识别后,将从待识别文本数据中去除与此次意图识别结果所对应的子文本数据,也就是文本数据简化的过程。之后,对去除了子文本数据的待识别文本数据进行下一次的意图识别和文本数据简化操作,重复上述过程直至待识别文本数据识别完成,根据多次意图识别的结果来确定待识别文本数据的多个意图,从而确定了待识别语音数据的多个意图。
27.本技术实施例提供的语音识别方法,在将待识别语音数据转换为待识别文本数据后,对待识别文本数据进行多次意图识别及文本数据简化,文本数据简化可以排除待识别文本数据中多个子文本数据之间的意图干扰,并且多次意图识别和文本数据简化可最大程度地利用多个子文本数据的信息,通过上述过程确定待识别语音数据的多个意图,提高了对于待识别语音数据的意图识别结果的准确性。
28.可选地,步骤s2,对所述待识别文本数据进行多次意图识别及文本数据简化,以确定所述待识别文本数据的多个意图,包括:识别所述待识别文本数据对应的第一意图;获取所述待识别文本数据中与所述第一意图最匹配的第一子文本数据;获取从所述待识别文本数据中去除所述第一子文本数据后的第二文本数据,识别所述第二文本数据的第二意图,获取所述第二文本数据中与所述第二意图最匹配的第二子文本数据;获取从所述第二文本数据中去除所述第二子文本数据后的第三文本数据,识别所述第三文本数据对应的第三意图;获取所述第三文本数据中与所述第三意图最匹配的第三子文本数据,并对去除所述第三子文本数据后的剩余的文本数据继续进行意图识别与文本数据简化,直至所述待识别文本数据识别完成,得到所述待识别文本数据的多个意图,所述多个意图包括所述第一意图、所述第二意图和所述第三意图。
29.需要说明的是,意图识别过程可由训练得到的意图识别模型来执行,意图识别模型的训练过程可以是:将大量的文本数据作为特征值,每个文本数据对应的意图作为标签值,采用人工神经网络(artificial neural network,ann)来进行训练,得到意图识别模
型。将待识别语音数据输入到意图识别模型中,意图识别模型将输出所述待识别语音数据所对应的准确率最高的意图。
30.可选地,待识别文本数据、第二文本数据和第三文本数据可以都包括多个子文本数据,因此将待识别文本数据、第二文本数据、第三文本数据输入到意图识别模型中进行意图识别时,意图识别的结果也是包含多个的,但是意图识别模型只会输出准确率最高的一个意图,如待识别文本数据对应的第一意图,第二文本数据对应的第二意图,第三文本数据对应的第三意图。
31.所述待识别文本数据识别完成的情况可以是待识别文本数据中所有子文本数据都被去除,即待识别文本数据为空的情况。所述待识别文本数据识别完成的情况还可以是所述待识别文本数据中最后剩下的子文本数据无法被识别出新的意图的情况。在待识别文本数据识别完成后,将上述对待识别文本数据进行多次意图识别及文本数据简化过程中所识别出的全部意图识别结果,作为待识别文本数据的多个意图,也就是待识别语音数据的多个意图。
32.以下述过程为例,对本技术实施例的语音识别方法进行说明:实时获取待识别语音数据,并通过asr技术转换为待识别文本数据。例如,外呼机器人:“您好,请问是张女士吗?”,客户应答“嗯,我是。您是哪位?从哪弄到我电话的?”客户所应答的句子为待识别文本数据。
33.对待识别文本数据进行识别,得到准确率最高的第一意图“肯定”。此时,对待识别文本数据通过断句划分为三个子文本数据:“嗯,我是。”、“您是哪位?”、“从哪弄到我电话的?”。其中,“嗯,我是”这一子文本数据与第一意图相匹配,从待识别文本数据中去除“嗯,我是”,得到第二文本数据“您是哪位?从哪弄到我电话的?”。
34.进一步地,对第二文本数据“您是哪位?从哪弄到我电话的?”进行识别,得到准确率最高的第二意图“质询9游会的联系方式来源”。此时,对第二文本数据通过断句划分为两个子文本数据:您是哪位?”、“从哪弄到我电话的?”。其中,“从哪弄到我电话的?”这一子文本数据与第二意图相匹配,从第二文本数据中去除“从哪弄到我电话的?”,得到第三文本数据“您是哪位?”。
35.对第三文本数据“您是哪位?”进行识别,得到第三意图“询问身份”,再对第三文本数据进行文本数据简化后,剩余的待识别文本数据为空,待识别文本数据识别完成,结束意图识别与文本数据简化过程。在上述过程中获取的第一意图“肯定”、第二意图“质询9游会的联系方式来源”以及第三意图“询问身份”为待识别文本数据“嗯,我是。您是哪位?从哪弄到我电话的?”的三个意图。
36.通过对待识别文本数据执行多次“意图识别后再进行文本数据简化”的过程,排除待识别文本数据中各个子文本数据之间的意图干扰,提高了待识别文本数据的意图识别的准确性。
37.在一可选的实施例中,图2为一种语音识别方法的流程示意图,如图2所示,语音识别方法包括如下步骤:步骤s1,获取待识别语音数据,并将所述待识别语音数据转换为待识别文本数据;步骤s2,对所述待识别文本数据进行多次意图识别及文本数据简化,以确定所述待识别文本数据的多个意图,其中,所述文本数据简化为根据所述意图识别的结果从所述
待识别文本数据中去除与所述意图识别的结果对应的子文本数据;步骤s3,获取所述多个意图各自对应的多个预设应答语音;步骤s4,基于所述多个预设应答语音,对所述待识别语音数据进行应答。
38.其中,步骤s1和步骤s2与图1所示的实施例中的语音识别方法的内容一致,为避免重复,在此不再赘述。
39.本技术实施例中,在获取所述多个意图各自对应的多个预设应答语音,在确定了所述待识别语音数据的多个意图后,基于所述多个意图从语音数据库中获取与多数多个意图各自对应的所述多个语音应答语音。其中,语音数据库中预设应答语音的具体内容可根据实际应用的场景的不同来进行适应性的调整。
40.示例性的,“嗯,我是。您是哪位?从哪弄到我电话的?”这一语音的多个意图分别是第一意图“肯定”、第二意图“质询9游会的联系方式来源”和第三意图“询问身份”。针对第一意图“肯定”,获取对应的预设应答语音“您有关注过我们公司的xxx吗?”。针对第二意图“质询9游会的联系方式来源”,获取对应的预设应答语音“xxx时间,您购买了我司的xxxx”。针对第三意图“询问身份”,获取对应的预设应答语音为“您好,我们是xxx公司”。
41.基于获取的所述多个预设应答语音,对所述待识别语音数据进行应答。可以是按照预设顺序,依次回复多个意图各自对应的预设应答语音。其中,预设顺序可以是对多个预设应答语音预先设置顺序标签来确定,预设顺序也可以是根据预设应答语音的长短顺序来确定。通过上述排序的方式来进行语音数据的多个意图的应答,减少了人工设置众多答复的工作量。
42.可选地,步骤s4,基于所述多个预设应答语音,对所述待识别语音数据进行应答,包括:获取所述多个意图各自对应的重要性分值;按照所述重要性分值对所述多个意图进行排序,以得到第一排序;确定所述多个预设应答语音与所述第一排序对应的第二排序;基于所述多个预设应答语音,按照所述第二排序进行应答。
43.其中,重要性分值可以通过人工预先设置,也可以根据本实施例的语音识别方法实际应用后的反馈结果进行调整。根据重要性分值的大小顺序对多个意图进行排序,以得到第一排序。每个意图都有对应的预设应答语音,根据第一排序对多个预设应答语音进行排序,以得到多个预设应答语音的第二排序。根据第二排序依次回复预设应答语音,以完成对于待识别语音数据的应答。
44.可选地,在获取了多个意图各自对应的重要性分值后,可以是按照小根堆的方式将多个意图压入栈。在需要应答时,按照小根堆取最小值的方式,逐个取出意图,并回复对应的预设应答语音。其中,小根堆即最小堆,是一种经过排序的完全二叉树,小根堆中任一非终端节点的数据值均不大于其左子节点和右子节点的值。
45.以上述三个意图“肯定”、“质询9游会的联系方式来源”和“询问身份”为例,将意图“肯定”的重要性分值设置为10,意图“质询9游会的联系方式来源”的重要性分值设置为5,意图“询问身份”的重要性分值设置为1。按照重要性分值从小到大的顺序进行排序,第一排序为【意图“询问身份”,意图“质询9游会的联系方式来源”,意图“肯定”】,根据第一排序对三个意图各自对应的三个预设应答语音进行排序,第二排序为【“您好,我们是xxx公司”,“xxx时间,您购买了我司的
xxxx”,“您有关注过我们公司的xxx吗?”】,按照第二排序依次回复预设应答语音,以完成对于待识别语音数据的应答。在上述过程中,通过排序的方式进行待识别语音数据的多意图应答,结构清晰明了,便于用户理解,并且减少了人工设置众多答复的工作量。
46.在一可选的实施例中,对于待识别文本数据的意图识别可基于意图识别模型实现,语音识别方法还包括:获取文本训练集,其中,所述文本训练集包括多条文本数据以及每条所述文本数据对应的意图标签;将所述多条文本数据作为特征值,每条所述文本数据对应的意图标签作为标签值,对所述意图识别模型进行训练。
47.文本训练集包括多条文本数据,文本数据由计算机在过去的话务过程中所收集到的语音数据通过asr技术转换而来。语音数据的数据量越大,越有利于后续的意图识别模型的训练。在获取到大量的文本数据后,对每条文本数据设置意图标签。
48.将文本训练集中的文本数据作为特征值,将文本数据对应的意图标签作为标签值,采用深度学习的ann训练得到意图识别模型。
49.通过采用大量的文本数据作为特征值,文本数据对应的意图标签作为标签值,训练得到的意图识别模型来识别待识别文本数据的意图,进一步提高了意图识别的准确性。
50.本技术实施例提供的语音识别方法的执行主体可以是语音识别装置,以语音识别装置执行语音识别方法为例,结合附图3说明本技术实施例提供的语音识别装置300,语音识别装置300包括:获取模块301,用于获取待识别语音数据,并将所述待识别语音数据转换为待识别文本数据;识别模块302,用于对所述待识别文本数据进行多次意图识别及文本数据简化,以确定所述待识别文本数据的多个意图,其中,所述文本数据简化为根据所述意图识别的结果从所述待识别文本数据中去除与所述意图识别的结果对应的子文本数据。
51.可选地,所述识别模块302还用于:识别所述待识别文本数据对应的第一意图;获取所述待识别文本数据中与所述第一意图最匹配的第一子文本数据;获取从所述待识别文本数据中去除所述第一子文本数据后的第二文本数据,识别所述第二文本数据的第二意图,获取所述第二文本数据中与所述第二意图最匹配的第二子文本数据;获取从所述第二文本数据中去除所述第二子文本数据后的第三文本数据,识别所述第三文本数据对应的第三意图;获取所述第三文本数据中与所述第三意图最匹配的第三子文本数据,并对去除所述第三子文本数据后的剩余的文本数据继续进行意图识别与文本数据简化,直至所述待识别文本数据识别完成,得到所述待识别文本数据的多个意图,所述多个意图包括所述第一意图、所述第二意图和所述第三意图。
52.可选地,所述装置300还包括应答模块,所述应答模块用于:获取所述多个意图各自对应的多个预设应答语音;基于所述多个预设应答语音,对所述待识别语音数据进行应答。
53.可选地,所述应答模块还用于:获取所述多个意图各自对应的重要性分值;按照所述重要性分值对所述多个意图进行排序,以得到第一排序;确定所述多个预设应答语音与所述第一排序对应的第二排序;基于所述多个预设应答语音,按照所述第二排序进行应答。
54.可选地,所述装置300还包括训练模块,所述训练模块用于:获取文本训练集,其中,所述文本训练集包括多条文本数据以及每条所述文本数据对应的意图标签;将所述多条文本数据作为特征值,每条所述文本数据对应的意图标签作为标签值,对所述意图识别模型进行训练。
55.本技术实施例提供的语音识别装置300,能够将待识别语音数据转换为待识别文本数据,并对待识别文本数据进行多次意图识别及文本数据简化,以确定待识别语音数据的多个意图。
56.需要说明的是,本技术实施例提供的语音识别装置300能够实现上述语音识别方法的全部技术过程,并达到相同的技术效果,为避免重复,在此不再赘述。
57.本技术实施例中的装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device,mid)、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、机器人、 可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,非移动电子设备还可以为服务器 、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
58.可选地,如图4所示,本技术实施例还提供一种电子设备400,包括处理器401和存储器402,存储器402上存储有可在处理器401上运行的程序或指令,该程序或指令被处理器401执行时实现上述语音识别方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
59.需要说明的是,本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
60.本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述语音识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
61.其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(read-only memory, rom)、随机存取存储器(random access memory, ram)、磁碟或者光盘等。
62.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有
的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
63.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机 软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器, 或者网络设备等)执行本技术各个实施例所述的方法。
64.以上,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图