语音的识别方法、装置、车辆、电子设备和存储介质与流程-j9九游会真人

文档序号:35881589发布日期:2023-10-28 15:40阅读:7来源:国知局
语音的识别方法、装置、车辆、电子设备和存储介质与流程

1.本公开涉及车辆技术领域,尤其涉及一种语音的识别方法、装置、车辆、电子设备和存储介质。


背景技术:

2.语音交互技术是一种综合技术,以语音为基础信息载体,使得机器具有像人一样“能听会说、自然交互、又问必答”的交互能力。
3.语音交互过程包括四部分:语音采集、语音识别(automatic speech recognition,asr)、自然语言理解(natural language understanding,nlu)和语音合成(text-to-speech,tts)。语音采集用于完成音频的录入、采样及编码,asr用于将语音信息到机器可识别的文本信息的转化,nlp根据语音识别转换后的文本字符或命令完成相应的操作,tts完成文本信息到声音信息的转换。
4.目前,语音交互系统被唤醒后,用户的所有音频都会被接收进行语音识别,包括用户的一些无效语义短音频,例如用户的咳嗽声,由于语音识别asr无法识别咳嗽等无效语义短音频,因此会触发语音对话异常兜底流程,即提示语音对话异常,或要求用户重新录入语音,大大降低了用户的语音交互体验。


技术实现要素:

5.本公开提供了一种语音的识别方法、装置、电子设备和存储介质。其主要目的在于解决无效语义短音频触发语音对话异常兜底流程,影响用户的语音交互体验的问题。
6.根据本公开的第一方面,提供了一种语音的识别方法,其中,包括:
7.对接收到的待识别语音进行语义识别,确定所述语义识别结果是否包含无效语义;
8.若确定包含无效语义,则确定所述无效语义对应的无效语音时长;
9.若确定所述无效语音时长小于预设时长阈值,则将所述待识别语音中的无效语义丢弃,得到不包含无效语义的语义识别结果。
10.可选的,所述方法还包括:
11.若确定无效语义的无效时长大于或者等于所述预设时长阈值,则重新对包含无效音频段的待识别语音进行语义识别,其中,无效音频段为无效语义对应的音频段。
12.可选的,所述方法还包括:
13.若确定重新识别的识别结果包括目标无效语义,则统计目标无效语义的出现次数;其中,所述目标无效语义为无效语义对应的音频的无效时长大于或者等于所述预设时长阈值的无效语义;
14.若确定所述目标无效语义的出现次数未超过预设次数阈值,则输出重新录入待识别语音的语音提示;
15.若确定所述目标无效语义的出现次数超过所述预设次数阈值,则退出语音交互。
16.可选的,在将所述待识别语音中的无效语义丢弃之后,所述方法还包括:
17.根据所述不包含无效语义的语义识别结果进行语音交互。
18.可选的,所述方法还包括:
19.若所述待识别语音的语义识别超时,则输出识别异常的语音提示信息。
20.根据本公开的第二方面,提供了一种语音的识别装置,包括:
21.第一确定单元,用于对接收到的待识别语音进行语义识别,确定所述语义识别结果是否包含无效语义;
22.第二确定单元,用于当确定包含无效语义时,确定所述无效语义对应的无效语音时长;
23.丢弃单元,用于当确定所述无效语音时长小于预设时长阈值时,将所述待识别语音中的无效语义丢弃;
24.获取单元,用于得到不包含无效语义的语义识别结果。
25.可选的,所述装置还包括:
26.识别单元,用于当确定无效语义的无效时长大于或者等于所述预设时长阈值时,重新对包含无效音频段的待识别语音进行语义识别,其中,无效音频段为无效语义对应的无效音频段。
27.可选的,所述装置还包括:
28.统计单元,用于当确定重新识别的识别结果包括目标无效语义时,统计目标无效语义的出现次数;其中,所述目标无效语义为无效语义对应的音频的无效时长大于或者等于所述预设时长阈值的无效语义;
29.第一输出单元,用于当确定所述目标无效语义的出现次数未超过预设次数阈值时,输出重新录入待识别语音的语音提示;
30.退出单元,用于当确定所述目标无效语义的出现次数超过所述预设次数阈值时,退出语音交互。
31.可选的,所述装置还包括:
32.交互单元,用于在丢弃单元之后,根据所述不包含无效语义的语义识别结果进行语音交互。
33.可选的,所述装置还包括:
34.第二输出单元,用于当所述待识别语音的语义识别超时,输出识别异常的语音提示信息。
35.本公开的第三方面,提供了一种车辆,所述车辆包括前述第二方面所述的语音的识别装置。
36.根据本公开的第四方面,提供了一种电子设备,包括:
37.至少一个处理器;以及
38.与所述至少一个处理器通信连接的存储器;其中,
39.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面所述的方法。
40.根据本公开的第五方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第一方面所述的方法。
41.根据本公开的第六方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如前述第一方面所述的方法。
42.本公开提供的语音的识别方法、装置、电子设备和存储介质,首先,对接收到的待识别语音进行语义识别,确定所述语义识别结果是否包含无效语义;其次若确定包含无效语义,则确定所述无效语义对应的无效语音时长;最后,若确定所述无效语音时长小于预设时长阈值,则将所述待识别语音中的无效语义丢弃,得到不包含无效语义的语义识别结果。与相关技术相比,本技术实施例在识别到待识别语音中存在无效语义后,检测无效语义的语音时长,若确定语音时长小于预设时长阈值,则直接将小于预设时长阈值的无效语义丢弃,防止无效音频段给用户的语音对话造成的异常对话提示,提升了用户的语音对话体验。
43.应当理解,本部分所描述的内容并非旨在标识本技术的实施例的关键或重要特征,也不用于限制本技术的范围。本技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
44.附图用于更好地理解本方案,不构成对本公开的限定。其中:
45.图1为本公开实施例所提供的一种语音的识别方法的流程示意图;
46.图2为本公开实施例所提供的另一种语音识别的方法的流程示意图;
47.图3为本公开实施例提供的一种语音的识别装置的结构示意图;
48.图4为本公开实施例提供的另一种语音的识别装置的结构示意图;
49.图5为本公开实施例提供的示例电子设备400的示意性框图。
具体实施方式
50.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
51.下面参考附图描述本公开实施例的语音的识别方法、装置、电子设备和存储介质。
52.图1为本公开实施例所提供的一种语音的识别方法的流程示意图。
53.如图1所示,该方法包含以下步骤:
54.步骤101,对接收到的待识别语音进行语义识别,确定所述语义识别结果是否包含无效语义。
55.在语音交互系统被唤醒后,会自动接收周围环境中的待识别语音,并对接收到的待识别语音进行语义识别,在识别出有效指令后,执行对应的操作;但是,在实际使用时,可能存在例如杂音、用户声音过小或咳嗽等情况,造成识别结果为无效语义,或识别语义时间过长的情况。
56.在进行语义识别时,可采用以下两种方式,第一种,对于全部的待识别语音进行语义识别后,在确定语义识别结果中是否包含无效语义;第二种,在对待识别语音进行语义识别时,实时判断识别出的语义是非为无效语义。具体的,本技术实施例对判别无效语义的时机不做限定。
57.步骤102,若确定包含无效语义,则确定所述无效语义对应的无效语音时长。
58.在接收待识别语音时,会自动记录待识别语音的时长,根据待识别语音的声音连贯、句意理解等对待识别语音进行分段,在确定存在无效语义后,可直接获取无效语义对应的无效语音段,进而根据无效语音段的时长与预设时长阈值进行比较,在确定所述无效语音时长小于预设时长阈值时,确定待识别语音中包含无效短音频,并执行步骤103。
59.所述预设时长阈值为一经验值,可根据不同应用场景的实际需求进行设置,例如设置预设时长阈值为700ms或500ms等,本技术实施例对预设时长阈值的设定不进行限定。
60.步骤103,若确定所述无效语音时长小于预设时长阈值,则将所述待识别语音中的无效语义丢弃,得到不包含无效语义的语义识别结果。
61.在实际应用中,会存在以下两种无效语义的情况,第一种:只有杂音,没有用户的说话声;第二种,用户的说话声中夹杂一些杂音;其中杂音可为用户的咳嗽声、语气助词等无实际含义的词语。
62.当发生上述第一种情况时,识别出为无效语音,且确认时长小于预设时长阈值,确定为无效短音频后,将当前待识别语音全部丢弃;当发生第二种情况时,因为待识别语音中除了无效语音段(包含夹杂杂音的语音)外,还包含有效语义的语音段,因此在对待识别语音识别,并确定语义识别结果中存在无效语义后,只丢弃待识别语音的无效语义,保留不包含无效语义的语义识别结果。
63.示例性的,让用户发出语音指令:打开(咳嗽声)音乐,那么在对待识别语音进行语义识别时,因为杂音咳嗽声的干扰导致未识别出有效指令,在确定待识别语音中存在短音频(无效音频段)时,只丢弃中间的咳嗽对应的短音频(无效音频段),只保留“打开”“音乐”对应的语音数据。
64.本公开提供的语音的识别方法,首先,对接收到的待识别语音进行语义识别,确定所述语义识别结果是否包含无效语义;其次若确定包含无效语义,则确定所述无效语义对应的无效语音时长;最后,若确定所述无效语音时长小于预设时长阈值,则将所述待识别语音中的无效语义丢弃,得到不包含无效语义的语义识别结果。与相关技术相比,本技术实施例在识别到待识别语音中存在无效语义后,检测无效语义的语音时长,若确定语音时长小于预设时长阈值,则直接将小于预设时长阈值的无效语义丢弃,防止无效音频段给用户的语音对话造成的异常对话提示,提升了用户的语音对话体验。
65.上述实施例详细讲述了当无效语义小于预设时长阈值的场景,即待识别语音中存在无效短音频的情况,实际应用中,还会存在无效语义的无效时长大于或者等于所述预设时长阈值的场景,针对该场景,重新对包含无效音频段的待识别语音进行语义识别,其中,无效音频段为无效语义对应的音频段。本技术实施例提供以下两种解决方式:
66.方式一:若确定无效语义的无效时长大于或者等于所述预设时长阈值,则重新对无效语义对应的无效音频段进行语义识别。
67.除当前无效语义外,还包含有效语义,说明无效音频段与其他语音段为独立语音段,因此只对无效音频段进行单独语义识别即可。
68.方式二:若确定无效语义的无效时长大于或者等于所述预设时长阈值,则重新对所述待识别语音重新进行语义识别。
69.在识别出待识别音频中包含无效语义后,对包含无效音频段的待识别语音进行整体重新识别。
70.作为本技术实施例的另一种实现方式,在确认无效语义的无效时长大于或者等于所述预设时长阈值时,也可不执行上述两个方式的重新识别,而直接输出语音提示,如提示用户再说一遍。
71.作为对上述申请实施例的扩展,在执行完重新对包含无效音频段的待识别语音的语义识别时,若确定重新识别的识别结果包括目标无效语义,则统计目标无效语义的出现次数;其中,所述目标无效语义为无效语义对应的音频的无效时长大于或者等于所述预设时长阈值的无效语义;若确定所述目标无效语义的出现次数未超过预设次数阈值,则输出重新录入待识别语音的语音提示;若确定所述目标无效语义的出现次数超过所述预设次数阈值,则退出语音交互。
72.作为对上述申请实施例的扩展,本技术实施例提供另一种语音的识别方法,如图2所示,所述方法包括:
73.步骤201,对接收到的待识别语音进行语义识别。
74.步骤202,确认语义识别是否超时。
75.若超时,则执行步骤203,若未超时,则执行步骤204。
76.在执行本步骤之前,首先设置语义识别时间阈值,如设置为4秒或5秒,可根据实际情况自行设置,本技术实施例对于语义识别时间阈值的设置不进行限定,语义识别时间超过语义识别时间阈值时,可能为网络状态不佳或本次语义识别发生故障,且超长的语音识别时间会使用户的使用体验感不强。
77.步骤203,输出识别异常的语音提示信息。
78.对于识别超时的待识别语音,停止识别,丢弃待识别语音并通过语音播报提示用户异常信息,随后退出语音交互。
79.步骤204,确定所述语义识别结果是否包含无效语义。
80.根据语义识别结果是否是有效指令,若确定不包含无效语义,则执行步骤205,若确定包含无效语义,则执行步骤206。
81.步骤205,根据所述语义识别结果进行语音对话。
82.根据语义中的指令信息,执行相应的操作,并通过语音播报给予用户反馈,例如:好的、已打开等语音。本技术实施例对语音对话中的具体内容不做限定。
83.步骤206,确定所述无效语义对应的无效语音时长是否小于预设时长阈值。
84.若确定无效语音时长小于预设时长阈值,则执行步骤207,若确定无效语义的无效时长大于或者等于所述预设时长阈值,则执行步骤208。
85.步骤207,将所述待识别语音中的无效语义丢弃,得到不包含无效语义的语义识别结果。
86.步骤208,重新对所述无效语义进行语义识别,或,重新对所述待识别语音重新进行语义识别。
87.步骤209,若确定重新识别的识别结果包括目标无效语义,则统计目标无效语义的出现次数;其中,所述目标无效语义为无效语义对应的音频的无效时长大于或者等于所述预设时长阈值的无效语义。
88.若确定所述目标无效语义的出现次数未超过预设次数阈值,则执行步骤210,若确定所述目标无效语义的出现次数超过所述预设次数阈值,则执行步骤211。
89.步骤210,输出重新录入待识别语音的语音提示。
90.步骤211,退出语音交互。
91.需要说明的是,图2所示的语音的识别方法中涉及的步骤201至步骤211,可参阅上述实施例中的相关描述,本技术实施例在此不再进行赘述。
92.作为一种可能的实现方式,用户在唤醒语音交互系统后,当系统长时间未识别到语音数据后,会自动关闭语音交互系统,具体时间可设置为7秒或8秒,本身实施例以超时计时时间为7秒为例进行说明;当系统接收到的音频信息为无效指令且为短音频数据时,当前无效数据对应的数据时长也包含在超时计时时间内,例如,接收到一段语音数据,经语义检测及短音频判断后被丢弃,丢弃的短音频时长为500ms,则剩余的超时计时时间为6.5秒。
93.与上述的语音的识别方法相对应,本发明还提出一种语音的识别装置。由于本发明的装置实施例与上述的方法实施例相对应,对于装置实施例中未披露的细节可参照上述的方法实施例,本发明中不再进行赘述。
94.图3为本公开实施例提供的一种语音的识别装置的结构示意图,如图3所示,包括:
95.第一确定单元31,用于对接收到的待识别语音进行语义识别,确定所述语义识别结果是否包含无效语义;
96.第二确定单元32,用于当确定包含无效语义时,确定所述无效语义对应的无效语音时长;
97.丢弃单元33,用于当确定所述无效语音时长小于预设时长阈值时,将所述待识别语音中的无效语义丢弃;
98.获取单元34,用于得到不包含无效语义的语义识别结果。
99.本公开提供的语音的识别装置,首先,对接收到的待识别语音进行语义识别,确定所述语义识别结果是否包含无效语义;其次若确定包含无效语义,则确定所述无效语义对应的无效语音时长;最后,若确定所述无效语音时长小于预设时长阈值,则将所述待识别语音中的无效语义丢弃,得到不包含无效语义的语义识别结果。与相关技术相比,本技术实施例在识别到待识别语音中存在无效语义后,检测无效语义的语音时长,若确定语音时长小于预设时长阈值,则直接将小于预设时长阈值的无效语义丢弃,防止无效音频段给用户的语音对话造成的异常对话提示,提升了用户的语音对话体验。
100.进一步地,在本实施例一种可能的实现方式中,如图4所示,所述装置还包括:
101.识别单元35,用于当确定无效语义的无效时长大于或者等于所述预设时长阈值时,重新对包含无效音频段的待识别语音进行语义识别,其中,无效音频段为无效语义对应的无效音频段。
102.进一步地,在本实施例一种可能的实现方式中,如图4所示,所述装置还包括:
103.统计单元36,用于当确定重新识别的识别结果包括目标无效语义时,统计目标无效语义的出现次数;其中,所述目标无效语义为无效语义对应的音频的无效时长大于或者等于所述预设时长阈值的无效语义;
104.第一输出单元37,用于当确定所述目标无效语义的出现次数未超过预设次数阈值时,输出重新录入待识别语音的语音提示;
105.退出单元38,用于当确定所述目标无效语义的出现次数超过所述预设次数阈值时,退出语音交互。
product,专用标准产品)、soc(system on chip,芯片上系统的系统)、cpld(complex programmable logic device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
117.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
118.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、ram、rom、eprom(electrically programmable read-only-memory,可擦除可编程只读存储器)或快闪存储器、光纤、cd-rom(compact disc read-only memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
119.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(cathode-ray tube,阴极射线管)或者lcd(liquid crystal display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
120.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:lan(local area network,局域网)、wan(wide area network,广域网)、互联网和区块链网络。
121.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。服
务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
122.其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
123.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
124.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图