语音识别系统和提供语音识别服务的方法与流程-j9九游会真人

文档序号:34946679发布日期:2023-07-29 04:06阅读:9来源:国知局


1.本公开涉及用于提供可以提供与用户语音对应的服务的语音识别服务的语音识别系统和方法。


背景技术:

2.语音识别系统能够从用户语音中识别用户想要什么,并提供与所识别的用户意图对应的服务。
3.语音识别系统链接到特定设备以控制设备并且根据用户意图提供特定信息。
4.最近,因为语音识别系统设置在车辆中,所以用户可以仅通过用户的言语或者通过与车辆的对话控制车辆、获得期望的信息、或者提供期望的服务。
5.为了使用语音识别系统提供用户所期望的服务,需要几个对话来确认用户语音以及与其对应的服务,并且获得执行服务所需的附加信息。


技术实现要素:

6.本公开的一方面提供了一种用于提供语音识别服务的语音识别系统和方法,该语音识别系统可以将通过敲击车辆的用户周围的对象生成的敲击信号映射并记录为特定指令,并且该语音识别系统可以利用敲击附近对象的简单动作代替特定指令的言语,从而提高用户便利性。
7.本公开的附加方面部分地在以下描述中陈述,并且部分地应当从描述中显而易见。或者,可通过实践本发明来学习本发明的额外方面。
8.根据本公开的实施例,提供了一种语音识别系统。语音识别系统包括:语音处理模块,被配置为从车辆中的用户的话音信号中提取执行用户预期的控制所需的信息;控制模块,被配置为生成用于执行用户预期的控制的控制信号;存储器,被配置为映射并存储敲击信号和对应于敲击信号的指令。当存储在存储器中的敲击信号包括在通过麦克风输入的音频信号中时,控制模块被配置为基于与存储的敲击信号对应的指令生成控制信号。
9.敲击信号通过敲击包括用户驾驶的车辆的组成部件或用户的身体部位的附近对象而生成。
10.敲击信号由敲击信号的特征分量和包括在敲击信号中的特征分量的数量定义。
11.敲击信号的特征分量依据用户敲击的附近对象的类型而改变,敲击信号的特征分量的数量依据用户敲击附近对象的次数的数量而改变。
12.车辆的组成部件包括方向盘、内部门把手、换挡杆或扶手中的至少一个。
13.控制模块被配置为:在将敲击信号存储在存储器中的记录模式下,将通过麦克风输入的敲击信号映射并存储至存储器中的由用户选择的指令。
14.控制模块被配置为在记录模式下生成引导信息,使得当通过麦克风输入的敲击信号的特征分量与存储在存储器中的敲击信号的特征分量相同时,记录与存储在存储器中的敲击信号的特征分量的数量不同的数量。
15.控制模块被配置为在记录模式下生成引导信息,使得当通过麦克风输入的敲击信号的特征分量与存储在存储器中的敲击信号的特征分量相同时,并且当从包括单个的特征分量的敲击信号到包括n(n是大于或等于2的整数并且表示阈值数量)个特征分量的敲击信号的敲击信号被存储在存储器中时,用户输入另一敲击信号。
16.控制模块被配置用于当通过麦克风输入的敲击信号的特征分量与存储在存储器中的敲击信号的特征分量相同时,在记录模式下记录与存储在存储器中的敲击信号的特征分量的数量不同的数量中的最小数量。
17.麦克风包括驾驶员侧麦克风和乘坐者侧麦克风。控制模块被配置为基于通过乘坐者侧麦克风输入的音频信号去除通过驾驶员侧麦克风输入的音频信号的噪声。
18.根据本公开的实施例,提供了一种提供语音识别服务的方法。该方法包括:接收通过位于运载工具中的麦克风输入的音频信号;确定在音频信号中是否包括敲击信号或话音信号;当音频信号中包括敲击信号时,确定映射至敲击信号的指令;并生成用于执行与映射至敲击信号的指令对应的控制的控制信号。
19.敲击信号是通过敲击包括用户驾驶的车辆的组成部件或用户的身体部位的附近对象而生成。
20.敲击信号由敲击信号的特征分量和包括在敲击信号中的特征分量的数量定义。
21.敲击信号的特征分量依据用户敲击的附近对象的类型而改变。敲击信号的特征分量的数量依据用户敲击附近对象的次数而改变。
22.车辆的组成部件包括方向盘、内部门把手、换挡杆或扶手中的至少一个。
23.该方法还包括:在将敲击信号被存储在存储器中的记录模式下,将通过麦克风输入的敲击信号映射并存储至存储器中的由用户选择的指令。
24.存储在存储器中包括:在记录模式下生成引导信息,使得当通过麦克风输入的敲击信号的特征分量与存储在存储器中的敲击信号的特征分量相同时,记录与存储在存储器中的敲击信号的特征分量的数量不同的数量。
25.存储在存储器中还包括:在记录模式下生成引导信息,使得当通过麦克风输入的敲击信号的特征分量与存储在存储器中的敲击信号的特征分量相同时,并且当从包括单个的特征分量的敲击信号到包括n个(n是大于或等于2的整数并且表示阈值数量)特征分量的敲击信号的敲击信号被存储在存储器中时,用户输入另一敲击信号。
26.存储在存储器中还包括:当通过麦克风输入的敲击信号的特征分量与存储在存储器中的敲击信号的特征分量相同时,在记录模式下记录与存储在存储器中的敲击信号的特征分量的数量不同的数量中的最小数量。
27.麦克风包括驾驶员侧麦克风和乘客侧麦克风,并且该方法进一步包括基于通过乘客侧麦克风输入的音频信号去除通过驾驶员侧麦克风输入的音频信号的噪声。
附图说明
28.通过结合附图进行的实施例的以下描述,本公开的这些和/或其他方面将变得显而易见并且更容易理解,其中:
29.图1是示出根据实施例的语音识别系统的框图;
30.图2是示出根据实施例的连接至语音识别系统的车辆的框图;
31.图3是示意性示出根据实施例的车辆与语音识别系统之间的关系的示图;
32.图4和图5是示出了根据实施例的通过语音识别系统为车辆的用户提供期望的服务的过程的示图;
33.图6和图7是示出了根据实施例的语音识别系统的用户输入敲击信号的示例的示图;
34.图8是示出在根据实施例的用于提供语音识别服务的方法中记录敲击信号的操作的流程图;
35.图9是示出在根据实施例的用于提供语音识别服务的方法中显示在车辆的显示器上的用于记录敲击信号的屏幕的示例的示图;
36.图10是示出从敲击信号提取的特征分量的示例的示图;
37.图11是示出了根据实施例的存储在语音识别系统的存储器中的信息的示例的示图;
38.图12、图13和图14是示出根据实施例的在用于提供语音识别服务的方法中显示在车辆的显示器上的用于记录敲击信号的屏幕的示例的示图;以及
39.图15是示出根据实施例的在用于提供语音识别服务的方法中从用户接收敲击信号或话音信号并且执行与用户意图对应的控制的操作的流程图。
具体实施方式
40.在本文中阐述并且在本公开的配置中示出的实施例仅是示例性实施例。因此,应当理解的是,在本公开的时候,可以用各种等同物和修改替换它们。
41.本文使用的术语仅用于描述特定实施例的目的,并不旨在限制本公开。应当理解,除非上下文另有明确规定,否则单数形式旨在也包括复数形式。还应当理解,当在本说明书中使用术语“包括”、“包含”和/或“具有”及其变型时,其指定所述特征、整体、步骤、操作、元件和/或部件的存在,但不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或其组合的存在或添加。
42.此外,诸如“~部分”、“~设备”、“~块”、“~构件”、“~模块”等的术语可以指用于处理至少一个功能或动作的单元。例如,这些术语可以指代至少由至少一个硬件(如现场可编程门阵列(fpga)/专用集成电路(asic))、存储在存储器中的软件、或处理器进行处理的过程。
43.应当理解,尽管术语“第一”、“第二”等在本文中可用于描述各种元件,但是这些元件不应受这些术语限制。
44.用于方法步骤的附图标记仅用于方便解释,而不限制步骤的顺序。因此,除非上下文另有明确规定,否则可以其他方式实施书面顺序。
45.本文中使用的术语“至少一个”包括相关列出项的任何和全部组合。例如,应当理解的是,术语“a、b、或c中的至少一个”可以包括仅a、仅b、仅c、a和b两者、a和c两者、b和c两者、或者a、b和c的全部。
46.实施例可以存储计算机可执行指令的记录介质的形式存储。指令可以以程序代码的形式存储,并且当由处理器执行指令时,指令可以执行所公开的实施例的操作。记录介质可以被实现为计算机可读记录介质。
47.计算机可读记录介质包括其中存储有可由计算机解码的指令的全部种类的记录介质,例如,只读存储器(rom)、随机存取存储器(ram)、磁带、磁盘、闪存、光学记录介质等。
48.将参考附图详细描述本公开的用于提供语音识别服务的语音识别系统和方法的实施例。
49.图1是示出根据实施例的语音识别系统的框图。
50.参考图1,根据实施例的语音识别系统100包括:语音处理模块10,从用户的话音信号中提取执行用户预期的控制所需的信息;以及控制模块130,生成用于执行用户预期的控制的控制信号。
51.语音处理模块10可以包括将用户语音转换成文本的语音识别模块110以及确定与用户语音对应的用户意图的自然语言理解模块120。
52.语音识别模块110可用语音至文本(stt)引擎来实现,并且通过将语音识别算法应用到用户语音来执行到文本的转换。
53.例如,语音识别模块110可通过应用特征向量提取方法(诸如倒谱、线性预测系数(lpc)、梅尔频率倒谱系数(mfcc)、滤波器组能量等)来从用户语音提取特征向量。
54.可以通过比较提取的特征向量和训练的参考图案可以获得识别结果。为此,可以使用用于对话音的信号特征进行建模和比较的声学模型或者用于对诸如词语或音节的识别词汇的语言顺序进行建模的语言模型。
55.语音识别模块110可以基于应用深度学习或机器学习的学习将用户语音转换成文本。根据实施例,语音识别模块110将用户语音转换成文本的方式不限于此,并且可以应用各种语音识别技术来将用户语音转换成文本。
56.自然语言理解模块120可应用自然语言理解(nlu)技术来确定包括在输入文本中的用户意图。因此,自然语言理解模块120可包括通过将nlu技术应用于输入文本来确定用户预期的nlu引擎。由语音识别模块110输出的文本可以是输入至自然语言理解模块120的语句。
57.例如,自然语言理解模块120可从输入文本中识别实体名称。实体名称是专有名词,诸如个体人的名称、地点、组织、时间、日期、货币等。名称的实体识别用于识别语句中的实体名称,并对所识别的实体的类型分类。可以通过名称的实体识别从语句中提取关键词,以理解语句的含义。
58.自然语言理解模块120可从输入语句确定域。域可用于识别用户语音的主题。例如,可基于输入语句确定表示诸如车辆控制、调度、关于天气或交通状况的信息、文本发送、导航等各种主题的域。
59.此外,自然语言理解模块120可分析输入文本的语音动作。语音动作分析用于分析语音意图,诸如用户是否提出问题、作出请求、响应或简单地表达用户的情绪。
60.自然语言理解模块120可基于从输入文本提取的域、实体名称、语音动作来确定意图和执行意图所需的实体。例如,当输入文本是“打开空调”时,域可以是[车辆控制],并且意图可以是[打开,空调]。这里,[打开]可以是动作,[空调]可以是目标,并且执行对应于这样的意图的控制所需的实体可以是[温度、风量]。
[0061]
控制模块130可以将处理结果信号输出到用户终端或外部服务器,以提供与用户意图对应的服务。例如,控制模块130可生成并输出用于执行与从用户语音提取的意图对应
的控制的控制信号。
[0062]
用户终端可以用作用户和语音识别系统100之间的网关。用户终端可以是设置有诸如麦克风、扬声器、显示器等的输入/输出接口的移动设备,或者可以是车辆本身。当用户终端是移动设备时,车辆和移动设备可以通过诸如bluetooth
tm
的无线通信或者通过电缆连接彼此连接。
[0063]
例如,当与用户意图对应的服务是与车辆相关的控制时,控制模块130可以生成用于执行对应的控制的控制信号,并且将控制信号发送至用户终端。
[0064]
或者,当与用户意图对应的服务是提供特定信息时,控制模块130可以搜索特定信息,并且将检索的信息发送至用户终端。当需要时,可以由外部服务器执行信息检索。
[0065]
或者,当与用户意图对应的服务是提供特定内容时,控制模块130可以请求提供对应内容的外部服务器。
[0066]
或者,当与用户意图对应的服务仅仅是对话的继续时,控制模块130可以生成对用户语音的响应,并且通过话音输出响应。
[0067]
上述语音识别系统100可以利用存储有执行上述操作的程序的至少一个存储器和实现所存储的程序的至少一个处理器来实现。
[0068]
图1中示出的语音识别系统100的组成部件基于其操作或功能划分,并且组成部件的全部或一部分可共享存储器或处理器。换言之,语音识别模块110、自然语言理解模块120和控制模块130不必在物理上彼此分离。
[0069]
图2是示出了根据实施例的连接至语音识别系统的车辆的框图。图3是示意性示出根据实施例的车辆与语音识别系统之间的关系的示图。
[0070]
参考图2,车辆2包括:麦克风210,用户语音输入至麦克风210;扬声器220,输出提供用户期望的服务所需的声音;显示器230,显示提供用户期望的服务所需的图像;通信模块240,执行与外部设备的通信;以及控制器250,控制车辆2的上述组成部件和其他组成部件。
[0071]
麦克风210可设置在交通工具2内部以接收用户语音。用户可以是驾驶员或乘客。麦克风210可设置在方向盘、中央仪表盘、车顶内衬或后视镜等上,以接收来自驾驶员或前排乘客的语音。
[0072]
可以提供两个或更多个麦克风210以接收后方乘客的语音。用于接收后方乘客的语音的麦克风210可设置在前扶手、后扶手、后门、b柱或c柱上。
[0073]
麦克风210的以上位置仅是可应用于车辆2的实施例的示例。麦克风210可设置在任何地方,只要其可从每个位置中的用户处接收语音即可。
[0074]
除了麦克风210之外,车辆2还可包括用于手动地接收用户指令的输入器260。输入器260可以包括在中央仪表盘上设置有音频、视频、导航(avn)的区域中的输入器、设置有换挡箱的区域中的输入器、或设置为在方向盘上的转向梭轮或按钮的输入器。
[0075]
为了接收与乘客座椅相关的控制指令,输入器260可以包括设置在车辆2的每个车门上的输入器和设置在前扶手或后扶手上的输入器。
[0076]
此外,输入器260可以通过与显示器230一体地设置而包括如触摸屏的触摸板。
[0077]
显示器230可包括设置在车辆2的中央仪表盘上的avn显示器、组合显示器、或平视显示器(hud)。或者,显示器230可包括设置在前座椅的头枕的后部上的后方座椅显示器,使
得后乘客可看见后方座椅显示器。当车辆2是多座位车辆时,显示器230可包括安装在车辆2的车顶内衬上的显示器。
[0078]
只要车辆2内的用户可以看到显示器230,显示器230可以设置在任何地方,并且显示器230的位置或数量不受限制。
[0079]
通信模块240可以通过使用诸如bluetooth
tm
、第四代无线(4g)、第五代无线(5g)、无线保真(wi-fi)等各种无线通信方法中的至少一种与其他设备发送和接收信息。或者,通信模块240可以通过连接至通用串行总线(usb)端、辅助端口(aux)端等的电缆与其他设备发送和接收信息。
[0080]
例如,通信模块240可以与位于车辆2中的移动设备通信,从而接收由移动设备获得或存储在移动设备中的信息(用户图像、用户语音、联系号码、日程等)。此外,通信模块240可与服务器1通信,从而发送用户语音并接收提供用户期望的服务所需的信号。此外,通信模块240可以通过连接至车辆2的移动设备与服务器1发送和接收信号。
[0081]
此外,车辆2可包括:导航设备,用于路线引导;空调设备,用于调节车内温度;车窗调节设备,其用于打开/关闭车窗;座椅加热设备,用于对座椅加热;座椅调节设备,用于调节座椅的位置、高度或角度;以及照明设备,用于调节室内照度等级。
[0082]
上述组成部件用于提供与车辆2相关的便利功能,并且依据模型或选项可以省略组成部件的一部分。此外,除了上述组成部件之外,车辆2中还可以包括其他组成部件。
[0083]
控制器250可打开或关闭麦克风210,处理并存储输入至麦克风210的话音,并通过通信模块240发送至另一设备。
[0084]
控制器250可控制显示器230显示图像,并控制扬声器220输出声音。
[0085]
此外,控制器250可执行与车辆2相关的各种控制。例如,控制器250可以根据通过输入器260或麦克风210输入的用户指令控制以下中的至少一个:导航设备;空调设备;车窗调节设备;座椅加热设备;座椅调节设备;或照明设备。
[0086]
控制器250可包括存储执行上述操作或稍后将描述的操作的程序的至少一个存储器和实现存储的程序的至少一个处理器。
[0087]
参照图3,根据实施例的语音识别系统100可设置在服务器1中。因此,输入至车辆2的用户语音可被发送至服务器1的通信模块140。当通过设置在服务器1中的语音识别系统100处理话音信号时,通信模块140可将处理结果再次发送至车辆2。
[0088]
或者,根据实施例的语音识别系统100的组成部件的一部分可设置在车辆2中,并且其他组成部件可设置在服务器1中。
[0089]
例如,语音识别模块110可设置在车辆2中。自然语言理解模块120和控制模块130可以设置在服务器1中。
[0090]
又例如,语音识别模块110和控制模块130可以设置在车辆2中并且自然语言理解模块120可以设置在服务器1中。或者,语音识别模块110和自然语言理解模块120可设置在服务器1中,并且控制模块130可设置在车辆2中。
[0091]
作为另一个示例,语音识别系统100可设置在车辆2中。
[0092]
虽然语音识别系统100的组成部件的全部或一部分可以设置在如上所述的车辆2中,但是在下面描述的实施例中描述了语音识别系统100设置在服务器1中的示例,如图3所示。
[0093]
图4和图5是示出了根据实施例的通过语音识别系统为车辆的用户提供期望的服务的过程的示图。
[0094]
如图4所示,当用户预期的控制是“打电话给honggil-dong”时,诸如“呼叫hong gil-dong”的用户语音可被输入至麦克风210。
[0095]
输入用户语音被发送至语音识别系统100。从用户语音中提取意图[呼叫]和实体[hong gil-dong]的语音识别系统100可在执行对应的控制之前检查与提取的意图对应的控制是否是用户意图。
[0096]
例如,控制模块130可以生成系统响应用于检查,将系统响应发送至车辆2,并且通过车辆2的扬声器220输出系统响应,如“你想要打电话给hong gil-dong吗?”。
[0097]
听到输出系统响应的用户可确认语音识别系统100是否正确识别用户意图。当包括在系统响应中的控制内容是用户意图做的事情时,可以输入如“是(yes)”或“好(ok)”的用户肯定的语音。
[0098]
或者,当用户预期的控制是“打开前排座椅加热器”时,可将像“打开前排座椅加热器”的用户语音输入至麦克风210,如图5中所示。
[0099]
输入用户语音被发送至语音识别系统100,并且从用户语音中提取意图[打开,座椅加热器]和实体[前排座椅]的语音识别系统100可以在执行对应的控制之前检查与所提取的意图对应的控制是否是用户意图。
[0100]
例如,控制模块130可生成用于检查用户意图是打开驾驶员座椅的座椅加热器还是前排乘客座椅、还是打开驾驶员座椅和前排乘客座椅两者并发送至车辆2的系统响应。而且,根据图5的示例,车辆2可通过车辆2的扬声器220输出像“您想打开驾驶员的座椅加热器吗?”的系统响应。
[0101]
听到输出系统的响应的用户可确认语音识别系统100是否正确识别用户意图。当包括在系统响应中的控制内容是用户意图做的事情时,可以输入如“是”或“好”的用户肯定的语音。然而,当包括在系统响应中的控制内容不是用户意图做的事情时,可输入图5中所示的用户否定的语音。
[0102]
为了向用户提供期望的服务,通常需要两次或更多次对话。具体地,如图4和图5所示,重复输入像“是”或“否”的简单指令。
[0103]
尽管语音识别系统100是为了使用户方便,但是用于指定控制对象或控制内容的重复对话可能导致用户不便。
[0104]
因此,根据实施例的语音识别系统100可用敲击附近对象的简单动作代替指令的言语,从而改善语音识别系统100的实用性。在下文中,详细描述与其相关的操作。
[0105]
图6和图7是示出了根据实施例的语音识别系统的用户输入敲击信号的示例的示图。
[0106]
如图6所示,当用户是驾驶员时,用户的手通常位于方向盘201上。因此,即使车辆2正在行驶,用户仍可以容易地敲击方向盘201。
[0107]
或者,如图7所示,依据用户的驾驶习惯,用户可以利用放置在驾驶员座椅与乘客座椅之间的扶手203(或中控台)上的手臂驾驶车辆。在这种情况下,用户可以容易地敲击扶手203。
[0108]
除上述之外,依据用户的驾驶习惯,除了车辆2的组成部件之外,用户可利用放置
在换挡杆205、内部门把手等上的手或利用放置在用户身体的一部分上的手驾驶。上述附近对象可以与在车辆2行驶的同时位于由用户容易地敲击的位置处的对象对应。
[0109]
根据实施例,语音识别系统100可以将通过用户敲击附近对象生成的敲击信号识别为用户指令。换言之,当先前记录的敲击信号被输入至麦克风210时,语音识别系统100可根据与输入的敲击信号对应的用户指令来执行控制。
[0110]
图8是示出在根据实施例的用于提供语音识别服务的方法中记录敲击信号的操作的流程图。图9是示出在根据实施例的用于提供语音识别服务的方法中显示在车辆的显示器上的用于记录敲击信号的屏幕的示例的示图。图10是示出从敲击信号提取的特征分量的示例的示图。图11是示出了根据实施例的存储在语音识别系统的存储器中的信息的示例的示图。
[0111]
根据实施例的用于提供语音识别服务的方法可由车辆2或语音识别系统100执行。而且,根据实施例的用于提供语音识别服务的方法的一部分可由车辆2执行,并且根据实施例的用于提供语音识别服务的方法的其他部分可由语音识别系统100执行。
[0112]
参考图8,首先,接收由用户输入的敲击信号以记录敲击信号(1010)。
[0113]
为了记录敲击信号,用户可通过设置在车辆2中的输入器260选择敲击信号记录模式。当选择敲击信号记录模式时,如图9所示,可以在显示器230上可视地输出用于请求输入期望的敲击信号的引导信息。
[0114]
控制器250可以控制显示器230输出上述引导信息并且打开麦克风210。尽管在图9的示例中在音频、视频、导航(avn)显示器上可视地显示引导信息,但是本公开的实施例不限于此。引导信息可以显示在平视显示器(hud)、组合显示器上,或者通过扬声器220可听地输出。
[0115]
用户可通过敲击附近对象来输入敲击信号。用户周围的附近对象可以是车辆2的组成部件,或者用户身体的一部分。例如,敲击信号可以通过敲击方向盘、扶手、内部门把手、换挡杆等或者通过敲击用户的大腿来生成。
[0116]
可将输入敲击信号发送至语音识别系统100。例如,输入敲击信号可通过车辆2的通信模块240发送并且通过服务器1的通信模块140接收。
[0117]
语音识别系统100的控制模块130可以提取接收的敲击信号的特征分量(1020)。
[0118]
如图10所示,通过敲击附近对象生成的敲击信号具有根据附近对象被敲击的次数重复特征分量的波形。因此,敲击信号可由特征分量c1和包括在敲击信号中的特征分量c2的数量定义。
[0119]
敲击信号的特征分量c1可以依据敲击的对象、敲击的方式或敲击强度而变化。此外,包括在敲击信号中的特征分量c2的数量可以依据附近对象被敲击的次数而变化。因此,用户可通过改变敲击的对象的类型或敲击的数量中的至少一个来输入不同的敲击信号。
[0120]
当提取敲击信号的特征分量时,提取的特征分量可以与敲击信号数据库比较(1030)。
[0121]
参照图11,指令可以被映射用于每个敲击信号并被存储在语音识别系统100的存储器中以实现敲击信号数据库。映射至每个敲击信号的指令可以指当输入对应的敲击信号时执行的指令。
[0122]
如上所述,敲击信号可由特征分量c1和包括在敲击信号中的特征分量c2的数量定
义。当具有相同特征分量c1的每个敲击信号具有不同数量的特征分量c2时,敲击信号可以被记录为不同的敲击信号。因此,即使对于单个特征分量c1,当特征分量c2的数量不同时,也可以映射并记录多个指令。
[0123]
控制模块130可以将输入敲击信号的特征分量c1与敲击信号数据库进行比较,从而确定特征分量c1是否是预记录的特征分量(1040)。
[0124]
当特征分量c1是预记录的特征分量时(操作1040中的“是”),确定是否已经记录了全部1至n个特征分量(1070)。n是大于或等于2的整数并且表示包括在单个敲击信号中的特征分量的阈值数量。
[0125]
当并非全部1至n个特征分量都已经被记录时(操作1070中为否),接收要被映射至输入敲击信号的指令(1050)。
[0126]
为此,如图12所示,用于引导指令选择的信息可以在车辆2的显示器230上可视地输出。通过参考显示在显示器230上的屏幕,用户可选择诸如车窗控制、座位控制、照明控制、导航控制等的指令。换言之,与复杂控制有关的指令以及作为对系统言语的响应的简单指令(诸如,“是”或“否”)可被映射至敲击信号并存储。
[0127]
如图12所示,可以在没有预记录指令的情况下显示用于引导指令的选择的信息,或者与预记录指令一起显示以使得映射至预记录指令的敲击信号能够改变。
[0128]
用户可通过话音或通过手动输入来选择期望的指令,并且所选择的指令可被发送至语音识别系统100。
[0129]
控制模块130可以通过映射接收的指令来记录敲击信号(1060)。
[0130]
在该实例中,不管包括在输入敲击信号中的特征分量的数量(即,不管用户敲击附近对象的次数),控制模块130可根据在敲击信号数据库中记录的敲击信号确定要记录的敲击信号的特征分量的数量。
[0131]
例如,当输入敲击信号的特征分量已经记录在敲击信号数据库中时,控制模块130可以以最小可记录数量来记录敲击信号。根据图11的示例,当已经记录了具有输入敲击信号的特征分量的敲击信号并且已经记录的敲击信号具有单个特征分量(c2=1)时,可以从包括与以上特征分量相同的两个特征分量的敲击信号新记录到包括n个特征分量的敲击信号。
[0132]
附近对象上的敲击的数量越小,用户输入就越容易。因此,根据实施例的控制模块130可以新记录包括两个特征分量的敲击信号,该特征分量是可记录的数量中的最小数量。
[0133]
语音识别系统100可以向用户提供关于要记录的敲击信号的信息。例如,如图13所示,通知被记录为

敲击两次’的引导信息可以在显示器230上可视地输出。
[0134]
虽然在图13的示例中示出了在avn显示器上可视地显示引导信息,但是本公开的实施例不限于此。引导信息可以显示在平视显示器、组合显示器上,或者通过扬声器220可听地输出。
[0135]
用户可通过选择在显示器230上显示的“下一个(next)”按钮来结束记录或者通过选择“否”按钮来改变敲击的数量。
[0136]
再次参考图8,当输入敲击信号的全部1至n个特征分量已被记录时(操作1070中的“是”),可进行引导以记录另一敲击信号(1080)。
[0137]
对于输入敲击信号的特征分量,可不再另外记录指令。因此,如图14所示,可以在
显示器230上输出请求输入另一敲击信号的引导信息。
[0138]
虽然在图14的示例中示出了在avn显示器上可视地显示引导信息,但是本公开的实施例不限于此。引导信息可以显示在平视显示器或者组合显示器上,或者通过扬声器220可听地输出。
[0139]
图15是示出在根据实施例的用于提供语音识别服务的方法中,从用户接收敲击信号或话音信号并且执行与用户意图对应的控制的操作的流程图。
[0140]
参照图15,语音识别系统100从用户处接收音频信号(1110)。
[0141]
音频信号被输入至车辆2的麦克风210并且可以包括用户的话音信号和通过用户敲击附近对象而生成的敲击信号。
[0142]
输入音频信号可以包括由附近的乘客或对象生成的声音,并且这样的声音可以使敲击信号的识别性能劣化。
[0143]
如上所述,多个麦克风210可包括在车辆2中。例如,用于从驾驶员处接收语音的驾驶员侧麦克风211和用于从前排乘客接收语音的乘坐者侧麦克风212可以设置在后视镜207所在的区域中。
[0144]
控制器250可将输入至驾驶员侧麦克风211的音频信号和输入至乘坐者侧麦克风212的音频信号发送至语音识别系统100。
[0145]
语音识别系统100的控制模块130可通过使用输入至乘坐者侧麦克风212的音频信号来去除包括在输入至驾驶员侧麦克风211的音频信号中的噪声。将在后面描述处理去除噪声的音频信号。
[0146]
通过噪声去除,可以将由用户输入的敲击信号与由附近的乘客或对象生成的声音分离,从而提高敲击信号的识别性能。即使当输入音频信号是话音信号时,也可以通过噪声去除来提高语音识别性能。
[0147]
相反,当输入音频信号的对象是前排乘客时,包括在输入至乘坐者侧麦克风212的音频信号中的噪声可通过使用输入至驾驶员侧麦克风211的音频信号来去除。
[0148]
可基于输入唤醒单词的麦克风或基于设置在驾驶员座位和乘客座位的每一个中的接收输入的即按即讲(ptt)按钮来确定输入音频信号的对象。
[0149]
在记录敲击信号的操作中,可以以相同的方式执行上述噪声去除。
[0150]
通过敲击对象生成的敲击信号具有与通过用户语音输入的话音信号完全不同的频率分量。例如,话音信号通常由两个或更多个单词组成,并且针对每个单词生成波高,并且因此话音信号的频率分量是复杂的。然而,敲击声音中仅存在短时刻的声音分量,因此敲击声音容易与话音信号区分。
[0151]
因此,当接收到音频信号时,控制模块130可以确定接收到的音频信号是否包括敲击信号或话音信号。
[0152]
作为确定的结果,当敲击信号包括在输入音频信号中时(操作1120中的“是”),控制模块130分析敲击信号(1130)。
[0153]
如上所述,控制模块130可以从敲击信号中提取特征分量c1并且计数多少特征分量c2包括在敲击信号中。
[0154]
控制模块130可搜索敲击信号数据库(1140),并确定映射至输入音频信号的指令(1150)。
[0155]
再次参考图11的示例,当输入敲击信号是具有第一行的单个特征分量(c2=1)的信号时,映射至敲击信号并存储的指令是“是”。换言之,对输出系统言语的肯定的响应可被确定为映射至音频信号的指令。
[0156]
当输入敲击信号没有被记录在敲击信号数据库中时,可以执行参考图8描述的记录敲击信号的操作,或者可以输出请求再次输入敲击信号的引导信息。
[0157]
当确定指令时,控制模块130可生成用于执行所确定的指令的控制信号(1160)。生成的控制信号可被发送至车辆2,并且车辆2的控制器250可根据发送的控制信号控制车辆2的组成部件以提供用户预期的服务。
[0158]
当话音信号包括在输入音频信号中时(操作1120中的“否”),可执行语音识别过程(1170)。
[0159]
语音识别过程可由语音识别模块110和自然语言理解模块120来执行,语音识别模块110将话音信号转换为文本,自然语言理解模块120确定与文本对应的用户意图。
[0160]
当通过语音识别处理提取意图时,控制模块130可以生成用于执行与提取的意图对应的控制的控制信号(1160)。
[0161]
虽然在以上示例中已经描述了语音识别系统100直接连接至车辆2以交换信号,但是语音识别系统100可以通过用户的移动设备连接至车辆2。可以通过移动设备可视地或者可听地输出上述引导信息。音频信号也可以通过移动设备的麦克风输入。
[0162]
当用户预期的控制与车辆控制相关时,移动设备可将从语音识别系统100接收的控制信号发送至车辆2。当用户预期的控制与特定信息或特定内容的提供有关时,移动设备可将控制信号发送至车辆2并且可通过移动设备的扬声器或显示器输出特定信息或特定内容。
[0163]
从以上内容应当显而易见的是,根据本公开的实施例,用于提供语音识别服务的语音识别系统和方法可将通过敲击车辆的用户周围的对象生成的敲击信号映射和记录为特定指令,并且利用敲击附近对象的简单动作替换特定指令的言语,从而提高用户便利性。
[0164]
尽管出于说明性目的已描述了实施例,但所属领域的技术人员应了解,在不脱离本发明的范围和精神的情况下,各种修改、添加和替代是可能的。因此,实施例并非出于限制目的而被描述。
当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图