车辆语音控制方法、装置、设备及存储介质与流程-j9九游会真人

文档序号:34947796发布日期:2023-07-29 06:18阅读:7来源:国知局


1.本发明涉及车辆控制技术领域,尤其涉及一种车辆语音控制方法、装置、设备及存储介质。


背景技术:

2.随着车辆技术的不断发展,如今语音指令控制车辆也已经投入使用,但是,现有技术根据语音控制车辆时并未进行严谨的安全性校验,导致语音控制车辆可能会被人恶意使用(在车外通过语音控制车辆开启车窗、调整空调甚至对车辆进行更进一步的控制),令车主的使用体验降低,甚至可能会威胁到车主的人身财产安全。
3.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

4.本发明的主要目的在于提供一种车辆语音控制方法、装置、设备及存储介质,旨在解决现有技术语音控制车辆时安全性较差,会降低车主的用户体验,甚至会威胁车主的人身财产安全的技术问题。
5.为实现上述目的,本发明提供了一种车辆语音控制方法,所述方法包括以下步骤:
6.在接收到语音控制指令时,定位所述语音控制指令对应的声源位置;
7.若所述声源位置为车内位置,则获取车内人员图像;
8.确定所述车内人员图像对应的图像语音指令;
9.若所述语音控制指令与所述图像语音指令匹配,则根据所述语音控制指令控制车辆运行。
10.可选的,所述确定所述车内人员图像对应的图像语音指令的步骤,包括:
11.检测所述车内人员图像中人员唇部是否被遮挡,以及车内人员是否正对图像采集镜头;
12.若唇部未被遮挡,且车内人员正对图像采集镜头,则逐帧分析所述车内人员图像,获得唇动特征;
13.将所述唇动特征与预设二维模型库中各模型进行匹配,获得目标唇动模型;
14.根据所述目标唇动模型确定所述车内人员图像对应的图像语音指令。
15.可选的,所述检测所述车内人员图像中人员唇部是否被遮挡,以及车内人员是否正对图像采集镜头的步骤之后,还包括:
16.若唇部未被遮挡,且车内人员并非正对图像采集镜头,则逐帧分析所述车内人员图像,获得局部唇部特征;
17.将所述局部唇部特征与预设三维模型库中各模型进行匹配,获得目标三维模型;
18.根据所述目标三维模型确定所述车内人员图像对应的图像语音指令。
19.可选的,所述检测所述车内人员图像中人员唇部是否被遮挡,以及车内人员是否
正对图像采集镜头的步骤之后,还包括:
20.若唇部被遮挡,且车内人员正对图像采集镜头,则逐帧分析所述车内人员图像,获得面部特征;
21.将所述面部特征与遮挡二维模型库中各模型进行匹配,确定目标遮挡模型;
22.确定所述目标遮挡模型与预设二维模型库中各模型的相似度;
23.若存在大于第一相似度阈值的相似度,则根据大于第一相似度阈值的相似度对应的模型确定所述车内人员图像对应的图像语音指令。
24.可选的,所述确定所述目标遮挡模型与预设二维模型库中各模型的相似度的步骤之后,还包括:
25.若相似度均小于第二相似度阈值,则判定车内人员并未发出语音指令,忽略所述语音控制指令。
26.可选的,所述检测所述车内人员图像中人员唇部是否被遮挡,以及车内人员是否正对图像采集镜头的步骤之后,还包括:
27.若唇部被遮挡,且车内人员并非正对图像采集镜头,则逐帧分析所述车内人员图像,获得局部面部特征;
28.将所述局部面部特征与遮挡三维模型库中各模型进行匹配,确定目标遮挡三维模型;
29.将目标遮挡三维模型与预设三维模型库中各模型进行匹配,并根据匹配结果确定所述车内人员图像对应的图像语音指令。
30.可选的,车辆的车身前部和后部均安装多个车载麦克风;
31.所述定位所述语音控制指令对应的声源位置的步骤,包括:
32.获取各车载麦克风采集到声音的采集时刻及采集音量;
33.根据所述采集时刻、所述采集音量及各车载麦克风的安装位置定位所述语音控制指令对应的声源位置。
34.此外,为实现上述目的,本发明还提出一种车辆语音控制装置,所述车辆语音控制装置包括以下模块:
35.声源定位模块,用于在接收到语音控制指令时,定位所述语音控制指令对应的声源位置;
36.图像获取模块,用于若所述声源位置为车内位置,则获取车内人员图像;
37.指令确定模块,用于确定所述车内人员图像对应的图像语音指令;
38.语音控制模块,用于若所述语音控制指令与所述图像语音指令匹配,则根据所述语音控制指令控制车辆运行。
39.此外,为实现上述目的,本发明还提出一种车辆语音控制设备,所述车辆语音控制设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的车辆语音控制程序,所述车辆语音控制程序被处理器执行时实现如上所述的车辆语音控制方法的步骤。
40.此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有车辆语音控制程序,所述车辆语音控制程序执行时实现如上所述的车辆语音控制方法的步骤。
41.本发明通过在接收到语音控制指令时,定位语音控制指令对应的声源位置;若声源位置为车内位置,则获取车内人员图像;确定车内人员图像对应的图像语音指令;若语音控制指令与图像语音指令匹配,则根据语音控制指令控制车辆运行。由于会在接收到语音控制指令时,检测声源位置是否为车内,若是,才会执行后续步骤,避免了车外人员恶意通过语音控制车辆,提高了车辆的安全性,且在确定声源位置为车内之后,还会获取车内人员图像对应的图像语音指令,在图像语音指令与图像语音指令匹配时才执行语音控制指令,减少了语音指令识别错误的现象。
附图说明
42.图1是本发明实施例方案涉及的硬件运行环境的电子设备的结构示意图;
43.图2为本发明车辆语音控制方法第一实施例的流程示意图;
44.图3为本发明一实施例的声源定位流程示意图;
45.图4为本发明车辆语音控制方法第二实施例的流程示意图;
46.图5为本发明车辆语音控制方法第二实施例的流程示意图;
47.图6为本发明一实施例的语音控制指令识别流程示意图;
48.图7为本发明车辆语音控制装置第一实施例的结构框图。
49.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
50.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
51.参照图1,图1为本发明实施例方案涉及的硬件运行环境的车辆语音控制设备结构示意图。
52.如图1所示,该电子设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram),也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
53.本领域技术人员可以理解,图1中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
54.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及车辆语音控制程序。
55.在图1所示的电子设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明电子设备中的处理器1001、存储器1005可以设置在车辆语音控制设备中,所述电子设备通过处理器1001调用存储器1005中存储的车辆语音控制程序,并执行本发明实施例提供的车辆语音控制方法。
56.本发明实施例提供了一种车辆语音控制方法,参照图2,图2为本发明一种车辆语
音控制方法第一实施例的流程示意图。
57.本实施例中,所述车辆语音控制方法包括以下步骤:
58.步骤s10:在接收到语音控制指令时,定位所述语音控制指令对应的声源位置。
59.需要说明的是,本实施例的执行主体可以是所述车辆语音控制设备或车辆本身,所述车辆语音控制设备可以是车辆中的控制器,如ecu控制器或其他可实现类似功能的控制器,本实施例对此不加以限制,在本实施例及下述各实施例中,以车辆语音控制设备为例对本发明车辆语音控制方法进行说明。
60.需要说明的是,语音控制指令可以是对车辆进行功能控制的语音指令。
61.可以理解的是,为了保证车辆的安全,在接收到语音控制指令时,需要检测语音控制指令是否为车辆驾驶员或车内乘客发出的,而车辆驾驶员和车内乘客都位于车辆内部,因此,可以先通过对语音控制指令对应的声源进行定位,确定声源位置。
62.在具体实现中,本实施例的车辆中可以预先在车辆的各个位置设置有多个车载麦克风,通过不同位置的车载麦克风接收到语音的先后顺序及时间差即可定位语音控制指令的声源位置。
63.进一步的,为了提高声源位置的定位准确性,则此时本实施例所述定位所述语音控制指令对应的声源位置的步骤,包括:
64.获取各车载麦克风采集到声音的采集时刻及采集音量;
65.根据所述采集时刻、所述采集音量及各车载麦克风的安装位置定位所述语音控制指令对应的声源位置。
66.在实际使用中,为了保证定位的准确性,在车辆的车身前部及车身后部均安装有多个车载麦克风,如:在车辆的前部驾驶盘仪表两侧分别安装一个车载迈克风,在车身前部两车窗位置分别设置一车载迈克风,在车身后部的后排顶棚左右处分别设置一车载麦克风,在车辆车身后部c两侧车窗分别设置一车载麦克风。
67.需要说明的是,采集时刻可以是采集到声音的时刻,采集音量可以是采集到声音的强度,
68.为了便于理解,现结合图3进行说明,图3为本实施例的声源定位流程示意图,根据采集时刻、采集音量及各车载麦克风的安装位置定位语音控制指令对应的声源位置可以如图3所示,可以先检测各麦克风是否收集到人声,若是,则获取各车载迈克风中相邻两个车载麦克风的收银信息(采集到声音的时间及音量),若车辆车身前部靠近a柱或车身后部靠近c柱的相邻迈克风的接收时间差小于第一时差阈值t1或音量均大于第一音量阈值p1,则表示此时声源位置为车内位置,此时可以进一步根据声波的时间长短及麦克风的安装位置进一步检测声源是处于车内的前后或左右位置;而若是接收时间差大于第二时差阈值t2或音量均小于第二音量阈值p2,则表示此时声源位置不为车内位置,则此时可以不再进行后续校验,当然,为了避免误判,此时还可以在车辆的显示界面上提示用户接收到语音控制指令,由用户选择是否执行。
69.步骤s20:若所述声源位置为车内位置,则获取车内人员图像。
70.需要说明的是,若声源位置为车内位置,则表示语音控制指令可能为车辆驾驶员或车内乘客,但是为了车辆的安全性,避免出现指令误判,可以对语音控制指令进行进一步校验,因此,可以获取车内人员图像。
71.在实际使用中,车辆中预先设置有图像采集镜头,会持续不断的采集车内人员图像并进行存储,此时获取车内人员图像可以是获取接收到语音控制指令的接收时刻,获取接收时刻往前预设时长的车内人员图像。
72.例如:假设接收到语音控制指令的接收时刻为9:00,则此时可以采集8:59-9:00之间采集的多帧车内人员图像。
73.其中,图像采集镜头可以设置在车辆的后视镜上方,以尽可能保证图像采集镜头的采集区域较为全面,而若是车辆的内部空间较大,还可以额外设置更多的图像采集镜头,例如:若车辆为7座车,则除了在车辆的后视镜上方设置一图像采集镜头之外,还可以在车辆的车身中部顶棚处额外设置一图像采集镜头。
74.步骤s30:确定所述车内人员图像对应的图像语音指令。
75.需要说明的是,确定车内人员图像对应的图像语音指令可以是对车内人员图像逐帧进行分析,确定车内人员图像中车内人员发出的声音对应的图像语音指令。
76.步骤s40:若所述语音控制指令与所述图像语音指令匹配,则根据所述语音控制指令控制车辆运行。
77.可以理解的是,若语音控制指令与图像语音指令匹配,则表示此时接收到的语音控制指令正是车内驾驶员或车内乘客发出的语音指令,且并未出现误识别或误判现象,则此时可以根据语音控制指令控制车辆运行(如开启车窗、关闭车窗、开启车灯、播放音乐等)。
78.本实施例通过在接收到语音控制指令时,定位语音控制指令对应的声源位置;若声源位置为车内位置,则获取车内人员图像;确定车内人员图像对应的图像语音指令;若语音控制指令与图像语音指令匹配,则根据语音控制指令控制车辆运行。由于会在接收到语音控制指令时,检测声源位置是否为车内,若是,才会执行后续步骤,避免了车外人员恶意通过语音控制车辆,提高了车辆的安全性,且在确定声源位置为车内之后,还会获取车内人员图像对应的图像语音指令,在图像语音指令与图像语音指令匹配时才执行语音控制指令,减少了语音指令识别错误的现象。
79.参考图4,图4为本发明一种车辆语音控制方法第二实施例的流程示意图。
80.基于上述第一实施例,本实施例车辆语音控制方法的所述步骤s30,包括:
81.步骤s301:检测所述车内人员图像中人员唇部是否被遮挡,以及车内人员是否正对图像采集镜头。
82.需要说明的是,在识别车内人员所发出的语音指令时,主要是通过唇部动作进行识别,因此,需要检测车内人员图像中人员唇部是否被遮挡(如戴口罩导致唇部被遮挡),并且需要检测车内人员是否正对图像采集镜头,从而确定是否可采集到人员唇部完整的唇动特征。
83.在具体实现中,判断车内人员是否正对图像采集镜头可以是通过人员面部与头枕水平方向之间的夹角,以及面部与头枕垂直方向之间的夹角确定车内人员是否针对图像采集镜头,例如:以主驾驶位为例,若假设主驾人员的面部与头枕水平方向(朝向副驾驶位方向)夹角为α,主驾人员的面部与头枕垂直方向夹角为β,若45
°
《α《90
°
,且15
°
《β《30
°
,则判定车内人员针对图像采集镜头。
84.其中,头枕水平方向可以是指车辆的头枕与车辆两侧b柱构成直线的方向,头枕垂
直方向可以是与水平方向垂直且与地台也垂直的方向。
85.步骤s302:若唇部未被遮挡,且车内人员正对图像采集镜头,则逐帧分析所述车内人员图像,获得唇动特征。
86.可以理解的是,若唇部未被遮挡,且车内人员正对图像采集镜头,则表示此时可以采集到人员唇部完整的唇动特征,此时可以直接依据唇部动作确定车内人员图像中人员所发出的语音指令,因此,可以对车内人员图像逐帧进行分析,确定车内人员图像中人员的唇动特征。
87.步骤s303:将所述唇动特征与预设二维模型库中各模型进行匹配,获得目标唇动模型。
88.需要说明的是,预设二维模型库可以是预先存储有车辆所支持的语音控制指令对应的二维唇动模型的数据库。
89.在实际使用中,可以将唇动特征与预设二维模型库中的各模型进行匹配,确定唇动特征与预设二维模型库中各模型的模型特征之间的相似度,并将预设二维模型库中对应的相似度最高的模型作为目标唇动模型。
90.在具体实现中,还可以根据车内人员图像及唇动特征对预设二维模型库进行丰富,提高后续模型库中数据的丰富程度,从而逐步提高模型库的匹配能力。
91.步骤s304:根据所述目标唇动模型确定所述车内人员图像对应的图像语音指令。
92.需要说明的是,根据目标唇动模型确定车内人员图像对应的图像语音指令可以是将目标唇动模型所对应的语音控制指令作为车内人员图像对应的图像语音指令。
93.进一步的,为了保证在唇部未被遮挡,但车内人员并非针对图像采集镜头时,依旧可以准确的确定车内人员图像对应的图像语音指令,本实施例所述步骤s301之后,还可以包括:
94.若唇部未被遮挡,且车内人员并非正对图像采集镜头,则逐帧分析所述车内人员图像,获得局部唇部特征;
95.将所述局部唇部特征与预设三维模型库中各模型进行匹配,获得目标三维模型;
96.根据所述目标三维模型确定所述车内人员图像对应的图像语音指令。
97.需要说明的是,若唇部未被遮挡,但车内人员并非正对图像采集镜头,则此时车内人员可能处于仰头、低头或侧头等状态,此时仅能采集到一部分的唇部特征,若此时依旧采用二维模型进行匹配,则匹配错误的几率较大,此时采用三维模型进行比较。
98.需要说明的是,预设三维模型库可以是预先存储有车辆所支持的语音控制指令对应的三维唇动模型的数据库。
99.在实际使用中,将局部唇部特征与预设三维模型库中各模型进行匹配,获得目标三维模型可以是对局部唇部特征进行特征补全,获得补全唇部特征,将补全唇部特征与预设三维模型库中各模型进行匹配,确定补全唇部特征与预设三维模型库中各模型的模型特征之间的相似度,然后将预设三维模型库中对应的相似度最高的模型作为目标唇动模型。
100.其中,在对局部唇部特征进行特征补全时,可以根据车内人员图像中人员的下巴、侧脸肌肉变化等脸部特征点,通过此类特征点对局部唇部特征进行补全,从而获得补全唇部特征。
101.本实施例通过检测所述车内人员图像中人员唇部是否被遮挡,以及车内人员是否
正对图像采集镜头;若唇部未被遮挡,且车内人员正对图像采集镜头,则逐帧分析所述车内人员图像,获得唇动特征;将所述唇动特征与预设二维模型库中各模型进行匹配,获得目标唇动模型;根据所述目标唇动模型确定所述车内人员图像对应的图像语音指令。由于在确定唇部未被遮挡,且车内人员正对图像采集镜头时,会直接分析采集的图像,将得到的唇部特征与预设二维模型中各模型进行匹配,从而保证可快速确定车内人员图像对应的图像语音指令。
102.参考图5,图5为本实施例本发明一种车辆语音控制方法第三实施例的流程示意图。
103.基于上述第二实施例,本实施例车辆语音控制方法的所述步骤s301之后,还包括:
104.步骤s302':若唇部被遮挡,且车内人员正对图像采集镜头,则逐帧分析所述车内人员图像,获得面部特征。
105.需要说明的是,若车内人员的唇部被遮挡,但车内人员正对图像采集镜头,则表示此时无法采集到车内人员的唇部变化特征,但是,可以采集到车内人员的全部面部特征,此时可以采集逐帧分析车内人员图像,获得面部特征,以根据面部特征推导用户所发出的语音指令。其中,面部特征可以包括下巴、脸部肌肉等特征点的特征。
106.步骤s303':将所述面部特征与遮挡二维模型库中各模型进行匹配,确定目标遮挡模型。
107.需要说明的是,遮挡二维模型库可以是预先存储有人员发出各种语音时的二维面部模型的数据库。
108.在实际使用中,将面部特征与遮挡二维模型库中各模型进行匹配,即可确定与面部特征相匹配的至少一个目标遮挡模型。其中,若面部特征与遮挡二维模型库中各模型的模型特征的相似度大于一定阈值(如60%),则判定该遮挡二维模型库中的模型为目标遮挡模型。
109.步骤s304':确定所述目标遮挡模型与预设二维模型库中各模型的相似度。
110.可以理解的是,在确定目标遮挡模型之后,尽能确定车内人员发出了语音,但是,无法确定具体发出的语音指令,而为了确定具体的语音指令,则此时可以将目标遮挡模型与预设二维模型库中各模型进行比较,确定目标遮挡模型与预设二维模型库中各模型的相似度。
111.其中,确定目标遮挡模型与预设二维模型库中各模型的相似度可以是将目标遮挡模型的唇部特征与预设二维模型库中各模型的唇部特征进行比较,确定相似度。
112.步骤s305':若存在大于第一相似度阈值的相似度,则根据大于第一相似度阈值的相似度对应的模型确定所述车内人员图像对应的图像语音指令。
113.需要说明的是,第一相似度阈值可以由车辆语音控制设备的管理人员预先进行设置,例如:将第一相似度阈值设置为80%。
114.可以理解的是,若存在大于第一相似度阈值的相似度,则表示此时车内人员发出了语音,且发出的语音大概率是车辆所支持的语音控制指令,因此,可以根据大于第一相似度阈值的相似度对应的模型确定所述车内人员图像对应的图像语音指令。
115.其中,根据大于第一相似度阈值的相似度对应的模型确定车内人员图像对应的图像语音指令可以是将预设二维模型库中大于第一相似度阈值的相似度对应的模型所对应
的语音控制指令作为车内人员图像对应的图像语音指令。
116.可以理解的是,若相似度均较小,则表示用户虽然发出了语音,但是,此时用户发出的语音与语音控制指令并不匹配,因此,可以判定车内人员并未发出语音指令,忽略所述语音控制指令,则此时本实施例所述步骤s304之后,还可以包括:
117.若相似度均小于第二相似度阈值,则判定车内人员并未发出语音指令,忽略所述语音控制指令。
118.需要说明的是,第二相似度阈值可以由车辆语音控制设备的管理人员预先进行设置,例如:将第二相似度阈值设置为30%。
119.可以理解的是,若相似度的值均大于第二相似度阈值的,但小于第一相似度阈值,则表示此时仅能确定用户发出了语音,且发出的语音与语音控制指令有一定相似度,但是无法确定具体匹配的语音控制指令,此时,可以提示用户车辆接收到了语音控制指令,并让用户选择是否执行该语音控制指令。
120.进一步的,为了保证在唇部被遮挡,且人员并非针对图像采集镜头时,尽可能获取车内人员的图像语音指令,则此时本实施例所述步骤s301之后,还包括:
121.若唇部被遮挡,且车内人员并非正对图像采集镜头,则逐帧分析所述车内人员图像,获得局部面部特征;
122.将所述局部面部特征与遮挡三维模型库中各模型进行匹配,确定目标遮挡三维模型;
123.将目标遮挡三维模型与预设三维模型库中各模型进行匹配,并根据匹配结果确定所述车内人员图像对应的图像语音指令。
124.可以理解的是,若唇部被遮挡,且车内人员并非正对图像采集镜头,则表示此时不但无法采集到唇部特征,也无法采集到完整的面部特征,仅能采集到局部面部特征,此时直接将其与遮挡二维模型库中的模型进行匹配,匹配失败或误判的几率较高,因此,需要结合三维模型进行辅助判断,此时可以将局部面部特征与遮挡三维模型库中各模型进行匹配,确定目标遮挡三维模型。其中,预设三维模型库可以是预先存储有人员发出各种语音时的三维面部模型的数据库。
125.在实际使用中,将局部面部特征与遮挡三维模型库中各模型进行匹配,确定目标遮挡三维模型可以是对局部面部特征进行特征补全,获得补全面部特征,将补全面部特征与遮挡三维模型库中各模型的面部特征进行匹配,确定补全面部特征与遮挡三维模型库中各模型的面部特征之间的相似度,并将遮挡三维模型库中对应的相似度大于一定阈值(如60%,可根据实际需要进行调整)的模型作为目标遮挡三维模型。
126.同理,在确定目标遮挡三维模型之后,仅能确定车内人员发出了语音,但是无法确定是否发出语音控制指令,因此,可以将目标遮挡三维模型与预设三维模型库中各模型进行匹配,并根据匹配结果确定所述车内人员图像对应的图像语音指令。
127.其中,将目标遮挡三维模型与预设三维模型库中各模型进行匹配,并根据匹配结果确定所述车内人员图像对应的图像语音指令可以是将目标遮挡三维模型中的唇部特征与预设三维模型库中各模型的唇部特征进行比较,确定目标遮挡三维模型中的唇部特征与预设三维模型库中各模型的唇部特征之间的相似度,检测是否存在大于第一相似度阈值的相似度,若存在,则将大于预设三维模型库中大于第一相似度阈值的相似度对应的模型所
对应的语音控制指令作为车内人员图像对应的图像语音指令;若不存在,且相似度均小于第二相似度阈值,则判定车内人员并未发出语音指令,忽略所述语音控制指令;而若是相似度均大于第二相似度阈值,且小于第一相似度阈值,则判定无法确定具体匹配的语音控制指令,此时,可以提示用户车辆接收到了语音控制指令,并让用户选择是否执行该语音控制指令。其中,根据实际需要可以为二维及三维模型比较时设置不同的第一相似度阈值及第二相似度阈值,本实施例对此不加以限制。
128.其中,由于在实际实现过程中,大于第一相似度阈值的相似度也可能会存在多个,因此,在检测到存在大于第一相似度阈值的相似度,可以先检测大于第一相似度阈值的相似度是否为一个,若为一个,则将大于预设三维模型库中大于第一相似度阈值的相似度对应的模型所对应的语音控制指令作为车内人员图像对应的图像语音指令;
129.而若是大于第一相似度阈值的相似度为多个,则可以比较各大于第一相似度阈值的相似度之间的大小,将其中最大的相似度对应的模型所对应的语音控制指令作为车内人员图像对应的图像语音指令;或者,将各大于第一相似度阈值的相似度对应的模型所对应的语音控制指令均作为车内人员图像对应的图像语音指令,将大于第一相似度阈值的相似度对应的模型所对应的语音控制指令分别与麦克风接收到的语音控制指令相对比,若有任意一个与麦克风接收到的语音控制指令一致,则根据语音控制指令控制车辆运行。
130.当然,具体实现时,也可以将各大于第一相似度阈值的相似度对应的模型所对应的语音控制指令在车辆的显示面板上进行展示,由用于进行选择执行哪一个语音控制指令。
131.为了便于理解,现结合图6进行说明,但不对本方案进行限定,图6为本实施例的语音控制指令识别流程示意图,图6中2d唇动模型库为上述预设二维模型库,2d唇动模型库2为上述遮挡二维模型库,3d唇动模型库为上述预设三维模型库,3d唇动模型库2为上述遮挡三维模型库。
132.如图6所示,车载摄像头会识别车内人员面部特征,确定是否戴口罩等遮挡物,导致无法获取唇部特征,以及检测拍摄时人员是否针对镜头,若未遮挡唇部,且正对镜头,则会对采集的唇动图像逐帧进行分析,并将分析得到的唇部特征与2d唇动模型库(预设二维模型库)进行比较,确定唇动对应的语音指令,而若是未遮挡唇部,但并非正对镜头,则会构建3d立体唇部模型,并逐帧分析唇动图像,将提取到的特征依据3d立体唇部模型进行补全,并将补全后的特征与3d唇动模型库进行匹配,从而得到采集的图像对应的语音指令。
133.而若是唇部被遮挡,但正对镜头,则会逐帧分析图像,将分析得到的特征与2d唇动模型库2进行比较,并将比较结果与2d唇动模型库进行比较,确定相似度,若存在大于m%(第一相似度阈值),则获取大于m%的模型对应的语音指令,从而得到采集的图像对应的语音指令;而若是相似度均小于n%(第二相似度阈值),则判定采集的图像对应的目标人员并未发出语音指令,此时可以不执行接收到的语音控制指令。
134.本实施例通过若唇部被遮挡,且车内人员正对图像采集镜头,则逐帧分析所述车内人员图像,获得面部特征;将所述面部特征与遮挡二维模型库中各模型进行匹配,确定目标遮挡模型;确定所述目标遮挡模型与预设二维模型库中各模型的相似度;若存在大于第一相似度阈值的相似度,则根据大于第一相似度阈值的相似度对应的模型确定所述车内人员图像对应的图像语音指令。由于在唇部被遮挡,且车内人员正对图像采集镜头时会根据
逐帧分析得到的面部特征与遮挡二维模型库进行匹配,确定车内人员是否发出语音,且在匹配之后,还会将匹配得到的目标遮挡模型与预设二维模型库中各模型之间的相似度进一步确定车内人员是否发出了语音控制指令,进一步提高了车辆语音控制方法的准确性。
135.此外,本发明实施例还提出一种存储介质,所述存储介质上存储有车辆语音控制程序,所述车辆语音控制程序被处理器执行时实现如上文所述的车辆语音控制方法的步骤。
136.参照图7,图7为本发明车辆语音控制装置第一实施例的结构框图。
137.如图7所示,本发明实施例提出的车辆语音控制装置包括:
138.声源定位模块10,用于在接收到语音控制指令时,定位所述语音控制指令对应的声源位置;
139.图像获取模块20,用于若所述声源位置为车内位置,则获取车内人员图像;
140.指令确定模块30,用于确定所述车内人员图像对应的图像语音指令;
141.语音控制模块40,用于若所述语音控制指令与所述图像语音指令匹配,则根据所述语音控制指令控制车辆运行。
142.本实施例通过在接收到语音控制指令时,定位语音控制指令对应的声源位置;若声源位置为车内位置,则获取车内人员图像;确定车内人员图像对应的图像语音指令;若语音控制指令与图像语音指令匹配,则根据语音控制指令控制车辆运行。由于会在接收到语音控制指令时,检测声源位置是否为车内,若是,才会执行后续步骤,避免了车外人员恶意通过语音控制车辆,提高了车辆的安全性,且在确定声源位置为车内之后,还会获取车内人员图像对应的图像语音指令,在图像语音指令与图像语音指令匹配时才执行语音控制指令,减少了语音指令识别错误的现象。
143.进一步的,所述指令确定模块30,还用于检测所述车内人员图像中人员唇部是否被遮挡,以及车内人员是否正对图像采集镜头;若唇部未被遮挡,且车内人员正对图像采集镜头,则逐帧分析所述车内人员图像,获得唇动特征;将所述唇动特征与预设二维模型库中各模型进行匹配,获得目标唇动模型;根据所述目标唇动模型确定所述车内人员图像对应的图像语音指令。
144.进一步的,所述指令确定模块30,还用于若唇部未被遮挡,且车内人员并非正对图像采集镜头,则逐帧分析所述车内人员图像,获得局部唇部特征;将所述局部唇部特征与预设三维模型库中各模型进行匹配,获得目标三维模型;根据所述目标三维模型确定所述车内人员图像对应的图像语音指令。
145.进一步的,所述指令确定模块30,还用于若唇部被遮挡,且车内人员正对图像采集镜头,则逐帧分析所述车内人员图像,获得面部特征;将所述面部特征与遮挡二维模型库中各模型进行匹配,确定目标遮挡模型;确定所述目标遮挡模型与预设二维模型库中各模型的相似度;若存在大于第一相似度阈值的相似度,则根据大于第一相似度阈值的相似度对应的模型确定所述车内人员图像对应的图像语音指令。
146.进一步的,所述指令确定模块30,还用于若相似度均小于第二相似度阈值,则判定车内人员并未发出语音指令,忽略所述语音控制指令。
147.进一步的,所述指令确定模块30,还用于若唇部被遮挡,且车内人员并非正对图像采集镜头,则逐帧分析所述车内人员图像,获得局部面部特征;将所述局部面部特征与遮挡
三维模型库中各模型进行匹配,确定目标遮挡三维模型;将目标遮挡三维模型与预设三维模型库中各模型进行匹配,并根据匹配结果确定所述车内人员图像对应的图像语音指令。
148.进一步的,车辆的车身前部和后部均安装多个车载麦克风;
149.所述声源定位模块10,还用于获取各车载麦克风采集到声音的采集时刻及采集音量;根据所述采集时刻、所述采集音量及各车载麦克风的安装位置定位所述语音控制指令对应的声源位置。
150.应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
151.需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
152.另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的车辆语音控制方法,此处不再赘述。
153.此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
154.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
155.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(read only memory,rom)/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
156.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图