1.本技术属于智能交互技术领域,尤其涉及一种认知检测方法、认知检测装置、电子设备及计算机可读存储介质。
背景技术:
2.当前的语音评估交互系统的一般逻辑是由自动语音识别(automatic speech recognition,asr)系统将语音转换为文本,再由自然语言处理(natural language processing,nlp)系统进行意图处理。当前,asr与nlp的服务往往各自独立的部署于云端,且全流程系统较少;特别是针对认知检测的特化语音交互来说,对其全流程的评估系统目前仍处于欠缺状态。
技术实现要素:
3.本技术提供了一种认知检测方法、认知检测装置、电子设备及计算机可读存储介质,可实现全流程的针对认知检测的特化语音交互的评估。
4.第一方面,本技术提供了一种认知检测方方法,包括:
5.基于用户对认知检测问题的回答,获取待评估数据,待评估数据包括:用户的生命体征数据、包含用户人脸信息的视频数据及包含用户答题音频的音频数据;
6.提取得到视频数据所包含的人脸关键点数据;
7.根据人脸关键点数据及音频数据进行答题判别,得到认知检测的语音判别结果;
8.根据人脸关键点、答题判别的中间输出及生命体征数据进行状态分析,得到认知检测的状态分析结果。
9.第二方面,本技术提供了一种认知检测方装置,包括:
10.获取模块,用于基于用户对认知检测问题的回答,获取待评估数据,待评估数据包括:用户的生命体征数据、包含用户人脸信息的视频数据及包含用户答题音频的音频数据;
11.提取模块,用于提取得到视频数据所包含的人脸关键点数据;
12.判别模块,用于根据人脸关键点数据及音频数据进行答题判别,得到认知检测的语音判别结果;
13.分析模块,用于根据人脸关键点、答题判别的中间输出及生命体征数据进行状态分析,得到认知检测的状态分析结果。
14.第三方面,本技术提供了一种电子设备,上述电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。
15.第四方面,本技术提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。
16.第五方面,本技术提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。
17.本技术与现有技术相比存在的有益效果是:首先,基于用户对认知检测问题的回答,获取待评估数据,该待评估数据包括:用户的生命体征数据、包含用户人脸信息的视频数据及包含用户答题音频的音频数据;然后,提取得到视频数据所包含的人脸关键点数据;接着,根据人脸关键点数据及音频数据进行答题判别,得到认知检测的语音判别结果;并根据人脸关键点、答题判别的中间输出及生命体征数据进行状态分析,得到认知检测的状态分析结果。通过本技术方案,融合了asr和nlp的优点,实现了全流程离线化和部分流式化的认知检测方法,消除了对网络的依赖。
18.可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
19.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1是本技术实施例提供的认知检测方法的实现流程示意图;
21.图2是本技术实施例提供的语音评估交互系统的架构示例图;
22.图3是本技术实施例提供的基于音素模糊匹配对类别题进行判定的过程示例图;
23.图4是本技术实施例提供的基于语音特征对比对匹配题进行判定的过程示例图;
24.图5是本技术实施例提供的概率矩阵的示例图;
25.图6是本技术实施例提供的基于混合的模糊匹配对匹配题进行判定的过程示例图;
26.图7是本技术实施例提供的原始的rnnt及优化后所得的多任务rnnt的结构示例图;
27.图8是本技术实施例提供的交互分析模组的具体架构示例图;
28.图9是本技术实施例提供的认知检测装置的结构框图;
29.图10是本技术实施例提供的电子设备的结构示意图。
具体实施方式
30.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本技术的描述。
31.下面对本技术实施例提供的一种认知检测方法进行描述。其中,该认知检测方法可应用于搭载有语音评估交互系统的电子设备,也即具备认知检测功能的电子设备。仅作为示例,该电子设备可以是电脑或智能手机等,此处不作限定。请参阅图1,本技术实施例中的认知检测方法包括:
32.步骤101,基于用户对认知检测问题的回答,获取待评估数据。
33.电子设备可搭载有输出设备及输入设备。其中,该输出设备包括但不限于显示屏
(触摸屏)及喇叭等,该输入设备包括但不限于摄像头、麦克风及生命体征检测设备等,本技术实施例不对该输出设备及输入设备的类型作出限定。在认知检测开始后,电子设备即可以语音或视频的方式通过输出设备向用户输出认知检测问题;在用户基于电子设备所输出的认知检测问题进行回答的情况下,电子设备即可通过其输入设备采集用户对该认知检测问题的回答。基于用户的该回答,电子设备可获得待评估数据。在一些示例中,该待评估数据包括但不限于:用户的生命体征数据(具体可为用户答题时的生命体征数据)、包含用户人脸信息(具体可为用户答题时的人脸信息)的视频数据及包含用户答题音频的音频数据。
34.步骤102,提取得到视频数据所包含的人脸关键点数据。
35.由于视频数据中包含有用户人脸信息,因而电子设备可对该视频数据进行图像分析,由此提取出该视频数据所包含的人脸关键点数据。在一些示例中,该人脸关键点数据包括但不限于:人脸关键点坐标数据及关键点扭曲程度数据。
36.在一些实施例中,电子设备可对视频数据进行人脸关键点识别,得到人脸关键点坐标数据,同时还可对视频数据进行头部轮廓识别,得到用户头部轮廓数据,之后再将人脸关键点坐标数据及用户头部轮廓数据与预设的人脸标准数据进行比对,得到关键点扭曲程度数据。其中,人脸标准数据包括:人脸关键点标准坐标数据及头部轮廓标准数据。可以理解,该人脸标准数据可以是语音评估交互系统启动时通过校准而得,其可作为对比时的参考数据。
37.具体地,人脸关键点坐标数据及用户头部轮廓数据与预设的人脸标准数据的比对过程可为:先使用当前所得的用户头部轮廓数据及头部轮廓标准数据来计算用户目前的面部缩放比例,以排除距离误差;再根据当前的面部缩放比例对当前所得的人脸关键点坐标数据进行缩放调节,并将调节后的数据与人脸关键点标准坐标数据相对比,由此即可确定各个关键点在横纵方向上的拉伸与压缩情况。可以理解,关键点扭曲程度数据可用于描述用户的面部是否与标准状态下的面部相同,也即从面部角度确定用户的注意力是否与标准状态下相同,以此确定用户是否处于被干扰或分散注意力的状态。
38.步骤103,根据人脸关键点数据及音频数据进行答题判别,得到认知检测的语音判别结果。
39.电子设备可根据音频数据进行答题判别,由此得到认知检测的语音判别结果,该语音判别结果用于指示用户答题是否准确。由于答题的准确与否与用户认知的状态相关,因而该语音判别结果实际上也用于指示用户认知是否出现障碍或异常。
40.为减少可能存在的环境噪声及语音重叠问题影响到语音判别的准确性,本技术实施例中,可结合人脸关键点数据及音频数据来进行答题判别。其中,该人脸关键点数据主要在环境检测方面起到了作用。当环境检测的结果确定当前不存在环境噪声及语音重叠等容易影响到语音判别的准确性的问题的情况下,即可认为当前基于对音频数据的分析所得的语音判别结果是相对准确的。
41.步骤104,根据人脸关键点数据、答题判别的中间输出及生命体征数据进行状态分析,得到认知检测的状态分析结果。
42.在认知检测的过程中,用户也有可能出现没听清楚认知检测问题,或者因情绪激动而导致交互功能出现障碍等特殊情况,这均会对认知检测的结果产生影响。在必要时,通常还要基于用户的状态来对用户进行引导,使得认知检测的交互过程可更加自然化。考虑
到用户状态可能体现在答题时的面部表情或神态上,也可能体现心率及血压等生命体征上,还可能体现在答题时所作的回答上,因而本技术实施例中,电子设备可根据人脸关键点数据、答题判别的中间输出及生命体征数据进行状态分析,得到认知检测的状态分析结果。其中,答题判别的中间输出包括但不限于如下一项以上:语音特征、音素、文本及语音离散误差。
43.请参阅图2,图2示出了应用有本技术实施例所提出的认知检测方法的语音评估交互系统的架构示例。该语音评估交互系统2包括:关键点检测模组201、语音判别模组202及交互分析模组203。下面基于步骤101-104,对各个模组的输入及输出进行介绍:
44.关键点检测模组201的输入为实时的视频数据,输出为人脸关键点数据;
45.语音判别模组202的输入为人脸关键点数据和实时的音频数据,输出为语音判别结果,其中,该语音判别模组还可进行环境检测,环境检测的结果可控制后续流程和是否输出等。具体地,该语音判别结果存在实时的语音判别结果和最终的语音判别结果这两种类型。除此之外,该语音判别模组202也还有中间输出。
46.交互分析模组203的输入为人脸关键点数据、语音判别模组的中间输出(也即语音特征等)和实时的生命体征数据,输出为实时的状态分析结果。
47.在一些实施例中,涉及到的语音类型的认知检测问题大致可以归类为三类,分别为类别题、匹配题及相似题;仅作为示例,类别题可以为“请说出__种符合___特征的词汇”等问题内容,匹配题可以为“请按顺序重复下列词汇:______”等问题内容,相似题可以为“请重复下列语句:_____”等问题内容。基于以上这几类不同的认知检测问题,答题判别的具体过程可以为:
48.a1、基于人脸关键点数据及音频数据得到答题判别的中间输出。
49.电子设备可通过声学相关的模型(也即声学模型)对音频数据进行处理,以从音频数据中提取得到与用户答题相关的有效信息,这些有效信息即为中间输出。前文已对中间输出所可能包含的数据类型进行了描述,此处不再赘述。可以理解,中间输出即为后续处理所需要的信息。
50.正如前文已描述的,为减少可能存在的环境噪声及语音重叠问题影响到语音判别的准确性,在处理音频数据以得到中间输出的过程中,该音频数据还可结合人脸关键点数据进行环境检测。可以理解,当环境检测的结果确定当前不存在环境噪声及语音重叠等容易影响到语音判别的准确性的问题的情况下,电子设备才可得到有效的中间输出,并可基于该中间输出进行后续的判别操作。
51.a2、根据认知检测问题的目标问题类型,在音素、文本及语音特征中确定待判别信息。
52.前文已给出了三种常见的问题类型,而每一问题类型都只需要部分中间输出即可进行答题判别。基于此,电子设备可以在已得到的中间输出中,根据当前的认知检测问题的目标问题类型确定出待判别信息。
53.具体地,在认知检测问题为类别题的情况下,待判别信息可以是音素;在认知检测问题为匹配题的情况下,待判别信息可以是语音特征;在认知检测问题为相似题的情况下,待判别信息可以是文本及语音特征。
54.a3、采用目标问题类型所对应的判别方式,对待判别信息进行答题判别,得到语音
判别结果。
55.不同类型的认知检测问题可采用不同的判别方式。具体地,在认知检测问题为类别题的情况下,其所对应的判别方式可以为音素模糊匹配;在认知检测问题为匹配题的情况下,其所对应的判别方式可以为语音特征对比;在认知检测问题为相似题的情况下,其所对应的判别方式可以为混合的模糊匹配,该混合的模糊匹配包括:以语音特征为输入的模糊匹配,以及,以文本为输入的模糊匹配。下面对各判别方式进行解释及介绍:
56.类别题所对应的判别方式为音素模糊匹配,其理由为:与文本相比,流式化难度相同,但在语音环境下的包容性更强;与语音特征对比相比,虽然包容性较弱,但由于类别题中每个类别下的词条数量繁多,因而语音特征对比会带来大量计算的压力,从而对系统的实时性造成冲击。基于此,为实现包容性和算力的平衡,针对类别题而言,采用音素模糊匹配作为其判别方式。具体地,请参阅图3,图3给出了基于音素模糊匹配对类别题进行判定的过程示例。由图3可知,在对类别题进行判别时,其输入包含两个部分,分别为认知检测题目和中间输出中的音素;其中,认知检测题目通常为某一指定类别,例如“动物”或“食物”等。通过预先收集及转换而得的该指定类别下的类别数据,可以得到该认知检测题目所对应的类别词表和音素表。可以理解,从该类别词表中可得到该指定类别所对应的文本,从该音素表中可得到该指定类别所对应的音素。之后,再通过子序列模糊匹配来将从音频数据中提取出的音素与该类别词表中的文本和音素表中的音素进行匹配。在子序列模糊匹配的过程中,可构建匹配状态表,并在每次音素输入时更新该匹配状态表,之后使用动态规划(dynamic programming,dp)算法即可实现流式化。
57.匹配题所对应的判别方式为语音特征对比,其理由为:这种方式可以最大程度地避免识别过程中带来的误差,增加系统的包容性。具体地,请参阅图4,图4给出了基于语音特征对比对匹配题进行判定的过程示例。由图4可知,在对匹配题进行判别时,其输入为认知检测题目和中间输出中的语音特征。一般而言,认知检测题目为当前需要匹配的文本和顺序信息,例如需要匹配“abcde”这段文本,其中“abc”这三个字可以相互替换顺序,但三者均必须在“de”之前;根据抽取所得的语音特征,电子设备可以计算出每段音频对应某个字符的概率,该概率的计算方法与连续时序分类(connectionist temporal classification,ctc)识别类似;将其按音频序排列之后,即可获取每段音频识别到对应字符的概率矩阵;通过在概率矩阵中选择生成匹配文本概率乘积最大的路径,即可计算出音频匹配的可能性。
58.请参阅图5,图5给出了概率矩阵的示例。以“犀牛蚂蚁”和“蚂蚁犀牛”这两段文字序列为例,在图5所示出的概率矩阵中,“蚂蚁犀牛”这段文字序列的概率乘积最大为0.5832,而“犀牛蚂蚁”这段文字序列的概率乘积最大为为0.00144。与ctc不同的是,ctc会计算其它切片被误识别为“unk”的问题带来的影响,但在该场景下的匹配过程中,这种口语化、额外文本的存在不应对匹配过程造成影响;基于此,本技术实施例使用的是类似ctc的方法进行识别,其与ctc的区别在于:本技术实施例中,只统计所需匹配文字序列的概率,忽略其它噪音影响。可以理解,这种计算过程用dp算法即可实现流式化。
59.相似题所对应的判别方式为混合的模糊匹配。具体地,请参阅图6,图6给出了基于混合的模糊匹配对匹配题进行判定的过程示例。由图6可知,在对相似题进行判别时,其输入为认知检测题目以及中间输出中的语音特征和文本。其中,以语音特征为输入的模糊匹
配与匹配题所对应的音频特征匹配相同,其以概率矩阵作为输出;以文本为输入的模糊匹配的目的是做语义上近似的模糊匹配,例如“我7点吃晚饭”和“我7点吃晚餐”读音不同,无法通过音频特征匹配而判别为相同,因而在以文本为输入的模糊匹配中,可使用句法分析来分析每个词在语句中的词性,并通过一套系数(存储于句成分权重表中)来确定每类词性的误差影响大小,例如名词错误的误差远高于动词错误的误差,其中,该系数通常是基于预先收集的数据而统计得到的,其在预先收集的数据得以更新后,会随之而更新。后续即可通过词相似度计算词汇模糊概率,联合两种概率可包容在复述过程中同样意思但不同表达的词汇,由此计算出复述的结果与本身语义近似的可能性。通过上述过程,文本中的每个字均会被计算两个概率,其一是被识别为答案对应字符的概率(通过以语音特征为输入的模糊匹配而得),其二为与答案语义上相似的概率乘上被识别为近似词汇的概率(通过以文本为输入的模糊匹配而得)。
60.下面通过公式进行说明:a为目标字符的标准答案字符;b为目标字符的实际识别字符;c为实际识别出来的目标字符的前一个字符,其可分别与a及b组成词汇;由此可知,ca为标准答案中对应位置的词汇,cb为识别结果中对应位置的词汇,则上述过程可表示为:
61.p(a)=max(p_sound(a),p_char_sim(a))
62.p_char_sim(a)=p_sound(b)
×
p_similar(ca,cb)
63.以“晚饭”和“晚餐”两个字为例:对于“餐”字而言,基于上述公式可知,可计算识别为“餐”的概率(也即p_sound(b))乘上“晚饭”和“晚餐”的语义相似度的结果(也即p_similar(ca,cb)),该结果可被作为语义相近的概率(也即p_char_sim(a)),这一概率(也即p_char_sim(a))会再与这个位置被识别为“饭”的概率(也即p_sound(a))进行比较,取其中的较大值为其最终概率。
64.需要注意的是,对类别题的判别以及对匹配题的判别均为流式化方法;而对相似题的判别中,以语音特征为输入的模糊匹配为流式化方法,其结果可用于实时交互;但以文本为输入的模糊匹配则为非流式化过程,其需要等待asr识别完成后才可进行。
65.在一些实施例中,电子设备可通过改进后的声学模型来处理得到各项中间输出,则步骤a1可包括:
66.步骤b1、提取得到音频数据的声学特征。
67.电子设备可通过预处理及特征转换等操作,提取出音频数据的声学特征。当前,对声学特征的提取已为较成熟的技术,此处不作赘述。
68.步骤b2、通过预设的声学编码器对声学特征进行编码,并基于编码结果得到语音特征。
69.声学模型包括声学编码器。具体地,该声学编码器包括但不限于:文本编码器及音素编码器。需要注意的是,文本编码器的一部分特征来源于音素编码器的提取,这可缩小文本编码器中神经元网络的参数数量;也即,音素编码器的输入完全依赖于声学特征,文本编码器的输入一部分依赖于声学特征,另一部分依赖于音素编码器的提取。
70.步骤b3、根据语音特征、声学特征及人脸关键点数据进行环境检测,确定环境检测结果。
71.在通过声学编码器得到语音特征之后,该语音特征可作为环境检测的输入;除此之外,声学特征也可同时作为环境检测的输入。可以理解,声学特征是用于判别环境噪音大
小的,语音特征是用于判别是否存在语音重叠现象的。进一步地,还可结合人脸关键点数据进行环境判别,例如,通过人脸关键点判断用户当前是否在说话等,以从视觉角度帮助判别是否存在语音重叠现象等。
72.步骤b4、在环境检测结果满足预设的环境条件的情况下,通过预设的声学语言模型对编码结果进行处理,得到音素及文本。
73.声学模型还包括声学语言模型。当所得的环境检测结果满足该环境条件时,可认为当前的音频数据可以无干扰地真实体现用户的作答,基于此,可通过该声学语言模型对编码结果进行处理,得到音素及文本。其中,预设的环境条件具体指的是;不存在语音重叠现象,且环境噪音小于预设的噪音阈值。
74.在一些示例中,本技术实施例所采用的在声学模型可以将recurrent neural network transducer(rnnt)作为基础模型,该模型本身即为流式化模型。为满足有多种类型的输出的要求,本技术实施例还可对该rnnt模型作出优化,将其优化为多任务rnnt。请参阅图7,图7给出了原始的rnnt(图7的左边)及优化后所得的多任务rnnt(图7的右边)的结构示例。其中,多任务rnnt中的变量融合、语言模型及编码器内部为深度学习神经元网络,其属于现有技术,在此不做赘述。由图7可知,该多任务rnnt的输出包括:文本、音素、语音特征及语音离散误差,这些输出均为答题判别过程中的中间输出。
75.下面结合图7,对多任务rnnt相较于原始的rnnt所作出的优化进行解释及说明:
76.首先,多任务rnnt包含两个rnnt结构,分别对应文本和音素的输出。可以理解,其各自每个部分与基础rnnt均相同,但文本编码器的一部分特征来源于音素编码器的提取,在前文已有描述,此处不再赘述。
77.其次,多任务rnnt中,还使用预测结果时的离散化损失的加权求和得到了语音离散误差,该语音离散误差会作为中间输出在后续的状态分析中起到作用。其中,离散化指的是:预测结果中的最大的概率和概率为1之间的差距,一个简易的离散话损失的计算方式是loss=-log p,其中,p为预测结果所指示的某个类别的概率。加权指的是:对文本的离散化损失和音素的离散化损失进行加权。
78.另外,在编码器(包括文本编码器和音素编码器)和模型融合之间,还增加了环境检测控制。可以理解,在环境检测结果为不满足预设的环境条件(也即环境较为嘈杂)的情况下,模型融合(也即变量融合)将会因为缺少输入而保持等待。基于此,在嘈杂环境下,可减少出现因为在时间上出现语音重叠,语言模型(包括音频文本语言模型和音频音素语言模型)同时识别多个来源的音频而导致的语言模型混乱;同时,还可减少出现输出结果无效的情况,考虑到逐字输出占用大量算力,这可降低多任务rnnt在使用时的算力要求。
79.除此之外,在构建多任务rnnt时,为实现asr功能的离线化,应让其模型整体结构较小。为此,本技术实施例采用蒸馏与量化的方式实现模型的压缩。具体地,蒸馏是一种特殊的训练方法,可以将已训练好的大型模型知识转换到小型模型中,相较于直接使用小型模型,其训练结果通常更加稳定;量化是一种通过降低参数在计算机中存储位数的方式实现内存下降的方式。本技术实施例中,针对多任务rnnt的不同部分,分别使用了不同蒸馏的方法,其特点为:先屏蔽掉文本部分,使用音素大型模型将多任务rnnt的音素部分进行蒸馏训练,再对文本部分使用文本大型模型进行蒸馏训练。
80.在一些实施例中,步骤104可包括:
81.c1、根据中间输出,提取得到特定特征。
82.电子设备所得到的中间输出中的部分或全部内容可作为状态分析的输入。在一些示例中,可作为状态分析的输入的中间输出可以是:文本、语音特征及语音离散误差。电子设备可通过特征提取器对这些中间输出进行特征提取,由此得到特定特征。
83.考虑到语音离散损失和语音特征为流式化信息,通常会每隔一段时间即产生一批新的数据,因而电子设备可通过语音特征提取器对语音离散损失和语音特征进行特征提取,由此得到流式化的特定特征;为便于区分,本技术实施例将流式化的特定特征记作第一特定特征。也即,电子设备可根据语音离散误差及语音特征,提取得到第一特定特征。
84.又考虑到文本为单轮信息,也即每轮通常仅得到一次文本,因而电子设备可通过语义特征提取器对文本进行特征提取,由此得到单轮的语义相关的特定特征;为便于区分,本技术实施例将单轮的语义相关的特定特征记作第二特定特征。也即,电子设备可根据文本,提取得到第二特定特征。
85.c2、根据生命体征数据及人脸关键点数据,提取得到通用特征。
86.电子设备通过生命体征检测设备所检测到的生命体征数据可包括但不限于心率、血压及眨眼频率等。而人脸关键点数据在前文已有描述,此处不作赘述。通过医学特征提取器及探索性数据分析(exploratory data analysis,eda)特征提取器对生命体征数据进行特征提取,可得到用户的体征特征;通过注意力特征提取器对人脸关键点数据进行特征提取,可得到视觉特征。其中,体征特征及视觉特征均为流式化的特征,二者可共同被视为通用特征。
87.在一些示例中,医学特征提取器关注的是根据医学特征人为设计的特征,包括但不限于心率变化率等;eda特征提取器是由人工根据数据规律设计的一套方法,其输入为生命体征数据和通过医学特征提取器已提取得到的医学特征,目的为尽可能提取目前的医学特征中尚未表征出的有效特征。
88.在一些示例中,注意力特征提取器中的“注意力”的意义为“判断目标的注意力所在”或“判断目标是否在关注某个实体”,其与底层是否使用神经元网络中的注意力机制并无直接联系。
89.c3、基于特定特征及通用特征进行特征融合,得到融合特征;
90.考虑到特征划分有流式化的特征及单轮的特征,因而电子设备可基于此分别进行特征融合。具体地,第一特定特征及通用特征均为流式化的特征,因而电子设备可基于第一特定特征及通用特征进行特征融合,由此得到第一总体特征,可以理解,该第一总体特征即为流式化的总体特征。在此基础上,电子设备可再对单轮中所得的所有第一总体特征进行统计,得到单轮统计信息,再基于该单轮统计信息及第二特定特征进行特征融合,由此得到第二总体特征,该第二总体特征即为单轮的总体特征。
91.c4、基于融合特征进行分析,得到状态分析结果。
92.电子设备可分别对已得到的两种总体特征进行归一化及逻辑回归处理,由此得到第一总体特征所对应的第一状态分析结果,以及第二总体特征所对应的第二状态分析结果。可以理解,该第一状态分析结果即为流式化的分析结果,该第二状态分析结果即为单轮的分析结果,二者均可表现为多个概率值的形式,以表达不同维度的用户状态,例如语言流畅程度或受试者激动程度等。
93.请参阅图8,图8给出了交互分析模组的具体架构示例。下面结合图8,通过具体的简单实例,描述上文所提出的状态分析的过程:
94.假设认知检测的某轮语音交互过程中,通过对用户的答题判别所得的文本这一中间输出为“这是一个水壶”。以预设的时间片长度进行划分,确定这段语音中存在10个时间片,则每个时间片还均会有语音离散误差和语音特征这两项中间输出。电子设备基于语音离散误差和语音特征,可提取得到第一特定特征(也即流式化的特定特征),该第一特定特征可表示为向量形式的隐向量,例如(100.2,1.3)。
95.视觉特征中主要包含两个部分,一部分人脸关键点坐标数据,另一部分是关键点扭曲程度数据。在通过注意力特征提取后,可得到新的隐向量,形式与第一特定特征所对应的隐向量类似,例如(20.1,-18.9)。最终,电子设备可输出该隐向量和关键点扭曲程度数据,该关键点扭曲程度数据形如{x轴扭曲:15.3,y轴扭曲:20.8,面部缩放倍率:1.05}。体征特征会在每个时间片被采样一组结果,例如{心率:81,眨眼频率:24}。根据医学知识,可知心率变化速率是评价人状态的有效工具,因而可通过医学特征提取器提取得到采样结果所对应的特征,例如{心率变化: 10}。除此之外,根据预先的观察和研究,还发现眨眼频率和分析结果中的连续程度较为关联,因而还可在eda特征提取器中加入对眨眼频率的提取,并去除与已有特征的相关性,格式同上。最终,电子设备可将所得的视觉特征及体征特征(也即通用特征)与第一特定特征进行特征融合。在一些示例中,其融合的方式可以为特征拼接,即将视觉特征及体征特征作为第一特定特征的隐向量的额外维度,形成新的特征向量,例如(100.2,1.3,10,24,20.1,-18.9,15.3,20.8,1.05)。
96.将所得的特征向量中,各个维度的数值进行归一化后,即可通过逻辑回归的方法得到概率值。需要注意的是,在不同的分析中使用的分析系数不相同,这种分析系数是通过已有训练的方式得到的,此处不作赘述。最终,电子设备所得到结果可为{语言流畅程度:0.82,受试者激动程度:0.11}的形式,该结果即为单个流式化的分析结果。由于划分有10个时间片,因而可得到10个流式化的分析结果,显然,各流式化的分析结果的计算过程中均形成有特征向量,也即共有10个特征向量。将该10个特征向量的数值求取平均得到单轮统计的流式化特征(也即单轮统计信息)。在语音结束后,asr即完成了文字识别,得到了文本这一中间输出。对文本进行语义特征提取后,即可得到第二特定特征,也即单轮的特定特征,其形式与前文所描述的隐向量类似。将该第二特定特征与单轮统计的流式化特征通过拼接的方式进行特征融合,并再进行归一化和逻辑回归的操作,即可得到单轮的分析结果,可表达为{题目交互相关性:0.66,交互口语不清晰程度:0.23}的形式。
97.可以理解,流式化的分析结果(也即第一状态分析结果)主要是评估用户当前的交互状态,保证交互的正常进行,其一般具有实时性,例如当前语言是否流畅,情绪是否存在异常,这些特征在交互过程中通常不断变化,且通常变化幅度较大。单轮的分析结果(也即第二状态分析结果)主要是评估本轮的交互状态,其一般是对一轮交互的整体评估,是一个完整的流程,用以确定用户是否明确理解了认知检测题目且能做出正确回应等。
98.由上可见,本技术实施例实现了基于语音的认知检测题目的自动化判别和交互状态分析。具体地,在自动化判别方面,本技术实施例针对不同类型的认知检测题目,分类设计了更贴近人类逻辑模式的判别方法,可进一步降低自动化判别与人类判别结果的差异性;在交互状态分析方面,本技术实施例融合了生命体征数据后形成交互过程中的状态分
析,且抽取了可复用的通用特征系数和特征构建方法,这些系数和方法能根据通用特征来分析交互状态。除此之外,本技术实施例还对asr和nlp进行了优化,其中nlp的匹配过程被设计为流式化,并且与asr相融合,形成了语音全流程模组,可实现语音特征和文本的同时使用,为更符合人类逻辑的判别方法提供了基础,并减少了从完成回答到判别结束的等待时间;asr通过蒸馏和量化的方式完成了模型的小型化,且nlp使用了较少的深度学习模型,由此可使得其总体占用内存减少,计算量也减少,以此完成了整个系统的离线化,消除了系统受到网络不稳定和云服务并发量限制而影响判别质量的可能性。进一步地,本技术实施例还增加了环境检测的功能,确保了语音链路环境的可控性,并以中断解码的方式降低了由于多人同时发言导致的语言模型混乱和无效算力占用。最终,本技术实施例通过整合上述优点形成了一套完整的语音评估交互系统,相较于现有技术能够提升基于语音的认知检测交互的准确性,同时可分析用户的交互状态用作交互策略依据,由此帮助提升认知检测交互过程的体验。
99.对应于上文所提供的认知检测方法,本技术实施例还提供了一种认知检测装置,上述认知检测装置可集成于电子设备。请参阅图9,本技术实施例中的认知检测装置9包括:
100.获取模块901,用于基于用户对认知检测问题的回答,获取待评估数据,待评估数据包括:用户的生命体征数据、包含用户人脸信息的视频数据及包含用户答题音频的音频数据;
101.提取模块902,用于提取得到视频数据所包含的人脸关键点数据;
102.判别模块903,用于根据人脸关键点数据及音频数据进行答题判别,得到认知检测的语音判别结果;
103.分析模块904,用于根据人脸关键点数据、答题判别的中间输出及生命体征数据进行状态分析,得到认知检测的状态分析结果。
104.在一些实施例中,判别模块903,包括:
105.中间输出确定单元,用于基于人脸关键点数据及音频数据得到答题判别的中间输出,中间输出包括:语音特征、音素及文本;
106.待判别信息确定单元,用于根据认知检测问题的目标问题类型,在音素、文本及语音特征中确定待判别信息;
107.答题判别单元,用于采用目标问题类型所对应的判别方式,对待判别信息进行答题判别,得到语音判别结果。
108.在一些实施例中,中间输出确定单元,包括:
109.声学特征提取子单元,用于提取得到音频数据的声学特征;
110.第一编码子单元,用于通过预设的声学编码器对声学特征进行编码,并基于编码结果得到语音特征;
111.环境检测子单元,用于根据语音特征、声学特征及人脸关键点数据进行环境检测,确定环境检测结果;
112.第二编码子单元,用于在环境检测结果满足预设的环境条件的情况下,通过预设的声学语言模型对编码结果进行处理,得到音素及文本。
113.在一些实施例中,分析模块904,包括:
114.特定特征提取单元,用于根据中间输出,提取得到特定特征;
115.通用特征提取单元,用于根据生命体征数据及人脸关键点数据,提取得到通用特征;
116.特征融合单元,用于基于特定特征及通用特征进行特征融合,得到融合特征;
117.状态分析单元,用于基于融合特征进行分析,得到状态分析结果。
118.在一些实施例中,特定特征包括:第一特定特征及第二特定特征,其中,第一特定特征为流式化的特定特征,第二特定特征为单轮的特定特征;中间输出包括:语音离散误差、语音特征及文本;特定特征提取单元,包括:
119.第一特定特征提取子单元,用于根据语音离散误差及语音特征,提取得到第一特定特征;
120.第二特定特征提取子单元,用于根据文本,提取得到第二特定特征。
121.在一些实施例中,融合特征包括:第一总体特征及第二总体特征,其中,第一总体特征为流式化的总体特征,第二总体特征为单轮的总体特征;特征融合单元,包括:
122.第一特征融合子单元,用于基于第一特定特征及通用特征进行特征融合,得到第一总体特征;
123.统计子单元,用于对第一总体特征进行统计,得到单轮统计信息;
124.第二特征融合子单元,用于基于单轮统计信息及第二特定特征进行特征融合,得到第二总体特征。
125.在一些实施例中,人脸关键点数据包括:人脸关键点坐标数据及关键点扭曲程度数据;提取模块902,包括:
126.关键点识别单元,用于对视频数据进行人脸关键点识别,得到人脸关键点坐标数据;
127.轮廓识别单元,用于对视频数据进行头部轮廓识别,得到用户头部轮廓数据;
128.比对单元,用于将人脸关键点坐标数据及用户头部轮廓数据与预设的人脸标准数据进行比对,得到关键点扭曲程度数据,其中,人脸标准数据包括:人脸关键点标准坐标数据及头部轮廓标准数据。
129.由上可见,本技术实施例实现了基于语音的认知检测题目的自动化判别和交互状态分析。具体地,在自动化判别方面,本技术实施例针对不同类型的认知检测题目,分类设计了更贴近人类逻辑模式的判别方法,可进一步降低自动化判别与人类判别结果的差异性;在交互状态分析方面,本技术实施例融合了生命体征数据后形成交互过程中的状态分析,且抽取了可复用的通用特征系数和特征构建方法,这些系数和方法能根据通用特征来分析交互状态。除此之外,本技术实施例还对asr和nlp进行了优化,其中nlp的匹配过程被设计为流式化,并且与asr相融合,形成了语音全流程模块,可实现语音特征和文本的同时使用,为更符合人类逻辑的判别方法提供了基础,并减少了从完成回答到判别结束的等待时间;asr通过蒸馏和量化的方式完成了模型的小型化,且nlp使用了较少的深度学习模型,由此可使得其总体占用内存减少,计算量也减少,以此完成了整个系统的离线化,消除了系统受到网络不稳定和云服务并发量限制而影响判别质量的可能性。进一步地,本技术实施例还增加了环境检测的功能,确保了语音链路环境的可控性,并以中断解码的方式降低了由于多人同时发言导致的语言模型混乱和无效算力占用。最终,本技术实施例通过整合上述优点形成了一套完整的语音评估交互系统,相较于现有技术能够提升基于语音的认知检
测交互的准确性,同时可分析用户的交互状态用作交互策略依据,由此帮助提升认知检测交互过程的体验。
130.对应于上文所提供的认知检测方法,本技术实施例还提供了一种电子设备。请参阅图10,本技术实施例中的电子设备10包括:存储器1001,一个或多个处理器1002(图10中仅示出一个)及存储在存储器1001上并可在处理器上运行的计算机程序。其中:存储器1001用于存储软件程序以及模块,处理器1002通过运行存储在存储器1001的软件程序以及单元,从而执行各种功能应用以及数据处理,以获取上述预设事件对应的资源。具体地,处理器1002通过运行存储在存储器1001的上述计算机程序时实现以下步骤:
131.基于用户对认知检测问题的回答,获取待评估数据,待评估数据包括:用户的生命体征数据、包含用户人脸信息的视频数据及包含用户答题音频的音频数据;
132.提取得到视频数据所包含的人脸关键点数据;
133.根据人脸关键点数据及音频数据进行答题判别,得到认知检测的语音判别结果;
134.根据人脸关键点数据、答题判别的中间输出及生命体征数据进行状态分析,得到认知检测的状态分析结果。
135.假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,根据人脸关键点数据及音频数据进行答题判别,得到认知检测的语音判别结果,包括:
136.基于人脸关键点数据及音频数据得到答题判别的中间输出,中间输出包括:语音特征、音素及文本;
137.根据认知检测问题的目标问题类型,在音素、文本及语音特征中确定待判别信息;
138.采用目标问题类型所对应的判别方式,对待判别信息进行答题判别,得到语音判别结果。
139.在上述第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,基于人脸关键点数据及音频数据得到答题判别的中间输出,包括:
140.提取得到音频数据的声学特征;
141.通过预设的声学编码器对声学特征进行编码,并基于编码结果得到语音特征;
142.根据语音特征、声学特征及人脸关键点数据进行环境检测,确定环境检测结果;
143.在环境检测结果满足预设的环境条件的情况下,通过预设的声学语言模型对编码结果进行处理,得到音素及文本。
144.在上述第一种可能的实施方式作为基础而提供的第四种可能的实施方式中,根据人脸关键点数据、答题判别的中间输出及生命体征数据进行状态分析,得到认知检测的状态分析结果,包括:
145.根据中间输出,提取得到特定特征;
146.根据生命体征数据及人脸关键点数据,提取得到通用特征;
147.基于特定特征及通用特征进行特征融合,得到融合特征;
148.基于融合特征进行分析,得到状态分析结果。
149.在上述第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,特定特征包括:第一特定特征及第二特定特征,其中,第一特定特征为流式化的特定特征,第二特定特征为单轮的特定特征;中间输出包括:语音离散误差、语音特征及文本;根据中间输
出,提取得到特定特征,包括:
150.根据语音离散误差及语音特征,提取得到第一特定特征;
151.根据文本,提取得到第二特定特征。
152.在上述第五种可能的实施方式作为基础而提供的第六种可能的实施方式中,融合特征包括:第一总体特征及第二总体特征,其中,第一总体特征为流式化的总体特征,第二总体特征为单轮的总体特征;基于特定特征及通用特征进行特征融合,得到融合特征,包括:
153.基于第一特定特征及通用特征进行特征融合,得到第一总体特征;
154.对第一总体特征进行统计,得到单轮统计信息;
155.基于单轮统计信息及第二特定特征进行特征融合,得到第二总体特征。
156.在上述第一种可能的实施方式作为基础而提供的第七种可能的实施方式中,人脸关键点数据包括:人脸关键点坐标数据及关键点扭曲程度数据,提取得到视频数据所包含的人脸关键点数据,包括:
157.对视频数据进行人脸关键点识别,得到人脸关键点坐标数据;
158.对视频数据进行头部轮廓识别,得到用户头部轮廓数据;
159.将人脸关键点坐标数据及用户头部轮廓数据与预设的人脸标准数据进行比对,得到关键点扭曲程度数据,其中,人脸标准数据包括:人脸关键点标准坐标数据及头部轮廓标准数据。
160.应当理解,在本技术实施例中,所称处理器1002可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
161.存储器1001可以包括只读存储器和随机存取存储器,并向处理器1002提供指令和数据。存储器1001的一部分或全部还可以包括非易失性随机存取存储器。例如,存储器1001还可以存储设备类型的信息。
162.由上可见,本技术实施例实现了基于语音的认知检测题目的自动化判别和交互状态分析。具体地,在自动化判别方面,本技术实施例针对不同类型的认知检测题目,分类设计了更贴近人类逻辑模式的判别方法,可进一步降低自动化判别与人类判别结果的差异性;在交互状态分析方面,本技术实施例融合了生命体征数据后形成交互过程中的状态分析,且抽取了可复用的通用特征系数和特征构建方法,这些系数和方法能根据通用特征来分析交互状态。除此之外,本技术实施例还对asr和nlp进行了优化,其中nlp的匹配过程被设计为流式化,并且与asr相融合,形成了语音全流程模块,可实现语音特征和文本的同时使用,为更符合人类逻辑的判别方法提供了基础,并减少了从完成回答到判别结束的等待时间;asr通过蒸馏和量化的方式完成了模型的小型化,且nlp使用了较少的深度学习模型,由此可使得其总体占用内存减少,计算量也减少,以此完成了整个系统的离线化,消除了系统受到网络不稳定和云服务并发量限制而影响判别质量的可能性。进一步地,本技术实施例还增加了环境检测的功能,确保了语音链路环境的可控性,并以中断解码的方式降低了
由于多人同时发言导致的语言模型混乱和无效算力占用。最终,本技术实施例通过整合上述优点形成了一套完整的语音评估交互系统,相较于现有技术能够提升基于语音的认知检测交互的准确性,同时可分析用户的交互状态用作交互策略依据,由此帮助提升认知检测交互过程的体验。
163.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
164.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
165.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
166.在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
167.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
168.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关联的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当
的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括是电载波信号和电信信号。
169.以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。