多模态信息分析的方法、装置、电子设备和介质
1.声明
2.本发明在获取或采集用户个人信息之前,均获取了用户的授权或同意。本发明所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
技术领域
3.本发明涉及人工智能技术领域和大数据技术领域,更具体地涉及一种多模态信息分析的方法、装置、电子设备和介质。
背景技术:
4.自动柜员机(automated teller machine,atm)是一种精密复杂的机电一体化装置,通常利用磁性代码卡或智能卡实现金融交易的自助服务,是银行服务的重要组成部分。随着金融电子化的发展,atm机在银行金融服务的应用越来越广泛。
5.传统的自动柜员机安全监测系统通常采用内在式和被动式反应,其中设置的相关监视设备仅进行相关信息的存储,而不能主动分析行为的外在安全性,因此,传统的自动柜员机安全监测系统缺乏对外界不安全因素的有效预警和主动预警方法,很难保证操作人操作行为是否存在受骗,胁迫,窥探等外在风险。可见,这种监测机制的缺失将会增加额外的自助交易安全风险。
6.目前,atm自助服务监视信息对于外在安全风险分析的过程仍处于初步运用阶段,即通过监控设备记录操作人操作atm机的过程,并进行保存备份。并且,只有在atm机操作过程出现问题或者操作人对操作行为存在异议时,监控记录才作为分析过程的一部分来实现被动式的操作安全分析。具体地,该方法的操作步骤一般为:操作人操作后因出现损失联系工作人员;工作人员调取监控记录查看操作过程,人为检查操作风险;发现操作风险,告知操作人。可见,这种方法发生在操作风险造成损失之后,很难对已经造成的损失进行及时的弥补。
7.进一步地,对于现阶段已提出的atm机安全检查系统,由于应用的算法不够准确或精确或对异常情况无法及时判断的问题,出现误报正常操作或误判恶意行为的情况,导致合法用户收到不必要的干扰或被拒绝服务。
技术实现要素:
8.鉴于上述问题,根据本发明的第一方面,提供了一种基于联合判别网络的多模态信息分析方法,其特征在于,所述方法包括:获取面部信息、音频信息和动作信息;基于所述面部信息和预先训练的微表情情感分析模型,获取微表情情感特征表达;基于所述微表情情感特征表达,获取第一风险概率;基于所述音频信息和预先训练的音频情感分析模型,获取音频情感特征表达;基于所述音频情感特征表达,获取第二风险概率;基于所述动作信息和预先训练的动作识别分析模型,获取动作特征表达;基于所述动作特征表达,获取第三风
险概率;基于所述微表情情感特征表达、所述第一风险概率、所述音频情感特征表达、所述第二风险概率、所述动作特征表达、所述第三风险概率和预先训练的联合判别模型,获取最终风险判别分数;以及基于所述最终风险判别分数,提供预警方案。
9.根据一些示例性实施例,所述获取面部信息、音频信息和动作信息,具体包括:基于第一摄像机,获取面部信息,所述面部信息包括第一人员的第一视频数据;基于第一录音机,获取音频信息,所述音频信息包括所述第一人员的音频数据;基于第二摄像机,获取动作信息,所述动作信息包括第二人员的第二视频数据。
10.根据一些示例性实施例,所述基于所述面部信息和预先训练的微表情情感分析模型,获取微表情情感特征表达,具体包括:将所述第一视频数据进行灰度处理,获得灰度处理后的第一视频数据;基于所述灰度处理后的第一视频数据,提取所述第一用户的微表情关键帧;以及基于所述微表情关键帧和所述预先训练的微表情情感分析模型,获取微表情情感特征表达。
11.根据一些示例性实施例,所述提取所述第一用户的微表情关键帧,具体包括:将所述灰度处理后的第一视频数据中具有可识别人脸的第一帧人脸图像作为基准图像;采用欧氏距离法,获取所述灰度处理后的第一视频数据中具有可识别人脸的第i帧人脸图像与所述基准图像的第i欧氏距离,其中,i大于1且i为正整数;基于所述第i欧氏距离和峰值帧算法,获得峰值帧;以及将所述峰值帧作为关键帧,获得所述第一用户的微表情关键帧。
12.根据一些示例性实施例,所述采用欧氏距离法,获取所述灰度处理后的第一视频数据中具有可识别人脸的第i帧人脸图像与所述基准图像的第i欧氏距离,具体包括:获取原点v和n个关键特征点,其中,n为正整数;基于所述n个关键特征点,将所述基准图像向量化,得到第一向量,将所述第一人员的视频数据中具有可识别人脸的第i帧人脸图像向量化,得到第i向量;基于所述原点v和所述n个关键特征点,计算所述第一向量和所述第i向量的差的平方和并进行开方和取绝对值,得到第i变化差;以及将所述第i变化差进行归一化处理得到所述第i欧氏距离。
13.根据一些示例性实施例,基于卷积神经网络训练所述微表情情感分析模型。
14.根据一些示例性实施例,基于所述音频信息和预先训练的音频情感分析模型,获取音频情感特征表达,具体包括:将所述第一人员的音频数据进行音频预处理,得到第一音频数据;基于梅尔倒谱系数和所述第一音频数据,获取音频数据特征序列;以及基于所述音频数据特征序列和所述预先训练的音频情感分析模型,获取音频情感特征表达。
15.根据一些示例性实施例,所述基于梅尔倒谱系数和所述第一音频数据,获取音频数据特征序列,具体包括:将所述第一音频数据进行预加重、分帧和加窗处理,得到第二音频数据;基于所述第二音频数据和周期图法,获取功率谱;对所述功率谱使用梅尔滤波器组进行滤波,计算每个滤波器内的能量值;对所述每个滤波器内的能量值取对数,得到对数能量值;将所述对数能量值进行离散余弦变换,获取梅尔倒谱系数特征;以及基于所述梅尔倒谱系数特征,获取音频数据特征序列。
16.根据一些示例性实施例,基于门控循环神经网络训练所述音频情感分析模型。
17.根据一些示例性实施例,所述基于所述动作信息预先训练的动作识别分析模型,获取动作特征表达,具体包括:将所述第二视频数据进行灰度处理,获得灰度处理后的第二视频数据;基于所述灰度处理后的第二视频数据,利用均值漂移算法、帧差法、背景差分法、
最大类间方差法、人体形态学处理以及细化算法,获得第一人体骨架序列信息或第二人体骨架序列信息;以及基于所述第一人体骨架序列信息或第二人体骨架序列信息和所述预先训练的第一动作识别分析模型或第二动作识别分析模型,获取第一动作特征表达。
18.根据一些示例性实施例,所述基于所述灰度处理后的第二视频数据,利用均值漂移算法、帧差法、背景差分法、最大类间方差法、人体形态学处理以及细化算法,获得第一人体骨架序列信息或第二人体骨架序列信息,具体包括:基于所述灰度处理后的第二视频数据,利用均值漂移算法获取第一聚类信息;基于所述第一聚类信息,选择第一参考帧或第二参考帧,利用帧差法和背景差分法获取第一前景;利用最大类间方差法将所述第一前景二值化;对所述二值化的第一前景进行人体形态学处理,得到第一人体轮廓;以及基于细化算法,对所述第一人体轮廓进行细化处理,得到所述第一人体骨架序列信息。
19.根据一些示例性实施例,基于长短期记忆网络训练所述动作识别分析模型。
20.根据一些示例性实施例,基于所述微表情情感特征表达和softmax层,获取第一风险概率;基于所述音频情感特征表达和softmax层,获取第二风险概率;以及基于所述动作特征表达和softmax层,获取第三风险概率。
21.根据一些示例性实施例,所述基于所述微表情情感特征表达、所述第一风险概率、所述音频情感特征表达、所述第二风险概率、所述动作特征表达、所述第三风险概率和预先训练的联合判别模型,获取最终风险判别分数,具体包括:基于所述微表情情感特征表达、所述动作特征表达和所述音频情感特征表达,利用线性连接进行特征融合,获得融合特征表达;基于所述融合特征表达和全连接层网络,获得潜在的融合特征表达;基于所述潜在的融合特征表达和softmax层,获得联合风险概率;以及对所述第一风险概率、所述第二风险概率、所述第三风险概率和所述联合风险概率进行加权计算,获得最终风险判别分数。
22.根据一些示例性实施例,基于神经网络训练所述联合判别模型。
23.根据一些示例性实施例,所述预警方案包括安全人员介入观察或语音播报提示。
24.根据本发明的第二方面,提出了一种基于联合判别网络的多模态信息分析的装置,所述装置包括:信息获取模块,用于:获取面部信息、音频信息和动作信息;微表情情感特征表达获取模块,用于:基于所述面部信息和预先训练的微表情情感分析模型,获取微表情情感特征表达;第一风险概率获取模块,用于:基于所述微表情情感特征表达,获取第一风险概率;音频情感特征表达获取模块,用于:基于所述音频信息和预先训练的音频情感分析模型,获取音频情感特征表达;第二风险概率获取模块,用于:基于所述音频情感特征表达,获取第二风险概率;动作特征表达获取模块,用于:基于所述动作信息预先训练的动作识别分析模型,获取动作特征表达;第三风险概率获取模块,用于:基于所述动作特征表达,获取第三风险概率;最终风险判别分数获取模块,用于:基于所述微表情情感特征表达、所述第一风险概率、所述音频情感特征表达、所述第二风险概率、所述动作特征表达、所述第三风险概率和预先训练的联合判别模型,获取最终风险判别分数;以及预警方案提供模块,用于:基于所述最终风险判别分数,提供预警方案。
25.根据一些示例性实施例,所述微表情情感特征表达获取模块包括:第一视频数据获取单元、微表情关键帧提取模块和微表情情感特征表达获取单元。
26.根据一些示例性实施例,所述第一视频数据获取单元可以用于将所述第一视频数据进行灰度处理,获得灰度处理后的第一视频数据。
27.根据一些示例性实施例,所述微表情关键帧提取模块可以用于基于所述灰度处理后的第一视频数据,提取所述第一用户的微表情关键帧。
28.根据一些示例性实施例,所述微表情情感特征表达获取单元可以用于基于所述微表情关键帧和所述预先训练的微表情情感分析模型,获取微表情情感特征表达。
29.根据一些示例性实施例,所述微表情关键帧提取模块包括:基准图像获取单元、第i欧氏距离获取模块、峰值帧获得单元和微表情关键帧获取单元。
30.根据一些示例性实施例,所述基准图像获取单元可以用于将所述灰度处理后的第一视频数据中具有可识别人脸的第一帧人脸图像作为基准图像。
31.根据一些示例性实施例,所述第i欧氏距离获取模块可以用于采用欧氏距离法,获取所述灰度处理后的第一视频数据中具有可识别人脸的第i帧人脸图像与所述基准图像的第i欧氏距离,其中,i大于1且i为正整数。
32.根据一些示例性实施例,所述峰值帧获得单元可以用于基于所述第i欧氏距离和峰值帧算法,获得峰值帧。
33.根据一些示例性实施例,所述微表情关键帧获取单元可以用于将所述峰值帧作为关键帧,获得所述第一用户的微表情关键帧。
34.根据一些示例性实施例,所述第i欧氏距离获取模块包括:特征点获取单元、向量获取单元和第i欧氏距离获取单元。
35.根据一些示例性实施例,所述特征点获取单元可以用于获取原点v和n个关键特征点,其中,n为正整数。
36.根据一些示例性实施例,所述向量获取单元可以用于基于所述n个关键特征点,将所述基准图像向量化,得到第一向量,将所述第一人员的视频数据中具有可识别人脸的第i帧人脸图像向量化,得到第i向量。
37.根据一些示例性实施例,所述第i欧氏距离获取单元可以用于基于所述原点v和所述n个关键特征点,计算所述第一向量和所述第i向量的差的平方和并进行开方和取绝对值,得到第i变化差,将所述第i变化差进行归一化处理得到所述第i欧氏距离。
38.根据一些示例性实施例,所述音频情感特征表达获取模块包括:第一音频数据获取单元、音频数据特征序列获取模块和音频情感特征表达获取单元。
39.根据一些示例性实施例,所述第一音频数据获取单元可以用于将所述第一人员的音频数据进行音频预处理,得到第一音频数据。
40.根据一些示例性实施例,所述音频数据特征序列获取模块可以用于基于梅尔倒谱系数和所述第一音频数据,获取音频数据特征序列。
41.根据一些示例性实施例,所述音频情感特征表达获取单元可以用于基于所述音频数据特征序列和所述预先训练的音频情感分析模型,获取音频情感特征表达。
42.根据一些示例性实施例,所述音频数据特征序列获取模块包括:第二音频数据获取单元、功率谱获取单元、能量值获取单元、对数能量值获取单元、梅尔倒谱系数特征获取单元和音频数据特征序列获取单元。
43.根据一些示例性实施例,所述第二音频数据获取单元可以用于将所述第一音频数据进行预加重、分帧和加窗处理,得到第二音频数据。
44.根据一些示例性实施例,所述功率谱获取单元可以用于基于所述第二音频数据和
周期图法,获取功率谱。
45.根据一些示例性实施例,所述能量值获取单元可以用于对所述功率谱使用梅尔滤波器组进行滤波,计算每个滤波器内的能量值。
46.根据一些示例性实施例,所述对数能量值获取单元可以用于对所述每个滤波器内的能量值取对数,得到对数能量值。
47.根据一些示例性实施例,所述梅尔倒谱系数特征获取单元可以用于将所述对数能量值进行离散余弦变换,获取梅尔倒谱系数特征。
48.根据一些示例性实施例,所述音频数据特征序列获取单元可以用于基于所述梅尔倒谱系数特征,获取音频数据特征序列。
49.根据一些示例性实施例,所述动作特征表达获取模块包括:第二视频数据获取单元、人体骨架序列信息获取模块和动作特征表达获取单元。
50.根据一些示例性实施例,所述第二视频数据获取单元可以用于将所述第二视频数据进行灰度处理,获得灰度处理后的第二视频数据。
51.根据一些示例性实施例,所述人体骨架序列信息获取模块可以用于基于所述灰度处理后的第二视频数据,利用均值漂移算法、帧差法、背景差分法、最大类间方差法、人体形态学处理以及细化算法,获得人体骨架序列信息。
52.根据一些示例性实施例,所述动作特征表达获取单元可以用于基于所述人体骨架序列信息和所述预先训练的动作识别分析模型,获取动作特征表达。
53.根据一些示例性实施例,所述人体骨架序列信息获取模块包括第一聚类信息获取单元、第一前景获取单元、二值化单元、人体轮廓获取单元和人体骨架序列信息获取单元。
54.根据一些示例性实施例,所述第一聚类信息获取单元基于所述灰度处理后的第二视频数据,利用均值漂移算法获取第一聚类信息。
55.根据一些示例性实施例,所述第一前景获取单元可以用于基于所述第一聚类信息,选择第一参考帧或第二参考帧,利用帧差法和背景差分法获取第一前景。
56.根据一些示例性实施例,所述二值化单元可以用于利用最大类间方差法将所述第一前景二值化。
57.根据一些示例性实施例,所述人体轮廓获取单元可以用于对所述二值化的第一前景进行人体形态学处理,得到人体轮廓。
58.根据一些示例性实施例,所述人体骨架序列信息获取单元基于细化算法,对所述第一人体轮廓进行细化处理,得到所述人体骨架序列信息。
59.根据一些示例性实施例,所述最终风险判别分数获取模块包括:融合特征表达获取单元、潜在的融合特征表达获取单元、联合风险概率获取单元和最终风险判别分数获取单元。
60.根据一些示例性实施例,所述融合特征表达获取单元可以用于基于所述微表情情感特征表达、所述动作特征表达和所述音频情感特征表达,利用线性连接进行特征融合,获得融合特征表达。
61.根据一些示例性实施例,所述潜在的融合特征表达获取单元可以用于基于所述融合特征表达和全连接层网络,获得潜在的融合特征表达。
62.根据一些示例性实施例,所述联合风险概率获取单元可以用于基于所述潜在的融
合特征表达和softmax层,获得联合风险概率。
63.根据一些示例性实施例,所述最终风险判别分数获取单元可以用于对所述第一风险概率、所述第二风险概率、所述第三风险概率和所述联合风险概率进行加权计算,获得最终风险判别分数。
64.根据本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的方法。
65.根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的方法。
66.根据本发明的第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
67.上述一个或多个实施例具有如下优点或有益效果:本发明提供的一种基于联合判别网络的多模态信息的安全预警方法,能够结合不同的信息源更准确地判断是否存在潜在的安全风险或异常行为,从而提高了预警的准确性;同时,传统的atm预警方法通常只依赖于单一模态的数据,而本发明提供的方法能够从多维度分析,从而提供更精确地判断,减少误报和误判的可能性。
68.进一步地,本发明的安全预警方法能够实时地对atm的使用情况进行分析,一旦检测到异常行为或潜在的安全风险,能够立即发出预警并采取相应的措施,提高了atm操作安全性并减少客户财产损失。
附图说明
69.通过以下参照附图对本发明实施例的描述,本发明的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
70.图1示意性示出了根据本发明实施例的基于联合判别网络的多模态信息分析的方法、装置、设备、介质的应用场景图。
71.图2示意性示出了根据本发明实施例的基于联合判别网络的多模态信息分析的方法的流程图。
72.图3示意性示出了根据本发明的实施例的获取微表情情感特征表达的方法的流程图。
73.图4示意性示出了根据本发明的实施例的关键帧提取的方法的流程图。
74.图5示意性示出了根据本发明的实施例的获取第i欧氏距离的方法的流程图。
75.图6示意性示出了根据本发明的实施例的基于卷积神经网络训练所述微表情情感分析模型的网络结构示意图。
76.图7示意性示出了根据本发明的实施例的获取音频情感特征表达的方法的流程图。
77.图8示意性示出了根据本发明的实施例的音频数据特征序列的方法的流程图。
78.图9示意性示出了根据本发明的实施例的获取动作特征表达的方法的流程图。
79.图10示意性示出了根据本发明的实施例的获得人体骨架序列信息的方法的流程图。
80.图11示意性示出了根据本发明的实施例的获取最终风险判别分数的方法的流程图。
81.图12示意性示出了根据本发明实施例的基于联合判别网络的多模态信息分析的装置的结构框图。
82.图13示意性示出了根据本发明实施例的适于实现基于联合判别网络的多模态信息分析方法的电子设备的方框图。
具体实施方式
83.以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
84.在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
85.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
86.在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
87.在本发明的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
88.首先,对本文中记载的技术术语作如下解释和说明。
89.多模态:不同来源的数据获取多种类型的信息,例如视频,声音等。
90.表征学习:学习单个或一组信号特征的意义,将原始数据转化为能被机器学习有效开发的形式。
91.情感识别:通过算法对信号特征进行分析和处理,从而得出信号发出者正处在的情感状态的行为,确定信号发出者表达的情感或情感倾向。
92.关键帧:关键帧是视频编码中的概念,指的是展现表情或行为特征显著变化的视频帧。关键帧是视频序列的基础帧,它是独立编码的,不依赖于其他帧,提供了视频序列的随机访问、容错性和编辑处理的便利性。
93.峰值帧:展现表情或行为特征变化峰值的视频帧。
94.欧式距离:衡量多维空间中两个点之间的绝对距离。欧氏距离可以计算特征点之间的相对位置和关系,例如两眼之间的距离、眼睛到鼻子的距离等,从而提高面部识别和分析的准确度。
95.关键特征点:指在人脸图像中具有重要意义的特定位置或特征点,如眼睛的中心
点、眉毛的高点、鼻子的尖端、嘴唇的角点等。这些关键特征点的位置和形状可以用于表示人脸的几何结构和特征,从而实现人脸的比对。关键特征点的获取通常通过人脸关键点检测算法,这些算法可以使用机器学习或深度学习的方法,根据大量训练数据来学习人脸的特征点位置。常用的关键点检测算法包括dlib、opencv、mtcnn等。
96.卷积神经网络(convolutional neural network,cnn):包含卷积计算的深度神经网络,主要网络结构分为卷积层和池化层。
97.长短期记忆网络(long short-term memory,lstm):一类具有时序信息处理能力的神经网络,主要结构分为输入门,输出门和遗忘门。
98.均值漂移(mean-shift)人体追踪算法:一种基于密度梯度上升的非参数方法,通过迭代运算找到目标位置,实现目标跟踪。
99.帧差法:一种通过对视频序列中相邻两帧作差分运算来获取运动目标轮廓的方法。
100.背景差分法:一种采用视频序列中当前帧和背景参考模型对比来获取运动目标轮廓的方法。
101.背景:视频或图像中不发生变化的部分,通常是没有运动或者与运动无关的区域。
102.前景:视频或图像中与背景不同的、运动的或重要的部分。
103.最大类间方差法(大津法):一种通过最大化类间方差来确定图像二值化分割阈值的方法,是简单有效的图像分割算法,可以将灰度图像分成两个或多个部分,从而得到前景和背景。
104.形态学方法:一种图像处理技术,用于分析和处理图像中的形状、结构和空间关系,它基于数学形态学理论,通过结构元素和一系列形态学操作来改变图像的形状和特征。常见的形态学处理方法有膨胀、腐蚀、滤波和开闭运算等。
105.细化算法:一类计算图像基本形状特征,去除冗余数据的方法的统称,包括逐层剥离细化和基于距离变换细化,其中,基于距离变换的细化算法通过计算像素点到最近边界像素点的距离来确定细化过程中需要保留的像素。
106.梅尔倒谱系数(mel-scale frequency cepstral coefficients,mfcc):一种在语言信号处理和语言识别中广泛使用的特征提取方法,它基于人类听觉系统对声音频率的感知特性而设计,在梅尔(mel)标度频率域提取倒谱参数,mel标度描述了人耳频率的非线性特性。
107.门控循环神经网络(gated recurrent unit,gru):是lstm网络的一种变体,拥有更简单的结构,主要结构为更新门和重置门。
108.softmax层:cnn中常用的一种输出层类型,用于将模型输出转化为概率分布。softmax层的输入通常是一个向量,输出则是一个概率分布,其中每个元素代表了对应类别的概率。
109.现有的atm机由于存在被动式检查、预警滞后的特点,无法及时对操作人操作atm机时存在的外界安全风险进行主动实时的安全预警,并潜在性增加了因外界操作风险造成损失的技术追回难度。具体地,大多数atm机依赖操作者主动报告问题或异常情况,这种被动式的检查机制使得问题的发现和解决有一定的滞后性,依赖用户的反馈信息可能会导致时间延迟和损失扩大;一些atm机采用基于日志的检查和预警方法,通过分析atm机的日志
记录来检查异常行为,然而,这种方法通常需要离线分析和后期处理,无法实时监测和预警,导致滞后性较高;现有的atm机通常缺乏实时性监测机制,无法对atm机的各种状态和操作进行实时监控,这意味着异常行为可能会被延时发现,导致对安全问题的及时响应受限;同时,由于人力资源的限制,人工干预无法对每个atm机进行持续监视。
110.基于此,本发明的实施例提供一种基于联合判别网络的多模态信息分析的方法,所述方法包括:获取面部信息、音频信息和动作信息;基于所述面部信息和预先训练的微表情情感分析模型,获取微表情情感特征表达;基于所述微表情情感特征表达,获取第一风险概率;基于所述音频信息和预先训练的音频情感分析模型,获取音频情感特征表达;基于所述音频情感特征表达,获取第二风险概率;基于所述动作信息和预先训练的动作识别分析模型,获取动作特征表达;基于所述动作特征表达,获取第三风险概率;基于所述微表情情感特征表达、所述第一风险概率、所述音频情感特征表达、所述第二风险概率、所述动作特征表达、所述第三风险概率和预先训练的联合判别模型,获取最终风险判别分数;以及基于所述最终风险判别分数,提供预警方案。在根据本发明实施例的方法中,利用atm机装置和房间内现有监视设备,从atm取款人插卡入机时开始采集机体周围声音、图片和视频等多个模态信息,采用分段式增量传输特征。通过多模态信息的获取和联合判别网络的分析,能够进行自动柜员机操作的实时预警;同时,通过使用多模态信息进行表征学习,分析外界可疑行为和状态,实现对操作行为安全进行主动的预警和提示。
111.需要说明的是,本发明确定的基于联合判别网络的多模态信息分析的方法、装置、设备和介质可用于大数据技术领域和人工智能技术领域,也可用于金融领域,还可以用于除大数据技术领域和人工智能技术领域以及金融领域之外的多种领域。本发明的实施例提供的基于联合判别网络的多模态信息分析的方法、装置、设备和介质的应用领域不做限定。
112.在本发明的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
113.在本发明的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
114.图1示意性示出了根据本发明实施例的基于联合判别网络的多模态信息分析的方法、装置、设备、介质的应用场景图。
115.如图1所示,根据该实施例的应用场景100可以包括终端设备101,网络102和服务器103、104。网络102用以在终端设备101和服务器103、104之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
116.用户可以使用终端设备101通过网络102与服务器103、104交互,以接收或发送消息等。
117.终端设备101为atm机,可以理解的是,也可以具有多个atm机作为终端设备使用。
118.服务器103、104可以分别用于分析来自终端设备101的多模态信息和进行安全临测;也可以是提供各种服务的服务器,例如对用户利用终端设备101所执行的操作提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
119.需要说明的是,本发明实施例所提供的基于联合判别网络的多模态信息分析的方法一般可以由服务器103执行。相应地,本发明实施例所提供的基于联合判别网络的多模态信息分析的装置一般可以设置于服务器103中。本发明实施例所提供的基于联合判别网络的多模态信息分析的方法也可以由不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群执行。相应地,本发明实施例所提供的基于联合判别网络的多模态信息分析的装置也可以设置于不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群中。
120.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
121.图2示意性示出了根据本发明实施例的基于联合判别网络的多模态信息分析的方法的流程图。
122.如图2所示,该实施例的基于联合判别网络的多模态信息分析的方法200可以包括操作s210~操作s290。
123.在操作s210,获取面部信息、音频信息和动作信息。
124.在本发明的实施例中,基于第一摄像机,获取面部信息,所述面部信息包括第一人员的第一视频数据;基于第一录音机,获取音频信息,所述音频信息包括所述第一人员的音频数据;基于第二摄像机,获取动作信息,所述动作信息包括第二人员的第二视频数据。
125.具体地,第一人员将卡插入atm机,摄像设备和录音设备开始传输音视频数据,atm机面前的第一摄像机采集第一人员面部信息,atm机面前的第一录音机采集操作人音频信息,自助服务间的第二摄像机采集第二人员的动作信息,设备的具体设置位置可以参照图1所示的设置位置。
126.在本发明的实施例中,第一人员指的是操作atm机的操作人,第二人员指的是在自助服务间等待的等待人。获取操作人的面部信息、音频信息和等待人的动作信息的多模态信息,能够帮助后续判断操作人的操作行为是否存在受骗,胁迫,窥探等外在风险。
127.需要说明的是,此处列举的多模态信息的获取仅为示例性的,不意图限制本发明实施例中多模态信息的包括范围,即,本发明实施例中的多模态信息还可以包括其他内容。例如,对于自助服务间无第二人员的情况,可以直接获取第一人员的面部信息和音频信息进行后续的分析,避免第一人员存在于电话诈骗或电话威胁等危险中。
128.需要说明的是,在获取用户的面部信息、音频信息和动作信息之前,必须征求用户的预先确认或授权,尊重用户的意愿,避免任何未经用户许可而获取个人信息的操作。具体地,可以在atm机上显示明确的文字提示,要求用户执行确认或授权操作;或可以通过音频,播放提醒授权的相关提示音,用户可以通过听觉反馈确认或授权。
129.在操作s220,基于所述面部信息和预先训练的微表情情感分析模型,获取微表情情感特征表达。
130.图3示意性示出了根据本发明的实施例的获取微表情情感特征表达的方法的流程图。
131.在本发明的实施例中,获取微表情情感特征表达的方法包括操作s310~s330。
132.在操作s310,将所述第一视频数据进行灰度处理,获得灰度处理后的第一视频数据。
133.在本发明的实施例中,为简化图像信息,减少计算量,以提高算法的处理速度,在对图像数据(包括本发明实施例的所有图像和视频数据)进行处理前需进行灰度处理。所述灰度处理的过程为:将每一帧的彩色图像转换为灰度图像,通过将每个像素点的颜色值转化为亮度值实现。
134.在操作s320,基于所述灰度处理后的第一视频数据,提取所述第一用户的微表情关键帧。
135.在本发明的实施例中,面部表情特征提取是获取微表情情感特征表达的重要部分,面部表情变化的关键特征点和第一人员情感表达高度相关,提取出能够总结第一人员面部表情特征变化的关键特征能够提高网络的识别效果。在面部表情特征提取中,由于视频通常包含多个连续帧,其中一些帧可能是冗余的或不包含人脸,而关键帧作为视频序列中具有代表性或重要信息的帧可以用于从视频中提取人脸图像。因此,通过选择关键帧,可以减少处理的数据量,并且通常能够捕捉人脸的重要信息。
136.在本发明的实施例中,采用选取峰值帧的方式提取关键帧。峰值帧时刻关注面部关键特征点的变化,可以用于提取关键帧;此外,选取峰值帧还能够实现局部关注,从而减少背景对特征提取的影响。
137.图4示意性示出了根据本发明的实施例的关键帧提取的方法的流程图。
138.在本发明的实施例中,关键帧提取的主要过程包括操作s410~操作s440。
139.在操作s410,将所述灰度处理后的第一视频数据中具有可识别人脸的第一帧人脸图像作为基准图像。
140.在操作s420,采用欧氏距离法,获取所述灰度处理后的第一视频数据中具有可识别人脸的第i帧人脸图像与所述基准图像的第i欧氏距离,其中,i大于1且i为正整数。
141.需要说明的是,本发明的实施例的第一帧人脸图像和第i帧人脸图像都是具有可识别人脸的图像,对于不具有人脸图像或无法识别人脸的情况不予以关注;i大于1意味着第i帧人脸图像是第一帧人脸图像的后续的图像。
142.图5示意性示出了根据本发明的实施例的获取第i欧氏距离的方法的流程图。
143.在本发明的实施例中,获取第i欧氏距离的主要过程包括操作s510~操作s530。
144.在操作s510,获取原点v和n个关键特征点,其中,n为正整数。
145.在操作s520,基于所述n个关键特征点,将所述基准图像向量化,得到第一向量,将所述第一人员的视频数据中具有可识别人脸的第i帧人脸图像向量化,得到第i向量。
146.在本发明的实施例中,所述基准图像和第i帧人脸图像均是从第一视频数据中提取的二维图像数据,向量化的过程可以基于关键特征点提取特征向量,特征向量可以由坐标表示。
147.在操作s530,基于所述原点v和所述n个关键特征点,计算所述第一向量和所述第i向量的差的平方和并进行开方和取绝对值,得到第i变化差,将所述第i变化差进行归一化处理得到所述第i欧氏距离。
148.具体地,第i变化差的计算公式如下:
[0149][0150]
其中,li为第i变化差,基于该公式能够确定具有n个关键特征点的第i帧人脸图像
距基准图像的第i变化差。
[0151]
返回参照图4,在操作s430,基于所述第i欧氏距离和峰值帧算法,获得峰值帧。
[0152]
在本发明的实施例中,可以基于以下公式确定峰值帧:
[0153]
idx=argmax(zi)
ꢀꢀ
(2)
[0154]
其中,zi表示第i变化差归一化得到的第i欧氏距离,则idx表示在zi中具有最大欧式距离值的元素的位置,即idx对应的帧被认为是峰值帧。
[0155]
在操作s440,将所述峰值帧作为关键帧,获得所述第一用户的微表情关键帧。
[0156]
在本发明的实施例中,通过获取所述微表情关键帧,可以减少处理的数据量,并且通常能够捕捉人脸的重要信息。
[0157]
返回参照图3,在操作s330,基于所述微表情关键帧和所述预先训练的微表情情感分析模型,获取微表情情感特征表达。
[0158]
在本发明的实施例中,基于卷积神经网络训练所述微表情情感分析模型。
[0159]
需要说明的是,卷积神经网络在本发明实施例的人脸部微表情识别中可以用于特征提取和分类。由于微表情通常是微小而短暂的,与传统的面部表情相比,它们的特征更加细微。卷积神经网络可以通过多个卷积层和池化层来学习和提取图像的局部和全局特征,进而对微表情进行分类和识别。通过训练大量的样本,卷积神经网络可以学习到微表情的判别性特征,从而在新的微表情样本上进行准确的识别。
[0160]
在本发明的实施例中,预先训练微表情情感分析模型,具体包括:获取第一历史视频数据集,其中包括第一人员的历史面部信息;基于所述第一历史视频数据集,获得历史关键帧,并对所述历史关键帧进行预处理,得到预处理后的历史关键帧,即处理为模型能够识别的数据类型;对所述历史关键帧进行标注,获取微表情训练数据集和微表情测试数据集;构建卷积神经网络模型,包括p个卷积块和q个全连接层,其中,p、q均为预设值;基于所述微表情训练数据集训练所述卷积神经网络模型,得到中间微表情情感分析模型;以及基于所述微表情测试数据集评估所述中间微表情情感分析模型,最终得到所述微表情情感分析模型。
[0161]
图6示意性示出了根据本发明的实施例的基于卷积神经网络训练所述微表情情感分析模型的网络结构示意图。
[0162]
如图6所示,在本发明的实施例中,使用一个基线(baseline)卷积神经网络进行情感识别,该网络分为5个卷积块和3个全连接层,每个卷积块都包含2个连续的卷积层和一个最大池化层。其中,每个卷积块都使用3
×
3的卷积核和2
×
2最大池化。每个卷积块通道数分别是64,128,256,512,512。
[0163]
根据本发明的实施例,卷积神经网络可以通过多个卷积层和池化层来学习和提取图像的局部和全局特征,进而对微表情进行分类和识别。
[0164]
需要说明的是,所涉及的通过面部信息获取微表情情感特征表达的过程,符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
[0165]
返回参照图2,在操作s230,基于所述微表情情感特征表达,获取第一风险概率。
[0166]
在本发明的实施例中,基于所述微表情情感特征表达和softmax层,获取第一风险概率。
[0167]
在本发明的实施例中,softmax层用于将模型的输出转化为概率分布。具体地,如
图6所示,为了添加该输出层,在softmax层之前可以先添加一个全连接层,全连接层的输出分通道数别是4096、2048、n。该全连接层的输出作为softmax层的输入,softmax层会将每个特征转换为对应的概率值,以判断存在风险的概率。softmax层将原始出输出值转化为概率分布,使得输出结果更为直观且便于后续应用。
[0168]
在操作s240,基于所述音频信息和预先训练的音频情感分析模型,获取音频情感特征表达。
[0169]
图7示意性示出了根据本发明的实施例的获取音频情感特征表达的方法的流程图。
[0170]
在本发明的实施例中,获取音频情感特征表达的主要过程包括操作s710~操作s730。
[0171]
在操作s710,将所述第一人员的音频数据进行音频预处理,得到第一音频数据。
[0172]
在本发明的实施例中,所述音频预处理的操作可以包括降噪、去混响、均衡化、归一化和分割、定位等,以提高音频质量、减少干扰并增强信号特征,以便于后续的操作。
[0173]
在操作s720,基于梅尔倒谱系数和所述第一音频数据,获取音频数据特征序列。
[0174]
图8示意性示出了根据本发明的实施例的音频数据特征序列的方法的流程图。
[0175]
在本发明的实施例中,获取音频数据特征序列的主要过程包括操作s810~操作s860。
[0176]
在操作s810,将所述第一音频数据进行预加重、分帧和加窗处理,得到第二音频数据。
[0177]
需要说明的是,对音频进行预加重、分帧和加窗处理是数字信号处理中常用的技术,通常用于音频信号的处理和分析。预加重是一种滤波技术,用于提高音频信号中的高频部分的幅度,以减少信号在传输过程中的损失,这个过程使用一个高通滤波器,将音频信号中的低频部分衰减,从而提高高频部分的幅度;分帧是将音频信号分成短时段的过程,这个过程可以使用一个窗口函数对音频信号进行加窗,然后将加窗后的信号分成多个帧,这个过程通常使用重叠法进行处理,即将两个相邻的帧之间的重叠部分相加,这个过程的目的是为了将长时间的信号分成短时间的小块,以便进行后续处理;加窗是一种信号处理技术,通常用于减少离散信号之间的漏频效应,加窗过程使用一个窗口函数,将分帧之后的信号乘以窗口函数,加窗后的信号可以通过傅里叶变换或其他频域处理技术进行分析和处理。
[0178]
在操作s820,基于所述第二音频数据和周期图法,获取功率谱。
[0179]
在操作s830,对所述功率谱使用梅尔滤波器组进行滤波,计算每个滤波器内的能量值。
[0180]
在操作s840,对所述每个滤波器内的能量值取对数,得到对数能量值。
[0181]
在操作s850,将所述对数能量值进行离散余弦变换,获取梅尔倒谱系数特征。
[0182]
在操作s860,基于所述梅尔倒谱系数特征,获取音频数据特征序列。
[0183]
在本发明的实施例中,从所述梅尔倒谱系数特征中进行选择,作为所述音频数据特征序列。具体地,一般选取低阶的梅尔倒谱系数,如2~13阶。
[0184]
在本发明的实施例中,梅尔倒谱系数通过使用梅尔滤波器组和对数压缩,模拟了人耳对声音频谱的感知特性;提取语言的主要特征,梅尔倒谱系数主要捕捉了语言信号的共振特征,对说话人的声音特征和语音变化相对不敏感;特征维度较低,选择较少的离散余
弦变换系数作为梅尔倒谱系数特征,可以在保留主要信息的同时,大大降低特征维度,提高计算效率。
[0185]
返回参照图7,在操作s730,基于所述音频数据特征序列和所述预先训练的音频情感分析模型,获取音频情感特征表达。
[0186]
在本发明的实施例中,基于门控循环神经网络训练所述音频情感分析模型。
[0187]
在本发明的实施例中,门控循环神经网络是一种为了解决rnn长期依赖造成梯度问题而提出的一种改进时序网络,而且相较于长短期记忆网络而言,它具有更简单的结构,减小了结构的复杂性。门控循环神经网络通常包括两个结构,重置门和更新门,它的计算公式如下:
[0188]zt
=σ(wzx
t
u
zht-1
)
ꢀꢀ
(3)
[0189]rt
=σ(wrx
t
u
rht-1
)
ꢀꢀ
(4)
[0190][0191][0192]
其中z是更新门,r是重置门,h代表隐藏状态,是候选隐藏状态,只与输入x和上一时序的隐藏状态h
t-1
有关;t是时序点,σ是激活函数,
·
代表元素相乘,w和u需要学习的权重矩阵,x是输入特征。
[0193]
在本发明的实施例中,预先训练音频情感分析模型,具体包括:获取历史音频数据集,其中包括第一人员的历史音频信息;基于梅尔倒谱系数和所述历史音频数据集,获取历史音频特征序列;对所述历史音频特征序列进行标注,获得音频情感训练数据集和音频情感测试数据集;构建门控循环神经网络模型,基于所述音频情感训练数据集训练所述门控循环神经网络模型,得到中间音频情感分析模型;以及基于所述音频情感测试数据集评估所述中间音频情感分析模型,最终得到所述音频情感分析模型。
[0194]
返回参照图2,在操作s250,基于所述音频情感特征表达,获取第二风险概率。
[0195]
在本发明的实施例中,基于所述音频情感特征表达和softmax层,获取第二风险概率。
[0196]
在本发明的实施例中,softmax层用于将音频情感分析模型的输出转化为概率分布,并判断存在风险的第二风险概率。基于softmax层获取第二风险概率的操作与所述获取第一风险概率类似,在此不再赘述。
[0197]
需要说明的是,所涉及的通过音频信息获取音频情感特征表达的过程,符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
[0198]
在操作s260,基于所述动作信息和预先训练的动作识别分析模型,获取动作特征表达。
[0199]
图9示意性示出了根据本发明的实施例的获取动作特征表达的方法的流程图。
[0200]
在本发明的实施例中,获取动作特征表达的主要过程包括操作s910~操作s930。
[0201]
在操作s910,将所述第二视频数据进行灰度处理,获得灰度处理后的第二视频数据。
[0202]
在操作s920,基于所述灰度处理后的第二视频数据,利用均值漂移算法、帧差法、背景差分法、最大类间方差法、人体形态学处理以及细化算法,获得人体骨架序列信息。
[0203]
图10示意性示出了根据本发明的实施例的获得人体骨架序列信息的方法的流程图。
[0204]
在本发明的实施例中,获得人体骨架序列信息的主要过程包括操作s1010~操作s1050。
[0205]
在操作s1010,基于所述灰度处理后的第二视频数据,利用均值漂移算法获取第一聚类信息。
[0206]
需要说明的是,均值漂移算法是一种在一组数据的密度分布中寻找稳定统计的局部值的方法。假设对于d维空间rd样本,对于某点x,其窗口半径h的多变量核密度估计公式如下:
[0207][0208]
其中,k(x)是核函数,核函数的轮廓是[0,∞)
→
r的函数k,则k(x)=k(||x||2)。如果k(x)在[0,∞)几乎处处可导,则可定义函数g(x)=-k
′
(x)。进而推导出新的核函数g(x)=λg(||x||2),其中λ是归一化因子,该核的多变量核密度估计为:
[0209][0210]
进而可以得到相关核密度梯度估计为:
[0211][0212]
根据梯度估计可知,它总是指向密度增大的最大方向。
[0213]
在本发明的实施例中,均值漂移算法的步骤如下:选择搜索窗口,计算重心,并将窗口中心设在重心处,之后循环计算重心重设窗口中心,直到窗口位置固定。其中,将追踪中心定位在第二人员的动作上,剔除第一人员的影响,并将追踪结果作为人体运动图像帧进行骨架信息提取。
[0214]
在操作s1020,基于所述第一聚类信息,选择第一参考帧或第二参考帧,利用帧差法和背景差分法获取第一前景。
[0215]
在操作s1030,利用最大类间方差法将所述第一前景二值化。
[0216]
在操作s1040,对所述二值化的第一前景进行人体形态学处理,得到人体轮廓。
[0217]
在操作s1050,基于细化算法,对所述第一人体轮廓进行细化处理,得到所述人体骨架序列信息。
[0218]
在本发明的实施例中,区分于第一前景,背景指视频或图像中不发生变化的部分。因此,对于背景图像的建立,可以将无人操作时的图像帧作为背景帧。针对视频传输的包含人体的每一帧fi(i=1,2,...,t),t代表相应帧数值。因此,对于相邻帧数图像的差值dw,计算公式如下:
[0219]
dwi=|fi(x,y)-f
i-1
(x,y)|
ꢀꢀ
(10)
[0220]
其中,(x,y)属于运动目标点。
[0221]
在本发明的实施例,通过设定一个阈值t来判断对应帧是否发生运动变化。如果dw
≥t且属于追踪窗口范围内,则代表目标帧发生运动,否则未发生运动。进一步地,通过将差分图像二值化获取到相邻图像帧的运动变化。对于运动人体的检测,本发明的实施例对比每帧灰度图像f与背景灰度图像b的绝对差值来计算,并将公式修改如下:
[0222]di
(x,y)=|fi(x,y)-b(x,y)|
ꢀꢀ
(11)
[0223]
同样定义一个阈值t,获取二值图像,将运动人体区域显现出来,其公式如下:
[0224][0225]
其中,h代表追踪窗口范围。
[0226]
在本发明的实施例中,采用最大类间方差法进行差分图像二值化。在二值化后,不可避免地出现边缘粗糙、边缘断裂和内部出现气泡等噪声问题。这时候采用形态学处理是一个好的解决方法,常见的形态学处理方法有膨胀、腐蚀和开闭运算等。本发明的实施例采用中值滤波、腐蚀和膨胀等操作获取一个相对平滑完整的人体轮廓,之后通过细化算法提取第二人员的人体骨架。
[0227]
需要说明的是,本发明使用帧差法和背景差分法相结合的方式进行第二人员的动作检测,能够减少由于帧差法和背景差分法单独使用而带来的误检测问题,并能够提高动作检测的覆盖范围和灵敏度,包括快速和慢速的动作,以增强检测能力,还能够适应动态背景。使用距离变换的细化算法,能够有效提取原始图像中的细长结构,保持连通性,并且实现方式简单,使得计算过程相对高效。
[0228]
返回参照图9,在操作s930,基于所述人体骨架序列信息和所述预先训练的动作识别分析模型,获取动作特征表达。
[0229]
在本发明的实施例中,基于长短期记忆网络训练所述动作识别分析模型。
[0230]
在本发明的实施例中,长短期记忆网络是卷积神经网络的一种特殊类型,可以学习长期依赖信息,并缓解卷积神经带来的梯度消失和梯度爆炸的问题,它的主要结构分为输入门,输出门和遗忘门,长短期记忆网络的计算方程为:
[0231]
γi=σ(wi[a
t-1
,x
t
) bi)
ꢀꢀ
(13)
[0232]
γf=σ(wf[a
t-1
,x
t
) bf)
ꢀꢀ
(14)
[0233]
γo=σ(wo[a
t-1
,x
t
) bo)
ꢀꢀ
(15)
[0234][0235][0236]at
=γo·
tanh(c
t
)
ꢀꢀ
(18)
[0237]
其中,γi,γf和γo分别为输入门、遗忘门和输出门。σ是激活函数,a是短期记忆,c是长期记忆,t是时序数,w是权重,b是偏置值。通过将骨架序列信息作为时序特征输入,得到动作风险判别和输出表达。其中,时序特征是指在时间序列中所包含的与时间相关的特征信息。
[0238]
在本发明的实施例中,预先训练动作识别分析模型,具体包括:获取第二历史视频数据集,其中,包括第二人员的历史动作信息;基于所述第二历史视频数据集,获取历史人体骨架序列信息;基于历史人体骨架序列信息,获取动作识别训练数据集和动作识别测试数据集;构建长短期记忆网络模型,基于所述动作识别训练数据集训练所述长短期记忆网
络模型,获取中间动作识别分析模型;以及基于所述动作识别测试数据集评估所述中间动作识别分析模型,最终得到所述动作识别分析模型。
[0239]
返回参照图2,在操作s270,基于所述动作特征表达,获取第三风险概率。
[0240]
在本发明的实施例中,基于所述动作特征表达和softmax层,获取第三风险概率。
[0241]
在本发明的实施例中,softmax层用于将动作特征分析模型的输出转化为概率分布,并判断存在风险的第三风险概率。基于softmax层获取第三风险概率的操作与所述获取第一风险概率类似,在此不再赘述。
[0242]
需要说明的是,所涉及的通过动作信息获取动作特征表达的过程,符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
[0243]
在操作s280,基于所述微表情情感特征表达、所述第一风险概率、所述音频情感特征表达、所述第二风险概率、所述动作特征表达、所述第三风险概率和预先训练的联合判别模型,获取最终风险判别分数。
[0244]
图11示意性示出了根据本发明的实施例的获取最终风险判别分数的方法的流程图。
[0245]
在本发明的实施例中,获取最终风险判别分数的主要过程包括操作s1110~操作s1140。
[0246]
在操作s1110,基于所述微表情情感特征表达、所述动作特征表达和所述音频情感特征表达,利用线性连接进行特征融合,获得融合特征表达。
[0247]
在操作s1120,基于所述融合特征表达和全连接层网络,获得潜在的融合特征表达。
[0248]
在操作s1130,基于所述潜在的融合特征表达和softmax层,获得联合风险概率。
[0249]
在操作s1140,对所述第一风险概率、所述第二风险概率、所述第三风险概率和所述联合风险概率进行加权计算,获得最终风险判别分数。
[0250]
在本发明的实施例中,通过获取人脸微表情情感特征表达、动作特征表达和音频情感特征表达作为输入,并将这三个特征表达进行特征融合。
[0251]
在本发明的实施例中,可以使用线性连接作为特征融合,之后使用三层的全连接层网络进行进一步的特征融合以获取潜在的特征表达。其中,对于每个全连接层,它们的输出分通道数别是k1,k2和k3,具体通道数的判断依据输入的融合特征维度来决定。最后使用softmax层获取风险概率判别结果,并与本发明实施例的第一风险概率、第二风险概率和第三风险概率进行加权计算,得到最终的判别结果分数,具体计算公式如下:
[0252]
f=λfu η(μ1fi μ2fj μ3fk)
ꢀꢀ
(19)
[0253]
λ η=1
ꢀꢀ
(20)
[0254]
μ1 μ2 μ3=1
ꢀꢀ
(21)
[0255]
其中,u1,u2,u3用于权衡第一风险概率、所述第二风险概率、所述第三风险概率各自的重要性,λ和η分别代表联合判别结果和第一风险概率、所述第二风险概率、所述第三风险概率共同的超参数。通过加权计算,得到最终的风险判别分数,所述最终的风险判别分数将用于判别当前操作人是否存在外界风险。
[0256]
在本发明的实施例中,基于神经网络训练所述联合判别模型。
[0257]
在本发明的实施例中,预先训练联合判别模型,具体包括:获取历史微表情特征表
达、历史动作特征表达和历史音频情感特征表达,其中,所述历史微表情特征表达、历史动作特征表达和历史音频情感特征表达分别基于第一历史视频数据集和微表情情感分析模型、历史音频数据集和音频情感分析模型、第二历史视频数据集和动作识别分析模型获得,并进一步获得第一历史风险概率、第二历史风险概率和第三历史风险概率;基于所述历史微表情特征表达、所述历史动作特征表达和所述历史音频情感特征表达,以及第一历史风险概率、第二历史风险概率和第三历史风险概率,获取历史训练集和历史测试集;构建判别模型,基于所述历史训练集训练所述判别模型,得到中间联合判别模型;基于所述历史测试集评估所述中间联合判别模型,最终得到联合判别模型。
[0258]
返回参照图2,在操作s290,基于所述最终风险判别分数,提供预警方案。
[0259]
在本发明的实施例中,所述预警方案包括安全人员介入观察或语音播报提示,还包括远程报警等。具体地,工作人员会根据最终风险判别分数的等级进行判断,并给出相应的应对措施。
[0260]
应当理解,本发明实施例中的第一视频数据、音频数据和第二视频数据在一段时间后会进行清理,以避免造成用户隐私的泄露。
[0261]
需要说明的是,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
[0262]
根据本发明实施例提出基于联合判别网络的多模态信息分析的方法,能够实现如下技术效果:
[0263]
1、主动探查预警:在操作人插卡入机时开始主动传输多模态信息,预警方法开始主动分析外界安全风险;
[0264]
2、预警效率高:经过训练预警方法预测风险行为时间短,几秒内就可以得出预测结果,并根据预测结果进行实时预警;
[0265]
3、预警成本低:相比人工事后进行安全检查的巨大损失成本,本方法仅需要预警方法自动分析,节省人力成本;
[0266]
4、提高安全性,减少客户损失:在模型分析出存在安全风险隐患时,提前进行预警,提高了atm操作安全性和潜在性减少客户财产损失。
[0267]
图12示意性示出了根据本发明实施例的基于联合判别网络的多模态信息分析的装置的结构框图。
[0268]
如图12所示,根据该实施例的基于联合判别网络的多模态信息分析的装置1200包括信息获取模块1210、微表情情感特征表达获取模块1220、第一风险概率获取模块1230、音频情感特征表达获取模块1240、第二风险概率获取模块1250、动作特征表达获取模块1260、第三风险概率获取模块1270、最终风险判别分数获取模块1280和预警方案提供模块1290。
[0269]
所述信息获取模块1210可以用于获取面部信息、音频信息和动作信息。在一实施例中,所述信息获取模块1210可以用于执行前文描述的操作s210,在此不再赘述。
[0270]
所述微表情情感特征表达获取模块1220可以用于基于所述面部信息和预先训练的微表情情感分析模型,获取微表情情感特征表达。在一实施例中,所述微表情情感特征表达获取模块1220可以用于执行前文描述的操作s220,在此不再赘述。
[0271]
所述第一风险概率获取模块1230可以用于基于所述微表情情感特征表达,获取第一风险概率。在一实施例中,所述第一风险概率获取模块1230可以用于执行前文描述的操
作s230,在此不再赘述。
[0272]
所述音频情感特征表达获取模块1240可以用于基于所述音频信息和预先训练的音频情感分析模型,获取音频情感特征表达。在一实施例中,所述音频情感特征表达获取模块1240可以用于执行前文描述的操作s240,在此不再赘述。
[0273]
所述第二风险概率获取模块1250可以用于基于所述音频情感特征表达,获取第二风险概率。在一实施例中,所述第二风险概率获取模块1250可以用于执行前文描述的操作s250,在此不再赘述。
[0274]
所述动作特征表达获取模块1260可以用于基于所述动作信息预先训练的动作识别分析模型,获取动作特征表达。在一实施例中,所述动作特征表达获取模块1260可以用于执行前文描述的操作s260,在此不再赘述。
[0275]
所述第三风险概率获取模块1270可以用于基于所述动作特征表达,获取第三风险概率。在一实施例中,所述第三风险概率获取模块1270可以用于执行前文描述的操作s270,在此不再赘述。
[0276]
所述最终风险判别分数获取模块1280可以用于基于所述微表情情感特征表达、所述第一风险概率、所述音频情感特征表达、所述第二风险概率、所述动作特征表达、所述第三风险概率和预先训练的联合判别模型,获取最终风险判别分数。在一实施例中,所述最终风险判别分数获取模块1280可以用于执行前文描述的操作s280,在此不再赘述。
[0277]
所述预警方案提供模块1290可以用于基于所述最终风险判别分数,提供预警方案。在一实施例中,所述预警方案提供模块1290可以用于执行前文描述的操作s290,在此不再赘述。
[0278]
根据本发明的实施例,所述微表情情感特征表达获取模块1220包括:第一视频数据获取单元、微表情关键帧提取模块和微表情情感特征表达获取单元。
[0279]
所述第一视频数据获取单元可以用于将所述第一视频数据进行灰度处理,获得灰度处理后的第一视频数据。在一实施例中,第一视频数据获取单元可以用于执行前文描述的操作s3 10,在此不再赘述。
[0280]
所述微表情关键帧提取模块可以用于基于所述灰度处理后的第一视频数据,提取所述第一用户的微表情关键帧。在一实施例中,微表情关键帧提取模块可以用于执行前文描述的操作s320,在此不再赘述。
[0281]
所述微表情情感特征表达获取单元可以用于基于所述微表情关键帧和所述预先训练的微表情情感分析模型,获取微表情情感特征表达。在一实施例中,微表情情感特征表达获取单元可以用于执行前文描述的操作s330,在此不再赘述。
[0282]
根据本发明的实施例,所述微表情关键帧提取模块包括:基准图像获取单元、第i欧氏距离获取模块、峰值帧获得单元和微表情关键帧获取单元。
[0283]
所述基准图像获取单元可以用于将所述灰度处理后的第一视频数据中具有可识别人脸的第一帧人脸图像作为基准图像。在一实施例中,所述基准图像获取单元可以用于执行前文描述的操作s410,在此不再赘述。
[0284]
所述第i欧氏距离获取模块可以用于采用欧氏距离法,获取所述灰度处理后的第一视频数据中具有可识别人脸的第i帧人脸图像与所述基准图像的第i欧氏距离,其中,i大于1且i为正整数。在一实施例中,所述第i欧氏距离获取模块可以用于执行前文描述的操作
s420,在此不再赘述。
[0285]
所述峰值帧获得单元可以用于基于所述第i欧氏距离和峰值帧算法,获得峰值帧。在一实施例中,所述峰值帧获得单元可以用于执行前文描述的操作s430,在此不再赘述。
[0286]
所述微表情关键帧获取单元可以用于将所述峰值帧作为关键帧,获得所述第一用户的微表情关键帧。在一实施例中,所述微表情关键帧获取单元可以用于执行前文描述的操作s440,在此不再赘述。
[0287]
根据本发明的实施例,所述第i欧氏距离获取模块包括:特征点获取单元、向量获取单元和第i欧氏距离获取单元。
[0288]
所述特征点获取单元可以用于获取原点v和n个关键特征点,其中,n为正整数。在一实施例中,所述特征点获取单元可以用于执行前文描述的操作s510,在此不再赘述。
[0289]
所述向量获取单元可以用于基于所述n个关键特征点,将所述基准图像向量化,得到第一向量,将所述第一人员的视频数据中具有可识别人脸的第i帧人脸图像向量化,得到第i向量。在一实施例中,所述向量获取单元可以用于执行前文描述的操作s520,在此不再赘述。
[0290]
所述第i欧氏距离获取单元可以用于基于所述原点v和所述n个关键特征点,计算所述第一向量和所述第i向量的差的平方和并进行开方和取绝对值,得到第i变化差,将所述第i变化差进行归一化处理得到所述第i欧氏距离。在一实施例中,所述第i欧氏距离获取单元可以用于执行前文描述的操作s530,在此不再赘述。
[0291]
根据本发明的实施例,所述音频情感特征表达获取模块1240包括:第一音频数据获取单元、音频数据特征序列获取模块和音频情感特征表达获取单元。
[0292]
所述第一音频数据获取单元可以用于将所述第一人员的音频数据进行音频预处理,得到第一音频数据。在一实施例中,所述第一音频数据获取单元可以用于执行前文描述的操作s710,在此不再赘述。
[0293]
所述音频数据特征序列获取模块可以用于基于梅尔倒谱系数和所述第一音频数据,获取音频数据特征序列。在一实施例中,所述音频数据特征序列获取模块可以用于执行前文描述的操作s720,在此不再赘述。
[0294]
所述音频情感特征表达获取单元可以用于基于所述音频数据特征序列和所述预先训练的音频情感分析模型,获取音频情感特征表达。在一实施例中,所述音频情感特征表达获取单元可以用于执行前文描述的操作s730,在此不再赘述。
[0295]
根据本发明的实施例,所述音频数据特征序列获取模块包括:第二音频数据获取单元、功率谱获取单元、能量值获取单元、对数能量值获取单元、梅尔倒谱系数特征获取单元和音频数据特征序列获取单元。
[0296]
所述第二音频数据获取单元可以用于将所述第一音频数据进行预加重、分帧和加窗处理,得到第二音频数据。在一实施例中,所述第二音频数据获取单元可以用于执行前文描述的操作s810,在此不再赘述。
[0297]
所述功率谱获取单元可以用于基于所述第二音频数据和周期图法,获取功率谱。在一实施例中,所述功率谱获取单元可以用于执行前文描述的操作s820,在此不再赘述。
[0298]
所述能量值获取单元可以用于对所述功率谱使用梅尔滤波器组进行滤波,计算每个滤波器内的能量值。在一实施例中,所述能量值获取单元可以用于执行前文描述的操作
s830,在此不再赘述。
[0299]
所述对数能量值获取单元可以用于对所述每个滤波器内的能量值取对数,得到对数能量值。在一实施例中,所述对数能量值获取单元可以用于执行前文描述的操作s840,在此不再赘述。
[0300]
所述梅尔倒谱系数特征获取单元可以用于将所述对数能量值进行离散余弦变换,获取梅尔倒谱系数特征。在一实施例中,所述梅尔倒谱系数特征获取单元可以用于执行前文描述的操作s850,在此不再赘述。
[0301]
所述音频数据特征序列获取单元可以用于基于所述梅尔倒谱系数特征,获取音频数据特征序列。在一实施例中,所述音频数据特征序列获取单元可以用于执行前文描述的操作s860,在此不再赘述。
[0302]
根据本发明的实施例,所述动作特征表达获取模块1220包括:第二视频数据获取单元、人体骨架序列信息获取模块和动作特征表达获取单元。
[0303]
所述第二视频数据获取单元可以用于将所述第二视频数据进行灰度处理,获得灰度处理后的第二视频数据。在一实施例中,所述第二视频数据获取单元可以用于执行前文描述的操作s910,在此不再赘述。
[0304]
所述人体骨架序列信息获取模块可以用于基于所述灰度处理后的第二视频数据,利用均值漂移算法、帧差法、背景差分法、最大类间方差法、人体形态学处理以及细化算法,获得人体骨架序列信息。在一实施例中,所述人体骨架序列信息获取模块可以用于执行前文描述的操作s920,在此不再赘述。
[0305]
所述动作特征表达获取单元可以用于基于所述人体骨架序列信息和所述预先训练的动作识别分析模型,获取动作特征表达。在一实施例中,所述动作特征表达获取单元可以用于执行前文描述的操作s930,在此不再赘述。
[0306]
在本发明的实施例中,所述人体骨架序列信息获取模块包括第一聚类信息获取单元、第一前景获取单元、二值化单元、人体轮廓获取单元和人体骨架序列信息获取单元。
[0307]
所述第一聚类信息获取单元基于所述灰度处理后的第二视频数据,利用均值漂移算法获取第一聚类信息。在一实施例中,所述第一聚类信息获取单元可以用于执行前文描述的操作s1010,在此不再赘述。
[0308]
所述第一前景获取单元可以用于基于所述第一聚类信息,选择第一参考帧或第二参考帧,利用帧差法和背景差分法获取第一前景。在一实施例中,所述第一前景获取单元可以用于执行前文描述的操作s1020,在此不再赘述。
[0309]
所述二值化单元可以用于利用最大类间方差法将所述第一前景二值化。在一实施例中,所述二值化单元可以用于执行前文描述的操作s1030,在此不再赘述。
[0310]
所述人体轮廓获取单元可以用于对所述二值化的第一前景进行人体形态学处理,得到人体轮廓。在一实施例中,所述人体轮廓获取单元可以用于执行前文描述的操作s1040,在此不再赘述。
[0311]
所述人体骨架序列信息获取单元基于细化算法,对所述第一人体轮廓进行细化处理,得到所述人体骨架序列信息。在一实施例中,所述人体骨架序列信息获取单元可以用于执行前文描述的操作s1050,在此不再赘述。
[0312]
在本发明的实施例中,所述最终风险判别分数获取模块1280包括:融合特征表达
获取单元、潜在的融合特征表达获取单元、联合风险概率获取单元和最终风险判别分数获取单元。
[0313]
所述融合特征表达获取单元可以用于基于所述微表情情感特征表达、所述动作特征表达和所述音频情感特征表达,利用线性连接进行特征融合,获得融合特征表达。在一实施例中,所述融合特征表达获取单元可以用于执行前文描述的操作s1110,在此不再赘述。
[0314]
所述潜在的融合特征表达获取单元可以用于基于所述融合特征表达和全连接层网络,获得潜在的融合特征表达。在一实施例中,所述潜在的融合特征表达获取单元可以用于执行前文描述的操作s1120,在此不再赘述。
[0315]
所述联合风险概率获取单元可以用于基于所述潜在的融合特征表达和softmax层,获得联合风险概率。在一实施例中,所述联合风险概率获取单元可以用于执行前文描述的操作s1130,在此不再赘述。
[0316]
所述最终风险判别分数获取单元可以用于对所述第一风险概率、所述第二风险概率、所述第三风险概率和所述联合风险概率进行加权计算,获得最终风险判别分数。在一实施例中,所述最终风险判别分数获取单元可以用于执行前文描述的操作s1140,在此不再赘述。
[0317]
图13示意性示出了根据本发明实施例的适于实现基于联合判别网络的多模态信息分析方法的电子设备的方框图。
[0318]
如图13所示,根据本发明实施例的电子设备1300包括处理器1301,其可以根据存储在只读存储器(rom)1302中的程序或者从存储部分1308加载到随机访问存储器(ram)1303中的程序而执行各种适当的动作和处理。处理器1301例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic))等等。处理器1301还可以包括用于缓存用途的板载存储器。处理器1301可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0319]
在ram 1303中,存储有电子设备1300操作所需的各种程序和数据。处理器1301、rom 1302以及ram 1303通过总线1304彼此相连。处理器1301通过执行rom 1302和/或ram 1303中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom 1302和ram 1303以外的一个或多个存储器中。处理器1 301也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
[0320]
根据本发明的实施例,电子设备1300还可以包括输入/输出(i/o)接口1305,输入/输出(i/o)接口1305也连接至总线1304。电子设备1300还可以包括连接至i/o接口1305的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至i/o接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
[0321]
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/
系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
[0322]
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的rom 1302和/或ram 1303和/或rom 1302和ram 1303以外的一个或多个存储器。
[0323]
本发明的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本发明实施例所提供的方法。
[0324]
在该计算机程序被处理器1 301执行时执行本发明实施例的系统/装置中限定的上述功能。根据本发明的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0325]
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1309被下载和安装,和/或从可拆卸介质1311被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0326]
在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被处理器1301执行时,执行本发明实施例的系统中限定的上述功能。根据本发明的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0327]
根据本发明的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java,c ,python,“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0328]
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规
定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0329]
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。