1.本技术实施例涉及计算机技术领域,尤其涉及一种违规用户识别方法、装置、设备、存储介质以及产品。
背景技术:
2.随着网络的发展以及多媒体技术的成熟,网络直播成为了当下用户的主要娱乐方式之一。如主播在直播间进行视频、语音的直播,用户可以访问直播间后,与主播以及直播间的其它用户进行互动。在直播过程中,有些用户会产生一些违规行为,如发送不当言论,进行违规操作等,需要对违规用户进行识别并进行相应的处罚,以保证网络环境的健康、安全。
3.相关技术中,通常采用对语音信号或文字进行识别的方式以确定违规用户。针对语音信号识别的情况,通常使用的语音模型需要对一定时长的语音才能给出识别结果,其本身识别能力有限,导致识别准确率低。针对文字识别的情况,通常需要进行语音到文字的转换,会带来一定的运算损耗,同时由于文字的形变特性以及训练样本的缺乏,也导致了语义识别准确率低进而无法及时识别违规用户的问题。
技术实现要素:
4.本技术实施例提供了一种违规用户识别方法、装置、设备、存储介质以及产品,解决了现有的违规检测方法对于违规用户的识别准确率较低的问题,通过引入非负线性规划模型以及决策树模型进行待识别用户的评估,提高了违规用户的识别准确率。
5.第一方面,本技术实施例提供了一种违规用户识别方法,该方法包括:
6.获取待识别用户的历史违规数据,所述历史违规数据中记录有所述待识别用户的违规特征以及对应的违规特征值;
7.基于每个违规特征对应的特征权重以及所述违规特征值计算得到所述待识别用户的第一评估分值,所述特征权重基于非负线性规划模型的寻优计算过程得到;
8.将所述违规特征以及对应的违规特征分值输入至训练完成的目标决策树模型,以得到所述待识别用户的第二评估分值;
9.根据所述第一评估分值、所述第二评估分值以及预设检测模型输出的违规分值进行所述待识别用户的推送,以确定是否为违规用户。
10.第二方面,本技术实施例还提供了一种违规用户识别装置,包括:
11.获取模块,配置为获取待识别用户的历史违规数据,所述历史违规数据中记录有所述待识别用户的违规特征以及对应的违规特征值;
12.第一分值计算模块,配置为基于每个违规特征对应的特征权重以及所述违规特征值计算得到所述待识别用户的第一评估分值,所述特征权重基于非负线性规划模型的寻优计算过程得到;
13.第二分值计算模块,配置为将所述违规特征以及对应的违规特征分值输入至训练
完成的目标决策树模型,以得到所述待识别用户的第二评估分值;
14.识别模块,配置为根据所述第一评估分值、所述第二评估分值以及预设检测模型输出的违规分值进行所述待识别用户的推送,以确定是否为违规用户。
15.第三方面,本技术实施例还提供了一种违规用户识别设备,该设备包括:
16.一个或多个处理器;
17.存储装置,配置为存储一个或多个程序,
18.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本技术实施例所述的违规用户识别方法。
19.第四方面,本技术实施例还提供了一种存储计算机可执行指令的非易失性存储介质,所述计算机可执行指令在由计算机处理器执行时配置为执行本技术实施例所述的违规用户识别方法。
20.第五方面,本技术实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序,使得设备执行本技术实施例所述的违规用户识别方法。
21.本技术实施例中,通过获取待识别用户的历史违规数据,历史违规数据中记录有待识别用户的违规特征以及对应的违规特征值,然后,基于每个违规特征对应的特征权重以及违规特征值计算得到待识别用户的第一评估分值,特征权重基于非负线性规划模型的寻优计算过程得到,进而将违规特征以及对应的违规特征分值输入至训练完成的目标决策树模型,以得到待识别用户的第二评估分值,最后,根据第一评估分值、第二评估分值以及预设检测模型输出的违规分值进行待识别用户的推送,以确定是否为违规用户。通过引入非负线性规划模型以及决策树模型分别计算得到评估分值后,以此作为辅助参考,结合预设检测模型输出的违规分值进行待识别用户的推送,提高了违规用户的识别准确率。
附图说明
22.图1为本技术实施例提供的一种违规用户识别方法的流程图;
23.图2为本技术实施例提供的一种计算得到特征权重的方法的流程图;
24.图3为本技术实施例提供的一种构建得到决策树模型的方法的流程图;
25.图4为本技术实施例提供的一种违规用户识别装置的结构框图;
26.图5为本技术实施例提供的一种违规用户识别设备的结构示意图。
具体实施方式
27.下面结合附图和实施例对本技术实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本技术实施例,而非对本技术实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本技术实施例相关的部分而非全部结构。
28.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可
以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
29.本技术实施例提供的违规用户识别方法,用于在线互动过程中违规用户的识别,有利于净化网络环境。具体应用场景可以包括:室内直播,户外直播,短视频以及语音直播等。以室内直播为示例,可以用于判断用户是否在上麦过程中出现言语违规的行为,也可以用于判断用户是否在公屏输出过程中出现文字违规的行为等。前述罗列的几种应用场景仅是示例性和解释性的,在实际应用中,还可以在其他场景下的违规用户识别中用到该违规用户识别方法,本技术实施例对此不作限定。本技术旨在提供一种违规用户识别方法,解决现有的违规检测方法对于违规用户的识别准确率较低的问题。
30.本技术实施例提供的违规用户识别方法,各步骤的执行主体可以是计算机设备,该计算机设备是指任何具备数据计算、处理和存储能力的电子设备,如手机、pc(personal computer,个人计算机)、平板电脑等终端设备,也可以是服务器等设备,本技术实施例对此不作限定。
31.图1为本技术实施例提供的一种违规用户识别方法的流程图,该违规用户识别方法基于待识别用户的评估分值来将涉嫌违规的用户进行推送,以便于后台对于所推送的用户是否发生违规行为进行人工审查,并采取相关惩罚措施。其中,待识别用户的评估分值计算可以分两个方面进行,一方面是基于待识别用户的历史违规数据来进行预测计算,一方面是基于设置的预设检测模型对待识别用户在统计时间内所产生的语音数据或文字数据进行检测计算,最后综合两个方面的计算结果,通过评估分值筛选出违规可能性较高的用户,提高推审效率。其中,该方法具体包括如下步骤:
32.步骤s101、获取待识别用户的历史违规数据,历史违规数据中记录有待识别用户的违规特征以及对应的违规特征值。
33.具体的,待识别用户可以是网络直播当天发生过语音输出行为或文字输出行为的用户,通过获取待识别用户的历史违规数据,可以为用户的违规趋势预测提供可靠的参考。其中,以网络直播的应用场景为例,历史违规数据可以记录有待识别用户的违规特征以及对应的违规特征值,具体的,违规特征可以是用户在预设历史时长内发生过违规行为的统计特征,而违规特征值可以是统计的违规次数,例如,考虑到每个待识别用户可能只是同一设备所持有的其中一个注册账号的情况下,可以统计待识别用户对应的设备前30天a类违规的次数、设备前30天b类违规的次数、设备前30天c类违规的次数、待识别用户前30天a类违规的次数、待识别用户前30天b类违规的次数、待识别用户前30天c类违规的次数等。又例如,可以统计待识别用户前30天上麦房间中上麦期间有a类违规记录的占比值、待识别用户前7天上麦房间中上麦期间有a类违规记录的占比值、待识别用户前3天上麦房间中上麦期间有a类违规记录的占比值、待识别用户前1天上麦房间中上麦期间有a类违规记录的占比值等。可以理解的是,由于占比值位于区间[0,1]之间,为了方便评估分值的统一计算,可以考虑将前述违规特征对应的违规次数归一化到区间[0,1]之间,保障计算结果的可靠性。
[0034]
此外,违规特征还可以是用户进入过的,关注过的或者产生过互动行为的房间的发生违规的统计特征,而违规特征值可以是统计的占比值,具体的,可以将统计的历史时长设置为30天,例如,统计待识别用户前30天进入的房间中有a类违规记录的占比值,待识别用户前30天在房时长超过1分钟的房间中有a类违规记录的占比值,待识别用户前30天有过
上麦行为的房间中有a类违规记录的占比值,待识别用户前30天关注的房间中有a类违规记录的占比值,待识别用户前30天进入的房间中有超过1次a类违规记录的占比值,待识别用户前30天在房超过1分钟的房间中有超过1次a类违规记录的占比值,待识别用户前30天有过上麦行为的房间中有超过1次a类违规记录的占比值,待识别用户前30天关注的房间中有超过1次a类违规记录的占比值。另外,可以将前述违规特征的统计历史时长缩短,比如,从30天变更为7天、3天或1天,并加入待识别用户的历史违规数据,为待识别用户的违规识别提供不同时间粒度的数据参考;还可以将与前述违规特征的违规记录次数增大,比如,从超过1次违规记录变更为超过5次违规记录,并加入待识别用户的历史违规数据,为待识别用户的违规识别提供不同统计力度的数据参考。
[0035]
由此,通过获取从不同统计维度提取的待识别用户的违规特征,以及对应的违规特征值,有效为识别潜在违规用户提供充分的参考数据。
[0036]
步骤s102、基于每个违规特征对应的特征权重以及违规特征值计算得到待识别用户的第一评估分值,特征权重基于非负线性规划模型的寻优计算过程得到。
[0037]
其中,第一评估分值可以是表征待识别用户涉嫌违规的可能性大小的参考数值,而计算第一评估分值可以是将违规特征值与对应的特征权重相乘后求和得到的,也可以是将违规特征值与对应的特征权重按照预设映射关系计算得到的结果进行求和得到的,在此本发明不作限制。特征权重可以是表征每个违规特征对应的违规特征值在第一评估分值中的相对重要程度,而特征权重可以是基于非负线性规划模型的寻优计算过程得到。
[0038]
可选的,图2为本技术实施例提供的一种计算得到特征权重的方法的流程图,如图2所示,在获取待识别用户的历史违规数据之前,还包括:
[0039]
步骤s1001、获取模型训练样本,模型训练样本包括样本违规特征、样本违规特征值以及违规标签值,违规标签值表征用户是否违规;
[0040]
步骤s1002、基于模型训练样本对设置的非负线性规划模型进行寻优计算得到每个样本违规特征对应的特征权重。
[0041]
其中,非负线性规划模型是一种数学优化问题,包括构建的目标函数以及相应的约束条件,其目标是在满足一组线性等式和不等式约束的前提下,将一个线性函数最大化或最小化。示例的,获取的模型训练样本中包括样本违规特征对应的违规特征值x1、x2、
…
、xn,可以构建每个样本用户对应的特征向量x=[x1,x2,
…
,xn],xi表示第i个样本用户的特征向量,yi表示第i个样本用户的违规标签值,比如,yi=1表示样本用户在统计当天有违规记录,yi=0表示样本用户在统计当天无违规记录,而样本空间v=(x1,x2,
…
,xm),m为样本数量。
[0042]
具体的,在完成特征向量的构建后,可以建立以每个样本用户的标签预测值与对应的违规标签值yi的差值最小为目标的目标函数,该目标函数如下所示:
[0043][0044]
其中,标签预测值具体为将每个历史违规特征对应的特征权重aj与对应的违规特征值的乘积进行求和。
[0045]
然后,建立与上述目标函数相匹配的约束条件,约束条件包括特征权重的非负性约束和特征权重之和的数值约束,示例的,具体公式如下:
[0046][0047]aj
≥0,j=1,2,
…
,.
[0048]
其中,特征权重之和恒为1,每个特征权重均大于或等于0。
[0049]
最后,基于模型训练样本以及约束条件,对非负线性规划模型进行寻优计算得到每个样本违规特征对应的特征权重,其中,寻优计算可以采用单纯形法、内点法、分支定界法以及整数规划法等,在此本发明不作限制。示例的,结合前述列举的违规特征,通过建立的非负线性规划模型可以求得每个违规特征对应的非负权重,比如,待识别用户对应的设备设备前30天b类违规的次数的权重为0.65,待识别用户对应的设备前30天a类违规的次数的权重为0.23,待识别用户前30天上麦房间中上麦期间有a类违规记录的占比值的权重为0.11,待识别用户前30天有过上麦行为的房间中有超过5次a类违规记录的占比值的权重为0.04,其它特征权重均小于0.005,可以看出,通过非负线性规划模型学到的特征权重符合违规识别的直观理解,同时也可以很好地匹配审核规则。可以理解的是,非负线性规划模型具有很好的可解释性,约束条件描述了,求解出来的特征权重可以清晰地指示出最优权重方案中每个违规特征对于第一评估分值的影响程度,方便基于审核规则对违规特征进行适应性调整,更好地确定有效识别违规用户的违规特征。
[0050]
步骤s103、将违规特征以及对应的违规特征分值输入至训练完成的目标决策树模型,以得到待识别用户的第二评估分值。
[0051]
其中,决策树模型是一种监督学习算法,用于解决分类和回归问题。它能够将模型训练样本分解成不同的决策路径,并从中选择最优决策路径来预测新的数据。在分类问题中,决策树模型通过比较不同特征的信息增益或者信息增益比来选择最优特征。
[0052]
在一个实施例中,步骤s103的具体实施过程包括:
[0053]
将违规特征以及对应的违规特征分值输入至训练完成的目标决策树模型,得到待识别用户的分类结果;
[0054]
将分类结果对应的匹配分值确定为待识别用户的第二评估分值。
[0055]
具体的,待识别用户的分类结果可以包括涉嫌违规用户以及未涉嫌违规用户,对于涉嫌违规用户可以将其匹配分值1确定为待识别用户的第二评估分值,对于未涉嫌违规用户可以将其匹配分值0确定为待识别用户的第二评估分值,当然,对于分类结果与匹配分值的确定还可以适应于其它的预设映射关系,在此本发明不作限制。
[0056]
可选的,图3为本技术实施例提供的一种构建得到决策树模型的方法的流程图,如图3所示,在获取待识别用户的历史违规数据之前,还包括:
[0057]
步骤s1003、获取模型训练样本,模型训练样本包括样本违规特征、样本违规特征值以及违规标签值,违规标签值表征用户是否违规;
[0058]
步骤s1004、基于模型训练样本进行目标决策树模型的构建。
[0059]
其中,决策树模型的构建过程可以包括:
[0060]
确定模型训练样本中每个样本违规特征对应为预设的数值特征值时模型训练样
本的基尼系数;
[0061]
根据基尼系数对模型训练样本中的特征进行筛选得到目标决策树模型的节点,直至目标决策树模型建树完成。
[0062]
具体的,基尼系数是衡量一个样本集合纯度的指标,通常用于评估分类算法。在决策树模型中,基尼系数用于衡量特征对分类结果的影响,其计算公式如下:
[0063][0064][0065]
其中,gini_()为a特征的基尼系数,d是样本集合,di为样本集合d划分出的样本子集,∣y∣是特征的类别个数,pk是属于第k个类别的样本在样本集合d中占比。基尼系数越小,则样本集合的纯度越高,分类效果越好。当样本集合完全纯净时,基尼系数为0;反之,当样本集合中不同类别的样本数量相等时,基尼系数最大。示例的,以下是构建目标决策树模型的具体实施过程:
[0066]
计算模型训练样本中每个样本违规特征对应为每个预设的数值特征值时模型训练样本的第一基尼系数;基于该第一基尼系数,从模型训练样本中包含的样本违规特征中筛选出第一基尼系数最小的第一样本违规特征,以及获取与第一样本违规特征对应的第一数值特征值;将第一样本违规特征作为决策树模型的根节点,并将第一数值特征值作为该根节点的切分点;获取按照该根节点的切分点划分的每个分支下的分支模型训练样本;分别计算分支模型训练样本中每个样本违规特征为每个数值特征值时分支模型训练样本的第二基尼系数;基于第二基尼系数,从分支模型训练样本中包含的样本违规特征中筛选出第二基尼系数最小的第二样本违规特征,以及获取第二样本违规特征对应的第二数值特征值;将第二样本违规特征作为每个分支的分裂节点,并将第二数值特征值作为分裂节点的切分点;判断当前的决策树模型是否满足预设的建树完成条件;若当前的决策树模型满足建树完成条件,将当前的决策树模型作为目标决策树模型;若当前的决策树模型不满足建树完成条件,返回前述步骤“获取按照根节点的切分点划分的每个分支下的分支模型训练样本”。其中,建树完成条件可以根据分裂节点的样本数量、模型深度等来制定。可选的,在完整的决策树模型建立完成后还可以进行剪枝,避免出现过拟合的问题。
[0067]
由此,基于决策树模型的可解释性,可以帮助我们理解不同特征对于分类的重要性,并且可以对模型进行可视化展示,以便更好地理解模型。此外,决策树模型还能够处理缺失值和异常值,并且在一定程度上具有鲁棒性,保持较高的准确率与泛化能力。
[0068]
步骤s104、根据第一评估分值、第二评估分值以及预设检测模型输出的违规分值进行待识别用户的推送,以确定是否为违规用户。
[0069]
其中,预设检测模型可以是现有的语音检测模型、语义检测模型等,在此本发明不作限制。在具体的实施过程中,可以将第一评估分值、第二评估分值以及预设检测模型输出的违规分值通过设置权重、分段映射等方式进行融合,并设置判定阈值确定待识别用户是否进行推送,以审查所推送的用户是否为存在违规行为的违规用户。
[0070]
具体的,可以选择先将第一评估分值以及第二评估分值进行融合计算,对应的,根据第一评估分值、第二评估分值以及预设检测模型输出的违规分值进行待识别用户的推送,包括:
[0071]
根据第一评估分值和第二评估分值确定第三评估分值;
[0072]
基于第三评估分值以及预设检测模型输出的违规分值进行待识别用户的推送。
[0073]
在一个实施例中,根据第一评估分值和第二评估分值确定第三评估分值,包括:
[0074]
在第一评估分值大于或等于第一预设值的情况下,将第二评估分值确定为第三评估分值;在第一评估分值小于第一预设值的情况下,将第一评估分值与第二评估分值之和乘以预设系数后,与第一预设值相加得到第三评估分值。
[0075]
示例的,可以将阈值0.02设置为用于分段的第一预设值,在第一评估分值scole1大于或等于0.02的情况下,可以直接将第二评估分值scole2确定为融合后的第三评估分值scole3,可以理解的是,在第一评估分值scole1大于或等于0.02,说明待识别用户已涉嫌违规,具备一定的可解释性,基于此,可以选择将通过相对准确性更高的决策树模型得到的第二评估分值scole2来作为第三评估分值scole3。而在第一评估分值小于0.02的情况下,可以将第一评估分值scole1以及第二评估分值scole2进行加权计算得到第三评估分值scole3,公式如下:
[0076]
scole3=0.02 0.98
×
(scole1 scole2)/2
[0077]
可以理解的是,在第一评估分值scole1小于0.02,说明待识别用户涉嫌违规的可能性无法基于第一评估分值scole1得到判断,因而需要综合第一评估分值scole1以及第二评估分值scole2的结果,使得第三评估分值scole3可以在准确预测待识别用户是否涉嫌违规的同时,具备良好的可解释性。
[0078]
在另一个实施例中,在得到第三评估分值之后,基于第三评估分值以及预设检测模型输出的违规分值进行待识别用户的推送,包括:
[0079]
在预设检测模型输出的违规分值大于第一阈值的情况下,进行待识别用户的推送;在预设检测模型输出的违规分值小于或等于第一阈值,且大于第二阈值,且第三评估分值大于第三阈值的情况下,进行待识别用户的推送,第一阈值大于第二阈值。
[0080]
示例的,以使用卷积神经网络resnet59的语音检测模型为预设检测模型,该语音检测模型可以以20s为片段检测待识别用户产生的语音数据是否涉嫌违规,并输出表征违规可能性的违规分值。具体的,可以将第一阈值设置为0.4,第二阈值设置为0.75,在违规分值scole4大于0.75时,视为待识别用户涉嫌违规,可以将待识别用户直接推送审核。在违规分值scole4大于0.4且小于0.75时,可以参考第三评估分值scole3,若第三评估分值scole3大于0.6,视为待识别用户涉嫌违规,可以将待识别用户推送审核,其余情况无需推送。通过在语音检测模型的检测结果的基础上,加入以历史违规数据为参考的第三评估分值,准确筛选出涉嫌违规的待识别用户,在语音检测模型以及第三评估分值的共同参考作用相较于单凭语音检测模型的检测作用,待识别用户的推送审查精度可以提高8%,通过语音检测模型的检测结果与用户的评估分值进行有效结合,提高违规用户推送的准确率。
[0081]
示例的,以使用卷积神经网络resnet59的语音检测模型为预设检测模型,该语义检测模型可以将文本通过bert模型转化为向量,然后使用卷积神经网络输出表征违规可能性的违规分值。具体的,可以将第一阈值设置为0.3,第二阈值设置为0.62,在违规分值
scole4大于0.62时,视为待识别用户涉嫌违规,可以将待识别用户直接推送审核。在违规分值scole4大于0.3且小于0.62时,可以参考第三评估分值scole3,若第三评估分值scole3大于0.6,视为待识别用户涉嫌违规,可以将待识别用户推送审核,其余情况无需推送。通过在语义检测模型的检测结果的基础上,加入以历史违规数据为参考的第三评估分值,准确筛选出涉嫌违规的待识别用户,在语义检测模型以及第三评估分值的共同参考作用相较于单凭语义检测模型的检测作用,待识别用户的推送审查精度可以提高9.4%,通过语义检测模型的检测结果与用户的评估分值进行有效结合,提高违规用户推送的准确率。
[0082]
可选的,对于违规用户推送后的审核结果,可以加入模型训练样本,用来优化非负线性规划模型以及决策树模型,提高评估分值预测的准确性,具体的,在推送用户的审核结果为出现违规的情况下,可以记录该违规用户的历史违规特征,并将对应的违规特征数据加入模型训练样本,而在推送用户的审核结果为未出现违规的情况下,可以将该用户的违规标签值置为合规标签值后,将其违规特征数据加入模型训练样本。由此,通过将对推送用户进行审核得到的审核结果加入模型训练样本,可以加速模型对喜欢进入同一直播房间或在同一直播房间上麦等可能潜在违规的关联用户的打击。
[0083]
上述,通过获取待识别用户的历史违规数据,历史违规数据中记录有待识别用户的违规特征以及对应的违规特征值;然后,基于每个违规特征对应的特征权重以及违规特征值计算得到待识别用户的第一评估分值,特征权重基于非负线性规划模型的寻优计算过程得到;进而将违规特征以及对应的违规特征分值输入至训练完成的目标决策树模型,以得到待识别用户的第二评估分值;最后,根据第一评估分值、第二评估分值以及预设检测模型输出的违规分值进行待识别用户的推送,以确定是否为违规用户。通过引入非负线性规划模型以及决策树模型分别计算得到评估分值后,以此作为辅助参考,结合预设检测模型输出的违规分值进行待识别用户的推送,提高了违规用户的识别准确率。
[0084]
此外,除了将非负线性规划模型以及决策树模型得到的评估结果,与预设检测模型进行有效结合后用于用户推送审查之外,由于违规用户具有对抗行为,会使用一些违规文字的变形词,甚至会创造专用的违规词汇,因而为了有效打击该对抗行为,可以将评估结果用于房间巡查的判断依据。具体的实施过程如下:
[0085]
获取直播房间的上麦用户的数量,在上麦用户的数量达到预设数值的情况下,若上麦用户中用户安全分大于预设阈值的用户占比超过预设比例,对直播房间进行推送,以对直播房间进行违规巡查。比如,当前房间的上麦用户数量大于数值为3的预设数值,且第三评估分值scole3大于数值为0.6的预设阈值的用户占比大于40%,则将该直播房间进行推送,后台对该直播房间进行巡查。由此,相较于随机的人工巡查,通过结合待识别用户的第三评估分值的巡查推送,可以更有效打击违规用户的对抗行为,平均违规的审出率提高20%。
[0086]
图4为本技术实施例提供的一种违规用户识别装置的结构框图,该装置配置为执行上述实施例提供的违规用户识别方法,具备执行方法相应的功能模块和有益效果。如图4所示,该装置具体包括:
[0087]
获取模块101,配置为获取待识别用户的历史违规数据,所述历史违规数据中记录有所述待识别用户的违规特征以及对应的违规特征值;
[0088]
第一分值计算模块102,配置为基于每个违规特征对应的特征权重以及所述违规
特征值计算得到所述待识别用户的第一评估分值,所述特征权重基于非负线性规划模型的寻优计算过程得到;
[0089]
第二分值计算模块103,配置为将所述违规特征以及对应的违规特征分值输入至训练完成的目标决策树模型,以得到所述待识别用户的第二评估分值;
[0090]
识别模块104,配置为根据所述第一评估分值、所述第二评估分值以及预设检测模型输出的违规分值进行所述待识别用户的推送,以确定是否为违规用户。
[0091]
由上述方案可知,通过获取待识别用户的历史违规数据,历史违规数据中记录有待识别用户的违规特征以及对应的违规特征值;然后,基于每个违规特征对应的特征权重以及违规特征值计算得到待识别用户的第一评估分值,特征权重基于非负线性规划模型的寻优计算过程得到;进而将违规特征以及对应的违规特征分值输入至训练完成的目标决策树模型,以得到待识别用户的第二评估分值;最后,根据第一评估分值、第二评估分值以及预设检测模型输出的违规分值进行待识别用户的推送,以确定是否为违规用户。通过引入非负线性规划模型以及决策树模型分别计算得到评估分值后,以此作为辅助参考,结合预设检测模型输出的违规分值进行待识别用户的推送,提高了违规用户的识别准确率。
[0092]
在一个可能的实施例中,还包括权重计算模块,配置为:
[0093]
获取模型训练样本,所述模型训练样本包括样本违规特征、样本违规特征值以及违规标签值,所述违规标签值表征用户是否违规;
[0094]
基于所述模型训练样本对设置的非负线性规划模型进行寻优计算得到每个所述样本违规特征对应的特征权重。
[0095]
在一个可能的实施例中,所述非负线性规划模型包括构建的目标函数以及相应的约束条件,所述约束条件包括特征权重的非负性约束和特征权重之和的数值约束。
[0096]
在一个可能的实施例中,第二分值计算模块103,配置为:
[0097]
将所述违规特征以及对应的违规特征分值输入至训练完成的目标决策树模型,得到所述待识别用户的分类结果;
[0098]
将所述分类结果对应的匹配分值确定为所述待识别用户的第二评估分值。
[0099]
在一个可能的实施例中,还包括模型构建模块,配置为:
[0100]
获取模型训练样本,所述模型训练样本包括样本违规特征、样本违规特征值以及违规标签值,所述违规标签值表征用户是否违规;
[0101]
基于所述模型训练样本进行目标决策树模型的构建。
[0102]
在一个可能的实施例中,模型构建模块,配置为:
[0103]
确定所述模型训练样本中每个样本违规特征对应为预设的数值特征值时所述模型训练样本的基尼系数;
[0104]
根据所述基尼系数对所述模型训练样本中的特征进行筛选得到目标决策树模型的节点,直至所述目标决策树模型建树完成。
[0105]
在一个可能的实施例中,识别模块104,配置为:
[0106]
根据所述第一评估分值和所述第二评估分值确定第三评估分值;
[0107]
基于所述第三评估分值以及预设检测模型输出的违规分值进行所述待识别用户的推送。
[0108]
在一个可能的实施例中,识别模块104,配置为:
[0109]
在所述第一评估分值大于或等于第一预设值的情况下,将所述第二评估分值确定为第三评估分值;
[0110]
在所述第一评估分值小于所述第一预设值的情况下,将所述第一评估分值与所述第二评估分值之和乘以预设系数后,与所述第一预设值相加得到第三评估分值。
[0111]
在一个可能的实施例中,识别模块104,配置为:
[0112]
在预设检测模型输出的违规分值大于第一阈值的情况下,进行所述待识别用户的推送;
[0113]
在所述预设检测模型输出的违规分值小于或等于所述第一阈值,且大于第二阈值,且所述第三评估分值大于第三阈值的情况下,进行所述待识别用户的推送,所述第一阈值大于所述第二阈值。
[0114]
图5为本技术实施例提供的一种违规用户识别设备的结构示意图,如图5所示,该设备包括处理器201、存储器202、输入装置203和输出装置204;设备中处理器201的数量可以是一个或多个,图5中以一个处理器201为例;设备中的处理器201、存储器202、输入装置203和输出装置204可以通过总线或其他方式连接,图5中以通过总线连接为例。存储器202作为一种计算机可读存储介质,可配置为存储软件程序、计算机可执行程序以及模块,如本技术实施例中的违规用户识别方法对应的程序指令/模块。处理器201通过运行存储在存储器202中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的违规用户识别方法。输入装置203可配置为接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置204可包括显示屏等显示设备。
[0115]
本技术实施例还提供一种包含计算机可执行指令的非易失性存储介质,所述计算机可执行指令在由计算机处理器执行时配置为执行一种上述实施例描述的违规用户识别方法,其中,包括:
[0116]
获取待识别用户的历史违规数据,所述历史违规数据中记录有所述待识别用户的违规特征以及对应的违规特征值;
[0117]
基于每个违规特征对应的特征权重以及所述违规特征值计算得到所述待识别用户的第一评估分值,所述特征权重基于非负线性规划模型的寻优计算过程得到;
[0118]
将所述违规特征以及对应的违规特征分值输入至训练完成的目标决策树模型,以得到所述待识别用户的第二评估分值;
[0119]
根据所述第一评估分值、所述第二评估分值以及预设检测模型输出的违规分值进行所述待识别用户的推送,以确定是否为违规用户。
[0120]
值得注意的是,上述违规用户识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不配置为限制本技术实施例的保护范围。
[0121]
在一些可能的实施方式中,本技术提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码配置为使所述计算机设备执行本说明书上述描述的根据本技术各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行本技术实施例所记载的违规用户识别方法。所述程序产品可以采用一个或多个可读介质的任意组合实现。