异常账号检测方法、装置、电子设备及存储介质-j9九游会真人

文档序号:35752600发布日期:2023-10-16 17:14阅读:0来源:国知局


1.本发明涉及社交媒体分析技术领域,尤其涉及一种异常账号检测方法、装置、电子设备及存储介质。


背景技术:

2.为了维护网络环境,避免不法分子使用社交账号进行各种非法操作,可以对账号状态进行异常检测。
3.在相关技术中,可以对用户的发文内容进行识别,通过判断发文内容是否为垃圾广告、是否包含敏感信息等方式确定发布异常内容的账号是否为异常账号。
4.然而,这种判断方式并不能实现账号的深度检测,很容易发生误判,检测结果的准确率较低。


技术实现要素:

5.本发明提供一种异常账号检测方法、装置、电子设备及存储介质,用以解决相关技术中对异常账号的检测结果的准确率较低的问题。
6.本发明提供一种异常账号检测方法,包括:获取待测账号的账号信息;根据所述账号信息确定所述待测账号的序列特征、文本特征以及数值特征;将所述序列特征、所述文本特征以及所述数值特征进行特征融合处理,得到所述待测账号的目标表示向量;基于所述目标表示向量检测所述待测账号是否为异常账号;其中,所述序列特征用于表示所述待测账号的发帖内容变化趋势和发帖数量变化趋势;所述文本特征用于表示与所述待测账号相关的文本内容的特征,所述数值特征用于表示所述待测账号的热度和关注度。
7.根据本发明提供一种的异常账号检测方法,所述账号信息包括历史发帖文本;所述根据所述账号信息确定所述待测账号的序列特征、文本特征以及数值特征,包括:确定所述历史发帖文本中每个帖子对应的情感标签,得到情感标签序列;基于情感标签矩阵,将所述情感标签序列转化为第一向量序列;将所述第一向量序列输入第一特征网络,得到情感序列特征;其中,所述情感序列特征为所述序列特征的一种,所述情感序列特征用于表示发贴文本的情感变化趋势,所述情感标签矩阵的一个行向量对应一种情感标签。
8.根据本发明提供一种的异常账号检测方法,所述账号信息包括历史发帖文本;所述根据所述账号信息确定所述待测账号的序列特征、文本特征以及数值特征,包括:确定所述历史发帖文本中每个帖子中的实体名词数量,得到实体数量序列;将所述实体数量序列转化为第二向量序列;将所述第二向量序列输入第一特征网络,得到实体序列特征;其中,所述实体序列特征为所述序列特征的一种,所述实体序列特征用于表示发贴文本中实体名词数量的变化趋势。
9.根据本发明提供一种的异常账号检测方法,所述将所述实体数量序列转化为第二向量序列,包括:通过第一分段映射函数将所述实体数量序列转化为第一离散序列;基于实体数量矩阵,将所述第一离散序列转化为所述第二向量序列;其中,所述实体数量矩阵的一
个行向量对应所述第一分段映射函数的一个离散值。
10.根据本发明提供一种的异常账号检测方法,所述账号信息包括历史日发贴量;所述根据所述账号信息确定所述待测账号的序列特征、文本特征以及数值特征,包括:根据所述历史日发贴量生成日发贴量序列;将所述日发贴量序列转化为第三向量序列;将所述第三向量序列输入第一特征网络,得到发贴量序列特征;其中,所述发贴量序列特征为所述序列特征的一种,所述发贴量序列特征用于表示待测账号每日发贴数量的变化趋势。
11.根据本发明提供一种的异常账号检测方法,所述将所述日发贴量序列转化为第三向量序列,包括:通过第二分段映射函数将所述日发贴量序列转化为第二离散序列;基于发贴量矩阵,将所述第二离散序列转化为所述第三向量序列;其中,所述发贴量矩阵的一个行向量对应所述第二分段映射函数的一个离散值。
12.根据本发明提供一种的异常账号检测方法,所述账号信息包括历史发帖文本;所述根据所述账号信息确定所述待测账号的序列特征、文本特征以及数值特征,包括:将所述历史发帖文本输入第二特征网络,得到帖子文本的向量表示序列;对帖子文本的向量表示序列进行按维度的最大池化操作,得到第一文本特征;其中,所述第一文本特征为所述文本特征的一种,所述第一文本特征用于表示历史发贴文本的文本特征。
13.根据本发明提供一种的异常账号检测方法,所述账号信息包括账号简介文本;所述根据所述账号信息确定所述待测账号的序列特征、文本特征以及数值特征,包括:将所述账号简介文本输入第二特征网络,得到第二文本特征;其中,所述第二文本特征为所述文本特征的一种,所述第二文本特征用于表示账号简介文本的文本特征。
14.根据本发明提供一种的异常账号检测方法,所述账号信息包括待测账号的关注数量;所述根据所述账号信息确定所述待测账号的序列特征、文本特征以及数值特征,包括:通过第三分段映射函数确定所述关注数量对应的向量维度和向量值;根据所述关注数量对应的向量维度和向量值确定所述关注数量对应的关注数值特征;其中,所述关注数值特征为所述数值特征的一种,所述关注数值特征用于表示待测账号对其他账号的关注度特征。
15.根据本发明提供一种的异常账号检测方法,所述账号信息包括待测账号的粉丝数量;所述根据所述账号信息确定所述待测账号的序列特征、文本特征以及数值特征,包括:通过第三分段映射函数确定所述粉丝数量对应的向量维度和向量值;根据所述粉丝数量对应的向量维度和向量值确定所述粉丝数量对应的粉丝数值特征;其中,所述粉丝数值特征为所述数值特征的一种,所述粉丝数值特征用于表示待测账号在其他账号中的热度特征。
16.本发明还提供一种异常账号检测装置,包括:获取模块和处理模块;所述获取模块,用于获取待测账号的账号信息;所述处理模块,用于根据所述账号信息确定所述待测账号的序列特征、文本特征以及数值特征;将所述序列特征、所述文本特征以及所述数值特征进行特征融合处理,得到所述待测账号的目标表示向量;基于所述目标表示向量检测所述待测账号是否为异常账号;其中,所述序列特征用于表示所述待测账号的发帖内容变化趋势和发帖数量变化趋势;所述文本特征用于表示与所述待测账号相关的文本内容的特征,所述数值特征用于表示所述待测账号的热度和关注度。
17.根据本发明提供一种的异常账号检测装置,所述账号信息包括历史发帖文本;处理模块具体用于:确定所述历史发帖文本中每个帖子对应的情感标签,得到情感标签序列;基于情感标签矩阵,将所述情感标签序列转化为第一向量序列;将所述第一向量序列输入
第一特征网络,得到情感序列特征;其中,所述情感序列特征为所述序列特征的一种,所述情感序列特征用于表示发贴文本的情感变化趋势,所述情感标签矩阵的一个行向量对应一种情感标签。
18.根据本发明提供一种的异常账号检测装置,所述账号信息包括历史发帖文本;处理模块具体用于:确定所述历史发帖文本中每个帖子中的实体名词数量,得到实体数量序列;将所述实体数量序列转化为第二向量序列;将所述第二向量序列输入第一特征网络,得到实体序列特征;其中,所述实体序列特征为所述序列特征的一种,所述实体序列特征用于表示发贴文本中实体名词数量的变化趋势。
19.根据本发明提供一种的异常账号检测装置,处理模块具体用于:通过第一分段映射函数将所述实体数量序列转化为第一离散序列;基于实体数量矩阵,将所述第一离散序列转化为所述第二向量序列;其中,所述实体数量矩阵的一个行向量对应所述第一分段映射函数的一个离散值。
20.根据本发明提供一种的异常账号检测装置,所述账号信息包括历史日发贴量;处理模块具体用于:根据所述历史日发贴量生成日发贴量序列;将所述日发贴量序列转化为第三向量序列;将所述第三向量序列输入第一特征网络,得到发贴量序列特征;其中,所述发贴量序列特征为所述序列特征的一种,所述发贴量序列特征用于表示待测账号每日发贴数量的变化趋势。
21.根据本发明提供一种的异常账号检测装置,处理模块具体用于:通过第二分段映射函数将所述日发贴量序列转化为第二离散序列;基于发贴量矩阵,将所述第二离散序列转化为所述第三向量序列;其中,所述发贴量矩阵的一个行向量对应所述第二分段映射函数的一个离散值。
22.根据本发明提供一种的异常账号检测装置,所述账号信息包括历史发帖文本;处理模块具体用于:将所述历史发帖文本输入第二特征网络,得到帖子文本的向量表示序列;对帖子文本的向量表示序列进行按维度的最大池化操作,得到第一文本特征;其中,所述第一文本特征为所述文本特征的一种,所述第一文本特征用于表示历史发贴文本的文本特征。
23.根据本发明提供一种的异常账号检测装置,所述账号信息包括账号简介文本;处理模块具体用于:将所述账号简介文本输入第二特征网络,得到第二文本特征;其中,所述第二文本特征为所述文本特征的一种,所述第二文本特征用于表示账号简介文本的文本特征。
24.根据本发明提供一种的异常账号检测装置,所述账号信息包括待测账号的关注数量;处理模块具体用于:通过第三分段映射函数确定所述关注数量对应的向量维度和向量值;根据所述关注数量对应的向量维度和向量值确定所述关注数量对应的关注数值特征;其中,所述关注数值特征为所述数值特征的一种,所述关注数值特征用于表示待测账号对其他账号的关注度特征。
25.根据本发明提供一种的异常账号检测装置,所述账号信息包括待测账号的粉丝数量;处理模块具体用于:通过第三分段映射函数确定所述粉丝数量对应的向量维度和向量值;根据所述粉丝数量对应的向量维度和向量值确定所述粉丝数量对应的粉丝数值特征;其中,所述粉丝数值特征为所述数值特征的一种,所述粉丝数值特征用于表示待测账号在
其他账号中的热度特征。
26.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述异常账号检测方法的步骤。
27.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述异常账号检测方法的步骤。
28.本发明提供的异常账号检测方法、装置、电子设备及存储介质,可以根据账号信息确定待测账号的文本特征、序列特征以及数值特征,并通过特征融合处理确定目标表示向量,由于文本特征用于表示与待测账号相关的文本内容的特征,序列特征用于表示待测账号的发帖内容变化趋势和发帖数量变化趋势;数值特征用于表示待测账号的热度和关注度,因此,不仅可以挖掘到多维度的账号特征,还可以掌握账号的时间趋势特征,如此,可以实现对待测账号的深度检测,降低误判率,提高检测结果的准确度。
附图说明
29.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
30.图1是本发明提供的异常账号检测模型的结构示意图;图2是本发明提供的异常账号检测方法的流程示意图之一;图3是本发明提供的异常账号检测方法的流程示意图之二;图4是本发明提供的异常账号检测装置的结构示意图;图5是本发明提供的电子设备的结构示意图。
具体实施方式
31.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
32.需要说明的是,本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
33.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本发明实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及
的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
34.为了便于清楚描述本发明实施例的技术方案,在本发明实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
35.本发明实施例为了阐释的目的而描述了一些示例性实施例,需要理解的是,本发明可通过附图中没有具体示出的其他方式来实现。
36.下面结合具体实施例和附图对上述实现方式进行详细的阐述。
37.如图1所示,本发明实施例提供一种异常账号检测模型,包括第一分段映射函数、第二分段映射函数、第三分段映射函数、情感标签矩阵、实体数量矩阵、发帖量矩阵、第一特征网络、第二特征网络、最大池化函数、one-hot函数、特征融合网络以及异常判断网络。
38.其中,待测账号的历史发帖文本对应的情感标签序列可以通过情感标签矩阵和第一特征网络生成情感序列特征s;待测账号的历史发帖文本对应的实体数量序列可以通过第一分段映射函数、实体数量矩阵和第一特征网络生成实体序列特征e;待测账号的日发帖量序列可以通过第二分段映射函数、发帖量矩阵和第一特征网络生成发帖量序列特征p;待测账号的历史发帖文本可以通过第二特征网络和最大池化函数生成第一文本特征h;待测账号的账号简介q可以通过第二特征网络生成第二文本特征q;待测账号对应的粉丝数量可以通过第三分段映射函数和one-hot函数生成粉丝数值特征u;待测账号对应的关注数量可以通过第三分段映射函数和one-hot函数生成关注数值特征v;特征融合网络可以用于将情感序列特征s、实体序列特征e、发帖量序列特征p、第一文本特征h、第二文本特征q、粉丝数值特征u以及关注数值特征v进行特征融合,生成待测账号的目标表示向量。
39.异常判断网络可以用于根据目标表示向量检测待测账号是否为异常账号。
40.如图2所示,本发明实施例提供一种异常账号检测方法,该异常账号检测方法可以应用于异常账号检测装置,该异常账号检测装置包括上述异常账号检测模型。该异常账号检测方法可以包括s201-s204:s201、异常账号检测装置获取待测账号的账号信息。
41.可选地,上述待测账号可以为社交媒体平台的账号,即待测账号可以为社交账号。
42.可选地,上述账号信息可以包括以下至少一项:历史发帖文本、历史日发贴量、账号简介文本、待测账号的关注数量以及待测账号的粉丝数量。
43.可选地,上述历史发帖文本可以为历史上最新发布的n个帖子文本,记为,其中,的发布时间晚于的发布时间,n为小于或等于n的整数。
44.s202、异常账号检测装置根据所述账号信息确定所述待测账号的序列特征、文本
特征以及数值特征。
45.可选地,上述序列特征可以包括情感序列特征、实体序列特征以及发贴量序列特征;其中,情感序列特征用于表示发贴文本的情感变化趋势,实体序列特征用于表示发贴文本中实体名词数量的变化趋势,发贴量序列特征用于表示待测账号每日发贴数量的变化趋势。
46.可选地,异常账号检测装置确定情感序列特征的过程包括:确定所述历史发帖文本中每个帖子对应的情感标签,得到情感标签序列;基于情感标签矩阵,将所述情感标签序列转化为第一向量序列;将所述第一向量序列输入第一特征网络,得到情感序列特征;其中,所述情感标签矩阵的一个行向量对应一种情感标签。
47.可选地,上述情感标签可以包括正向标签、中性标签和负向标签,其中,正向标签表示积极情感倾向,负向标签表示消极情感倾向,中性标签表示位于积极情感与消极情感之间的中性情感倾向。
48.具体地,如图3所示,异常账号检测装置可以将历史发帖文本中的每个帖子依次输入情感分析工具中进行情感分析,得到对应的情感标签,从而生成包含n个情感标签的情感标签序列,记为,需要说明的是,若待测账号的历史发帖文本中的文本数量a小于n,则可以将序列的前(n-a)条帖子的情感标签标记为“缺失”。例如,若n为30,a为28,则可以将和的情感标签均标记为“缺失”。之后,可以基于情感标签矩阵,将所述情感标签序列转化为第一向量序列,其中,情感标签矩阵的矩阵大小为,d表示向量维度,l表示情感标签的类别数量。情感标签矩阵的每个行向量对应一种情感标签,最后一个行向量对应情感标签“缺失”。进一步的,可以将第一向量序列输入第一特征网络进行编码,从而得到情感序列特征s。
49.可选地,上述第一特征网络可以为长短期记忆网络(long short-term memory,lstm)。
50.基于上述方案,由于可以确定待测账号的历史发帖文本的情感序列特征,因此,可以掌握发贴文本的情感变化趋势,从而为分析待测账号是否异常提供帮助。
51.可选地,异常账号检测装置确定实体序列特征的过程包括:确定所述历史发帖文本中每个帖子中的实体名词数量,得到实体数量序列;将所述实体数量序列转化为第二向量序列;将所述第二向量序列输入第一特征网络,得到实体序列特征。
52.具体地,继续参考图3,异常账号检测装置可以将历史发帖文本中的每个帖子依次输入命名实体识别算法工具中进行入命名实体识别,通过抽取每个帖子中的实体命名,确定每个帖子所包含的实体名词数量,从而得到实体数量序列,记为,需要说明的是,若待测账号的历史发帖文本中的文本数量a小于n,则可以将序列的前(n-a)条帖子的实体名词数量记为“0”。例如,若n为30,a为28,则可以将和的实体名词数量均记为“0”,即。之后,可以将实体数量
序列转化为第二向量序列,进一步的,可以将第二向量序列输入第一特征网络,从而得到实体序列特征e。
53.可选地,异常账号检测装置将所述实体数量序列转化为第二向量序列,包括:通过第一分段映射函数将所述实体数量序列转化为第一离散序列;基于实体数量矩阵,将所述第一离散序列转化为所述第二向量序列;其中,所述实体数量矩阵的一个行向量对应所述第一分段映射函数的一个离散值。
54.具体地,继续参考图3,异常账号检测装置可以通过第一分段映射函数对所述实体数量序列进行分段区间映射,得到第一离散序列,再基于实体数量矩阵,将所述第一离散序列转化为所述第二向量序列;其中,所述实体数量矩阵的一个行向量对应所述第一分段映射函数的一个离散值。
55.可选地,异常账号检测装置可以通过第一分段映射函数,将实体数量序列转化为第一离散序列。实体数量矩阵的矩阵大小为d
×
5,其中d表示向量维度,的一个行向量对应第一分段映射函数的一个离散值。
56.需要说明的是,上述实体数量是指帖子中包含的实体名词数量,该实体名词可以为人名、地名、组织机构名称等。
57.基于上述方案,由于可以确定待测账号的历史发帖文本的实体序列特征,因此,可以掌握历史发帖文本的实体数量变化趋势,从而为分析待测账号是否异常提供帮助。
58.可选地,异常账号检测装置确定发贴量序列特征的过程包括:根据所述历史日发贴量生成日发贴量序列;将所述日发贴量序列转化为第三向量序列;将所述第三向量序列输入第一特征网络,得到发贴量序列特征。
59.具体地,继续参考图3,异常账号检测装置可以统计待测账号最近k天每天的发贴量,然后,根据最近k天的历史日发贴量生成日发贴量序列,之后,将日发贴量序列转化为第三向量序列;将所述第三向量序列输入第一特征网络,得到发贴量序列特征p。
60.可选地,异常账号检测装置将日发贴量序列转化为第三向量序列,包括:通过第二分段映射函数将所述日发贴量序列转化为第二离散序列;基于发贴量矩阵,将所述第二离散序列转化为所述第三向量序列;其中,所述发贴量矩阵的一个行向量对应所述第二分段映射函数的一个离散值。
61.具体地,继续参考图3,异常账号检测装置可以通过第二分段映射函数对日
发贴量序列进行分段区间映射,得到第二离散序列,再基于发贴量矩阵,将第二离散序列转化为第三向量序列;其中,所述发贴量矩阵的一个行向量对应所述第二分段映射函数的一个离散值。
62.可选地,异常账号检测装置可以通过第二分段映射函数,将日发贴量序列转化为第二离散序列。发贴量矩阵的矩阵大小为d
×
5,其中d表示向量维度,的一个行向量对应第二分段映射函数的一个离散值。
63.基于上述方案,由于可以确定待测账号的历史日发帖量的发贴量序列特征,因此,可以掌握待测账号每日发贴数量的变化趋势,从而为分析待测账号是否异常提供帮助。
64.可选地,上述文本特征可以包括第一文本特征和第二文本特征;第一文本特征用于表示历史发贴文本的文本特征,第二文本特征用于表示账号简介文本的文本特征。
65.可选地,异常账号检测装置确定第一文本特征的过程包括:将所述历史发帖文本输入第二特征网络,得到帖子文本的向量表示序列;对帖子文本的向量表示序列进行按维度的最大池化操作,得到第一文本特征。
66.具体地,继续参考图3,异常账号检测装置可以将帖子序列分别输入第二特征网络,得到每个帖子文本的向量表示序列,之后,根据最大池化函数对帖子文本的向量表示序列进行按维度的最大池化操作,从而得到第一文本特征h。
67.可选地,上述第一文本特征h的向量维度为d。
68.可选地,上述第二特征网络可以为(bidirectional encoder representations from transformers,bert)网络模型。
69.基于上述方案,由于可以确定待测账号的第一文本特征,因此,可以掌握待测账号的历史发贴文本的文本特征,从而为分析待测账号是否异常提供帮助。
70.可选地,异常账号检测装置确定第二文本特征的过程包括:将账号简介文本输入第二特征网络,得到第二文本特征。
71.具体地,继续参考图3,异常账号检测装置可以将待测账号的账号简介文本输入第二特征网络,从而得到第二文本特征q。
72.可选地,上述第二文本特征q的向量维度为d。
73.基于上述方案,由于可以确定待测账号的第二文本特征,因此,可以掌握待测账号的账号简介文本的文本特征,从而为分析待测账号是否异常提供帮助。
74.可选地,上述数值特征可以包括关注数值特征和粉丝数值特征,其中,关注数值特征用于表示待测账号对其他账号的关注度特征,粉丝数值特征用于表示待测账号在其他账
号中的热度特征。
75.可选地,异常账号检测装置确定关注数值特征的过程包括:通过第三分段映射函数确定所述关注数量对应的向量维度和向量值;根据所述关注数量对应的向量维度和向量值确定所述关注数量对应的关注数值特征。
76.具体地,继续参考图3,异常账号检测装置可以先构建一个维度为5的one-hot函数向量,并令该函数向量的每个维度均取值为0。然后,通过第三分段映射函数对关注数量进行分段区间映射,以确定所述关注数量对应的向量维度和向量值,之后,根据关注数量对应的向量维度和向量值为one-hot函数向量赋值,得到关注数值特征。
77.可选地,上述第三分段映射函数为:。
78.示例性地,以待测账号的关注数量为520为例。异常账号检测装置可以将关注数量520输入第三分段映射函数,得到的取值为2,那么,异常账号检测装置可以将全零向量的第2维设置为1,其他维度仍未0,得到关注数值特征。
79.基于上述方案,由于可以确定待测账号的关注数值特征,因此,可以掌握待测账号对其他账号的关注度特征,从而为分析待测账号是否异常提供帮助。
80.可选地,异常账号检测装置确定粉丝数值特征的过程包括:通过第三分段映射函数确定所述粉丝数量对应的向量维度和向量值;根据所述粉丝数量对应的向量维度和向量值确定所述粉丝数量对应的粉丝数值特征。
81.具体地,继续参考图3,异常账号检测装置可以先构建一个维度为5的one-hot函数向量,并令该函数向量的每个维度均取值为0。然后,通过第三分段映射函数对粉丝数量进行分段区间映射,以确定粉丝数量对应的向量维度和向量值,之后,根据粉丝数量对应的向量维度和向量值为one-hot函数向量赋值,得到粉丝数值特征u。
82.基于上述方案,由于可以确定待测账号的粉丝数值特征,因此,可以掌握待测账号在其他账号中的热度特征,从而为分析待测账号是否异常提供帮助。
83.s203、异常账号检测装置将所述序列特征、所述文本特征以及所述数值特征进行特征融合处理,得到所述待测账号的目标表示向量。
84.具体地,异常账号检测装置可以将情感序列特征s、实体序列特征e、发帖量序列特征p、第一文本特征h、第二文本特征q、粉丝数值特征u以及关注数值特征v进行拼接,并输入特征融合网络进行特征融合处理,得到多特征融合的目标表示向量z。
85.可选地,上述特征融合网络为一个三层的全连接前馈网络,三层的维度分别为:(5d 10)
×
2d,2d
×
d/2,d/2
×
d。该特征融合网络输入维度为(5d 10),输出维度为d。
86.s204、异常账号检测装置基于所述目标表示向量检测所述待测账号是否为异常账号。
87.具体地,异常账号检测装置可以将目标表示向量z输入异常判断网络进行分类处
理,以确定待测账号是否为异常账号。
88.可选地,上述异常判断网络采用全连接前馈网络,维度为d
×
2。
89.本发明实施例中,根据账号信息确定待测账号的文本特征、序列特征以及数值特征,并通过特征融合处理确定目标表示向量,由于文本特征用于表示与待测账号相关的文本内容的特征,序列特征用于表示待测账号的发帖内容变化趋势和发帖数量变化趋势;数值特征用于表示待测账号的热度和关注度,因此,不仅可以挖掘到多维度的账号特征,还可以掌握账号的时间趋势特征,如此,可以实现对待测账号的深度检测,降低误判率,提高检测结果的准确度。
90.上述主要从方法的角度对本发明实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本发明实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
91.本发明实施例提供的异常账号检测方法,执行主体可以为异常账号检测装置,或者该异常账号检测装置中的用于异常账号检测的控制模块。本发明实施例中以异常账号检测装置执行异常账号检测方法为例,说明本发明实施例提供的异常账号检测装置。
92.需要说明的是,本发明实施例可以根据上述方法示例对异常账号检测装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。可选的,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
93.如图4所示,本发明实施例提供一种异常账号检测装置400。该异常账号检测装置400包括:获取模块401和处理模块402。所述获取模块401,可以用于获取待测账号的账号信息;处理模块402,可以用于根据所述账号信息确定所述待测账号的序列特征、文本特征以及数值特征;将所述序列特征、所述文本特征以及所述数值特征进行特征融合处理,得到所述待测账号的目标表示向量;基于所述目标表示向量检测所述待测账号是否为异常账号;其中,所述序列特征用于表示所述待测账号的发帖内容变化趋势和发帖数量变化趋势;所述文本特征用于表示与所述待测账号相关的文本内容的特征,所述数值特征用于表示所述待测账号的热度和关注度。
94.可选地,所述账号信息包括历史发帖文本;处理模块402具体用于:确定所述历史发帖文本中每个帖子对应的情感标签,得到情感标签序列;基于情感标签矩阵,将所述情感标签序列转化为第一向量序列;将所述第一向量序列输入第一特征网络,得到情感序列特征;其中,所述情感序列特征为所述序列特征的一种,所述情感序列特征用于表示发贴文本的情感变化趋势,所述情感标签矩阵的一个行向量对应一种情感标签。
95.可选地,所述账号信息包括历史发帖文本;处理模块402具体用于:确定所述历史发帖文本中每个帖子中的实体名词数量,得到实体数量序列;将所述实体数量序列转化为第二向量序列;将所述第二向量序列输入第一特征网络,得到实体序列特征;其中,所述实
体序列特征为所述序列特征的一种,所述实体序列特征用于表示发贴文本中实体名词数量的变化趋势。
96.可选地,处理模块402具体用于:通过第一分段映射函数将所述实体数量序列转化为第一离散序列;基于实体数量矩阵,将所述第一离散序列转化为所述第二向量序列;其中,所述实体数量矩阵的一个行向量对应所述第一分段映射函数的一个离散值。
97.可选地,所述账号信息包括历史日发贴量;处理模块402具体用于:根据所述历史日发贴量生成日发贴量序列;将所述日发贴量序列转化为第三向量序列;将所述第三向量序列输入第一特征网络,得到发贴量序列特征;其中,所述发贴量序列特征为所述序列特征的一种,所述发贴量序列特征用于表示待测账号每日发贴数量的变化趋势。
98.可选地,处理模块402具体用于:通过第二分段映射函数将所述日发贴量序列转化为第二离散序列;基于发贴量矩阵,将所述第二离散序列转化为所述第三向量序列;其中,所述发贴量矩阵的一个行向量对应所述第二分段映射函数的一个离散值。
99.可选地,所述账号信息包括历史发帖文本;处理模块402具体用于:将所述历史发帖文本输入第二特征网络,得到帖子文本的向量表示序列;对帖子文本的向量表示序列进行按维度的最大池化操作,得到第一文本特征;其中,所述第一文本特征为所述文本特征的一种,所述第一文本特征用于表示历史发贴文本的文本特征。
100.可选地,所述账号信息包括账号简介文本;处理模块402具体用于:将所述账号简介文本输入第二特征网络,得到第二文本特征;其中,所述第二文本特征为所述文本特征的一种,所述第二文本特征用于表示账号简介文本的文本特征。
101.可选地,所述账号信息包括待测账号的关注数量;处理模块402具体用于:通过第三分段映射函数确定所述关注数量对应的向量维度和向量值;根据所述关注数量对应的向量维度和向量值确定所述关注数量对应的关注数值特征;其中,所述关注数值特征为所述数值特征的一种,所述关注数值特征用于表示待测账号对其他账号的关注度特征。
102.可选地,所述账号信息包括待测账号的粉丝数量;处理模块402具体用于:通过第三分段映射函数确定所述粉丝数量对应的向量维度和向量值;根据所述粉丝数量对应的向量维度和向量值确定所述粉丝数量对应的粉丝数值特征;其中,所述粉丝数值特征为所述数值特征的一种,所述粉丝数值特征用于表示待测账号在其他账号中的热度特征。
103.本发明实施例中,可以根据账号信息确定待测账号的文本特征、序列特征以及数值特征,并通过特征融合处理确定目标表示向量,由于文本特征用于表示与待测账号相关的文本内容的特征,序列特征用于表示待测账号的发帖内容变化趋势和发帖数量变化趋势;数值特征用于表示待测账号的热度和关注度,因此,不仅可以挖掘到多维度的账号特征,还可以掌握账号的时间趋势特征,如此,可以实现对待测账号的深度检测,降低误判率,提高检测结果的准确度。
104.图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行异常账号检测方法,该方法包括:获取待测账号的账号信息;根据所述账号信息确定所述待测账号的序列特征、文本特征以及数值特征;将所述序列特征、所述文本特征以及所述数值特征进行特征融合处理,得到所
述待测账号的目标表示向量;基于所述目标表示向量检测所述待测账号是否为异常账号;其中,所述序列特征用于表示所述待测账号的发帖内容变化趋势和发帖数量变化趋势;所述文本特征用于表示与所述待测账号相关的文本内容的特征,所述数值特征用于表示所述待测账号的热度和关注度。
105.此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
106.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的异常账号检测方法,该方法包括:获取待测账号的账号信息;根据所述账号信息确定所述待测账号的序列特征、文本特征以及数值特征;将所述序列特征、所述文本特征以及所述数值特征进行特征融合处理,得到所述待测账号的目标表示向量;基于所述目标表示向量检测所述待测账号是否为异常账号;其中,所述序列特征用于表示所述待测账号的发帖内容变化趋势和发帖数量变化趋势;所述文本特征用于表示与所述待测账号相关的文本内容的特征,所述数值特征用于表示所述待测账号的热度和关注度。
107.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的异常账号检测方法,该方法包括:获取待测账号的账号信息;根据所述账号信息确定所述待测账号的序列特征、文本特征以及数值特征;将所述序列特征、所述文本特征以及所述数值特征进行特征融合处理,得到所述待测账号的目标表示向量;基于所述目标表示向量检测所述待测账号是否为异常账号;其中,所述序列特征用于表示所述待测账号的发帖内容变化趋势和发帖数量变化趋势;所述文本特征用于表示与所述待测账号相关的文本内容的特征,所述数值特征用于表示所述待测账号的热度和关注度。
108.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
109.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
110.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1  
相关技术
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图