1.本技术涉及计算机技术领域,尤其涉及一种异常域名检测方法、装置、电子设备及可读存储介质。
背景技术:
2.随着科技的高速发展,网络技术也发展地越来越成熟,人们借助网络获得的信息越来越多,在获取有利信息的同时,一部分网民也受到不良信息和/或异常信息的侵害。目前,通常通过查询域名黑名单,以进行携带异常信息的异常域名,但是,无法检测到其它不在域名黑名单的携带异常信息的异常域名,从而导致异常域名的检测准确性较低。
技术实现要素:
3.本技术的主要目的在于提供一种异常域名检测方法、装置、电子设备及可读存储介质,旨在解决现有技术中异常域名的检测准确性较低的技术问题。
4.为实现上述目的,本技术提供一种异常域名检测方法,所述异常域名检测方法包括:获取目标域名以及域名知识图谱;根据所述目标域名,查询所述域名知识图谱,得到所述目标域名对应的目标页面信息,其中,所述目标页面信息至少包括图片信息、文本信息和视频信息中的一种;提取所述目标页面信息中的主题敏感页面特征,其中,所述页面特征至少包括敏感词特征、主题词特征和敏感图片信息特征中的一种;根据所述主题敏感页面特征和预设异常域名检测模型,对所述目标域名进行异常域名检测,得到异常域名检测结果。
5.可选地,所述提取所述目标页面信息中的主题敏感页面特征的步骤包括:依据所述文本信息和/或所述图片信息和/或所述视频信息,提取得到所述敏感词特征和所述主题词特征;和/或,依据所述图片信息和/或所述视频信息,提取得到所述敏感图片信息特征。
6.可选地,所述依据所述文本信息和/或所述图片信息和/或所述视频信息,提取得到所述敏感词特征和所述主题词特征的步骤包括:提取所述文本信息和/或所述图片信息和/或所述视频信息中的文本词特征;将所述文本词特征中各词特征对应的频率大于预设频率阈值的第一目标词特征作为所述主题词特征;获取预设敏感词库,其中,所述预设敏感词库包括各敏感词的集合,并将所述文本词特征中与所述预设敏感词库匹配的第二目标词特征作为所述敏感词特征。
7.可选地,提取所述图片信息和/或所述视频信息中的文本词特征,包括:对所述图片信息中的图片嵌入文本进行识别,得到文本词特征;和/或,对所述视频信息中的视频嵌入文本进行识别,得到视频词特征。
8.可选地,依据所述视频信息,提取得到所述敏感图片信息特征的步骤包括:在所述视频信息中抽取视频关键帧;确定所述视频关键帧对应的各颜色以及各所述颜色对应的颜色分布占比;若各所述颜色中存在与预设敏感颜色相同的目标颜色,则检测所述目标颜色对应的目标颜色分布占比是否超过预设占比阈值;若所述目标颜色对应的目标颜色分布占比超过预设占比阈值,则对所述视频关键帧进行图像特征提取,得到敏感图片信息特征。
9.可选地,在所述根据所述主题敏感页面特征和预设异常域名检测模型,对所述目标域名进行异常域名检测,得到异常域名检测结果的步骤之前,还包括:获取各训练域名以及各所述训练域名对应的训练页面类型;根据各所述训练域名,查询所述域名知识图谱,得到各所述训练域名对应的训练页面信息;提取所述训练页面信息中的训练主题敏感页面特征,并将各所述训练主题敏感页面特征作为训练样本,将各所述训练页面类型分别作为各所述训练样本对应的真实标签;根据各所述训练样本和各所述训练样本对应的所述真实标签,对待训练异常域名检测模型进行迭代训练得到异常域名检测模型。
10.可选地,获取各训练域名以及各所述训练域名对应的训练页面类型的步骤包括:通过爬虫技术爬取各域名库中的域名信息,将各所述域名信息作为所述训练域名;获取人工标注的各所述域名信息对应的页面类型,得到所述训练页面类型。
11.为实现上述目的,本技术还提供一种异常域名检测装置,所述异常域名检测装置包括:获取模块,用于获取目标域名以及域名知识图谱;查询模块,用于根据所述目标域名,查询所述域名知识图谱,得到所述目标域名对应的目标页面信息,其中,所述目标页面信息至少包括图片信息、文本信息和视频信息中的一种;提取模块,用于提取所述目标页面信息中的主题敏感页面特征,其中,所述页面特征至少包括敏感词特征、主题词特征和敏感图片信息特征中的一种;检测模块,用于根据所述主题敏感页面特征和预设异常域名检测模型,对所述目标域名进行异常域名检测,得到异常域名检测结果。
12.可选地,所述提取模块还用于:依据所述文本信息和/或所述图片信息和/或所述视频信息,提取得到所述敏感词特征和所述主题词特征;和/或,依据所述图片信息和/或所述视频信息,提取得到所述敏感图片信息特征。
13.可选地,所述提取模块还用于:提取所述文本信息和/或所述图片信息和/或所述视频信息中的文本词特征;将所述文本词特征中各词特征对应的频率大于预设频率阈值的第一目标词特征作为所述主题词特征;获取预设敏感词库,其中,所述预设敏感词库包括各敏感词的集合,并将所述文本
词特征中与所述预设敏感词库匹配的第二目标词特征作为所述敏感词特征。
14.可选地,所述提取模块还用于:对所述图片信息中的图片嵌入文本进行识别,得到文本词特征;和/或,对所述视频信息中的视频嵌入文本进行识别,得到视频词特征。
15.可选地,所述提取模块还用于:在所述视频信息中抽取视频关键帧;确定所述视频关键帧对应的各颜色以及各所述颜色对应的颜色分布占比;若各所述颜色中存在与预设敏感颜色相同的目标颜色,则检测所述目标颜色对应的目标颜色分布占比是否超过预设占比阈值;若所述目标颜色对应的目标颜色分布占比超过预设占比阈值,则对所述视频关键帧进行图像特征提取,得到敏感图片信息特征。
16.可选地,在所述根据所述主题敏感页面特征和预设异常域名检测模型,对所述目标域名进行异常域名检测,得到异常域名检测结果的步骤之前,所述异常域名检测装置还用于:获取各训练域名以及各所述训练域名对应的训练页面类型;根据各所述训练域名,查询所述域名知识图谱,得到各所述训练域名对应的训练页面信息;提取所述训练页面信息中的训练主题敏感页面特征,并将各所述训练主题敏感页面特征作为训练样本,将各所述训练页面类型分别作为各所述训练样本对应的真实标签;根据各所述训练样本和各所述训练样本对应的所述真实标签,对待训练异常域名检测模型进行迭代训练得到异常域名检测模型。
17.可选地,所述异常域名检测装置还用于:通过爬虫技术爬取各域名库中的域名信息,将各所述域名信息作为所述训练域名;获取人工标注的各所述域名信息对应的页面类型,得到所述训练页面类型。
18.本技术还提供一种电子设备,所述电子设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述异常域名检测方法的程序,所述异常域名检测方法的程序被处理器执行时可实现如上述的异常域名检测方法的步骤。
19.本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有实现异常域名检测方法的程序,所述异常域名检测方法的程序被处理器执行时实现如上述的异常域名检测方法的步骤。
20.本技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的异常域名检测方法的步骤。
21.本技术提供了一种异常域名检测方法、装置、电子设备及可读存储介质,相比于通过查询域名黑名单,以进行携带异常信息的异常域名的方法,本技术通过获取目标域名以及域名知识图谱;根据所述目标域名,查询所述域名知识图谱,得到所述目标域名对应的目标页面信息,其中,所述目标页面信息至少包括图片信息、文本信息和视频信息中的一种;提取所述目标页面信息中的主题敏感页面特征,其中,所述页面特征至少包括敏感词特征、主题词特征和敏感图片信息特征中的一种;根据所述主题敏感页面特征和预设异常域名检
测模型,对所述目标域名进行异常域名检测,得到异常域名检测结果,通过目标域名对应的目标页面信息构建的页面特征进行异常域名检测,打破了仅根据域名进行异常域名检测的局限性,克服了无法检测到其它不在域名黑名单的携带异常信息的异常域名的技术缺陷,从而提高了异常域名的检测准确性。
附图说明
22.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
23.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
24.图1为本技术异常域名检测方法第一实施例的流程示意图;图2为本技术异常域名检测方法涉及的一种异常域名检测模型的模型结构示意图;图3为本技术异常域名检测方法涉及的装置结构示意图;图4为本技术实施例中异常域名检测方法涉及的硬件运行环境的设备结构示意图。
25.本技术目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
26.为使本技术的上述目的、特征和优点能够更加明显易懂,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本技术保护的范围。
27.实施例一本技术实施例提供一种异常域名检测方法,在本技术异常域名检测方法的第一实施例中,参照图1,所述异常域名检测方法包括:步骤s10,获取目标域名以及域名知识图谱;步骤s20,根据所述目标域名,查询所述域名知识图谱,得到所述目标域名对应的目标页面信息,其中,所述目标页面信息至少包括图片信息、文本信息和视频信息中的一种;步骤s30,提取所述目标页面信息中的主题敏感页面特征,其中,所述页面特征至少包括敏感词特征、主题词特征和敏感图片信息特征中的一种;步骤s40,根据所述主题敏感页面特征和预设异常域名检测模型,对所述目标域名进行异常域名检测,得到异常域名检测结果。
28.在本实施例中,需要说明的是,所述目标域名为等待进行异常域名检测的域名。所述预设异常域名检测模型为训练好的对域名进行异常域名检测的模型。所述目标页面信息可以只包括图片信息或者只包括文本信息或者只包括视频信息,也可以包括图片信息和文
本信息的组合,或者,包括图片信息和视频信息的组合,或者,包括视频信息和文本信息的组合,还可以为图片信息、文本信息和视频信息的组合。
29.示例性地,步骤s10至步骤s40包括:获取目标域名以及域名知识图谱;根据所述目标域名,查询所述域名知识图谱,得到所述目标域名对应的图片信息和/或文本信息和/或视频信息;根据所述图片信息和/或所述文本信息和/或所述视频信息,提取所述目标页面信息中的主题敏感页面特征;通过预设异常域名检测模型将所述主题敏感页面特征映射为所述目标域名对应的异常域名检测结果。
30.作为一种示例,步骤s40包括:通过预设异常域名检测模型将所述页面特征映射为所述目标域名对应的域名分类信息,将所述域名分类信息作为所述异常域名检测结果,其中,所述域名分类信息包括正常域名类别和异常域名类别。
31.作为一种示例,步骤s40包括:通过预设异常域名检测模型将所述页面特征映射为所述目标域名为异常域名类别的概率,将所述概率作为所述异常域名检测结果,并判断所述异常域名检测结果是否大于预设概率阈值,若所述异常域名检测结果大于预设概率阈值,则判定所述目标域名为异常域名类别,若所述异常域名检测结果小于或等于预设概率阈值,则判定所述目标域名为正常域名类别。
32.作为一种示例,通过超链接关系构建目标域名与目标页面信息之间的关系。
33.其中,在步骤s30中,所述提取所述目标页面信息中的主题敏感页面特征的步骤包括:步骤s31,依据所述文本信息和/或所述图片信息和/或所述视频信息,提取得到所述敏感词特征和所述主题词特征;和/或,步骤s32,依据所述图片信息和/或所述视频信息,提取得到所述敏感图片信息特征。
34.示例性地,步骤s31至步骤s32包括:通过敏感图像特征提取器对所述图片信息进行提取得到所述图片信息中的敏感图片信息特征;和/或,将所述视频信息拆解为至少一个视频帧,通过所述敏感图像特征提取器对各所述视频帧进行提取得到各所述视频帧对应的敏感图片信息特征;和/或,通过敏感文本特征提取器对所述图片信息进行提取得到所述图片信息中的敏感词特征,以及,通过主题文本特征提取器对所述图片信息进行提取得到所述图片信息中的主题词特征;和/或,通过敏感文本特征提取器对所述文本信息进行提取得到所述文本信息中的敏感词特征,以及,通过主题文本特征提取器对所述文本信息进行提取得到所述文本信息中的主题词特征;和/或,通过敏感文本特征提取器对所述视频帧进行提取得到所述视频帧中的敏感词特征,以及,通过主题文本特征提取器对所述视频帧进行提取得到所述视频帧中的主题词特征。
35.其中,在步骤s31中,所述依据所述文本信息和/或所述图片信息和/或所述视频信息,提取得到所述敏感词特征和所述主题词特征的步骤包括:步骤a10,提取所述文本信息和/或所述图片信息和/或所述视频信息中的文本词特征;步骤a20,将所述文本词特征中各词特征对应的频率大于预设频率阈值的第一目标词特征作为所述主题词特征;步骤a30,获取预设敏感词库,其中,所述预设敏感词库包括各敏感词的集合,并将
所述文本词特征中与所述预设敏感词库匹配的第二目标词特征作为所述敏感词特征。
36.在本实施例中,需要说明的是,所述预设敏感词库为各敏感词的集合。所述预设频率阈值为预先设置的判定文本词特征出现频率较高的文本词特征对应的频率临界值。
37.示例性地,步骤a10至步骤a30包括:提取所述文本信息和/或所述图片信息和/或所述视频信息中的文本词特征;获取所述文本词特征中各词特征对应的频率,将各所述频率中大于预设频率阈值的第一目标词特征作为所述主题词特征;获取预设敏感词库,并将所述文本词特征中与所述预设敏感词库匹配的第二目标词特征作为所述敏感词特征。
38.作为一种示例,步骤a10包括:通过在线性时间内建立的行块分布函数图,定位目标页面信息中的文本信息,通过行块分布函数将获取目标域名对应的文本信息转化为求目标页面信息的行块分布函数问题,从而提高了获取文本信息的效率。
39.作为一种示例,步骤a10包括:提取所述图片信息中的图片文本特征,包括:通过python tesseract库对所述图片信息进行提取得到图片文本特征,其中,所述python tesseract是python的一个光学字符识别工具,可以用于识别并读取嵌入图像中的文本。
40.作为一种示例,步骤a10包括:提取所述视频信息中的视频文本特征,包括:根据所述视频信息,截取携带文本信息的视频文本帧,对各所述视频文本帧进行重复剔除处理;通过python tesseract库对处理后的各所述视频文本帧进行识别,得到所述视频信息中的视频文本特征。
41.作为一种示例,步骤a30包括:将所述文本词特征中与所述预设敏感词库中的敏感词特征相同的第二目标词特征作为所述敏感词特征。
42.作为一种示例,步骤a30包括:提取所述预设敏感词库的敏感词特征和各所述敏感词特征对应的敏感词同义特征,将所述文本词特征中与所述敏感词特征和/或所述敏感词同义特征相同的第二目标词特征作为所述敏感词特征。
43.作为一种示例,步骤a10至步骤a30包括:通过对所述文本信息去除停用词和去除重复词,对去除停用词和重复词以后的所述文本信息进行jieba分词,得到所述文本信息中的各字词,通过tfidf算法(term frequency
–
inverse document frequency,词频逆文本指数)对所述文本信息中的各字词进行计算,得到各所述字词对应的词频,根据各所述词频,在所述文本信息选取得到对应的主题词和关键词。
44.其中,在步骤s32中,依据所述视频信息,提取得到所述敏感图片信息特征的步骤包括:步骤b10,在所述视频信息中抽取视频关键帧;步骤b20,确定所述视频关键帧对应的各颜色以及各所述颜色对应的颜色分布占比;步骤b30,若各所述颜色中存在与预设敏感颜色相同的目标颜色,则检测所述目标颜色对应的目标颜色分布占比是否超过预设占比阈值;步骤b40,若所述目标颜色对应的目标颜色分布占比超过预设占比阈值,则对所述视频关键帧进行图像特征提取,得到敏感图片信息特征。
45.可以理解的是,可能存在不具备文字信息的异常信息,当异常信息为过度展示人类身体行为的信息时,仅对于页面信息的文本信息进行识别,无法完整地提取得到目标页面信息中的主题敏感页面特征。
46.在本实施例中,需要说明的是,所述预设敏感颜色为预先设置的人体颜色,由于各人种的人体颜色不同,因此,所述预设敏感颜色可以预设多个。
47.示例性地,步骤b10至步骤b40包括:在所述视频信息中抽取视频关键帧;确定所述视频关键帧对应的各颜色以及各所述颜色对应的颜色分布占比;判断各所述颜色中是否存在与预设敏感颜色相同的目标颜色,若各所述颜色中存在与预设敏感颜色相同的目标颜色,则检测所述目标颜色对应的目标颜色分布占比是否超过预设占比阈值;若各所述颜色中不存在与预设敏感颜色相同的目标颜色,则返回执行步骤:在所述视频信息中抽取视频关键帧,直至所述视频信息中各帧均抽取完毕;若所述目标颜色对应的目标颜色分布占比超过预设占比阈值,则对所述视频关键帧进行图像特征提取,得到敏感图片信息特征;若所述目标颜色对应的目标颜色分布占比不超过预设占比阈值,则返回执行步骤:在所述视频信息中抽取视频关键帧,直至所述视频信息中各帧均抽取完毕。
48.作为一种示例,步骤b10包括:确定所述训练视频信息中各帧两两之间的相似度,在各所述相似度中选取大于预设相似度阈值的目标帧作为所述训练关键帧。
49.可选地,所述依据所述图片信息,提取得到所述敏感图片信息特征的具体实施方式可参照上述步骤b10至步骤b40的具体实现内容,在此不作赘述。
50.通过对视频信息和/或图像信息中的敏感图片信息特征进行提取,从而可在视频信息和/或图像信息中不存在文本信息时,仍可实现对于其的特征提取,从而提高了目标页面信息中的主题敏感页面特征的提取完整性。
51.本技术实施例提供了一种异常域名检测方法,相比于通过查询域名黑名单,以进行携带异常信息的异常域名的方法,本技术实施例通过获取目标域名以及域名知识图谱;根据所述目标域名,查询所述域名知识图谱,得到所述目标域名对应的目标页面信息,其中,所述目标页面信息至少包括图片信息、文本信息和视频信息中的一种;提取所述目标页面信息中的主题敏感页面特征,其中,所述页面特征至少包括敏感词特征、主题词特征和敏感图片信息特征中的一种;根据所述主题敏感页面特征和预设异常域名检测模型,对所述目标域名进行异常域名检测,得到异常域名检测结果,通过目标域名对应的目标页面信息构建的页面特征进行异常域名检测,打破了仅根据域名进行异常域名检测的局限性,克服了无法检测到其它不在域名黑名单的携带异常信息的异常域名的技术缺陷,从而提高了异常域名的检测准确性。
52.实施例二进一步地,基于本技术第一实施例,在本技术另一实施例中,与上述实施例一相同或相似的内容,可以参考上文介绍,后续不再赘述。在此基础上,其中,在步骤s40中,在所述根据所述主题敏感页面特征和预设异常域名检测模型,对所述目标域名进行异常域名检测,得到异常域名检测结果的步骤之前,所述异常域名检测方法,还包括:步骤c10,获取各训练域名以及各所述训练域名对应的训练页面类型;步骤c20,根据各所述训练域名,查询所述域名知识图谱,得到各所述训练域名对应的训练页面信息;步骤c30,提取所述训练页面信息中的训练主题敏感页面特征,并将各所述训练主题敏感页面特征作为训练样本,将各所述训练页面类型分别作为各所述训练样本对应的真实标签;
步骤c40,根据各所述训练样本和各所述训练样本对应的所述真实标签,对待训练异常域名检测模型进行迭代训练得到异常域名检测模型。
53.示例性地,步骤a10至步骤a30包括:获取各训练域名以及各所述训练域名对应的训练页面类型;根据各所述训练域名,查询所述域名知识图谱,得到各所述训练域名对应的训练页面信息;提取所述训练页面信息中的训练主题敏感页面特征,并将各所述训练主题敏感页面特征作为训练样本,将各所述训练页面类型分别作为各所述训练样本对应的真实标签;通过待训练异常域名检测模型将所述训练样本映射为预测标签;根据所述预测标签和所述真实标签之间的差异度,构建所述待训练异常域名检测模型对应的模型损失;判断所述模型损失是否收敛,若收敛,则将所述待训练异常域名检测模型作为异常域名检测模型,若未收敛,则根据所述模型损失计算的梯度,更新所述待训练异常域名检测模型,并返回执行步骤:获取各训练域名以及各所述训练域名对应的训练页面类型,直至计算得到的模型损失收敛。
54.作为一种示例,参照图2,图2为本技术异常域名检测方法涉及的一种异常域名检测模型的模型结构示意图,所述异常域名检测模型包括输入层、嵌入层、编码层、输出层,在输入层,将所述目标页面信息中的主题敏感页面特征作为输入词序列处理,表示成词及其n-gram形式,其中,可将各主题敏感页面特征按照各自对应的词频排序,得到排序结果,并在排序结果中选取预设数量的特征作为输入词。嵌入层利用不同的embedding方式对输入层的输入数据进行编码,将主题敏感页面特征中的主题词特征和敏感词特征输入转换为词向量,可以使用预训练、随机、位置等不同方法进行embedding。编码层的输入为embedding后的数据,对嵌入层输出的信息进行编码表示,可使用不同的算法进行encoder,比如fasttext、cnn、rcnn、transformer等。输出层输出异常域名检测的检测结果。该层对编码层输出的信息做基于目标分类任务的转换,可以使用多种损失函数,如softmax/sigmoid交叉熵、focal loss等。
55.其中,在步骤c10中,所述获取各训练域名以及各所述训练域名对应的训练页面类型的步骤包括:步骤c11,通过爬虫技术爬取各域名库中的域名信息,将各所述域名信息作为所述训练域名;步骤c12,获取人工标注的各所述域名信息对应的页面类型,得到所述训练页面类型。
56.本技术实施例提供了一种异常域名检测方法,相比于通过查询域名黑名单,以进行携带异常信息的异常域名的方法,本技术实施例通过获取目标域名以及域名知识图谱;根据所述目标域名,查询所述域名知识图谱,得到所述目标域名对应的目标页面信息,其中,所述目标页面信息至少包括图片信息、文本信息和视频信息中的一种;提取所述目标页面信息中的主题敏感页面特征,其中,所述页面特征至少包括敏感词特征、主题词特征和敏感图片信息特征中的一种;根据所述主题敏感页面特征和预设异常域名检测模型,对所述目标域名进行异常域名检测,得到异常域名检测结果,通过目标域名对应的目标页面信息构建的页面特征进行异常域名检测,打破了仅根据域名进行异常域名检测的局限性,克服了无法检测到其它不在域名黑名单的携带异常信息的异常域名的技术缺陷,从而提高了异常域名的检测准确性。
57.实施例三本技术实施例还提供一种异常域名检测装置,参照图3,所述异常域名检测装置包括:获取模块,用于获取目标域名以及域名知识图谱;查询模块,用于根据所述目标域名,查询所述域名知识图谱,得到所述目标域名对应的目标页面信息,其中,所述目标页面信息至少包括图片信息、文本信息和视频信息中的一种;提取模块,用于提取所述目标页面信息中的主题敏感页面特征,其中,所述页面特征至少包括敏感词特征、主题词特征和敏感图片信息特征中的一种;检测模块,用于根据所述主题敏感页面特征和预设异常域名检测模型,对所述目标域名进行异常域名检测,得到异常域名检测结果。
58.可选地,所述提取模块还用于:依据所述文本信息和/或所述图片信息和/或所述视频信息,提取得到所述敏感词特征和所述主题词特征;和/或,依据所述图片信息和/或所述视频信息,提取得到所述敏感图片信息特征。
59.可选地,所述提取模块还用于:提取所述文本信息和/或所述图片信息和/或所述视频信息中的文本词特征;将所述文本词特征中各词特征对应的频率大于预设频率阈值的第一目标词特征作为所述主题词特征;获取预设敏感词库,其中,所述预设敏感词库包括各敏感词的集合,并将所述文本词特征中与所述预设敏感词库匹配的第二目标词特征作为所述敏感词特征。
60.可选地,所述提取模块还用于:对所述图片信息中的图片嵌入文本进行识别,得到文本词特征;和/或,对所述视频信息中的视频嵌入文本进行识别,得到视频词特征。
61.可选地,所述提取模块还用于:在所述视频信息中抽取视频关键帧;确定所述视频关键帧对应的各颜色以及各所述颜色对应的颜色分布占比;若各所述颜色中存在与预设敏感颜色相同的目标颜色,则检测所述目标颜色对应的目标颜色分布占比是否超过预设占比阈值;若所述目标颜色对应的目标颜色分布占比超过预设占比阈值,则对所述视频关键帧进行图像特征提取,得到敏感图片信息特征。
62.可选地,在所述根据所述主题敏感页面特征和预设异常域名检测模型,对所述目标域名进行异常域名检测,得到异常域名检测结果的步骤之前,所述异常域名检测装置还用于:获取各训练域名以及各所述训练域名对应的训练页面类型;根据各所述训练域名,查询所述域名知识图谱,得到各所述训练域名对应的训练页面信息;提取所述训练页面信息中的训练主题敏感页面特征,并将各所述训练主题敏感页面特征作为训练样本,将各所述训练页面类型分别作为各所述训练样本对应的真实标签;
根据各所述训练样本和各所述训练样本对应的所述真实标签,对待训练异常域名检测模型进行迭代训练得到异常域名检测模型。
63.可选地,所述异常域名检测装置还用于:通过爬虫技术爬取各域名库中的域名信息,将各所述域名信息作为所述训练域名;获取人工标注的各所述域名信息对应的页面类型,得到所述训练页面类型。
64.本技术提供的异常域名检测装置,采用上述实施例中的异常域名检测方法,解决了异常域名的检测准确性较低的技术问题。与现有技术相比,本技术实施例提供的异常域名检测装置的有益效果与上述实施例提供的异常域名检测方法的有益效果相同,且该异常域名检测装置中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
65.实施例四本技术实施例提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施例中的异常域名检测方法。
66.下面参考图4,其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
67.如图4所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(rom)中的程序或者从存储装置加载到随机访问存储器(ram)中的程序而执行各种适当的动作和处理。在ram中,还存储有电子设备操作所需的各种程序和数据。处理装置、rom以及ram通过总线彼此相连。输入/输出(i/o)接口也连接至总线。
68.通常,以下系统可以连接至i/o接口:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种系统的电子设备,但是应理解的是,并不要求实施或具备所有示出的系统。可以替代地实施或具备更多或更少的系统。
69.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装,或者从rom被安装。在该计算机程序被处理装置执行时,执行本公开实施例的方法中限定的上述功能。
70.本技术提供的电子设备,采用上述实施例中的异常域名检测方法,解决了异常域名的检测准确性较低的技术问题。与现有技术相比,本技术实施例提供的电子设备的有益效果与上述实施例提供的异常域名检测方法的有益效果相同,且该电子设备中的其他技术
特征与上述实施例方法公开的特征相同,在此不做赘述。
71.应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
72.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
73.实施例五本实施例提供一种计算机可读存储介质,具有存储在其上的计算机可读程序指令,计算机可读程序指令用于执行上述实施例中的异常域名检测方法的方法。
74.本技术实施例提供的计算机可读存储介质例如可以是u盘,但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
75.上述计算机可读存储介质可以是电子设备中所包含的;也可以是单独存在,而未装配入电子设备中。
76.上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被电子设备执行时,使得电子设备:获取目标域名以及域名知识图谱;根据所述目标域名,查询所述域名知识图谱,得到所述目标域名对应的目标页面信息,其中,所述目标页面信息至少包括图片信息、文本信息和视频信息中的一种;提取所述目标页面信息中的主题敏感页面特征,其中,所述页面特征至少包括敏感词特征、主题词特征和敏感图片信息特征中的一种;根据所述主题敏感页面特征和预设异常域名检测模型,对所述目标域名进行异常域名检测,得到异常域名检测结果。
77.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
78.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用
于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
79.描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该单元本身的限定。
80.本技术提供的计算机可读存储介质,存储有用于执行上述异常域名检测方法的计算机可读程序指令,解决了异常域名的检测准确性较低的技术问题。与现有技术相比,本技术实施例提供的计算机可读存储介质的有益效果与上述实施提供的异常域名检测方法的有益效果相同,在此不做赘述。
81.实施例六本技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的异常域名检测方法的步骤。
82.本技术提供的计算机程序产品解决了异常域名的检测准确性较低的技术问题。与现有技术相比,本技术实施例提供的计算机程序产品的有益效果与上述实施例提供的异常域名检测方法的有益效果相同,在此不做赘述。
83.以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利处理范围内。