1.本发明涉及数字化传输安全技术领域,具体为基于计算机大数据的数字化传输安全分析系统及方法。
背景技术:
2.数字化传输是指将数据、信息或文件以数字形式从一个地方传送到另一个地方的过程,常见的数字化传输方式包括网络传输、无线传输、数字音视频传输、数字存储媒体传输、虚拟私有网络传输和数字电视传输等,数字化传输具有高效率、高准确性、灵活度高、高可靠性和便于共享的优点,使得它在许多领域中得到广泛应用,例如通信、媒体和娱乐、金融、医疗等;数字化传输为数据的传输、存储和处理提供了更高效和方便的j9九游会真人的解决方案,然而,数字化传输也面临一些安全问题,例如数据泄露、网络攻击、身份盗窃等问题,当遇到安全问题时,如何快速确定安全问题的类型,最好能在安全问题发生之前提前确定将要发生的安全问题的类型成为一个待解决的问题。
技术实现要素:
3.本发明的目的在于提供基于计算机大数据的数字化传输安全分析系统及方法,以解决上述背景技术中提出的问题。
4.第一方面,提供基于计算机大数据的数字化传输安全分析系统,包括:数据库、数据采集模块、数据分析模块;所述数据库的输出端与所述数据分析模块的输入端相互连接,用于存储数字化传输过程中发生的安全事件和安全事件发生前的安全特征数据;所述数据采集模块的输出端与所述数据分析模块的输入端相互连接,用于采集数字化传输过程中的安全特征数据;所述数据分析模块将采集到的安全特征数据与数据库的安全特征数据作对比,确定安全事件的类型。
5.确定安全事件的类型之后,服务器能够及时采取与安全事件对应的措施来处理安全事件,提高了解决安全事件的效率。
6.安全事件是指在数据传输过程中发生的威胁和攻击行为,可能导致敏感信息泄露、数据篡改、身份欺诈等安全问题,安全事件类型包括但不限于数据泄露、窃听和监听、中间人攻击、拒绝服务攻击和sql注入攻击。
7.第二方面,提供基于计算机大数据的数字化传输安全分析方法,包括以下步骤:
8.s1-1,数据采集模块获取安全特征数据,将安全特征数据发送到数据分析模块;所述安全特征数据包括连续特征数据和离散特征数据,所述离散特征数据仅包括是和否两种情况,所述连续特征数据包括多种情况;所述离散特征数据包括自动启动或关闭、非法下载或安装、未经授权的访问、文件损坏等;若离散特征数据和历史离散特征数据不同,则将对于离散特征数据赋值为1,例如历史安全事件中检测到未经授权的访问,若本次安全事件中未检测到未经授权的访问,则将本次离散特征数据中的未经授权访问特征赋值为0,若本次安全事件检测到未经授权的访问,则将本次离散特征数据中的未经授权访问特征赋值为1;
所述连续特征数据包括网络流量、数据包传输频率、登录尝试失败次数和登录错误的频率数据等;
9.s1-2,数据分析模块对接收到的安全特征数据逐个进行分析,并从数据库中获取历史安全事件的安全特征数据,分析每个安全特征数据与历史安全特征数据的匹配度;
10.s1-3,数据分析模块对每个安全特征数据分析得到匹配度,在数字化传输过程中再对得到的匹配度进行分析得到匹配度的变化率;
11.s1-4,数据分析模块分析所有安全特征数据与历史安全特征数据的匹配度和匹配度变化率,根据分析结果确定安全事件的类型;
12.s1-5,确定安全事件类型之后,根据安全事件的类型执行处理措施。
13.在步骤s1-2中,所述分析每个安全特征数据与历史安全特征数据的匹配度还包括以下步骤:
14.s3-1,数据分析模块从数据库中获取历史安全特征数据,从历史安全特征数据的历史连续特征数据中,提取出连续特征曲线;每次出现安全事件,该安全事件的每个连续特征数据都存在一条连续特征曲线,随着安全事件出现次数增加和安全事件类型增加,连续特征曲线的数量越来越多,因此需要对连续特征曲线进行提取达到减少数量的目的;
15.s3-2,数据分析模块对步骤s3-1中提取的连续特征曲线和从数据采集模块获取的安全特征数据中的连续特征数据a
ijk
之间的差异进行分析,计算每个连续特征数据a
ijk
与连续特征曲线之间的均方根误差r
ijk
,i为区间[1,n]之间的正整数,j为区间[1,m]之间的正整数,k为区间[1,ci]之间的正整数,n为安全事件类型的个数,m为连续特征数据的个数,ci为第i个安全事件发生的次数;当n为1时,i的取值范围仅有1;当m为1时,j的取值范围仅有1;当ci为1时,k的取值范围仅有1;
[0016]
s3-3,数据分析模块对从数据采集模块获取的安全特征数据中的离散特征数据和从数据库中获取的历史离散特征数据的差异进行分析,对比每个离散特征数据和每个历史离散特征数据的差异c
ivk
,若离散特征数据和历史离散特征数据相同,则c
ivk
=1,否则c
ivk
=0,v为区间[1,b]之间的正整数,b为离散特征数据的个数,当b为1时,v的取值范围仅有1;
[0017]
s3-4,数据分析模块根据连续特征数据a
ijk
与连续特征曲线之间的差异和离散特征数据与历史离散特征数据的差异,分析得到所有安全特征数据与所有历史安全特征数据的匹配度f
ik
,计算公式为:
[0018][0019]
其中,μ
ijk
为第k次发生的第i个安全事件的第j个连续特征数据的均值,w
ij
为第i个安全事件的第j个连续特征数据的权值,ρi为第i个安全事件的离散特征数据的权值;新的数字化传输连续特征曲线与出现安全问题的历史连续特征曲线相似度越高,即均方根误差rmse值越小,新的数字化传输就越有可能发送和历史连续特征曲线对应的安全问题,因此匹配度与rmse值成反比,将rmse值和连续特征数据的均值作比值,以消除不同连续特征尺度的影响;离散特征与历史离散特征数据相同的个数越多,新的数字化传输与出现安全问题的历史数字化传输的相似度越高,因此匹配度与成c
ivk
正比。
[0020]
在步骤s3-1中,数据分析模块对所有历史安全特征数据的历史连续特征数据进行分析,从所有历史安全特征数据的历史连续特征数据中提取出连续特征曲线还包括以下分
析步骤:
[0021]
s4-1,数据分析模块初始化i、j和k标签,设置i=1,j=1,k=1,i作为安全事件类型的标签,j作为连续特征的标签,k作为同一安全事件发生次数的标签;
[0022]
s4-2,数据分析模块对第k次发生的第i个安全事件的第j个连续特征数据a
ijk
,绘制每次该安全事件发生前,连续特征数据a
ijk
的曲线;
[0023]
s4-3,j=j 1,若j=m 1,进入s4-4,否则进入s4-2;
[0024]
s4-4,j=1,k=k 1,若k=ci 1,进入s4-5,否则进入s4-2;
[0025]
s4-5,i=i 1,j=1,k=1,若i=n 1,进入s4-6,否则进入s4-2;
[0026]
s4-6,数据分析模块分析属于同一安全事件同一连续特征的任意两个曲线之间的差异,采用均方根误差来表征两个曲线之间的差异,计算属于同一安全事件同一连续特征的任意两个曲线之间的均方根误差,若均方根误差小于阈值l,则数据分析模块将两条曲线合并为一条,并删除原来的曲线,阈值l自行进行设置,若大于,则不进行合并,两条曲线都被保留;
[0027]
s4-7,数据分析模块提取合并后剩余的曲线,得到减少数量后的连续特征曲线,结束。
[0028]
阈值l越小,则保留的连续特征曲线越多,确定安全事件类型的效果越好,但对硬件设施的要求也更高;阈值l越大,则保留的连续特征曲线越少,对硬件设施的要求较少,确定安全事件类型的准确度会降低,用户可根据自身实际情况选择合适的阈值l;不同类型的安全事件,它们的连续特征曲线是不相同的;对于多次发生的相同类型的安全事件,可能有多种连续特征曲线都能够引发相同的安全事件,因此连续特征曲线的数量取决于安全事件类型和安全事件发生的次数;任意两条连续特征曲线进行合并时,采用两条连续特征曲线的平均值形成新的连续特征曲线;而两条连续特征曲线对应的离散特征,采用覆盖的形式,即只要有任意一个连续特征曲线对应的离散特征为1,那么合并后的离散特征数据就为1。
[0029]
数据分析模块分析各个连续特征对数字化传输的影响程度,根据影响程度确定连续特征的权值w
ij
,再根据连续特征的权值w
ij
确定离散特征的权值ρi,包括以下分析步骤:
[0030]
s5-1,数据分析模块初始化安全事件类型标签i和连续特征标签j,设置i=1,j=1;
[0031]
s5-2,计算ci次发生的第i个安全事件的每个连续特征均值次发生的第i个安全事件的每个连续特征均值次发生的第i个安全事件的每个连续特征均值
[0032]
s5-3,j=j 1,若j=m 1,则进入s5-4,否则进入s5-2;
[0033]
s5-4,i=i 1,j=1,若i=n 1,则进入s5-5,否则进入s5-2;
[0034]
s5-5,数据分析模块将得到的所有拼接,得到n个m维向量:
[0035]
s5-6,数据分析模块随机选择x个未发生安全事件的历史事件,从这x个未发生安全事件的历史事件中提取连续特征,x由用户自行进行选择,其连续特征分别为[b
11
ꢀ…ꢀb1m
]、
…
、[b
x1
ꢀ…ꢀbxm
],分析这些未发生安全事件的历史事件的连续特征与s5-5中n个向量
的差异,对均方根误差σ
ij
进行计算,公式如下:
[0036][0037]
s5-7,数据分析模块根据获得的σ
ij
确定连续特征的权值w
ij
,根据连续特征的权值w
ij
确定离散特征的权值ρi,
[0038]
对于同一类型的安全事件来说,可能在历史数据中发生过很多次,因此计算各个连续特征的均值来将连续特征数据的数量减少到1个,同时由于连续特征数据来自于同一个安全事件,各个连续特征的趋势主体基本一致,不会出现大范围的正负抵消的情况;各个连续特征对数字化传输的影响是不一样的,为出现问题的历史数据与续特征的均值的均方根误差越大,说明发生安全事件需要的连续特征变化越大,因此连续特征和均方根误差的倒数成正相关,将所有均方根误差的倒数按照比例分配之后即得到了权值w
ij
;离散特征需要和连续特征的尺度保持一致,所以离散特征权值由连续特征权值来决定,这里选取连续特征权值的均值;对于不同类型的安全事件,各个连续特征对数字化传输的安全性影响不同,因此连续特征权值需要按照安全事件的类型分别进行计算,从而离散特征也需要按照安全事件的类型分别进行计算。
[0039]
在步骤s1-3中,匹配度变化率还包括以下分析步骤:
[0040]
s6-1,在数字化传输经过第一个采样周期t后,数据分析模块获取第一个采样周期t内所有安全特征数据与历史安全特征数据的匹配度f
ik(1)
;
[0041]
s6-2,数据分析模块初始化计数标志α,设置α=1,并且设定第一个采样周期t内的匹配度变化率为0,δf
ik(1)
=0;
[0042]
s6-3,等待一个采样周期t后,数据分析模块获取等待的一个采样周期t内所有安全特征数据与历史安全特征数据的匹配度f
ik(α 1)
,进而得到等待的一个采样周期t的匹配度变化率δf
ik(α 1)
,采用周期t根据情况进行设置;
[0043]
s6-4,数据分析模块将计数标志加一,设置α=α 1,重新进入步骤s6-3,对下一个采样周期t内的匹配度和匹配度变化率进行分析,数字化传输完成退出循环。
[0044]
在整个数字化传输的过程中,都有可能发生安全事件,因此匹配度变化率和匹配度都需要不断的更新和增加;匹配度反映的是当前时刻的情况,而变化率反映下一时刻的情况,因此匹配度和匹配度变化率都会对是否发生安全事件产生影响。
[0045]
将匹配度f
ik(α)
和匹配度变化率δf
ik(α)
作为输入,输入到n个二分类神经网络模型中,n即为安全事件类型的个数,根据n个二分类神经网络模型的输出结果判断安全事件的类型,每个神经网络模型负责对一个安全事件进行识别,各个神经网络模型相互之间没有关联,可以同时识别出多个安全事件。
[0046]
n个二分类神经网络模型采用未发生安全事件的历史数据和历史安全数据进行训练,首先计算出未发生安全事件的历史数据历史安全数据的匹配度和匹配度变化率,每个神经网络模型的输入维度不完全相同,取决于各自对应的安全事件发生的次数和减少数量
后的连续特征曲线个数,输出则为分类结果,根据分类结果可以确定安全事件发生或是不发生。
[0047]
与现有技术相比,本发明所达到的有益效果是:基于数字化传输过程中的安全特征数据,计算安全特征数据与历史安全事件对应的安全特征数据的匹配度和匹配度变化率,根据匹配度和匹配度变化率在安全事件发生之前或者在安全事件发生后及时确定安全事件的类型,降低数字化传输过程中的威胁。
附图说明
[0048]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0049]
图1是本发明实施例基于计算机大数据的数字化传输安全分析方法的流程图;
[0050]
图2是本发明实施例从历史连续特征数据中提取出连续特征曲线的流程图;
[0051]
图3是本发明实施例基于计算机大数据的数字化传输安全分析系统的结构示意图。
具体实施方式
[0052]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0053]
在本发明实施例的一个方面,提供基于计算机大数据的数字化传输安全分析系统,包括:数据库、数据采集模块、数据分析模块;所述数据库的输出端与所述数据分析模块的输入端相互连接,用于存储数字化传输过程中发生的安全事件和安全事件发生前的安全特征数据;所述数据采集模块的输出端与所述数据分析模块的输入端相互连接,用于采集数字化传输过程中的安全特征数据;所述数据分析模块将采集到的安全特征数据与数据库的安全特征数据作对比,确定安全事件的类型。
[0054]
数据采集模块包括但不限于网络扫描器、网络嗅探工具、防火墙、网络诊断工具、ids和ips,用于采集数字化传输过程中的安全特征数据,安全特征数据包括连续特征数据和离散特征数据,连续特征数据包括但不限于网络流量、数据包传输频率、登录尝试失败次数和登录错误的频率,离散特征数据包括但不限于自动启动或关闭、非法下载或安装、未经授权的访问、文件损坏,离散特征数据仅存在有或者没有的区别,不进行定量。
[0055]
数据分析模块从数据采集模块获取安全特征数据,从数据库中获取历史安全特征数据,按照图1的流程判断安全事件的类型,具体包括以下步骤:
[0056]
s1-1,数据采集模块获取安全特征数据,将安全特征数据发送到数据分析模块;所述安全特征数据包括连续特征数据和离散特征数据,所述离散特征数据仅包括是和否两种情况,所述连续特征数据包括多种情况;所述离散特征数据包括自动启动或关闭、非法下载或安装、未经授权的访问、文件损坏等;若离散特征数据和历史离散特征数据不同,则将对于离散特征数据赋值为1,例如历史安全事件中检测到未经授权的访问,若本次安全事件中未检测到未经授权的访问,则将本次离散特征数据中的未经授权访问特征赋值为0,若本次
安全事件检测到未经授权的访问,则将本次离散特征数据中的未经授权访问特征赋值为1;所述连续特征数据包括网络流量、数据包传输频率、登录尝试失败次数和登录错误的频率数据等;
[0057]
s1-2,数据分析模块对接收到的安全特征数据逐个进行分析,并从数据库中获取历史安全事件的安全特征数据,分析每个安全特征数据与历史安全特征数据的匹配度;
[0058]
s1-3,数据分析模块对每个安全特征数据分析得到匹配度,在数字化传输过程中再对得到的匹配度进行分析得到匹配度的变化率;
[0059]
s1-4,数据分析模块分析所有安全特征数据与历史安全特征数据的匹配度和匹配度变化率,根据分析结果确定安全事件的类型;
[0060]
s1-5,确定安全事件类型之后,根据安全事件的类型执行处理措施。
[0061]
在步骤s1-2中,还包括以下分析步骤:
[0062]
s3-1,数据分析模块从数据库中获取历史安全特征数据,从历史安全特征数据的历史连续特征数据中,提取出连续特征曲线;每次出现安全事件,该安全事件的每个连续特征数据都存在一条连续特征曲线,随着安全事件出现次数增加和安全事件类型增加,连续特征曲线的数量越来越多,因此需要对连续特征曲线进行提取达到减少数量的目的;
[0063]
s3-2,数据分析模块对步骤s3-1中提取的连续特征曲线和从数据采集模块获取的安全特征数据中的连续特征数据a
ijk
之间的差异进行分析,计算每个连续特征数据a
ijk
与连续特征曲线之间的均方根误差r
ijk
,i为区间[1,5]之间的正整数,j为区间[1,4]之间的正整数,k为区间[1,ci]之间的正整数,ci为第i个安全事件发生的次数;当ci为1时,k的取值范围仅有1;
[0064]
s3-3,数据分析模块对从数据采集模块获取的安全特征数据中的离散特征数据和从数据库中获取的历史离散特征数据的差异进行分析,对比每个离散特征数据和每个历史离散特征数据的差异c
ivk
,若离散特征数据和历史离散特征数据相同,则c
ivk
=1,否则c
ivk
=0,v为区间[1,4]之间的正整数;
[0065]
s3-4,数据分析模块根据连续特征数据a
ijk
与连续特征曲线之间的差异和离散特征数据与历史离散特征数据的差异,分析得到所有安全特征数据与所有历史安全特征数据的匹配度f
ik,
计算公式为:
[0066][0067]
其中,μ
ijk
为第k次发生的第i个安全事件的第j个连续特征数据的均值,w
ij
为第i个安全事件的第j个连续特征数据的权值,ρi为第i个安全事件的离散特征数据的权值。
[0068]
在步骤s3-1中,还包括以下分析步骤:
[0069]
s4-1,数据分析模块初始化i、j和k标签,设置i=1,j=1,k=1,i作为安全事件类型的标签,j作为连续特征的标签,k作为同一安全事件发生次数的标签;
[0070]
s4-2,数据分析模块对第k次发生的第i个安全事件的第j个连续特征数据a
ijk
,绘制每次该安全事件发生前,连续特征数据a
ijk
的曲线;
[0071]
s4-3,j=j 1,若j=5,进入s4-4,否则进入s4-2;
[0072]
s4-4,j=1,k=k 1,若k=ci 1,进入s4-5,否则进入s4-2;
[0073]
s4-5,i=i 1,j=1,k=1,若i=6,进入s4-6,否则进入s4-2;
[0074]
s4-6,数据分析模块分析属于同一安全事件同一连续特征的任意两个曲线之间的差异,采用均方根误差来表征两个曲线之间的差异,计算属于同一安全事件同一连续特征的任意两个曲线之间的均方根误差,若均方根误差小于阈值l,则数据分析模块将两条曲线合并为一条,并删除原来的曲线,阈值l设置为1,也可根据数据特点自行进行设置;若大于,则不进行合并,两条曲线都被保留;
[0075]
s4-7,数据分析模块提取合并后剩余的曲线,得到减少数量后的连续特征曲线,结束。
[0076]
安全特征包括连续特征和离散特征,连续特征曲线合并时,安全特征也需要进行合并;任意两条连续特征曲线进行合并时,采用两条连续特征曲线的平均值形成新的连续特征曲线;而两条连续特征曲线对应的离散特征,采用覆盖的形式,即只要有任意一个连续特征曲线对应的离散特征为1,那么合并后的离散特征数据就为1。
[0077]
数据分析模块分析各个连续特征对数字化传输的影响程度,根据影响程度确定连续特征的权值w
ij
,再根据连续特征的权值w
ij
确定离散特征的权值ρi,包括以下分析步骤:
[0078]
s5-1,数据分析模块初始化安全事件类型标签i和连续特征标签j,设置i=1,j=1;
[0079]
s5-2,计算ci次发生的第i个安全事件的每个连续特征均值次发生的第i个安全事件的每个连续特征均值次发生的第i个安全事件的每个连续特征均值
[0080]
s5-3,j=j 1,若j=m 1,则进入s5-4,否则进入s5-2;
[0081]
s5-4,i=i 1,j=1,若i=n 1,则进入s5-5,否则进入s5-2;
[0082]
s5-5,数据分析模块将得到的所有拼接,得到5个4维向量:
[0083]
s5-6,数据分析模块随机选择x个未发生安全事件的历史事件,x设置为100,也可由用户自行进行选择,从这x个未发生安全事件的历史事件中提取连续特征,x由用户自行进行选择,其连续特征分别为[b
11
ꢀ…ꢀb14
]、
…
、[b
x1
ꢀ…ꢀbx4
],分析这些未发生安全事件的历史事件的连续特征与s5-5中向量的差异,对均方根误差σ
ij
进行计算,公式如下:
[0084][0085]
s5-7,数据分析模块根据获得的σ
ij
确定连续特征的权值w
ij
,根据连续特征的权值w
ij
确定离散特征的权值ρi,
[0086]
在步骤s1-3中,匹配度变化率还包括以下分析步骤:
[0087]
s6-1,在数字化传输经过第一个采样周期t后,数据分析模块获取第一个采样周期t内所有安全特征数据与历史安全特征数据的匹配度f
ik(1)
;
[0088]
s6-2,数据分析模块初始化计数标志α,设置α=1,并且设定第一个采样周期t内的
匹配度变化率为0,δf
ik(1)
=0;
[0089]
s6-3,等待一个采样周期t后,数据分析模块获取等待的一个采样周期t内所有安全特征数据与历史安全特征数据的匹配度f
ik(α 1)
,进而得到等待的一个采样周期t的匹配度变化率δf
ik(α 1)
,采用周期t设置为1秒,也可根据情况进行设置;
[0090]
s6-4,数据分析模块将计数标志加一,设置α=α 1,重新进入步骤s6-3,对下一个采样周期t内的匹配度和匹配度变化率进行分析,数字化传输完成退出循环。
[0091]
在整个数字化传输的过程中,都有可能发生安全事件,因此匹配度变化率和匹配度都需要不断的更新和增加;匹配度反映的是当前时刻的情况,而变化率反映下一时刻的情况,因此匹配度和匹配度变化率都会对是否发生安全事件产生影响。
[0092]
将匹配度f
ik(α)
和匹配度变化率δf
ik(α)
作为输入,通过5个神经网络模型进行二分类任务,每个神经网络模型负责对一个安全事件进行识别,各个神经网络模型相互之间没有关联,可以同时识别出多个安全事件。
[0093]
5个神经网络模型采用未发生安全事件的历史数据和历史安全数据进行训练,首先计算出未发生安全事件的历史数据历史安全数据的匹配度和匹配度变化率,每个神经网络模型的输入维度不完全相同,取决于各自对应的安全事件发生的次数和减少数量后的连续特征曲线个数,输出则为分类结果,根据分类结果可以确定安全事件发生或是不发生。
[0094]
确定安全事件的类型之后,就能够根据安全事件的类型进行相应的处理,降低数字化传输过程中的风险。
[0095]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0096]
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。