一种大数据网络安全数据传输方法转让专利

申请号 : CN202211368323.7

文献号 : CN115695019B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 冯景钊刘浩王家伟

申请人 : 深圳有方信息技术有限公司

摘要 :

本发明涉及数据加密传输领域,具体涉及一种大数据网络安全数据传输方法,收集网站被攻击的日志数据集信息并进行规范化处理,得到规范化的数据集;提取数据集中的每条数据的日志数据信息特征;根据攻击对象对数据集进行分组,得到各数据组;对于每个数据组的数据,基于数据的时间戳、攻击来源以及攻击方式的信息特征进行权重分配,得到对应信息特征的投票权重;利用投票权重对各数据组进行数据加权,获取加权数据信息,进而得到加权数据信息集;根据加权数据信息集,对所有数据组进行分层,对各层进行加密,不同层的加密方式不同。本发明的方案能够根据数据特征进行筛选分类,对筛选分类后的日志进行不同的加密,提高传输的可靠性。

权利要求 :

1.一种大数据网络安全数据传输方法,其特征在于,包括以下步骤:收集网站被攻击的日志数据集信息并进行规范化处理,得到规范化的数据集;

提取所述数据集中的每条数据的日志数据信息特征,包括时间戳、攻击来源、攻击对象以及攻击方式;根据所述攻击对象对所述数据集进行分组,得到各数据组;对于每个数据组的数据,基于数据的时间戳、攻击来源以及攻击方式的信息特征进行权重分配,得到对应信息特征的投票权重;

利用所述投票权重对各数据组进行数据加权,获取加权数据信息,进而得到加权数据信息集;

根据所述加权数据信息集,对所有数据组进行分层,对各层进行加密,不同层的加密方式不同;

对应信息特征的投票权重为:

时间戳的投票权重 为:

其中, 为邻域内数据密度,D为邻域总

个数;

攻击来源的投票权重 为:

其中,

为第m个数据被攻击的攻击来源, 为第m个攻击来源的次数, 为攻击来源的总个数 ; 为所 有不同 个攻 击来 源的 攻击 次数 的 均值 ,表示为第m个攻击来源攻击次数的权值;

攻击方式的投票权重 为:

其中, 为数据被第h种攻击方式攻击后所产生的新数据,H为攻击方式的总个数;

加权数据信息为:

其中, 为时间戳的投票权重, 为攻击来源

的投票权重, 攻击方式的投票权重, 为第b个数据组的数据总个数。

2.根据权利要求1所述的一种大数据网络安全数据传输方法,其特征在于,所述分组的过程为:统计每条数据的攻击来源,获得攻击对象标签序列,利用所述攻击对象标签序列对数据集中所有数据进行聚类,每条数据攻击对象标签序列相同的视为一类,最后根据类别将数据分组。

3.根据权利要求1所述的一种大数据网络安全数据传输方法,其特征在于,对所有数据组进行分层的过程为:计算所述加权数据信息集的均值,根据所述均值,确定第一阈值和第二阈值,所述第一阈值小于第二阈值;

按照各加权数据信息的升序排列的方式,将小于第一阈值的加权数据信息对应的数据组,作为第一层数据,将大于第一阈值小于第二阈值的加权数据信息对应的数据组,作为第二层数据,将大于第二阈值的加权数据信息对应的数据组,作为第三层数据。

4.根据权利要求3所述的一种大数据网络安全数据传输方法,其特征在于,所述不同层的加密方式不同,具体为:对第一层数据不加密,对第二层数据进行部分加密,对第三层数据进行全部加密处理。

5.根据权利要求3所述的一种大数据网络安全数据传输方法,其特征在于,所述不同层的加密方式不同,具体为:对第一层数据、第二层数据以及第三层数据分别采用不同的加密算法进行加密。

说明书 :

一种大数据网络安全数据传输方法

技术领域

[0001] 本发明涉及数据加密传输领域,具体涉及一种大数据网络安全数据传输方法。

背景技术

[0002] 随着科技发展,电子信息技术已经逐步趋向于成熟,这种趋势下人们对于网络的使用越来越多,而且网络结合人们生活中各种需求导致数据量大量的增加,致使现在步入了大数据的时代。而大数据分为许多类型,例如网络安全数据,最显而易见的网络安全数据为网址网站被攻击的日志信息,其具有大量、高速、多样、低价值密度以及真实性的5个特点。而且其相较于传统数据相比,具有较强的社会属性,所以在数据传输的过程中为了实现大数据的安全传输需要结合很多方面来解决大数据的安全传输问题。
[0003] 现有的安全数据传输方法主要是基于DES加密算法进行加密,但是大数据因为其独特的数据结构,单条数据的低价值密度的特点,在采用DES加密算法或DES变种加密算法对数据进行加密的时候容易造成大量的资源浪费。

发明内容

[0004] 为了解决上述技术问题,本发明的目的在于提供了一种大数据网络安全数据传输方法,所采用的技术方案具体如下:
[0005] 本发明提供的一种信息数据加密算法的技术方案,包括以下步骤:
[0006] 收集网站被攻击的日志数据集信息并进行规范化处理,得到规范化的数据集;
[0007] 提取所述数据集中的每条数据的日志数据信息特征,包括时间戳、攻击来源、攻击对象以及攻击方式;根据所述攻击对象对所述数据集进行分组,得到各数据组;
[0008] 对于每个数据组的数据,基于数据的时间戳、攻击来源以及攻击方式的信息特征进行权重分配,得到对应信息特征的投票权重;
[0009] 利用所述投票权重对各数据组进行数据加权,获取加权数据信息,进而得到加权数据信息集;
[0010] 根据所述加权数据信息集,对所有数据组进行分层,对各层进行加密,不同层的加密方式不同。
[0011] 进一步地,所述分组的过程为:统计每条数据的攻击来源,获得攻击对象标签序列,利用所述攻击对象标签序列对数据集中所有数据进行聚类,每条数据攻击对象标签序列相同的视为一类,最后根据类别将数据分组。
[0012] 进一步地,对应信息特征的投票权重为:
[0013] 时间戳的投票权重αb为:
[0014]
[0015] 其中,ρd为邻域内数据密度,D为邻域总个数;
[0016] 攻击来源的投票权重βb为:
[0017]
[0018] 其中,Atsm为数据被攻击的第m个攻击来源,n(Atsm)为第m个攻击来源的次数,M为攻击来源的总个数; 为所有不同M个攻击来源的攻击次数的均值,表示为第m个攻击来源攻击次数的权值,表示为和攻击次数均值的差异;
[0019] 攻击方式的投票权重γb为:
[0020]
[0021] 其中,Atth为数据被第h种攻击方式攻击后所产生的新数据,H为攻击方式的总个数。
[0022] 进一步地,加权数据信息为:
[0023]
[0024] 其中,αb为时间戳的投票权重,βb为攻击来源的投票权重,γb攻击方式的投票权重,I为第b个数据组的数据总个数。
[0025] 进一步地,对所有数据组进行分层的过程为:
[0026] 计算所述加权数据信息集的均值,根据所述均值,确定第一阈值和第二阈值,所述第一阈值小于第二阈值;
[0027] 按照各加权数据信息的升序排列的方式,将小于第一阈值的加权数据信息对应的数据组,作为第一层数据,将大于第一阈值小于第二阈值的加权数据信息对应的数据组,作为第二层数据,将大于第二阈值的加权数据信息对应的数据组,作为第三层数据。
[0028] 进一步地,所述不同层的加密方式不同,具体为:对第一层数据不加密,对第二层数据进行部分加密,对第三层数据进行全部加密处理。
[0029] 进一步地,所述不同层的加密方式不同,具体为:对第一层数据、第二层数据以及第三层数据分别采用不同的加密算法进行加密。
[0030] 本发明的有益效果:
[0031] 本发明的方案是通过对网站的被攻击的日志数据信息进行规范化,获得规范后的日志数据信息;基于规范后的日志数据信息进行特征分析,而后根据数据特征进行筛选分类;对筛选分类后的所有数据组进行基于DES的加密算法的分层加密传输,能够提高数据传输的安全性。

附图说明

[0032] 为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0033] 图1是本发明的一种大数据网络安全数据传输方法的方法流程图。

具体实施方式

[0034] 为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的方案,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
[0035] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
[0036] 本发明所针对的场景为:在网站网址被攻击后会产生大量的日志数据信息,而为了对被攻击的网站更好的完善操作,需要对被攻击的日志来源以及被攻击的特性和特征进行传输来分析,而数据的传输过程中因为其属于大数据所以加密时极容易造成不必要信息加密造成资源的浪费。所以通过对日志数据信息进行规范化,而后对规范化后的信息进行分类和投票,依据分类和投票结果对其进行加密实现网络安全数据传输。
[0037] 具体地,对本发明提供的一种大数据网络安全数据传输方法进行介绍,请参阅图1所示,包括以下步骤:
[0038] 首先,收集网站被攻击的日志数据集信息并进行规范化处理,得到规范化的数据集;
[0039] 提取所述数据集中的每条数据的日志数据信息特征,包括时间戳、攻击来源、攻击对象以及攻击方式;根据所述攻击对象对所述数据集进行分组,得到各数据组。
[0040] 本发明需要进行对大数据的分类加密,而网站被攻击所生成的日志数据大多数为非结构化或者半结构化,故首先本实施例中需要将网站被攻击所生成的日志数据信息进行预处理,使其规范化;设置规范化后的数据的结构,具体结构为:Tts+Ats+Ata+Att,其中,Tts为时间戳,Ats为攻击来源,Ata为攻击对象,Att为攻击方式。
[0041] 以上述结构对所有的网站网址被攻击的所生成的日志数据集信息进行规范化,获得规范化后的数据集DS。其中DS具体为:
[0042] DS={DS1,DS2,…,DSa,…,DSA}
[0043] 其中,DSa为规范化后的数据集中第a条数据,a∈[1,A],其中该数据集最多有A条数据。
[0044] 本实施例中,还需要对数据集进行分组,其分组具体过程为:
[0045] 上述中对网站网址被攻击日志数据集信息进行了规范化,获得了规范后的数据集DS,其中每条数据都有着相同的数据结构,数据结构表示了所有数据的大部分数据特征,具体为基于时间戳下的每条被攻击的数据的攻击来源,攻击方式和攻击对象。所以利用数据结构中的攻击对象这一特征对数据进行分组。其中的分组方式如下所示:
[0046] 统计DS中每条数据的攻击来源Ata,获得攻击对象标签序列AtaB,而后利用AtaB对DS中所有数据进行聚类,每条数据的攻击对象标签序列相同的视为一类,最后根据类别将数据分为多个数据组,具体为:
[0047] A={A1,A2,…,Ab,…,AB}
[0048] 其中,上述中共有B个不同的攻击对象标签序列AtaB。其中Ab表示第b个数据组,Ab为:
[0049] Ab={Ab,1,Ab,2,…,Ab,i,…Ab,I}
[0050] 其中Ab,i为第b组数据中的第i个数据,i∈[1,I];式中I为每个数据组的数据总个数;其中,每个数据组的总个数I可不相同,也可相同,本发明为方便叙述,统一以I作为叙述。
[0051] 至此,获得了所有数据依据攻击来源标签的分组。
[0052] 其次,对于每个数据组的数据,基于数据的时间戳、攻击来源以及攻击方式的信息特征进行权重分配,得到对应信息特征的投票权重。
[0053] 由于每条规范化的数据具有4个不同结构特征,上述中利用攻击对象对所有规范化后的数据进行了分组,为满足大数据的精确性,故利用剩余三个结构对每组数据进行加权投票,为了方便叙述,以第b组数据Ab为例,具体方式如下:
[0054] 1.计算时间戳投票权重αb:
[0055] 对于每组数据,根据设置的结构,其每条数据具有相应的时间戳,故根据其时间戳所携带的每条网站网址被攻击所产生日志数据的时间戳所携带的时间信息进行时间戳的权重计算。
[0056] 具体地,时间戳投票权重αb的计算如下所示:
[0057] 首先确定数据中核心数据,并以核心数据定义核心数据邻域;
[0058] 其次计算邻域内数据密度ρd,其中下标d表示为第d个邻域,d∈[1,D],D为第b个数据组的邻域总个数;最后以邻域数据密度计算时间戳投票权重αb。
[0059] 上述中的核心数据为Ab内的所有整数分钟点所产生的数据记为核心数据,其时间戳为Tb,而后以每个核心数据相邻的左右邻域的边界数据之间的距离为邻域半径,其中边界数据的定义为以核心数据为中心其非相邻核心数据上的最大距离的数据,其左边界数据和右边界数据对应的时间戳分别为Tts(t0)和Tts(tT),其邻域时间长度为[t0,tT],其中第i条数据所产生的时间戳为Tts(ti),则邻域内数据密度ρd的计算方式如下所示:
[0060]
[0061] 时间戳投票权重αb计算方式如下所示:
[0062]
[0063] 其中,第d个邻域内数据越多,相应的其对应的邻域内数据密度ρd就越大,而当该组数据中邻域密度都相对较大时且较为均匀时,则 值就越小,当该组数据中邻域密度都相对较小时且不均匀时,则 值就越大;故当αb值就越大,相应的说明该组数据对应的对象被攻击的越频繁且较不规律。
[0064] 2.计算攻击来源投票权重βb:
[0065] 需要说明的是,每个攻击对象被不同的攻击来源攻击的越多,即每个攻击来源的攻击次数越多,证明该攻击对象越重要,攻击来源的投票权重应该更大。
[0066] 攻击来源投票权重计算如下所示:
[0067] 统计第b组数据中每条数据被攻击的攻击来源Atsm和被攻击的攻击来源的次数n(Atsm),获得攻击来源次数序列n(Ats),具体为:
[0068] n(Ats)={n(Ats1),n(Ats2),…,n(Atsm),…,n(AtsM)}
[0069] 式中Atsm(n)下标m表示第m个攻击来源,m∈[1,M],其中M为攻击来源的个数;n表示当前的攻击来源的总攻击次数,每个攻击来源的总攻击次数n可不相同,为方便叙述,统一以n进行叙述。
[0070] 而后通过被攻击来源次数序列n(Ats)计算攻击来源投票权重βb,具体计算过程如下所示:
[0071]
[0072] 式 中 为 所 有 不同 M 个 攻击 来 源的 攻 击 次 数的 均 值 ,表示为第m个攻击来源攻击次数的权值,表示为和攻击次数均值的差异,通过权值对第m个攻击来源的攻击次数进行加权,使得整体攻击来源投票权重βb取值更趋向于整体攻击来源中攻击次数较多的攻击来源。
[0073] 3.计算攻击方式投票权重γb:
[0074] 需要说明的是,每个被攻击对象被攻击的攻击方式越多,证明该对象的安全性越高,攻击方式投票值应该越小。
[0075] 具体地,攻击方式投票权重γb计算如下所示:
[0076] 统计第b组数据中每条数据被攻击的攻击方式所产生的数据AttH,i′具体为:
[0077] Att={Att1,Att2,…,Atth,…,AttH}
[0078] 式中,下标h表示第h种攻击方式,h∈[1,H],H为攻击方式的总个数,Atth表示第h种攻击方式下所产生的数据。
[0079] 而后利用不同攻击方式下所产生的数据,计算攻击方式投票权值γb,具体计算方式如下所示:
[0080] 然后,利用所述投票权重对各数据组进行数据加权,获取加权数据信息,进而得到加权数据信息集。
[0081] 本实施例中利用时间戳投票权重αb、攻击来源投票权重βb和攻击方式投票权重γb,根据其对应逻辑计算整体投票值。
[0082] 具体地,上述中逻辑分析时间戳投票权重αb和攻击来源投票权重βb越大对应的数据越重要,而攻击方式投票权重γb越小越好。因此根据上述逻辑对每组数据进行投票,得到∈b:
[0083]
[0084] 其中,αb为时间戳的投票权重,βb为攻击来源的投票权重,γb攻击方式的投票权重,I为第b个数据组的数据总个数。
[0085] 利用上述方式对B组数据都进行投票值的计算,可获得所有投票值序列∈,具体如下所示:∈={∈1,∈2,…,∈b,…,∈B},∈b表示第b个数据组的加权数据信息。
[0086] 至此,所有网站网址被攻击日志数据投票完毕,将投票值序列作为加权后的加权数据信息集。
[0087] 最后,根据所述加权数据信息集,对所有数据组进行分层,对各层进行加密,不同层的加密方式不同。
[0088] 具体地,对所有数据组进行分层的过程为:
[0089] 计算所述加权数据信息集的均值,根据所述均值,确定第一阈值和第二阈值,第一阈值小于第二阈值;按照各加权数据信息的升序排列的方式,将小于第一阈值的加权数据信息对应的数据组,作为第一层数据,将大于第一阈值小于第二阈值的加权数据信息对应的数据组,作为第二层数据,将大于第二阈值的加权数据信息对应的数据组,作为第三层数据。
[0090] 其中,对不同层进行不同的加密具体为:对第一层数据不加密,对第二层数据进行部分加密,对第三层数据进行全部加密处理。
[0091] 作为其他实施方式,不同层的加密方式还可以具体为:对第一层数据、第二层数据以及第三层数据分别采用不同的加密算法进行加密。
[0092] 下面以上述中分成的B个数据组的数据组序列A为例,对上述分层以及加密进行分析:
[0093] 基于获取的每组网站网址被攻击网站网址被攻击日志数据的加权数据信息∈,而后利用∈计算不同组的加密程度,具体为通过∈计算合适阈值,利用阈值将加权数据信息集进行分层,处于第一层中的加权数据信息对应的待加密数据不加密,处于第二层的加权数据信息对应的数据待加密数据进行半加密,对于处于第三层的加权日志数据对应的数据待加密数据进行全加密。
[0094] 上述中的阈值计算方式如下所示:
[0095] 第一阈值∈B1为:
[0096]
[0097] 第二阈值∈B2为:
[0098]
[0099] 而后利用∈B1和∈B2对∈进行分层,分层方式如下:
[0100] 第一层数据为:
[0101] [min{∈},∈B1)
[0102] 第二层数据为:
[0103] [∈B1,∈B2)
[0104] 第三层数据为:
[0105] [∈B2,MAX{∈}]
[0106] 至此,可以根据阈值将对应层的加权数据信息集所对应的网站网址被攻击日志数据集A进行分层即可。
[0107] 上述中第一层不加密;第二层部分加密,具体可以采用随机数算法对第二层所有数据进行筛选50%进行加密;第三层整体加密;当然也可以采用三种不同的加密算法进行加密;之后将加密后的数据集进行传输即可,至此完成了根据投票信息对规范化后的网站被攻击的日志数据信息进行加密传输。
[0108] 上述中的加密算法可以采用DES的加密算法进行加密。
[0109] 本发明的网络安全数据传输方法是通过对网站的被攻击的日志数据信息进行规范化,获得规范后的日志数据信息;基于规范后的日志数据信息进行特征分析,而后根据数据特征进行筛选分类;对筛选分类后的数据进行基于DES的加密算法进行加密传输。
[0110] 以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。