一种基于大数据的数据安全处理方法转让专利

申请号 : CN201910179224.6

文献号 : CN109918366B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 段兴林马俊

申请人 : 黑龙江中医药大学

摘要 :

本发明涉及一种基于大数据的数据安全处理方法,所述方法包括:步骤S1:从终端获取大数据;步骤S2:进行大数据存储定位;步骤S3:对大数据进行透明过滤后存储在所定位的大数据节点中。本发明在集合的扩充中采用动静结合的选择过程;通过第三方固件统一管理,提高了过滤规则自身的安全性和调整的灵活性,可以随时根据对大数据节点的管理来动态的调整过滤规则,还设置有独立可插拔硬件的方式来设置透明过滤层;通过可插拔硬件在来保障终端设备的安全性。

权利要求 :

1.一种基于大数据的数据安全处理方法,其特征在于,所述方法包含:

步骤S1:从终端获取大数据;

步骤S2:进行大数据存储定位;

步骤S3:对大数据进行透明过滤后存储在所定位的大数据节点中;

所述步骤S2具体为:选择进行本次大数据存储的大数据节点,获取所述大数据节点的物理地址,进行逻辑地址和大数据节点的物理地址映射;

所述选择进行本次大数据存储的大数据节点,具体为:判断是否已经存在面向所述大数据处理目标的大数据节点,如果是,将所述面向所述大数据处理目标的大数据节点的集合作为已存储大数据节点集合;判断所述已存储大数据节点集合是否能够满足本次大数据存储请求,如果是,则从所述已存储大数据节点集合中选择最优的大数据节点,基于所述最优的大数据节点进行所述大数据的存储;否则,选择一大数据节点加入所述已存储大数据节点集合,并将基于所选择的大数据节点进行所述大数据的存储;

所述从所述已存储大数据节点集合中选择最优的大数据节点,具体为:获取集合中每个大数据节点的特征向量;依次将所述大数据的数据量增加到存储量向量对应元素上以获取临时存储量向量,计算每个临时存储量向量和每个特征向量之间的子最优值,基于子最优值计算最优值,并选择最优值最小的临时存储量向量对应的大数据节点作为最优大数据节点;

所述步骤S3具体为:设置透明过滤层,基于大数据节点的安全策略进行透明过滤规则的获取,将获取的过滤规则设置于所述透明过滤层中;将经过过滤后的大数据保存在所定位的大数据节点中;将所述透明过滤层设置在终端侧;透明过滤规则统一保存在独立的过滤服务器中,通过大数据节点的标识从所述过滤服务器中获取和所述大数据节点对应的过滤规则;通过第三方固件统一管理。

2.根据权利要求1所述的基于大数据的数据安全处理方法,其特征在于,所述判断所述已存储大数据节点集合是否能够满足本次大数据存储请求,具体为:确定增加本次大数据后,集合中的所有大数据节点的节点特性是否能够满足增加本次大数据后的大数据总量的需求,如果满足,则判断结果为是,否则,判断结果为否。

3.根据权利要求2所述的基于大数据的数据安全处理方法,其特征在于,大数据节点的特征向量中的每个元素为该节点的一种节点特征的量化值;将特征向量表示为C=(c1,c2···cm);其中:m为节点特征的总数量,ci为第i种节点特征的量化值;存储量向量中的每个元素为集合中的n个大数据节点中每个节点上已存储的大数据量;可将存储量向量表示为S=(s1,s2,···sn);其中:si为第i个大数据节点中已存储的大数据量;本次新增大数据的数据量为New,依次将数据量New增加到每个大数据节点上以获取n个临时存储量向量,(s1+New,s2,···sn),(s1,s2+New,···sn),···(s1,s2,···sn+New)。

4.根据权利要求3所述的基于大数据的数据安全处理方法,其特征在于,所述基于子最优值SO计算最优值OP,具体为:获取每个子最优值SOl,并计算最优值OP:OP=Wl×SOl;其中Wl为第l个节点特征的权重值。

5.根据权利要求4所述的基于大数据的数据安全处理方法,其特征在于,所述选择一大数据节点加入所述已存储大数据节点集合,具体为:当所述集合为空时,选择和当前终端的通信开销最小的大数据节点;否则,基于大数据节点构成的无向加权图选择一大数据节点。

6.根据权利要求5所述的基于大数据的数据安全处理方法,其特征在于,所述基于大数据节点构成的无向加权图选择一大数据节点,具体为:获取和已存储大数据节点集合中任一大数据节点直接连接的大数据节点以构成近邻集合,从所述近邻集合中选择和已存储大数据节点集合的资源使用情况匹配的大数据节点。

说明书 :

一种基于大数据的数据安全处理方法

【技术领域】

[0001] 本发明属于数据安全领域,尤其涉及一种基于大数据的数据安全处理方法。【背景技术】
[0002] 大数据是指所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。云计算是一种基于互联网的超级计算方式,是对并行处理、分布式处理和网格计算的延伸。可以认为,云计算不仅是一种新的计算模型,同时是一种新的共享基础架构的方式。云计算面向超大规模的分布式用户环境,其主要功能是提供快捷安全的云端数据存储和网络服务。大数据的信息隐私保护是云计算大数据快速发展和运用的重要前提。没有信息安全也就没有云服务的安全。目前,我国的大数据正处于初级阶段,对大数据信息的保护还不完善,随着大数据时代的来临,市场上迫切需要一种有效的保护大数据资产的方法。本发明提出一种基于大数据的数据安全处理方法,本发明采用无向加权图进行大数据节点的通信以及资源状况描述,采用向量进行大数据节点的全面描述,基于大数据的数据量所代表的数据特性进行大数据节点和待存储大数据之间的量化匹配;使得集合在满足总体的需求的情况下,保证集合中的每个数据节点在各特性分量上能够保持资源均衡;在集合的扩充中可以根据节点的动态使用情况进行集合的扩充;这样就完成了一个动静结合的选择过程;通过第三方固件统一管理,提高了过滤规则自身的安全性和调整的灵活性,可以随时根据对大数据节点的管理来动态的调整过滤规则,还设置有独立可插拔硬件的方式来设置透明过滤层;通过可插拔硬件在来保障终端设备的安全性。【发明内容】
[0003] 为了解决现有技术中的上述问题,本发明提出了一种基于大数据的数据安全处理方法,所述方法包含:
[0004] 步骤S1:从终端获取大数据;
[0005] 步骤S2:进行大数据存储定位;
[0006] 步骤S3:对大数据进行透明过滤后存储在所定位的大数据节点中。
[0007] 进一步的,所述步骤S2具体为:选择进行本次大数据存储的大数据节点,获取所述大数据节点的物理地址,进行逻辑地址和大数据节点的物理地址映射。
[0008] 进一步的,所述选择进行本次大数据存储的大数据节点,具体为:判断是否已经存在面向所述大数据处理目标的大数据节点,如果是,将所述面向所述大数据处理目标的大数据节点的集合作为已存储大数据节点集合;判断所述已存储大数据节点集合是否能够满足本次大数据存储请求,如果是,则从所述已存储大数据节点集合中选择最优的大数据节点,基于所述最优的大数据节点进行所述大数据的存储;否则,选择一大数据节点加入所述已存储大数据节点集合,并将基于所述所选择的大数据节点进行所述大数据的存储。
[0009] 进一步的,所述判断所述已存储大数据节点集合是否能够满足本次大数据存储请求,具体为:确定增加本次大数据后,集合中的所有大数据节点的节点特性是否能够满足增加本次大数据后的大数据总量的需求,如果满足,则判断结果为是,否则,判断结果为否。
[0010] 进一步的,所述从所述已存储大数据节点集合中选择最优的大数据节点,具体为:获取集合中每个大数据节点的特征向量;依次将所述大数据的数据量增加到存储量向量对应元素上以获取临时存储量向量,计算每个临时存储量向量和每个特征向量之间的子最优值,基于子最优值计算最优值,并选择最优值最小的临时存储量向量对应的大数据节点作为最优大数据节点。
[0011] 进一步的,大数据节点的特征向量中的每个元素为该节点的一种节点特征的量化值;将特征向量表示为C=(c1,c2···cm);其中:m为节点特征的总数量,ci为第i种节点特征的量化值;存储量向量中的每个元素为集合中的n个大数据节点中每个节点上已存储的大数据量;可将存储量向量表示为S=(s1,s2,···sn);其中:si为第i个大数据节点中已存储的大数据量;本次新增大数据的数据量为New,依次将数据量New增加每个大数据节点上以获取n个临时存储量向量,(s1+New,s2,···sn),(s1,s2+New,···sn),···(s1,s2,···sn+New)。
[0012] 进一步的,所述计算每个临时存储量向量和每个特征向量之间的子最优值,具体为:获取临时存储量向量T=(t1,t2,···tn),获取特征向量C=(c1,c2···cm);并基于下式计算子最优值:
[0013] 进一步的,所述基于子最优值SO计算最优值OP,具体为:获取每个子最优值SOl,并计算子最优值OP:OP=Wl×SOl;其中Wl为第l个节点特征的权重值。
[0014] 进一步的,所述选择一大数据节点加入所述已存储大数据节点集合,具体为:当所述集合为空时,选择和当前终端的通信开销最小的大数据节点;否则,基于大数据节点构成的无向加权图选择一大数据节点。
[0015] 进一步的,所述基于大数据节点构成的无向加权图选择一大数据节点,具体为:获取和已存储大数据节点集合中任一大数据节点直接连接的大数据节点以构成近邻集合,从所述近邻集合中选择和已存储大数据节点集合的资源使用情况匹配的大数据节点。
[0016] 本发明的有益效果包括:采用无向加权图进行大数据节点的通信以及资源状况描述,采用向量进行大数据节点的全面描述,基于大数据的数据量所代表的数据特性进行大数据节点和待存储大数据之间的量化匹配;使得集合在满足总体的需求的情况下,保证集合中的每个数据节点在各特性分量上能够保持资源均衡;在集合的扩充中可以根据节点的动态使用情况进行集合的扩充;这样就完成了一个动静结合的选择过程;通过第三方固件统一管理,提高了过滤规则自身的安全性和调整的灵活性,可以随时根据对大数据节点的管理来动态的调整过滤规则,还设置有独立可插拔硬件的方式来设置透明过滤层;通过可插拔硬件在来保障终端设备的安全性。【附图说明】
[0017] 此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
[0018] 图1为本发明的基于大数据的数据安全处理方法示意图。【具体实施方式】
[0019] 下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
[0020] 对本发明所应用的一种基于大数据的数据安全处理方法进行详细说明,如附图1所示,所述方法包含:
[0021] 步骤S1:从终端获取大数据;具体为:根据获取大数据的处理目标进行大数据的获取;例如:大数据的处理目标为对所收集的大数据进行处理的目标;所述处理目标中包含处理步骤、可信度、需求、安全性要求、处理结果类型、处理类型等;例如:大数据使用方和需求方对大数据的可信度有要求,则不采信低可信度的数据,此时,可以根据使用方和需求方提出的可信需求进行有针对性的大数据获取;在从终端获取大数据时可以根据终端自身的属性进行可信需求是否满足的判断;终端可以根据大数据的处理目标进行大数据的拦截以进行大数据的获取;从多个终端获取的数据最终构成了大数据;这里将从终端获取的数据成为大数据;
[0022] 优选的:所述大数据获取为基于请求响应的、实时或周期性获取;
[0023] 所述终端为持有大数据的终端和/或用于进行大数据收集的终端;当定制针对特定大数据的大数据处理目标时,根据所述处理目标进行分布式的大数据收集,收集的对象是分布式的终端设备;
[0024] 优选的:基于大数据收集的可信需求进行大数据的获取;
[0025] 步骤S2:进行大数据存储定位,具体为:选择进行本次大数据存储的大数据节点,获取所述大数据节点的物理地址,进行逻辑地址和大数据节点的物理地址映射;
[0026] 大数据节点用于收集、存储来自一个或多个终端的大数据,并面向大数据处理目标提供计算和存储服务;
[0027] 所述选择进行本次大数据存储的大数据节点,具体为:判断是否已经存在面向所述大数据处理目标的大数据节点,如果是,将所述面向所述大数据处理目标的大数据节点的集合作为已存储大数据节点集合;判断所述已存储大数据节点集合是否能够满足本次大数据存储请求,如果是,则从所述已存储大数据节点集合中选择最优的大数据节点,基于所述最优的大数据节点进行所述大数据的存储;否则,选择一大数据节点加入所述已存储大数据节点集合,并将基于所述所选择的大数据节点进行所述大数据的存储;
[0028] 对于不同的终端来说,面向相同的大数据处理目标的大数据节点是相通的,也就是说,面向所述大数据处理目标的已存储大数据节点集合是相同的;
[0029] 所述判断所述已存储大数据节点集合是否能够满足本次大数据存储请求,具体为:确定增加本次大数据后,集合中的所有大数据节点的节点特性是否能够满足增加本次大数据后的大数据总量的需求,如果满足,则判断结果为是,否则,判断结果为否;一种确定方式为,针对每种节点特性,将所有大数据节点的该节点特性的元素值加和,并判断所述加和值是否能够满足新增大数据的数据量和已存储数据量的数据量之和的需求量,如果满足,则继续判断下一节点特性,否则,判断结果为否;例如:针对端口节点特性,新增大数据和已存储数据量包含大量的并行操作,从而需要4个端口;而将所有大数据节点的端口加和为5,则确定满足大数据需求量;也就说在,增加所述新增数据量后,整体数据量所要求的资源需求对于集合整体来说能够满足;
[0030] 所述从所述已存储大数据节点集合中选择最优的大数据节点,具体为:获取集合中每个大数据节点的特征向量;依次将所述大数据的数据量增加到存储量向量对应元素上以获取临时存储量向量,计算每个临时存储量向量和每个特征向量之间的子最优值,基于子最优值计算最优值,并选择最优值最小的临时存储量向量对应的大数据节点作为最优大数据节点;通过这样的方式,使得集合在满足总体的需求的情况下,保证集合中的每个数据节点在各特性分量上能够保持资源均衡;
[0031] 大数据节点的特征向量中的每个元素为该节点的一种节点特征的量化值;优选的:所述节点特征为资源特征;例如:计算资源大小、浮点计算资源多少、存储资源大小、端口数量等;将特征向量表示为C=(c1,c2···cm);其中:m为节点特征的总数量,ci为第i种节点特征的量化值;存储量向量中的每个元素为集合中的n个大数据节点中每个节点上已存储的大数据量;可将存储量向量表示为S=(s1,s2,···sn);其中:si为第i个大数据节点中已存储的大数据量;本次新增大数据的数据量为New,依次将数据量New增加每个大数据节点上以获取n个临时存储量向量,(s1+New,s2,···sn),(s1,s2+New,···sn),···(s1,s2,···sn+New);所述节点特征的可以针对节点上资源的拥有量或者当前的可用量;存储量向量中的每个元素为n个大数据节点中已存储的针对所述大数据处理目标的大数据的数据量;
[0032] 所述计算每个临时存储量向量和每个特征向量之间的子最优值,具体为:获取临时存储量向量T=(t1,t2,···tn),获取特征向量C=(c1,c2···cm);并基于下式计算子最优值: 由于资源需求量和存储量之间往往有直接的关联,因此基于存储量来进行所述节点特征的衡量;
[0033] 所述基于子最优值SO计算最优值OP,具体为:获取每个子最优值SOl,并计算子最优值OP:OP=Wl×SOl;其中Wl为第l个节点特征的权重值;通过考虑大数据本身的特性来进行该权重值的调整,例如:考虑到大数据的浮点计算量很大,是该大数据的最显著的特点,可以将和浮点计算资源对应的权重值设置为比其他特征对应的权重值大的值;将和浮点计算资源对应的权重值设置为2,而将其他特征对应的权重值设置为1;
[0034] 所述选择一大数据节点加入所述已存储大数据节点集合,具体为:当所述集合为空时,进行大数据处理目标分析以基于大数据处理目标对各类资源的需求按照从大到小排序以获取需求最大的第一资源类型和第二资源类型,基于第一资源类型和第二资源类型从可用大数据节点中选择大数据节点;可替换的,选择和当前终端的通信开销最小的大数据节点、或选择可用存储资源最多的大数据节点;否则,基于大数据节点构成的无向加权图选择一大数据节点;
[0035] 所述基于第一资源类型和第二资源类型从可用大数据节点中选择大数据节点,具体为:从可用大数据节点中选择第一资源类型最多的大数据节点作为所选择的大数据节点;可替换的,从可用大数据节点中选择当前可用第一资源类型和第二资源类型均满足的大数据处理目标针对当前大数据的处理需求的大数据节点中第一资源类型最多的大数据节点作为所选择的大数据节点;
[0036] 所述基于大数据节点构成的无向加权图选择一大数据节点,具体为:获取和已存储大数据节点集合中任一大数据节点直接连接的大数据节点以构成近邻集合,从所述近邻集合中选择和已存储大数据节点集合的资源使用情况匹配的大数据节点;
[0037] 考虑到大数据节点本身是终端透明和共享的,如果仅仅从终端需求,大数据处理目标需求或者大数据本身的数量出发来进行节点的选择,无法反映节点的共享特性,也不能反映出节点的动态使用情况;在集合的扩充中可以根据节点的动态使用情况进行集合的扩充;这样就完成了一个动静结合的选择过程;
[0038] 所述从所述近邻集合中选择和已存储大数据节点集合的资源使用情况最匹配的大数据节点,具体为:依次获取近邻集合中的大数据节点的特征向量C=(c1,c2···cm),获取过去的第一时间间隔内已存储大数据节点集合的资源使用情况向量,计算所述特征向量和资源使用情况向量之间的相似性,将所述相似性最大的大数据节点作为所述最匹配的大数据节点;
[0039] 所述获取过去的第一时间间隔内已存储大数据节点集合的资源使用情况向量,具体为:获取当前时间点T的已存储大数据节点集合的可用资源矩阵MASA=[SAi,j],其中Si,j为集合中第i个大数据节点的第j项节点特征对应的资源的占用情况;获取距离当前时间点之前的第一时间间隔点的已存储大数据节点集合的可用资源矩阵MASB=[SBi,j],则计算资源使用情况向量UV为:
[0040] 所述计算所述特征向量和资源使用情况向量之间的相似性,具体为:基于下式计算相似性 相似性越小,表示大数据节点的资源拥有情况和已存储大数据节点集合的资源使用情况匹配度越高,加入该节点有助于弥补集合的资源使用和流逝;
[0041] 通过大数据节点的通信连接关系构建无向加权图,在所述无向加权图中,大数据节点作为节点,而当两个大数据节点之间直接通信连接时,所述两个大数据节点之间存在边;节点的权重为大数据节点的特征向量;通过特征向量进行节点权重特征的全方位描述;
[0042] 所述进行逻辑地址和大数据节点的物理地址映射,具体为:将所述终端中存储所述大数据的逻辑地址和物理地址关联起来以进行存储定位;
[0043] 步骤S3:对大数据进行透明过滤后存储在所定位的大数据节点中;具体为:设置透明过滤层,基于大数据节点的安全策略进行透明过滤规则的获取,将所述获取的过滤规则设置于所述透明过滤层中;将经过过滤后的大数据保存在所定位的大数据节点中;
[0044] 优选的:将所述透明过滤层设置在终端侧;透明过滤规则统一保存在独立的过滤服务器中,通过大数据节点的标识从所述过滤服务器中获取和所述大数据节点对应的过滤规则;通过第三方固件统一管理,提高了过滤规则自身的安全性和调整的灵活性,可以随时根据对大数据节点的管理来动态的调整过滤规则,实时的基于大数据节点的安全等级和类型来动态的调整过滤规则;大数据节点本身也用于进行数据的存储,在针对目标的处理时,提供计算服务,将过滤层设置在终端上,在进行大数据存储时,确定过滤规则是否过期,在过滤规则没有过期时,使用当前的过滤规则进行大数据的过滤,否则需要进行更新;所述过滤层对于终端来说是透明的,通过透明设置,提高了过滤层的安全性,避免篡改的可能性;可以进行基于定位的动态规则更新,针对不同的存储节点采用不同的过滤规则,而过滤层本身的设置则无需改变;
[0045] 优选的:采用设置独立可插拔硬件的方式来设置透明过滤层;通过可插拔硬件在来保障终端设备的安全性;所述可插拔硬件上设置有嵌入式操作系统,所述嵌入式操作系统通过钩子程序的方式和终端上的其他操作系统之间进行通信,检测其他操作系统中的大数据获取事件,并基于可插拔硬件中的过滤层采用过滤规则进行大数据过滤;此外,可插拔硬件还通过总线的方式对总线数据进行监控过来保障发送到大数据节点上的数据的安全性;由于进行网络数据发送时,数据包中包含了大数据节点的物理地址,通过对数据包的监控以获取所述物理地址,并基于所述物理地址匹配相应的过滤规则,并基于过滤规则进行大数据过滤;由于所述可插拔硬件是独立存在于主板上的,以多核或者多处理器的形式和其他操作系统上的处理器之间并行存在,因此,针对数据的安全性保障是可以并行发生的,不影响其他操作系统上的数据计算操作;
[0046] 优选的:所述可插拔硬件中设置有时间监控单元,以定期的进行过滤规则的更新;
[0047] 以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。