一种基于关系图谱的数据自适应脱敏方法及系统转让专利

申请号 : CN201911154807.X

文献号 : CN110879901B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘勇马新强杨建党钟保权刘丽娜黄羿

申请人 : 浙江大学

摘要 :

本发明提供一种基于关系图谱的数据自适应脱敏方法及系统,涉及数据安全技术领域,其中一种基于关系图谱的数据自适应脱敏方法,包括以下步骤:S1:生成脱敏算法库;S2:建立表与表之间的字段关系图谱;S3:联合关系图谱的字段节点的整体特性指标以及每个字段的敏感级值得到所有字段对应的评估指标;S4:从脱敏算法库中构建训练集;S5:训练决策树模型,测试时输入字段的评估指标,获取系统内所有字段对应的脱敏算法。本发明一种基于关系图谱的数据自适应脱敏方法及系统借助关系图谱处理表与表之间的关联性以及借助机器学习的分类算法做脱敏算法的选择,能使系统的数据脱敏摆脱过多的人工干预,有效提升脱敏效率和脱敏安全性。

权利要求 :

1.一种基于关系图谱的数据自适应脱敏方法,其特征在于,包括以下步骤:S1:生成脱敏算法库;

S2:建立表与表之间的字段关系图谱;

S3:评估指标包括6个输入的特性指标和1个敏感级值指标,其中6个特性指标包括有效性、关联性、可逆性、可重复性、时效性以及安全性指标;

在这里,通过建立表与表之间所有字段的关系图谱得到每一个字段与其它所有字段的接近中心度,并乘以其关联性指标,得到关系图谱中每个字段节点对应的关联性指标;所有字段都继承有效性、可逆性、可重复性、时效性以及安全性指标这5个特性指标;通过字段敏感度识别模型得到的每一个字段的离散指标作为其敏感级值指标,得到所有字段对应的评估指标;

S4:从脱敏算法库中构建训练集;

S5:训练决策树模型,测试时输入字段的评估指标,获取系统内所有字段对应的脱敏算法;

脱敏算法的获取方法如下:将历史所有字段的7个评估指标和历史选择的脱敏算法输入到模型决策树中训练得到字段脱敏算法选择模型,然后将算法输入的所有字段的7个评估指标输入到字段脱敏算法选择模型中得到所有字段对应的脱敏算法。

2.根据权利要求1所述的一种基于关系图谱的数据自适应脱敏方法,其特征在于:执行步骤S1时,脱敏算法库包含无效化、乱序、平均取值、反关联、偏移、对称加密和动态环境控制7种脱敏算法。

3.根据权利要求1所述的一种基于关系图谱的数据自适应脱敏方法,其特征在于:执行步骤S3时,特性指标均为2值化指标。

4.根据权利要求1所述的一种基于关系图谱的数据自适应脱敏方法,其特征在于:执行步骤S4时,训练集为字段特性指标‑脱敏算法训练集。

5.根据权利要求1所述的一种基于关系图谱的数据自适应脱敏方法,其特征在于:执行步骤 S5时,决策树为C4.5决策树,输入为5个2值化指标、1个离散指标和1个连续指标,输出为7种脱敏算法中的一种。

6.一种基于关系图谱的数据自适应脱敏系统,其特征在于,包括:脱敏算法库选择模块;

字段特性指标评估模块;

字段脱敏算法选择模块;

脱敏算法库选择模块生成脱敏算法库;字段特性指标评估模块建立表与表之间的字段关系图谱,并联合关系图谱的字段节点的中心度和其他整体特性指标以及每个字段的敏感级值得到所有字段对应的评估指标;字段脱敏算法选择模块从脱敏算法库中构建训练集,训练决策树,测试时输入字段的评估指标,获取系统内所有字段对应的脱敏算法;

其中字段特性指标评估模块中的评估指标包括有效性、关联性、可逆性、可重复性、时效性以及安全性指标这6个输入的特性指标和1个敏感级值指标;

使得在字段特性指标评估模块工作时,通过建立表与表之间所有字段的关系图谱得到每一个字段与其它所有字段的接近中心度,并乘以其关联性指标,得到关系图谱中每个字段节点对应的关联性指标;所有字段都继承有效性、可逆性、可重复性、时效性以及安全性指标这5个特性指标;通过字段敏感度识别模型得到的每一个字段的离散指标作为其敏感级值指标,得到所有字段对应的评估指标;

且在字段脱敏算法选择模块工作时,将历史所有字段的7个评估指标和历史选择的脱敏算法输入到模型决策树中训练得到字段脱敏算法选择模型,然后将算法输入的所有字段的7个评估指标输入到字段脱敏算法选择模型中得到所有字段对应的脱敏算法。

7.根据权利要求6所述的一种基于关系图谱的数据自适应脱敏系统,其特征在于:脱敏算法库选择模块包括无效化、乱序、平均取值、反关联、偏移、对称加密和动态环境控制7种脱敏算法。

说明书 :

一种基于关系图谱的数据自适应脱敏方法及系统

技术领域

[0001] 本发明涉及数据安全技术领域,
[0002] 尤其是,本发明涉及一种基于关系图谱的数据自适应脱敏方法及系统。

背景技术

[0003] 随着数据时代的到来,数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息与关键性敏感数据保护方面的困难。如何在实现数据高效共享的同时,保护敏感信息不被
泄露,已成为数据安全智能开发的关键环节。数据脱敏就是在保存数据原始特征的同时改
变它的数值,从而保护敏感数据免于未经授权而被访问,同时又可以进行相关的数据处理,
可以在保留数据意义和有效性的同时保持数据的安全性,并遵从数据隐私规范。借助数据
脱敏,信息依旧可以被使用,并与业务相关联,不会违反相关规定,而且也避免了数据泄露
的风险。近年来,由于机器学习的理论建立由来已久,机器学习在无论是数据科学比赛还是
工业场景都有较好的落地效果。关系图谱近年来在类似于社交网络舆论预测和蛋白质分析
这种有明显的关联关系的问题中表现突出。
[0004] 传统的数据脱敏系统往往需要较多的人工干预,在新任务、新环境下用户的初始配置工作较大。并且受限于传统数据脱敏技术和系统内置算法的繁杂程度,往往表与表之
间的字段存在关联性,用户往往需要一定的业务和技术基础,这会导致传统数据脱敏系统
的入门成本过高。
[0005] 所以,如何设计一种数据自适应脱敏方法或者系统,成为我们当前急需要解决的问题。

发明内容

[0006] 本发明的目的在于提供一种简单实用,稳定可靠,借助关系图谱处理表与表之间的关联性以及借助机器学习的分类算法做脱敏算法的选择,能使系统的数据脱敏摆脱过多
的人工干预,有效提升脱敏效率和脱敏安全性的基于关系图谱的数据自适应脱敏方法。
[0007] 为达到上述目的,本发明采用如下技术方案得以实现的:
[0008] 一种基于关系图谱的数据自适应脱敏方法,该方法包括以下步骤:
[0009] S1:生成脱敏算法库;
[0010] S2:建立表与表之间的字段关系图谱;
[0011] S3:联合关系图谱的字段节点的中心度和其他整体特性指标以及每个字段的敏感级值得到所有字段对应的评估指标;
[0012] S4:从脱敏算法库中构建训练集;
[0013] S5:训练决策树模型,测试时输入字段的评估指标,获取系统内所有字段对应的脱敏算法。
[0014] 作为本发明的优选,执行步骤S1时,脱敏算法库包含无效化、乱序、平均取值、反关联、偏移、对称加密和动态环境控制7种脱敏算法。
[0015] 作为本发明的优选,执行步骤S3时,评估指标包括6个特性指标和1个敏感级值指标,其中6个特性指标包括有效性、关联性、可逆性、可重复性、时效性以及安全性指标。
[0016] 作为本发明的优选,执行步骤S3时,特性指标均为2值化指标。
[0017] 作为本发明的优选,步骤S3具体包括:
[0018] S31:通过建立表与表之间所有字段的关系图谱得到的中心度乘以整体关联性指标
[0019] S32:所有字段继承其他5个整体特性指标
[0020] S33:每个字段对应的敏感级值指标,是离散指标。
[0021] 作为本发明的优选,执行步骤S4时,训练集为字段特性指标‑脱敏算法训练集。
[0022] 作为本发明的优选,执行步骤 S5时,决策树为C4.5决策树,输入为5个2值化指标、1个离散指标和1个连续指标,输出为7种脱敏算法中的一种。
[0023] 另一方面,本发明中另外还提供一种基于关系图谱的数据自适应脱敏系统,该系统包括:
[0024] 脱敏算法库选择模块;
[0025] 字段特性指标评估模块;
[0026] 字段脱敏算法选择模块;
[0027] 脱敏算法库选择模块生成脱敏算法库;字段特性指标评估模块建立表与表之间的字段关系图谱,并联合关系图谱的字段节点的中心度和其他整体特性指标以及每个字段的
敏感级值得到所有字段对应的评估指标;字段脱敏算法选择模块从脱敏算法库中构建训练
集,训练决策树,测试时输入字段的评估指标,获取系统内所有字段对应的脱敏算法。
[0028] 作为本发明的优选,本发明一种基于关系图谱的数据自适应脱敏系统中,脱敏算法库选择模块包括无效化、乱序、平均取值、反关联、偏移、对称加密和动态环境控制7种脱
敏算法。
[0029] 作为本发明的优选,本发明一种基于关系图谱的数据自适应脱敏系统中,字段特性指标评估模块包括有效性、关联性、可逆性、可重复性、时效性以及安全性指标6个特性指
标和1个敏感级值指标。
[0030] 本发明一种基于关系图谱的数据自适应脱敏方法及系统有益效果在于:简单实用,稳定可靠,借助关系图谱处理表与表之间的关联性以及借助机器学习的分类算法做脱
敏算法的选择,能使系统的数据脱敏摆脱过多的人工干预,有效提升脱敏效率和脱敏安全
性。

附图说明

[0031] 图1为本发明一种基于关系图谱的数据自适应脱敏方法的流程示意图;
[0032] 图2为本发明一种基于关系图谱的数据自适应脱敏方法的表与表之间的字段关系图谱示意图;
[0033] 图3为本发明一种基于关系图谱的数据自适应脱敏系统的模块连接示意图。

具体实施方式

[0034] 以下是本发明的具体实施例,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
[0035] 现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的模块和步骤的相对布置和步骤不限制本发明的范围。
[0036] 同时,应当明白,为了便于描述,附图中的流程并不仅仅是单独进行,而是多个步骤相互交叉进行。
[0037] 以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
[0038] 对于相关领域普通技术人员已知的技术、方法及系统可能不作详细讨论,但在适当情况下,技术、方法及系统应当被视为授权说明书的一部分。
[0039] 传统的数据脱敏系统往往需要较多的人工干预,在新任务、新环境下用户的初始配置工作较大。并且受限于传统数据脱敏技术和系统内置算法的繁杂程度,往往表与表之
间的字段存在关联性,用户往往需要一定的业务和技术基础,这会导致传统数据脱敏系统
的入门成本过高。
[0040] 实施例一
[0041] 如图1、2所示,仅为本发明的其中一个实施例,本发明提供一种基于关系图谱的数据自适应脱敏方法,该方法包括以下步骤:
[0042] S1:生成脱敏算法库;
[0043] 在执行步骤S1时,脱敏算法库包括多种常见的脱敏算法,一般包括无效化、乱序、平均取值、反关联、偏移、对称加密和动态环境控制这7种常见的脱敏算法。
[0044] S2:建立表与表之间的字段关系图谱;
[0045] 如图2所示,建立字段‑表‑字段的字段关系图谱,将系统所有表的所有字段信息和外键信息呈现在关系数据库中。
[0046] S3:联合关系图谱的字段节点的中心度和其他整体特性指标以及每个字段的敏感级值得到所有字段对应的评估指标;
[0047] 为了将输入的整体的特性指标应用到系统的每个字段,字段特性指标评估模块将整体指标中除了关联性以外的指标作为所有字段默认的特性指标,然后对每个字段的关联
性指标通过建立所有字段和所有表的连接关系图谱的字段中心度指标确定,除此以外引入
每个字段的敏感级值,最后得到所有字段对应的7个指标。
[0048] 在这里,评估指标包括6个特性指标和1个敏感级值指标,其中6个特性指标包括有效性、关联性、可逆性、可重复性、时效性以及安全性指标。
[0049] S4:从脱敏算法库中构建训练集;
[0050] 在执行步骤S4时,训练集为字段特性指标‑脱敏算法训练集。
[0051] S5:训练决策树模型,测试时输入字段的评估指标,获取系统内所有字段对应的脱敏算法。
[0052] 字段脱敏算法的选择,设有决策树算法,通过输入每个字段对应7个指标到决策树中最后得到每个字段对应的脱敏算法。
[0053] 总之,本方法的输入为系统整体脱敏任务的6个特性指标,在字段特性指标评估内建立表与表之间的字段关系图谱,联合关系图谱的字段节点的中心度(关联性指标)和5个
其他整体特性指标以及每个字段的敏感级值得到所有字段对应的7个评估指标,最后从脱
敏算法库中构建(字段评估指标,脱敏算法)训练集,脱敏算法全集是脱敏算法库,训练C4.5
决策树,测试时输入字段的7个评估指标即可得系统内所有字段对应的脱敏算法。
[0054] 这样可以使得使用者从繁重的规则配置工作中进行解脱,用户只需关注整体脱敏任务的结果特性,即可得到系统内所有字段的推荐算法配置。
[0055] 本发明一种基于关系图谱的数据自适应脱敏方法不仅简单实用,稳定可靠,还借助关系图谱处理表与表之间的关联性以及借助机器学习的分类算法做脱敏算法的选择,能
使系统的数据脱敏摆脱过多的人工干预,有效提升脱敏效率和脱敏安全性。
[0056] 实施例二
[0057] 仍如图1所示,依然为本发明的其中一个实施例,为了使得本发明一种基于关系图谱的数据自适应脱敏方法更加的安全稳定,计算更加合理,本发明中还具有以下几个设计:
[0058] 首先,步骤S3中,6个特性指标均为2值化指标。其中字段的有效性、可逆性、可重复性、时效性和安全性指标继承自整体脱敏任务的特性指标即输入,关联性指标通过建立所
有字段和所有表的连接关系图谱的字段中心度指标确定,1个敏感级值指标由字段敏感度
识别模型得到。
[0059] 还有,步骤S3具体包括:
[0060] S31:通过建立表与表之间所有字段的关系图谱得到的中心度乘以整体关联性指标
[0061] S32:所有字段继承其他5个整体特性指标
[0062] S33:每个字段对应的敏感级值指标,是离散指标。
[0063] 最后,执行步骤 S5时,决策树为机器学习中常用的C4.5决策树,输入所有字段对应的5个2值化指标、1个离散指标和1个连续指标这7个特性指标到决策树模型中,输出为7
种脱敏算法中的一种,训练得到每个用户偏好的决策树模型,并由此得到所有字段对应的
脱敏算法。
[0064] 或者说,通过计算所有字段节点的中心性指标,再将所有字段的中心性指标乘以整体关联性指标,得到关系图谱中每个字段节点对应的关联性指标。将字段的关联性指标
和其他5个整体特性指标以及每个字段对应的敏感级值组成每个字段的评估指标,将历史
所有字段的7个评估指标和历史选择的脱敏算法输入到模型决策树中训练得到字段脱敏算
法选择模型,然后将算法输入的所有字段的7个评估指标输入到字段脱敏算法选择模型中
得到所有字段对应的脱敏算法,即得到整个系统的脱敏策略。
[0065] 实施例三
[0066] 本发明还提供一种基于关系图谱的数据自适应脱敏系统,该系统包括:
[0067] 脱敏算法库选择模块;
[0068] 字段特性指标评估模块;
[0069] 字段脱敏算法选择模块;
[0070] 脱敏算法库选择模块生成脱敏算法库;字段特性指标评估模块建立表与表之间的字段关系图谱,并联合关系图谱的字段节点的中心度和其他整体特性指标以及每个字段的
敏感级值得到所有字段对应的评估指标;字段脱敏算法选择模块从脱敏算法库中构建训练
集,训练决策树,测试时输入字段的评估指标,获取系统内所有字段对应的脱敏算法。
[0071] 在本发明一种基于关系图谱的数据自适应脱敏系统中,脱敏算法库选择模块包括无效化、乱序、平均取值、反关联、偏移、对称加密和动态环境控制7种脱敏算法。
[0072] 最后,本发明一种基于关系图谱的数据自适应脱敏系统中,字段特性指标评估模块包括有效性、关联性、可逆性、可重复性、时效性以及安全性指标6个特性指标和1个敏感
级值指标。
[0073] 本发明一种基于关系图谱的数据自适应脱敏方法及系统简单实用,稳定可靠,借助关系图谱处理表与表之间的关联性以及借助机器学习的分类算法做脱敏算法的选择,能
使系统的数据脱敏摆脱过多的人工干预,有效提升脱敏效率和脱敏安全性。
[0074] 虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围,本发明所属
技术领域的技术人员可以对所描述的具体实施例来做出各种各样的修改或补充或采用类
似的方式替代,但并不会偏离本发明的方向或者超越所附权利要求书所定义的范围。本领
域的技术人员应该理解,凡是依据本发明的技术实质对以上实施方式所作的任何修改、等
同替换、改进等,均应包含在本发明的保护范围。