基于自适应机制的基因数据隐私域动态防控系统及方法转让专利

申请号 : CN202210984200.X

文献号 : CN115391841B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴响王换换李奕霖李瑞瑞张永婷张潇

申请人 : 徐州恒佳电子科技有限公司徐州医科大学

摘要 :

本发明公开了基于自适应机制的基因数据隐私域动态防控系统及方法,身份验证模块,用于最大频繁序列分析挖掘算法,通过对数据请求者的访问日志进行频繁项挖掘,确认数据请求者的访问特征,进而判断数据请求者的身份;信任等级划分模块,用于结合身份验证结果和访问日志对数据请求者进行信任等级划分;权限划分模块,通过数据请求者的信任等级,为数据请求者下发不同的数据访问权限。本发明提供的基于自适应机制的基因数据隐私域动态防控系统及方法,对基因数据计算过程中存在的恶意数据请求者、不可靠第三方、链路攻击和参数反推攻击等攻击行为,以实现基因数据计算的安全性和私密性,确保数据隐私不被泄露。

权利要求 :

1.基于自适应机制的基因数据隐私域动态防控系统,其特征在于,包括:身份验证模块,用于最大频繁序列分析挖掘算法,通过对数据请求者的访问日志进行频繁项挖掘,确认数据请求者的访问特征,进而判断数据请求者的身份;

信任等级划分模块,用于结合身份验证结果和访问日志对数据请求者进行信任等级划分;

权限划分模块,通过数据请求者的信任等级,为数据请求者下发不同的数据访问权限;

隐私保护策略模块,通过基于智能统计分析方法对信任等级、权限划分和数据隐私参数c进行线性回归分析,得到最佳数据隐私参数c的权重取值,根据最佳数据隐私参数c的权重取值匹配不同的隐私保护策略;

基因计算保护模块,用于对正常基因数据通过分裂传输算法进行链路传输保护,利用区块链的共识算法实现基因数据的联合计算和数据共享;

其中,身份验证模块中最大频繁序列分析挖掘具体包括如下步骤:S1:首先找到频繁的一维项集L1,从频繁的Lk维项集生成k+1维项集Ck+1,S2:找到Ck+1中的频繁项集Lk+1,循环执行项集Ck+1和频繁项集Lk+1的查找过程,直至k+1满足设定阈值;

S3:输出各个维度的频繁项集;

S4:判断频繁项集,若数据请求者频繁访问基因数据网站和某些恶意网站,则判断该数据请求者为恶意的,拒绝其访问本地数据,若无异常则允许其进行允许进行操作;

其中,信任等级划分模块进行以下操作:

步骤一:选取访问日志中数据请求者的资质凭证、IP地址、处理能力数据,结合身份验证频繁项集;

步骤二:采用决策树进行动态建模,

1>构造根节点,将所有训练数据集都放到根节点,选择一个最优特征,将训练数据集分割成子集;

2>若子集分类正确,那么构建叶节点;若分类不正确,则继续对其分割,构造相应的结点,如此递归进行,直至所有训练数据集被正确分类,或者没有合适的特征为止;

步骤三:根据分类结果划分为四个等级:

信任等级1:无条件信任数据请求者;

信任等级2:高信任数据请求者;

信任等级3:中信任数据请求者;

信任等级4:0信任数据请求者;

其中,权限划分模块的权限划分如下:

1)信任等级1‑‑‑允许访问和共享本地基因数据信息;

2)信任等级2‑‑‑允许在不共享本地基因数据情况下进行基因计算;

3)信任等级3‑‑‑允许请求本地基因数据计算结果的统计信息;

4)信任等级4‑‑‑仅允许查看本地基因数据的摘要信息。

2.根据权利要求1所述的基于自适应机制的基因数据隐私域动态防控系统,其特征在于,所述隐私保护策略模块中,数据隐私参数c的权重取值具有以下不同隐私保护方案:

0‑0.25:扰动方案;

0.25‑0.5:框架方案;

0.5‑0.75:加密方案;

0.75‑1:混合方案;

其中,扰动方案根据权限划分的不同,分为k‑匿名和差分隐私机制两种,k‑匿名用于对数据摘要的关键信息进行脱敏,差分隐私机制用于对本地计算的统计结果进行扰动。

3.根据权利要求1所述的基于自适应机制的基因数据隐私域动态防控系统,其特征在于,所述基因计算保护模块进行以下操作:一)进行基因计算前,先对基因数据的可靠性和真实性进行验证,采用机器学习方法对基因数据进行分析,分析结果包括恶意基因数据和正常基因数据两大类;

二)正常基因数据参与数据查询、在本地进行计算输出统计结果、参与联合学习和进行数据共享的基因计算流程;

其中,参与联合学习和进行数据共享的基因计算流程,通过分裂传输算法,解决参数泄露和数据泄露的问题。

4.根据权利要求1所述的基于自适应机制的基因数据隐私域动态防控系统,其特征在于,所述分裂传输算法如下:

1.1、将基因数据每M个SNP设为一组基因数据片段,共分为N组,传输至区块链上的N个节点,该N个节点之间是相互独立的,保障数据片段的独立完整性;

1.2、利用区块链的共识算法对N个节点进行相互验证;

1.3、若存在恶意节点,则共识失败,无法启动基因数据计算流程,保障了数据的安全;

若节点间达成共识,则启动基因数据计算流程,实现基因数据的共享传输。

5.根据权利要求3所述的基于自适应机制的基因数据隐私域动态防控系统,其特征在于:基因计算流程中,当分析结果包括恶意基因数据时,则被拒绝参与计算过程,同时将提供恶意数据的数据请求者拉入黑名单。

6.根据权利要求1‑5所述的基于自适应机制的基因数据隐私域动态防控系统的处理方法,其特征在于,包括如下步骤:步骤1、数据请求者请求访问本地基因数据,通过身份验证模块采集数据请求者访问日志信息,通过最大频繁序列分析挖掘算法确认数据请求者访问特征,完成身份验证;

步骤2、通过身份验证模块验证后的数据请求者,访问信任等级划分模块,对数据请求者的访问日志和身份验证结果进行分析,将数据请求者划分为四个信任等级;

步骤3、针对不同等级的数据请求者,通过权限划分模块给数据请求者下发不同的访问控制权限;

步骤4、基于数据请求者的信任等级以及访问控制权限,通过基于智能统计分析方法得到最佳数据隐私参数c的权重取值,得到相应的隐私保护策略;

步骤5、完成以上操作后,进入基因计算保护模块,通过机器学习算法评估基因数据的安全性和可靠性,恶意基因数据被拒绝参与基因数据计算过程,正常基因数据通过设计的分裂传输算法,参与计算。

7.根据权利要求6所述的基于自适应机制的基因数据隐私域动态防控系统的处理方法,其特征在于,所述基因数据计算过程,均在安全硬件执行环境下进行,确保基因数据安全。

说明书 :

基于自适应机制的基因数据隐私域动态防控系统及方法

技术领域

[0001] 本发明属于数据安全技术领域,具体涉及基于自适应机制的基因数据隐私域动态防控系统及方法。

背景技术

[0002] 随着生命科学研究不断深入、技术不断进步,应用在疾病预防、疾病诊断、疾病治疗等领域的基因测序市场规模迅速扩大,生物大数据的地位重要性日益突出。且人类基因组数据非常敏感和私密,已有研究证明仅通过获取30~80个统计上独立的SNP变异位点就能够定位识别唯一个体,恶意数据请求者、不可靠第三方、链路攻击和参数反推攻击等仍对基因数据的安全存在巨大威胁。
[0003] 尽管提出了诸如差分隐私、联邦学习、加密等方法解决基因数据计算中的隐私泄露问题,但这些方法没有对基因数据特征和攻击类型进行针对性的分析,往往采用统一方法对所有的基因数据和攻击类型进行操作,造成资源浪费。如何对基因数据和攻击类型进行细致的划分,提出有针对性的隐私保护策略,仍是目前人类基因组数据研究的热点和重点。

发明内容

[0004] 本发明的目的在于提供基于自适应机制的基因数据隐私域动态防控系统及方法,以解决传统方法没有对基因数据特征和攻击类型进行针对性的分析,所采用的方法单一,没对所有的基因数据和攻击类型进行操作,造成资源浪费的问题。
[0005] 为实现上述目的,本发明提供如下技术方案,基于自适应机制的基因数据隐私域动态防控系统及方法,包括:
[0006] 身份验证模块,用于最大频繁序列分析挖掘算法,通过对数据请求者的访问日志进行频繁项挖掘,确认数据请求者的访问特征,进而判断数据请求者的身份;
[0007] 信任等级划分模块,用于结合身份验证结果和访问日志对数据请求者进行信任等级划分;
[0008] 权限划分模块,通过数据请求者的信任等级,为数据请求者下发不同的数据访问权限;
[0009] 隐私保护策略模块,通过基于智能统计分析方法对信任等级、权限划分和数据隐私参数c进行线性回归分析,得到最佳数据隐私参数c的权重取值,根据最佳数据隐私参数c的权重取值匹配不同的隐私保护策略;
[0010] 基因计算保护模块,用于对正常基因数据通过分裂传输算法进行链路传输保护,利用区块链的共识算法实现基因数据的联合计算和数据共享。
[0011] 优选的,所述身份验证模块中,最大频繁序列分析挖掘包括如下步骤:
[0012] S1:首先找到频繁的一维项集L1,从频繁的Lk维项集生成k+1维项集Ck+1,[0013] S2:找到Ck+1中的频繁项集Lk+1,循环执行项集Ck+1和频繁项集Lk+1的查找过程,直至k+1满足设定阈值;
[0014] S3:输出各个维度的频繁项集;
[0015] S4:判断频繁项集,若数据请求者频繁访问基因数据网站和某些恶意网站,则判断该数据请求者为恶意的,拒绝其访问本地数据,若无异常则允许其进行允许进行操作。
[0016] 优选的,所述信任等级划分模块包括如下步骤:
[0017] 步骤一:选取访问日志中数据请求者的资质凭证、IP地址、处理能力等数据,结合身份验证频繁项集,
[0018] 步骤二:采用决策树进行动态建模,
[0019] 1>构造根节点,将所有训练数据集都放到根节点,选择一个最优特征,将训练数据集分割成子集,使得训练集在当前按条件下有最好的分类;
[0020] 2>若子集可以很好的分类,那么构建叶节点,若不能很好的分类,继续对其分割,构造相应的结点,如此递归进行,直至所有训练数据集被基本正确分类,或者没有合适的特征为止;
[0021] 步骤三:根据分类结果划分为四个等级:
[0022] 信任等级1:无条件信任数据请求者;
[0023] 信任等级2:高信任数据请求者;
[0024] 信任等级3:中信任数据请求者;
[0025] 信任等级4:0信任数据请求者。
[0026] 优选的,所述权限划分模块的权限划分如下:
[0027] 1)信任等级1‑‑‑允许访问和共享本地基因数据信息;
[0028] 2)信任等级2‑‑‑允许在不共享本地基因数据情况下进行基因计算;
[0029] 3)信任等级3‑‑‑允许请求本地基因数据计算结果的统计信息;
[0030] 4)信任等级4‑‑‑仅允许查看本地基因数据的摘要信息。
[0031] 优选的,所述隐私保护策略模块中,数据隐私参数c的权重取值具有以下不同隐私保护方案:
[0032] 0‑0.25:扰动方案;
[0033] 0.25‑0.5:框架方案;
[0034] 0.5‑0.75:加密方案;
[0035] 0.75‑1:混合方案;
[0036] 其中,扰动方案根据权限划分的不同,分为k‑匿名和差分隐私机制两种,k‑匿名用于对数据摘要的关键信息进行脱敏,差分隐私机制用于对本地计算的统计结果进行扰动。
[0037] 优选的,所述基因计算保护模块进行以下步骤:
[0038] 一)进行基因计算前,先对基因数据的可靠性和真实性进行验证,采用机器学习方法对基因数据进行分析,分析结果包括恶意基因数据和正常基因数据两大类;
[0039] 二)正常基因数据可参与数据查询、在本地进行计算输出统计结果、参与联合学习和进行数据共享的基因计算流程;
[0040] 其中,参与联合学习和进行数据共享的基因计算流程,通过设计的分裂传输算法,解决参数泄露和数据泄露的问题。
[0041] 优选的,所述分裂传输算法如下:
[0042] 1.1、将基因数据每M个SNP设为一组基因数据片段,共分为N组,传输至区块链上的N个节点,该N个节点之间是相互独立的,保障数据片段的独立完整性;
[0043] 1.2、利用区块链的共识算法对N个节点进行相互验证;
[0044] 1.3、若存在恶意节点,则共识失败,无法启动基因数据计算流程,保障了数据的安全;若节点间达成共识,则启动基因数据计算流程,实现基因数据的共享传输。
[0045] 优选的,所述基因计算流程中,当分析结果包括恶意基因数据时,则被拒绝参与计算过程,同时将提供恶意数据的数据请求者拉入黑名单。
[0046] 优选的,上述系统的处理方法具体包括如下步骤:
[0047] 步骤1、数据请求者请求访问本地基因数据,通过身份验证模块采集数据请求者访问日志信息,通过最大频繁序列分析挖掘算法确认数据请求者访问特征,完成身份验证;
[0048] 步骤2、通过身份验证模块验证后的的数据请求者,访问信任等级划分模块,对数据请求者的访问日志和身份验证结果进行分析,将数据请求者划分为四个信任等级;
[0049] 步骤3、针对不同等级的数据请求者,通过权限划分模块给数据请求者下发不同的访问控制权限;
[0050] 步骤4、基于数据请求者的信任等级以及访问控制权限,通过基于智能统计分析方法得到最佳数据隐私参数c的权重取值,得到相应的隐私保护策略;
[0051] 步骤5、完成以上操作后,进入基因计算保护模块,通过机器学习算法评估基因数据的安全性和可靠性,恶意基因数据被拒绝参与基因数据计算过程,正常基因数据通过设计的分裂传输算法,参与计算。
[0052] 优选的,所述基因数据计算流程,均在安全硬件执行环境下进行,确保基因数据安全。
[0053] 本发明的技术效果和优点:通过身份验证、权限划分、隐私策略保护和基因计算保护,对基因数据计算过程中存在的恶意数据请求者、不可靠第三方、链路攻击和参数反推攻击等攻击行为,以实现基因数据计算的安全性和私密性,确保数据隐私不被泄露。

附图说明

[0054] 图1为本发明的防控系统示意图;
[0055] 图2为本发明的系统流程示意图;
[0056] 图3为本发明的隐私保护策略模块示意图;
[0057] 图4为本发明的基因计算保护模块示意图;
[0058] 图5为本发明的分裂传输算法示意图。

具体实施方式

[0059] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0060] 本发明提供了如图中1‑5所示的基于自适应机制的基因数据隐私域动态防控系统及方法,包括:
[0061] 身份验证模块,用于最大频繁序列分析挖掘算法,通过对数据请求者的访问日志进行频繁项挖掘,确认数据请求者的访问特征,进而判断数据请求者的身份;
[0062] 信任等级划分模块,用于结合身份验证结果和访问日志对数据请求者进行信任等级划分;
[0063] 权限划分模块,通过数据请求者的信任等级,为数据请求者下发不同的数据访问权限;
[0064] 隐私保护策略模块,通过基于智能统计分析方法对信任等级、权限划分和数据隐私参数c进行线性回归分析,得到最佳数据隐私参数c的权重取值,根据最佳数据隐私参数c的权重取值匹配不同的隐私保护策略;
[0065] 基因计算保护模块,用于对正常基因数据通过分裂传输算法进行链路传输保护,利用区块链的共识算法实现基因数据的联合计算和数据共享。
[0066] 具体的,所述身份验证模块中,最大频繁序列分析挖掘包括如下步骤:
[0067] S1:首先找到频繁的一维项集L1,从频繁的Lk维项集生成k+1维项集Ck+1,[0068] S2:找到Ck+1中的频繁项集Lk+1,循环执行项集Ck+1和频繁项集Lk+1的查找过程,直至k+1满足设定阈值;
[0069] S3:输出各个维度的频繁项集;
[0070] S4:判断频繁项集,若数据请求者频繁访问基因数据网站和某些恶意网站,则判断该数据请求者为恶意的,拒绝其访问本地数据,若无异常则允许其进行允许进行操作。
[0071] 具体的,可参考图2所示,所述信任等级划分模块包括如下步骤:
[0072] 步骤一:选取访问日志中数据请求者的资质凭证、IP地址、处理能力数据,结合身份验证频繁项集,
[0073] 步骤二:采用决策树进行动态建模,
[0074] 1>构造根节点,将所有训练数据集都放到根节点,选择一个最优特征,将训练数据集分割成子集,使得训练集在当前按条件下有最好的分类;
[0075] 2>若子集可以很好的分类,那么构建叶节点,若不能很好的分类,继续对其分割,构造相应的结点,如此递归进行,直至所有训练数据集被基本正确分类,或者没有合适的特征为止;
[0076] 步骤三:根据分类结果划分为四个等级:
[0077] 信任等级1:无条件信任数据请求者;
[0078] 信任等级2:高信任数据请求者;
[0079] 信任等级3:中信任数据请求者;
[0080] 信任等级4:0信任数据请求者。
[0081] 具体的,所述权限划分模块的权限划分如下:
[0082] 1)信任等级1‑‑‑允许访问和共享本地基因数据信息;
[0083] 2)信任等级2‑‑‑允许在不共享本地基因数据情况下进行基因计算;
[0084] 3)信任等级3‑‑‑允许请求本地基因数据计算结果的统计信息;
[0085] 4)信任等级4‑‑‑仅允许查看本地基因数据的摘要信息。
[0086] 具体的,可参考图3所示,所述隐私保护策略模块中,数据隐私参数c的权重取值具有以下不同隐私保护方案:
[0087] 0‑0.25:扰动方案;
[0088] 0.25‑0.5:框架方案;
[0089] 0.5‑0.75:加密方案;
[0090] 0.75‑1:混合方案;
[0091] 其中,扰动方案根据权限划分的不同,分为k‑匿名和差分隐私机制两种,k‑匿名用于对数据摘要的关键信息进行脱敏,差分隐私机制用于对本地计算的统计结果进行扰动。
[0092] 具体的,可参考图4所示,所述基因计算保护模块进行以下操作:
[0093] 一)进行基因计算前,先对基因数据的可靠性和真实性进行验证,采用机器学习方法对基因数据进行分析,分析结果包括恶意基因数据和正常基因数据两大类;
[0094] 二)正常基因数据可参与数据查询、在本地进行计算输出统计结果、参与联合学习和进行数据共享的基因计算流程;
[0095] 其中,参与联合学习和进行数据共享的基因计算流程,通过设计的分裂传输算法,解决参数泄露和数据泄露的问题。
[0096] 具体的,可参考附图5所示,所述分裂传输算法如下:
[0097] 1.1、将基因数据每M个SNP设为一组基因数据片段,共分为N组,传输至区块链上的N个节点,该N个节点之间是相互独立的,保障数据片段的独立完整性;
[0098] 1.2、利用区块链的共识算法对N个节点进行相互验证;
[0099] 1.3、若存在恶意节点,则共识失败,无法启动基因数据计算流程,保障了数据的安全;若节点间达成共识,则启动基因数据计算流程,实现基因数据的共享传输。
[0100] 其中,该算法可对联邦学习框架中的传输参数进行相同的处理,保证参数传输的安全性。
[0101] 具体的,所述基因计算流程中,当分析结果包括恶意基因数据时,则被拒绝参与计算过程,同时将提供恶意数据的数据请求者拉入黑名单。
[0102] 具体的,包括如下步骤:
[0103] 步骤1、数据请求者请求访问本地基因数据,通过身份验证模块采集数据请求者访问日志信息,通过最大频繁序列分析挖掘算法确认数据请求者访问特征,完成身份验证;
[0104] 步骤2、通过身份验证模块验证后的请求者,访问信任等级划分模块,对数据请求者的访问日志和身份验证结果进行分析,将数据请求者划分为四个信任等级;
[0105] 步骤3、针对不同等级的数据请求者,通过权限划分模块给数据请求者下发不同的访问控制权限;
[0106] 步骤4、基于数据请求者的信任等级以及访问控制权限,通过基于智能统计分析方法得到最佳数据隐私参数c的权重取值,得到相应的隐私保护策略;
[0107] 步骤5、完成以上操作后,进入基因计算保护模块,通过机器学习算法评估基因数据的安全性和可靠性,恶意基因数据被拒绝参与基因数据计算过程,正常基因数据通过设计的分裂传输算法,参与计算。
[0108] 具体的,所述基因数据计算流程,均在安全硬件执行环境下进行,确保基因数据安全。
[0109] 工作原理,在对基因数据计算过程中存在的恶意数据请求者、不可靠第三方、链路攻击和参数反推攻击等攻击行为,进行身份验证、权限划分、隐私策略保护和基因计算保护,以实现基因数据计算的安全性和私密性,确保数据隐私不被泄露;具体为:数据请求者在历经身份验证模块、信任等级划分模块和权限划分模块后,在隐私保护模块中的扰动方案将根据权限划分的不同,分为k‑匿名和差分隐私机制两种,k‑匿名用于对数据摘要的关键信息进行脱敏,差分隐私机制用于对本地计算的统计结果进行扰动,通过分裂算法解决参数泄露和数据泄露的问题,所有的基因数据计算过程均在可信硬件执行环境中进行。
[0110] 最后应说明的是,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。