一种物联网中汇聚数据流的隐私保护发布方法转让专利

申请号 : CN201811301095.5

文献号 : CN109450889B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨新宇王腾任雪斌姚向华翟守沛魏洁王舒阳

申请人 : 西安交通大学

摘要 :

本发明公开了一种物联网中汇聚数据流的隐私保护发布方法。本发明首先基于维度划分的结果对数据流添加拉普拉斯噪声进行隐私保护,然后基于自适应更新的系统阈值来进行数据流动态分组,最后根据噪声数据和动态分组结果进行噪声平滑处理,得到可直接发布的具有隐私保护的数据流,相比一般的隐私保护方法,本发明通过学习多维数据流的维度相关性和时间相关性来提升发布数据的效用性,并且基于反馈误差设计了自适应的阈值更新策略和动态分组策略,保证了本发明在实际中实用性。本发明实现了多维数据流的自适应实时发布,整个过程简单、易于实现,无需复杂的加密解密运算,具有较低的计算开销,使用价值高。

权利要求 :

1.一种物联网中汇聚数据流的隐私保护发布方法,其特征在于,首先对每个时刻产生数据流根据维度划分结果添加拉普拉斯噪声,然后基于自适应动态分组结果对噪声数据流进行平滑处理,具体包括以下步骤:Step1维度划分:对当前t时刻的上一时刻发布的d-维数据流 基于空间映射和哈希函数对维度进行划分,得到维度划分结果Step2噪声扰动:根据维度划分结果 基于拉普拉斯噪声机制向每一个划分中数据流之和添加随机噪声,然后将扰动值的均值作为当前划分中每维数据流的扰动值;

Step3自适应阈值更新:计算每维数据流的PID误差 然后基于此误差计算得到d-维数据流对应的系统分组阈值Step4自适应动态分组:根据各个维度的分组阈值 计算当前t时刻所有维度数据流的动态分组结果Step5噪声平滑:基于动态分组结果 使用中值平滑机制对各维度当前分组内的噪声数据流进行平滑处理,得到t时刻的最终发布数据流

2.根据权利要求1所述的一种物联网中汇聚数据流的隐私保护发布方法,其特征在于,Step1的具体操作为:根据空间映射函数 对多维数据流的先验估计值进行空间映射,得到d-维k-位的二值向量矩阵Vd×k的表达式为然后根据哈希函数族 对矩阵Vd×k中的每一条向量vi(i∈[1,d])进行哈希,从而得到原始d-维数据流的维度划分结果

3.根据权利要求2所述的一种物联网中汇聚数据流的隐私保护发布方法,其特征在于,Step2计算每一个划分 内的数据流之和的表达式为其中,

各个划分内添加噪声的表达式为

其中,Δ是敏感度,ω是滑动窗口大小,εp是用于扰动的隐私预算;

划分pj中各维度数据流的噪声值的表达式为

其中, 表示t时刻第l维的噪声值,且l∈pj。

4.根据权利要求3所述的一种物联网中汇聚数据流的隐私保护发布方法,其特征在于,Step3计算PID误差 的表达式为其中,Kp,Ki和Kd是PID控制器标准参数,分别表示比例增益、积分增益和微分增益,且满足Kp,Ki,Kd≥0和Kp+Ki+Kd=1; 表示当前误差, 表示在窗口η内的积分误差, 表示预测误差;

根据第i-维数据的PID误差更新第i-维数据流的阈值的表达式为其中, 表示第i-维数据流在时刻t的阈值,ε是隐私预算;

对d-维数据流分别进行阈值更新操作,得到d-维数据流对应的系统分组阈值

5.根据权利要求4所述的一种物联网中汇聚数据流的隐私保护发布方法,其特征在于,Step4中根据系统分组阈值 对d-维数据流进行动态分组的具体操作是:对于每一维数据流,首先计算上一时刻分组 中的数据流与新数据 的偏差值的表达式为

其中, 表示分组 内所有时刻对应的数据流集合, 表示组的大小;

然后向偏差值添加拉普拉斯噪声的表达式为

其中, 表示第i-维数据流在时刻t的偏差值,Δdev表示偏差函数的敏感度,ω表示滑动窗口大小,εg表示用于分组的隐私预算;

对于第i-维数据流而言,如果 则将当前数据流添加到上一时刻分组中,得到当前时刻新的分组,即 如果 则直接将当前数据流作为当前时刻新的分组,即 对d-维数据流依次按照上述步骤计算完成之后,得到d-维数据流在当前t时刻的动态分组结果

6.根据权利要求5所述的一种物联网中汇聚数据流的隐私保护发布方法,其特征在于,Step5中根据动态分组结果 采用中值平滑机制进行噪声平滑处理的表达式为其中,i∈[1,d];

对d-维数据流依次按照上述步骤进行平滑处理之后,得到当前时刻隐私保护后的发布数据流

说明书 :

一种物联网中汇聚数据流的隐私保护发布方法

技术领域

[0001] 本发明属于隐私保护领域,具体涉及一种物联网中汇聚数据流的隐私保护发布方法。

背景技术

[0002] 随着物联网和大数据时代的到来,基于移动智能设备的新型移动感知模型,通过先进的全面感知技术来获取和发布物理世界的海量数据流,从而极大促进了基于数据感知的应用服务的发展和普及,也极大地改善和方便了人们的日常生活,例如,交通流量监测、疾病监测与预防、服务推荐等。但是,大量数据流的发布会严重暴露用户的隐私信息。由于传感器大都与人相互作用,因此来自传感器的数据流在本质上包含大量的用户敏感信息。例如健康监测数据流、IoT服务数据流、GPS数据流、交通流量数据流等会隐含参与用户的日常行为、周围环境、位置信息,甚至是生理特征等信息。一旦这些信息遭到暴露或滥用,都会严重威胁用户的隐私信息,甚至是生命财产安全。与传统静态数据集相比,数据流具有连续性、多维性、无限性、实时性等特点,且大量的基于群智感知的服务应用场景也要求能够对多维数据流进行实时发布、共享与分析。目前已有机制难以自适应的学习数据流的动态变化特性,需要依赖事先定义的参数,导致噪声添加过量,破坏原始数据流的席效用性。因此,本发明同时学习多维数据流的维度关系性和时间关联性,设计了一种物联网中汇聚数据流的隐私保护发布方法。

发明内容

[0003] 本发明的目的是解决现有针对数据流隐私保护技术的不足,提出了一种物联网中汇聚数据流的隐私保护发布方法。本发明简单、易于实现,可以在发布多维数据流时有效保证参与用户的隐私信息,同时保证较低的计算开销和提高发布数据的效用性。
[0004] 为达到上述目的,本发明采用如下的技术方案来实现的:
[0005] 一种物联网中汇聚数据流的隐私保护发布方法,首先对每个时刻产生数据流根据维度划分结果添加拉普拉斯噪声,然后基于自适应动态分组结果对噪声数据流进行平滑处理,具体包括以下步骤:
[0006] Step1维度划分:对当前t时刻的上一时刻发布的d-维数据流 基于空间映射和哈希函数对维度进行划分,得到维度划分结果
[0007] Step2噪声扰动:根据维度划分结果 基于拉普拉斯噪声机制向每一个划分中数据流之和添加随机噪声,然后将扰动值的均值作为当前划分中每维数据流的扰动值;
[0008] Step3自适应阈值更新:计算每维数据流的PID误差Δerrti,然后基于此误差计算得到d-维数据流对应的系统分组阈值
[0009] Step4自适应动态分组:根据各个维度的分组阈值 计算当前t时刻所有维度数据流的动态分组结果
[0010] Step5噪声平滑:基于动态分组结果 使用中值平滑机制对各维度当前分组内的噪声数据流进行平滑处理,得到t时刻的最终发布数据流
[0011] 本发明进一步的改进在于,Step1的具体操作为:根据空间映射函数对多维数据流的先验估计值 进行空间映射,得到d-维k-位的二值向量矩阵Vd×k的表达式为
[0012]
[0013] 然后根据哈希函数族 对矩阵Vd×k中的每一条向量vi(i∈[1,d])进行哈希,从而得到原始d-维数据流的维度划分结果
[0014] 本发明进一步的改进在于,Step2计算每一个划分 内的数据流之和的表达式为
[0015]
[0016] 其中,
[0017] 各个划分内添加噪声的表达式为
[0018]
[0019] 其中,Δ是敏感度,ω是滑动窗口大小,εp是用于扰动的隐私预算;
[0020] 划分pj中各维度数据流的噪声值的表达式为
[0021]
[0022] 其中, 表示t时刻第l维的噪声值,且l∈pj。
[0023] 本发明进一步的改进在于,Step3计算PID误差Δerrti的表达式为[0024]
[0025] 其中,Kp,Ki和Kd是PID控制器标准参数,分别表示比例增益、积分增益和微分增益,且满足Kp,Ki,Kd≥0和Kp+Ki+Kd=1; 表示当前误差, 表示在窗口η内的积分误差, 表示预测误差;
[0026] 根据第i-维数据的PID误差更新第i-维数据流的阈值的表达式为
[0027]
[0028] 其中, 表示第i-维数据流在时刻t的阈值,ε是隐私预算;
[0029] 对d-维数据流分别进行阈值更新操作,得到d-维数据流对应的系统分组阈值[0030] 本发明进一步的改进在于,Step4中根据系统分组阈值 对d-维数据流进行动态分组的具体操作是:对于每一维数据流,首先计算上一时刻分组 中的数据流与新数据的偏差值的表达式为
[0031]
[0032] 其中, 表示分组 内所有时刻对应的数据流集合, 表示组的大小;
[0033] 然后向偏差值添加拉普拉斯噪声的表达式为
[0034]
[0035] 其中, 表示第i-维数据流在时刻t的偏差值,Δdev表示偏差函数的敏感度,ω表示滑动窗口大小,εg表示用于分组的隐私预算;
[0036] 对于第i-维数据流而言,如果 则将当前数据流添加到上一时刻分组中,得到当前时刻新的分组,即 如果 则直接将当前数据流作为当前时刻新的分组,即 对d-维数据流依次按照上述步骤计算完成之后,得到d-维数据流在当前t时刻的动态分组结果
[0037] 本发明进一步的改进在于,Step5中根据动态分组结果 采用中值平滑机制进行噪声平滑处理的表达式为
[0038]
[0039] 其中,i∈[1,d];
[0040] 对d-维数据流依次按照上述步骤进行平滑处理之后,得到当前时刻隐私保护后的发布数据流rtd=(rt1,rt2,…,rtd)T。
[0041] 本发明具有如下有益的技术效果:
[0042] 本发明所述的一种物联网中汇聚数据流的隐私保护发布方法,不仅能够对多维数据流进行实时隐私保护发布,通过同时学习多维数据流的维度相关性和时间相关性来提高发布数据流的效用性,并且设计了数据自适应的动态分组策略,不再依赖事先定义的固定参数,因而在实际中具有更好的实用性。通过理论分析和实验分析,相比于其他隐私保护机制,本发明在相同隐私保护的前提下具有更高的数据效用性。

附图说明

[0043] 图1是自适应的多维数据流隐私保护实时发布方法过程示意图;
[0044] 图2是数据流发布可视化示意图;其中,图2(a)是原始数据流,图2(b)是直接添加噪声发布的数据流,图2(c)是使用本发明发布的数据流。
[0045] 图3是不同隐私预算下与其他机制进行对比的平均相对误差对比图;
[0046] 图4是不同滑动窗口下与其他机制进行对比的平均相对误差对比图;
[0047] 图5是采用维度划分和不采用维度划分时的平均相对误差对比图。

具体实施方式

[0048] 下面结合附图对本发明作进一步详细描述。
[0049] 参考图1,本发明提供的一种物联网中汇聚数据流的隐私保护发布方法,具体包括以下步骤:
[0050] Step1维度划分:根据空间映射函数 对多维数据流的先验估计值 (即上一时刻发布的d-维数据流 )进行空间映射,得到d-维k-位的二值向量矩阵Vd×k的表达式为
[0051]
[0052] 然后根据哈希函数族 对矩阵Vd×k中的每一条向量vi(i∈[1,d])进行哈希,从而得到原始d-维数据流的维度划分结果
[0053] Step2噪声扰动:根据维度划分结果 计算每一个划分 内的数据流之和的表达式为
[0054]
[0055] 各个划分内添加噪声的表达式为
[0056]
[0057] 其中,Δ是敏感度,ω是滑动窗口大小,εp是用于扰动的隐私预算;
[0058] 划分pj中各维度数据流的噪声值的表达式为
[0059]
[0060] 其中, 表示t时刻第l维的噪声值,且l∈pj。
[0061] Step3自适应阈值更新:计算每维数据流的PID误差Δerrti(i∈[1,d])的表达式为[0062]
[0063] 其中,Kp,Ki和Kd是PID控制器标准参数,分别表示比例增益、积分增益和微分增益,且满足Kp,Ki,Kd≥0和Kp+Ki+Kd=1;其中 表示当前误差, 表示在窗口η内的积分误差, 表示预测误差;
[0064] 根据第i-维数据的PID误差更新第i-维数据流的阈值的表达式为
[0065]
[0066] 其中, 表示第i-维数据流在时刻t的阈值,ε是隐私预算;
[0067] 对d-维数据流分别进行阈值更新操作,得到d-维数据流对应的系统分组阈值[0068] Step4自适应动态分组:根据系统分组阈值 对d-维数据流进行动态分组的具体操作是:对于每一维数据流,首先计算上一时刻分组 中的数据流与新数据的偏差值的表达式为
[0069]
[0070] 其中, 表示分组 内所有时刻对应的数据流集合, 表示组的大小;
[0071] 然后向偏差值添加拉普拉斯噪声的表达式为
[0072]
[0073] 其中, 表示第i-维数据流在时刻t的偏差值,Δdev表示偏差函数的敏感度,ω表示滑动窗口大小,εg表示用于分组的隐私预算;
[0074] 对于第i-维数据流而言(i∈[1,d]),如果 则将当前数据流添加到上一时刻分组中,得到当前时刻新的分组,即 如果 则直接将当前数据流作为当前时刻新的分组,即 对d-维数据流依次按照上述步骤计算完成之后,得到d-维数据流在当前t时刻的动态分组结果
[0075] Step5噪声平滑:根据动态分组结果 采用中值平滑机制进行噪声平滑处理的表达式为
[0076]
[0077] 其中,i∈[1,d];在实际应用中也可以根据使用均值平滑机制,JSS平滑机制等代替中值平滑机制,能够取得同样的预期效果;
[0078] 对d-维数据流依次按照上述步骤进行平滑处理之后,得到当前时刻隐私保护后的发布数据流rtd=(rt1,rt2,…,rtd)T。
[0079] 参考图2,是对Flu数据流进行发布时的可视化示意图,设置隐私预算为1,滑动窗口大小为100,对比图2中的三幅子图可以看到,直接向原始数据流添加拉普拉斯噪声时,会造成较大的扰动误差,发布的噪声数据流远远偏离原始数据流,而使用本发明提出的方法发布的噪声数据流,具有较小的噪声扰动,与原始数据流相比,具有接近的变化趋势。
[0080] 参考图3,是在StateFlu数据集上进行平均相对误差实验,与本发明对比的现有机制为BD、BA、RescueDP和PeGaSus,图3中AdaPub代表本发明提出的方法,实验中设置滑动窗口大小为100,隐私预算变化范围设置为0.1~0.9,可以看到本发明在不同隐私预算下均具有最低的平均相对误差,说明与其他机制相比,本发明具有最好的数据效用性。
[0081] 参考图4,是在StateFlu数据集上进行平均相对误差实验,与本发明对比的现有机制为BD、BA、RescueDP和PeGaSus,图4中AdaPub代表本发明提出的方法,实验中设置隐私预算大小为1,滑动窗口大小变化范围设置为40~200,可以看到与其他机制相比,本发明在不同滑动窗口大小下均具有最低的平均相对误差,再次证明本发明在发布数据流时可以保证较高的数据效用性。
[0082] 参考图5,是在StateFlu数据集上进行平均相对误差实验,对比了采用维度划分和不采用维度划分时的平均误差变化情况,设置滑动窗口大小为100,隐私预算变化范围设置为0.1~0.9,可以看到,采用维度划分机制时在不同隐私预算下明显具有较小的平均相对误差,说明本发明采用维度划分可以有效减少添加的噪声规模,从而提高发布数据的效用性。