基于深度强化学习的三维空间LBS中位置隐私保护方法转让专利

申请号 : CN202111483333.0

文献号 : CN114117536B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 闵明慧李孙笑何崔博言张铭元李鑫李世银丁继存

申请人 : 中国矿业大学徐州市第一人民医院

摘要 :

本发明提出一种基于深度强化学习的三维空间LBS中位置隐私保护方法,涉及位置服务和信息安全领域。将三维空间进行分块,然后利用深度卷积神经网络捕获位置服务过程中的环境信息,动态选择位置扰动策略;结合迁移学习技术,利用相似环境下的三维位置扰动经验初始化神经网络参数,利用三维拉普拉斯加噪机制对用户真实位置进行扰动,从而使攻击者无法获得用户的真实三维地址,对确定的扰动后的扰动位置进行经验回收,将前后系统状态、扰动策略和对扰动的评价结果作为经验存储进经验池,不断优化用户的位置保护策略。该方法提高了用户敏感位置数据隐私安全,提高了三维空间位置服务系统下的用户位置隐私安全性能以及用户的服务质量。

权利要求 :

1.一种基于深度强化学习的三维空间LBS(Location Based Services,基于位置的服务)中位置隐私保护方法,其特征在于步骤如下:步骤1、使用LBS服务器和移动终端进行组网,在组网覆盖空间的三维空间内构建LBS系统,构建移动终端代表的用户位置隐私保护平台,其中攻击者为不可信的LBS服务器;当用户向LBS服务器请求位置服务之后启动位置隐私保护机制;将LBS服务器和移动终端进行组网的三维空间划分为多个立体网格,并赋予每个立体网格不同的语义位置,将不同网格语义位置的敏感度水平预先进行分级并根据需要标注,每一级敏感度水平的语义位置具有不同的隐私保护需求;

步骤2、用户采用基于深度强化学习算法的敏感语义位置保护机制对用户的真实位置进行扰动以保护敏感语义位置隐私,提高动态三维空间环境下位置隐私保护性能;移动终端用户首先初始化LBS系统环境及深度强化学习算法的学习参数,根据三维空间信息获取自身当前位置敏感度水平、评估自身受到攻击者攻击历史情况,并将其作为系统状态输入深度卷积神经网络CNN;深度卷积神经网络作为每个位置扰动策略对应Q值的非线性拟合器,使用多层神经网络提取环境特征,并对相似状态下的学习信息进行压缩存储,从而加快学习速度并提高性能;通过深度强化学习动态选择位置扰动策略来防御攻击者的位置推断攻击,权衡位置隐私和服务质量需求;

步骤3、基于扰动策略确定扰动位置,研究基于差分隐私的严格且可证明的三维位置隐私保护度量方法,定义三维空间中的地理不可区分机制,即对于在半径为R的给定球形区域内的任意位置,无论攻击者拥有多少先验知识,其对用户真实位置的推断结果的分布相似,设计三维拉普拉斯加噪机制,实现对位置的X,Y和Z坐标同时进行扰动,实现三维空间地理不可区分性,严格保证差分隐私;

步骤4、将用户扰动后的位置发送至LBS服务器,基于接收到的用户的位置信息,LBS服务器为用户提供服务反馈;之后根据LBS服务器反馈结果评估隐私保护水平及服务质量损失,评估用户所处的LBS服务器网络效益,并形成下一时隙的系统状态;

步骤5、基于用户需求和位置敏感度的扰动策略对用户位置隐私进行动态保护,利用迁移学习的思想,对确定的扰动后的扰动位置进行经验回收,将前后系统状态、扰动策略和对扰动的评价结果作为经验存储进经验池,通过更新网络权重参数从而不断优化用户的位置保护策略;根据用户所处环境和隐私泄露情况,移动用户重复上述步骤,直到学习到稳定的位置扰动策略,利用稳定的位置扰动策略实现用户在三维空间LBS中位置实时隐私保护;

初始化用户访问的三维空间地图、扰动策略空间A,其中A为正常数,包括扰动幅度和扰动角度的选择范围,攻击结果 初始化深度强化学习算法的学习参数和卷积神经网络的网络权重参数θ,将用户当前位置敏感度水平以及自身受攻击历史作为系统状态参数输入卷积神经网络,获取位置扰动策略:(k)

步骤2.1、基于三维空间分好的立体网格在三维空间标定用户当前访问的地理位置d(k)和语义位置c ,根据用户自身的真实位置查看所处的三维空间中的立体网格的敏感度水(k)平l ;

步骤2.2、根据前一步获取的信息形成当前用户所处的LBS系统网络状态:其中 为时隙k的上一次攻击结果,将时隙k内的用户所处的

(k) (k)

LBS系统网络状态s 拓展为经验序列对 其中 包括当前的系统状态s 以及前W个LBS(k)系统状态对,即某一时刻的系统状态对是该时刻的LBS系统状态s 和采用的位置扰动策略(k)a 组成的集合,其中a反映了隐私预算ε,算式为:

(k)

步骤2.3、当k≤W时,随机选择位置扰动策略a ∈A;

步骤2.4、当k>W时,则将经验序列对 输入卷积神经网络获得 Q函数为给定的经验序列对 状态下选择位置扰动策略a下的期望长期效益,表达式为:(k)

其中u 为LBS系统效益,γ为折扣因子, 表示在给定当前经验序列对 状态下选择位置扰动策略a后的下一个状态序列;

步骤2.5、根据式: 利用∈贪婪算法选择位

(k)

置扰动策略a ∈A;

获得扰动位置的具体方法为:

步骤3.1、在三维空间中用球坐标系替换笛卡尔坐标系来确定扰动位置;用户真实位置(k) (k)为d ,其扰动位置为 其中ε为隐私预算,r表示d 和 之间的距离,ω是极(k)角,φ是方位角,在球坐标系中以d 为中心的三变量拉普拉斯的概率密度函数为:三个变量表示为半径R,极角Ω,方位角Φ,三个变量的边缘分布分别为:步骤3.2、在单位球内选取一个随机向量U=(ω,φ), 即为伽马分布Γ(3,1/ε)的概率密度函数,根据伽马分布Γ(3,1/ε)确定一个半径r,则扰动位置服从分布在笛卡尔坐标系下该位置可表示为:并获取 对应的语义位置

2.根据权利要求1所述基于深度强化学习的三维空间LBS中位置隐私保护方法,其特征在于:将扰动位置 发送至LBS服务器,基于接收到的用户的位置信息,LBS服务器(k) (k)为用户提供服务反馈;用户根据反馈结果评估隐私保护水平p ,并估计服务质量损失q ,(k)其中p 由当前位置和攻击者推测的位置敏感度之差决定,可通过用户收到的诈骗和垃圾(k)邮件的数目和内容评估,q 为用户的真实位置与扰动位置之间的距离的评估结果,距离越(k)远,服务质量损失越大;根据下式评估用户所处的LBS服务器网络效益u ,并形成下一时隙(k)的系统状态 其中u 的具体表达式如下:

式中权重参数ρ表示隐私保护相对于服务质量损失的重要程度;τ为常数,且不为0;v和是常数,决定不同类型的LBS应用下服务质量对扰动距离的敏感程度。

3.根据权利要求1所述基于深度强化学习的三维空间LBS中位置隐私保护方法,其特征在于对确定的扰动后的扰动位置进行经验回收,更新网络权重参数,优化位置扰动策略,具(k) (k) (k) (k) (k) (k+1)体为:时隙k内位置扰动历史经验定义为e ,e ={s ,a ,u ,s };基于经验回放技(1) (k)术,将位置扰动历史经验存储到记忆池D,D={e ,...,e },随机的从记忆池中选取一个(x) (k)经验e ,其中1≤x≤k,基于随机梯度下降算法更新卷积神经网络权重参数θ ,利用批量更新技术最小化网络输出的Q值与目标最优Q值的均方误差,令L表示随机下降梯度算法中的损失函数,其表达式为:(k‑1)

其中G表示为目标Q值,为上一时刻卷积神经网络权重参数θ 下的最优值表达式为:(k)

关于权重参数θ 的损失函数L的梯度表示为:

(k)

根据式(7)更新网络权重参数θ 从而不断优化位置保护策略;根据用户所处环境和隐私泄露情况,移动用户重复上述步骤,直到学习到稳定的位置扰动策略。

4.根据权利要求1所述基于深度强化学习的三维空间LBS中位置隐私保护方法,其特征在于:所述的卷积神经网络包含卷积层m层和全连接层n层,在m(m≥1)层卷积网络中,第一层卷积层的输入为经验序列对 的重塑方阵;在n(n≥1)层全连接层中最后一层的全连接层输出大小与LBS系统可选择的扰动策略范围一致,即为|A|,卷积神经网络的输出即为当(k)前经验序列对 状态下每个位置扰动策略a ∈A对应的Q值。

说明书 :

基于深度强化学习的三维空间LBS中位置隐私保护方法

技术领域

[0001] 本发明涉及一种三维空间LBS中位置隐私保护方法,尤其涉及一种位置服务和信息安全领域中使用的基于深度强化学习的三维空间LBS中位置隐私保护方法。

背景技术

[0002] 定位技术与通信技术的快速发展推动了LBS在三维空间中的广泛应用。至2025年,全球LBS市场规模预计将达到187.4亿美元。然而,LBS在提供服务便利的同时,用户位置隐私也面临诸多威胁([1]J.Valentino‑DeVries,N.Singer,MH.Keller,and A.Krolik.Your apps know where you were last night,and they’re not keeping it secret.New York Times,2018‑12‑10)。美国Sense Network公司每天处理超过40亿条位置数据,能够提取用户生活习惯、年龄、收入等属性信息。如果此类信息泄露,将会严重威胁用户的隐私安全。
[0003] 近年来,国内外研究者十分关注位置服务中的位置隐私泄露问题,但是大多位置隐私保护研究忽略了对三维空间中位置高度信息的保护。然而,位置高度信息的暴露会增加用户敏感信息泄露的风险。例如,一个高层医院的不同楼层代表不同疾病的诊断科室,如果用户的楼层信息被泄露,他/她的病情也会被暴露在攻击者面前。目前大多位置隐私保护方案如([2]M.Andrés,N.Bordenabe,K.Chatzikokolakis,and C.Palamidessi,Geo‑indistinguishability:Differential privacy for location‑based systems[C].ACM Conference Computer and Communications Security(CCS),2013:901‑914])大都侧重二维空间位置隐私保护,未考虑对用户位置高度信息的保护,缺乏对三维空间位置隐私保护的严格度量和隐私保证。
[0004] 同时,目前的位置隐私保护机制如K‑匿名等,依赖于可信的第三方LBS服务器,一旦LBS服务器瘫痪或者被攻击,则难以保护用户位置隐私。论文([3]李维皓,曹进,李晖,基于位置服务隐私自关联的隐私保护方案[J].通信学报,2019,40(5):57‑66)研究在用户端本地实现的位置隐私保护机制,真实位置只有用户本身知晓,可有效避免对可信、安全LBS服务器的依赖,保护用户的位置隐私。因此,我们基于差分隐私的思想,研究三维地理不可区分性,对位置的X,Y和Z坐标同时进行扰动,保护用户在三维空间中的位置隐私安全。
[0005] 再者,现实情况下移动用户所处的动态三维空间环境具有时变性强、攻击者手段复杂多样等特点,致使用户在优化选择位置隐私保护策略时难以及时全面地获知环境状态信息。然而,大多现有的静态位置隐私保护机制依赖于给定的系统模型和攻击模型,缺乏对动态环境的鲁棒性,短暂时间内对危险策略的探索将导致用户遭受不可逆转的隐私泄露损失。基于深度强化学习(Reinforcement learning,RL)的位置隐私保护技术可突破现有机制对系统模型和攻击模型等信息的依赖,实现对移动用户位置隐私保护策略的动态优化,为位置隐私保护的研究开辟了新视角。([4]D.Shi,J.Ding,S.M.Errapotu,H.Yue,W.Xu,X.Zhou,and M.Pan,Deep Q‑Network‑based route scheduling for TNC vehicles with passengers’location differential privacy[J].IEEE Internet ofThings Journal,2019,6(5):7681‑7692.)

发明内容

[0006] 针对现有技术的不足之处,提供一种步骤简单,使用效果好,能够对三维空间地址坐标进行扰动,利用深度卷积神经网络更好的捕获位置服务过程中的环境状态信息,适应动态三维空间位置服务环境和攻击模式,提高位置服务系统在位置推断攻击下的位置数据隐私安全性能的基于深度强化学习的大型室内LBS中位置隐私保护方法。
[0007] 为实现上述技术目的,本发明的基于深度强化学习的三维空间LBS中位置隐私保护方法,其步骤如下:
[0008] 步骤1、使用LBS服务器和移动终端进行组网,在组网覆盖空间的三维空间内构建LBS系统,构建移动终端代表的用户位置隐私保护平台,其中攻击者为不可信的LBS服务器;当用户向LBS服务器请求位置服务之后启动位置隐私保护机制;将LBS服务器和移动终端进行组网的三维空间划分为多个立体网格,并赋予每个立体网格不同的语义位置,将不同网格语义位置的敏感度水平预先进行分级并根据需要标注,每一级敏感度水平的语义位置具有不同的隐私保护需求;
[0009] 步骤2、用户采用基于深度强化学习算法的敏感语义位置保护机制对用户的真实位置进行扰动以保护敏感语义位置隐私,提高动态三维空间环境下位置隐私保护性能;移动终端用户首先初始化LBS系统环境及深度强化学习算法的学习参数,根据三维空间信息获取自身当前位置敏感度水平、评估自身受到攻击者攻击历史情况,并将其作为系统状态输入深度卷积神经网络CNN;深度卷积神经网络作为每个位置扰动策略对应Q值的非线性拟合器,使用多层神经网络提取环境特征,并对相似状态下的学习信息进行压缩存储,从而加快学习速度并提高性能;通过深度强化学习动态选择位置扰动策略来防御攻击者的位置推断攻击,权衡位置隐私和服务质量需求;
[0010] 步骤3、基于扰动策略确定扰动位置,研究基于差分隐私的严格且可证明的三维位置隐私保护度量方法,定义三维空间中的地理不可区分机制,即对于在半径为R的给定球形区域内的任意位置,无论攻击者拥有多少先验知识,其对用户真实位置的推断结果的分布相似,设计三维拉普拉斯加噪机制,实现对位置的X,Y和Z坐标同时进行扰动,实现三维空间地理不可区分性,严格保证差分隐私;
[0011] 步骤4、将用户扰动后的位置发送至LBS服务器,基于接收到的用户的位置信息,LBS服务器为用户提供服务反馈;之后根据LBS服务器反馈结果评估隐私保护水平及服务质量损失,评估用户所处的LBS服务器网络效益,并形成下一时隙的系统状态;
[0012] 步骤5、基于用户需求和位置敏感度的扰动策略对用户位置隐私进行动态保护,利用迁移学习的思想,对确定的扰动后的扰动位置进行经验回收,将前后系统状态、扰动策略和对扰动的评价结果作为经验存储进经验池,通过更新网络权重参数从而不断优化用户的位置保护策略;根据用户所处环境和隐私泄露情况,移动用户重复上述步骤,直到学习到稳定的位置扰动策略,利用稳定的位置扰动策略实现用户在三维空间LBS中位置实时隐私保护。
[0013] 进一步,初始化用户访问的三维空间地图、扰动策略空间A,其中A为正常数,包括扰动幅度和扰动角度的选择范围,攻击结果 初始化深度强化学习算法的学习参数和卷积神经网络的网络权重参数θ,将用户当前位置敏感度水平以及自身受攻击历史作为系统状态参数输入卷积神经网络,获取位置扰动策略:
[0014] 步骤5.1、基于三维空间分好的立体网格在三维空间标定用户当前访问的地理位(k) (k)置d 和语义位置c ,根据用户自身的真实位置查看所处的三维空间中的立体网格的敏感k
度水平l();
[0015] 步骤5.2、根据前一步获取的信息形成当前用户所处的LBS系统网络状态:其中 为时隙k的上一次攻击结果,将时隙k内的用户所处的
(k) (k)
LBS系统网络状态s 拓展为经验序列对 其中 包括当前的系统状态s 以及前W个(k)
LBS系统状态对,即某一时刻的系统状态对是该时刻的LBS系统状态s 和采用的位置扰动(k)
策略a 组成的集合,其中a反映了隐私预算ε,算式为:
[0016] 步骤5.3、当k≤W时,随机选择位置扰动策略a(k)∈A;
[0017] 步骤5.4、当k>W时,则将经验序列对 输入卷积神经网络获得 Q函数为给定的经验序列对 状态下选择位置扰动策略a下的期望长期效益,表达式为:
[0018]
[0019] 其中u(k)为LBS系统效益,γ为折扣因子, 表示在给定当前经验序列对 状态下选择位置扰动策略a后的下一个状态序列;
[0020] 步骤5.5、根据式: 利用∈贪婪算法选(k)
择位置扰动策略a ∈A。
[0021] 进一步,获得扰动位置的具体方法为:
[0022] 步骤1、在三维空间中用球坐标系替换笛卡尔坐标系来确定扰动位置;用户真实位(k) (k)置为d ,其扰动位置为 其中ε为隐私预算,r表示d 和 之间的距离,ω是极(k)
角,φ是方位角,在球坐标系中以d 为中心的三变量拉普拉斯的概率密度函数为:
[0023]
[0024] 三个变量表示为半径 极角Ω,方位角Φ,三个变量的边缘分布分别为:
[0025]
[0026] 步骤2、在单位球内选取一个随机向量U=(ω,φ), 即为伽马分布Γ(3,1/ε)的概率密度函数,根据伽马分布Γ(3,1/ε)确定一个半径r,则扰动位置服从分布在笛卡尔坐标系下该位置可表示为:并获取 对应的语义位置
[0027] 进一步,将扰动位置 发送至LBS服务器,基于接收到的用户的位置信息,(k)LBS服务器为用户提供服务反馈,根据LBS服务器反馈结果隐私保护水平p 及服务质量损(k) (k)
失q ,其中p 由当前位置和攻击者推测的位置敏感度之差决定(其中攻击者推测的位置(k)
敏感度为 ),q 为用户的真实位置与扰动位置之间的距离的评估结果,距离越远,服务质(k)
量损失越大;根据下式评估用户所处的LBS服务器网络效益u ,并形成下一时隙的系统状(k)
态 其中u 的具体表达式如下:
[0028]
[0029] 式中权重参数ρ表示隐私保护相对于服务质量损失的重要程度;τ为常数,且不为0;v和 是常数,决定不同类型的LBS应用下服务质量对扰动距离的敏感程度。
[0030] 进一步,对确定的扰动后的扰动位置进行经验回收,更新网络权重参数,优化位置(k) (k) (k) (k) (k) (k+1)扰动策略具体为:时隙k内位置扰动历史经验定义为e ,e ={s ,a ,u ,s };基于(1) (k)
经验回放技术,将位置扰动历史经验存储到记忆池D,D={e ,...,e },随机的从记忆池(x)
中选取一个经验e ,其中1≤x≤k,基于随机梯度下降算法更新卷积神经网络权重参数(k)
θ ,利用批量更新技术最小化网络输出的Q值与目标最优Q值的均方误差,令L表示随机下降梯度算法中的损失函数,其表达式为:
[0031]
[0032] 其中G表示为目标Q值,为上一时刻卷积神经网络权重参数θ(k‑1)下的最优值表达式为:
[0033]
[0034] 关于权重参数θ(k)的损失函数L的梯度表示为:
[0035]
[0036] 根据式(7)更新网络权重参数θ(k)从而不断优化位置保护策略;根据用户所处环境和隐私泄露情况,移动用户重复上述步骤,直到学习到稳定的位置扰动策略。
[0037] 进一步,所述的卷积神经网络包含卷积层m层和全连接层n层,在m(m≥1)层卷积网络中,第一层卷积层的输入为经验序列对 的重塑方阵;在n(n≥1)层全连接层中最后一层的全连接层输出大小与LBS系统可选择的扰动策略范围一致,即为|A|,卷积神经网络的(k)输出即为当前经验序列对 状态下每个位置扰动策略a ∈A对应的Q值。
[0038] 有益效果,本发明充分利用移动用户与攻击者之间的行为博弈交互,不需预知精确的三维空间环境模型和位置推断攻击模型,通过深度强化学习算法使得移动用户可以根据攻击者的攻击反馈动态的调整位置扰动策略,优化动态位置服务系统的位置隐私保护性能。此外,本发明结合深度卷积神经网络,压缩位置隐私保护系统的状态空间,充分捕获环境信息,加快对位置推断攻击新特征的认知,加快学习速度。该方法可适应动态三维空间位置服务环境和攻击模式,提高了位置服务系统在位置推断攻击下的位置数据隐私安全性能。

附图说明

[0039] 图1为本发明中基于深度强化学习的三维空间LBS中位置隐私保护方法流程示意图。
[0040] 图2为本发明中基于深度强化学习的三维空间LBS中位置隐私保护机制示意图。

具体实施方式

[0041] 下面结合实例进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
[0042] 如图1和图2所示,本发明的一种基于深度强化学习的三维空间LBS(Location Based Services,基于位置的服务)中位置隐私保护方法,首先研究基于差分隐私的严格、且可证明的三维位置隐私保护度量方法,定义三维空间中的地理不可区分机制,即对于在半径为R的给定球形区域内的任意位置,无论攻击者拥有多少先验知识,其对用户真实位置的推断结果的分布相似。设计三维拉普拉斯加噪机制,实现对位置的X,Y和Z坐标同时进行扰动,实现三维空间地理不可区分性,严格保证差分隐私。用户将扰动后的位置发送至位置LBS服务器,真实的位置只有用户本身知晓。
[0043] 在上述的技术之下,提出基于深度强化学习的敏感语义位置隐私保护机制,提高动态三维空间环境下位置隐私保护性能。该机制首先初始化系统环境及参数,根据地图信息获取当前位置敏感度水平、评估攻击者攻击历史情况,并将其作为系统状态输入深度卷积神经网络(CNN)。深度卷积神经网络作为每个位置扰动策略对应Q值的非线性拟合器,使用多层神经网络更好的提取环境特征,且卷积神经网络架构可实现对相似状态下的学习信息进行压缩存储,从而加快系统的学习速度并提高性能。用户通过深度强化学习算法学习如何动态选择位置扰动策略来防御位置推断攻击,权衡位置隐私和服务质量需求。同时该机制利用经验回放技术,将前后系统状态、选择策略和评价结果作为经验存储进经验池,用来提高网络权重参数的更新效率。采用迁移学习(Transfer learning)思想,基于相似场景下的位置扰动经验,利用这些相似经验对神经网络参数进行初始化,减小初始阶段的随机探索,加快学习速度,优化隐私预算选择,以获得位置服务系统最大收益。其中基于深度强化学习的敏感语义位置保护机制包括以下步骤:
[0044] 具体实施步骤如下:
[0045] 步骤1:选择一款支持深度学习计算且有定位功能的移动终端设备,例如手机、室内定位设备等。
[0046] 步骤2:基于高性能LBS服务器、USRP设备和移动终端(如车载导航、手机、室内定位设备等)搭建用户位置隐私保护平台并开发App接口。拟采用Location Guard的思想利用JavaScript或借鉴腾讯位置服务平台的经验开发一款支持深度学习的App。用户基于该App请求位置服务,位置隐私保护机制开始工作。此机制先初始化周边的三维空间及参数,再将其输入卷积神经网络,并将其作为非线性拟合器,根据当前系统状态选择应使用的位置隐私保护策略,最后再将产生的扰动位置发布给LBS服务器。此时,用户真实位置只有自己知道,而LBS服务器获得的是扰动后的位置。因此,该方案不仅可以保护用户位置隐私,也可实现为用户提供满意的LBS服务体验,在实际场景下验证隐私保护机制的可行性。
[0047] 步骤3:同时考虑三个维度的位置扰动机制,并设计三维拉普拉斯加噪机制。用户在一个长和宽为6千米,高100米的立方体地图内活动,该地图被划分为10×10×30的网格,不同网格代表不同的语义位置,例如医院的不同科室。在不同的语义位置的敏感度水平从0到4不等,且不同敏感度水平的语义位置具有不同的隐私保护需求,例如位于医院三层的神经科和心内科的敏感度水平为4,而医院的急诊科室敏感度水平为2,门诊大厅的敏感度水平为1。这里敏感度水平数值的选择是为了体现不同语义位置的敏感度水平差异,在实际应用场景下可以代表不同的真实数值。
[0048] 步骤4:根据当前访问位置的特点和敏感性、攻击者的攻击历史情况以及当前位置服务类型,用户基于所提机制选择扰动策略,如隐私预算等。然后,用户将该参数输入步骤2中开发的App,基于该参数设置应用程序产生扰动位置。随后,用户将该扰动位置发送给LBS服务器。基于接收到的用户的位置信息,LBS服务器为用户提供服务反馈,同时可能包含一些广告推销或者诈骗类信息(该类信息可反应用户位置隐私泄露情况)。
[0049] 步骤5:用户根据接收到的广告推销和诈骗信息等与其访问位置的相似度,评估其隐私泄露程度并实现对不同用户需求和不同敏感度的位置进行保护。
[0050] 其中学习算法包括以下几个步骤:
[0051] 1)初始化地图、扰动策略空间A、攻击结果 设定学习参数和网络权重参数θ。
[0052] 2)基于当前地图观察用户当前访问的地理位置d(k)和语义位置c(k),例如医院的神经科、心内科和急诊科。
[0053] 3)评估当前位置的敏感度水平l(k)。(k)
[0054] 4)获取当前系统状态: 并将时隙k内的系统状态s 拓(k)
展为经验序列对 其中 包括当前的系统状态s 以及前W个系统状态对,即
(k)
其中a 为位置扰动策略。
[0055] 5)当k>W时,随机选择位置扰动策略a(k)∈A。
[0056] 6)当k>W时,将 输入卷积神经网络,观察其输出获得 Q函数为给定状态序列 下选择位置扰动策略a下的期望长期效益,表达式为
[0057]
[0058] 其中γ为折扣因子, 表示在给定当前状态 下选择位置扰动策略a后的下一个状态序列。
[0059] 7)根据式: 利用∈贪婪算法选择位置(k)
扰动策略a ∈A。
[0060] 8)基于扰动策略确定扰动位置:步骤1:用球坐标系替换笛卡尔坐标系来确定扰动(k)位置;用户真实位置为d ,其扰动位置为 表示成(r,ω,φ),其中,ε为隐私预算,r表示(k) (k)
d 和 之间的距离,ω是极角,φ是方位角。在球坐标系中以d 为中心的三变量拉普拉斯的概率密度函数为:
[0061]
[0062] 三个变量表示为半径 极角Ω,方位角Φ,三个变量的边缘分布分别为:
[0063]
[0064] 步骤2:在单位球内选取一个随机向量U=(ω,φ),式(3)中 即为伽马分布Γ(3,1/ε)的概率密度函数,根据伽马分布Γ(3,1/ε)确定一个半径r,扰动位置服从分布在笛卡尔坐标系下该位置可表示为:获取 对应的语义位置
[0065] 步骤3:将扰动位置 发送至LBS服务器。最后,根据LBS服务器反馈结果评(k) (k) (k)估隐私保护水平p 及服务质量损失q ,根据下式评估系统效益u ,并形成下一时隙的系(k)
统状态 其中u 的具体表达式如下:
[0066]
[0067] 式中权重参数ρ表示隐私保护相对于服务质量损失的重要程度;τ为常数,且不为0;v和 决定不同类型的LBS应用下服务质量对扰动距离的敏感程度。
[0068] 9)时隙k内位置扰动历史经验定义为e(k),e(k)={s(k),a(k),u(k),s(k+1)}。基于经验回(1) (k)放技术,将该经验存储到记忆池D,D={e ,...,e }。随机的从记忆池中选取一个经验e(x) (k)
,其中1≤x≤k,基于随机梯度下降算法更新卷积神经网络权重参数θ 。该算法利用批量更新技术最小化网络输出的Q值与目标最优Q值的均方误差。令L表示随机下降梯度算法中的损失函数,其表达式为
[0069]
[0070] 其中G表示为目标Q值,为上一时刻卷积神经网络权重参数θ(k‑1)下的最优值表达式为
[0071]
[0072] 关于权重参数θ(k)的损失函数L的梯度可表示为:
[0073]
[0074] 10)根据式(7)更新网络权重参数θ(k)。
[0075] 11)根据用户所处环境和隐私泄露情况,移动用户重复上述步骤,直到学习到稳定的位置扰动策略。
[0076] 本发明相较于目前大多相关的位置隐私保护研究仅依赖于给定的环境模型和攻击模型的特点,采用深度强化学习技术,使位置扰动模型具有学习和自适应的能力,解决了目前相关研究缺乏学习能力和对环境的适应性的问题。同时,本发明考虑了用户语义位置的敏感度,通过将扰动位置发布到临近的低敏感度语义位置的方式,权衡隐私保护和用户服务质量的同时,减小高敏感度的语义位置的暴露。
[0077] 本发明利用不依赖模型的深度强化学习算法,解决了目前大多相关的位置隐私保护研究仅依赖于给定的环境模型和攻击模型,缺乏学习能力和对环境的适应性的问题。本发明采用的算法在不能精确获取系统环境参数和攻击模型的情况下,利用深度卷积神经网络作为每个位置扰动策略对应Q值的非线性拟合器,通过使用多层神经网络更好的提取三维环境特征,通过与环境交互,动态试错,探索最优的位置隐私保护策略。
[0078] 本发明采用迁移学习技术,利用相似场景下三维空间中的位置扰动经验初始化神经网络参数。在算法准备阶段,位置扰动机制先在N个相似攻击场景下进行模拟实验,每个相似场景执行K个时隙,利用模拟实验输出神经网络初始参数,能够让用户在不同位置推断攻击的环境下学习到不同的环境特征,将学习到的结果迁移到真实的三维空间位置隐私保护场景,提升学习算法的泛化能力,减少在动态交互初期阶段的随机探索,从而加快学习速度。