一种基于动态迭代快速梯度的用户隐私保护方法转让专利

申请号 : CN201910125911.X

文献号 : CN109960755B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈晋音陈一贤吴洋洋沈诗婧

申请人 : 浙江工业大学

摘要 :

本发明公开了一种基于动态迭代快速梯度的用户隐私保护方法,包括:(1)对于原始网络,采用原始网络和对应的真实类标训练图卷积神经网络,并确定图卷积神经网络参数;(2)根据图卷积神经网络参数,以原始网络中目标节点重连边前后的交叉熵作为隐藏目标函数,并计算隐藏目标函数对邻接矩阵的梯度信息,再综合上一次的梯度信息计算动量信息,根据获得的动量信息对原始网络对应的邻接矩阵进行更新。该用户隐私保护方法能够快速有效地隐藏用户的信息,实现对用户隐私的保护。

权利要求 :

1.一种基于动态迭代快速梯度的用户隐私保护方法,包括以下步骤:(1)对于博客网络,所述博客网络由政治博客数据构建得到,其中,节点表示博客,连边表示从博客首页自动爬取的博文,采用博客网络和对应的真实类标训练图卷积神经网络,并确定图卷积神经网络参数;

(2)根据图卷积神经网络参数,以博客网络中目标节点重连边前后的交叉熵作为隐藏目标函数,并计算隐藏目标函数对邻接矩阵的梯度信息,再综合上一次的梯度信息计算动量信息,根据获得的动量信息对博客网络对应的邻接矩阵进行更新。

2.如权利要求1所述的基于动态迭代快速梯度的用户隐私保护方法,其特征在于,在训练图卷积神经网络时,图卷积神经网络前向传递的表达式为:其中,X为博客网络G中节点的特征矩阵, 为 的度矩阵,为博客网络G带有自连接的邻接矩阵,I为单位矩阵,A为博客网络G的邻接矩阵,W0∈RC×H和W1∈RH×|F|分别是输出层到隐藏层和隐藏层到输出层的权重,F为类标集合,f(·)和σ(·)分别是softmax激活函数和Relu激活函数;

并以目标函数L为目标,更新图卷积神经网络参数,

其中,VL为含有类标的节点集合,F为类标集合,Y为真实类标矩阵,若第l个节点vl的类标为h,则Ylh=1,否则Ylh=0,Yl′h(A)为图卷积神经网络的输出结果。

3.如权利要求2所述的基于动态迭代快速梯度的用户隐私保护方法,其特征在于,在训练图卷积神经网络时,采用快速梯度下降法来更新图卷积神经网络中第i层权重Wi:其中,η是学习率,Wi包含第i个输出层到隐藏层的权重Wi,0和第i个输出层到隐藏层的权重Wi,1。

4.如权利要求1所述的基于动态迭代快速梯度的用户隐私保护方法,其特征在于,对目标节点t构建的隐藏目标函数Lt为:其中,F为类标集合,Y为真实类标矩阵,若第l个节点vl的类标为h,则Yth=1,否则Yth=

0,Y′th(A)为图卷积神经网络的输出结果;

将隐藏目标函数Lt对邻接矩阵A进行求导,获得梯度矩阵

其中,i和j为节点索引。

5.如权利要求1所述的基于动态迭代快速梯度的用户隐私保护方法,其特征在于,在计算动量信息之前,还需要构建梯度网络g:在梯度网络g中,任何节点对间都具有一个数值,若该数值为正,则表示在该节点对间增加连边以使隐藏目标函数Lt增大,否则,表示删除该节点对间的连边以使隐藏目标函数Lt增大。

6.如权利要求5所述的基于动态迭代快速梯度的用户隐私保护方法,其特征在于,所述综合上一次的梯度信息计算动量信息包括:第k次迭代产生的动量 如下:

k-1 k-1

其中,μ为衰减因子, ‖g ‖1为上一代梯度网络g 的一范数。

7.如权利要求6所述的基于动态迭代快速梯度的用户隐私保护方法,其特征在于,所述根据获得的动量信息对博客网络对应的邻接矩阵进行更新包括:从动量 中选择出元素绝对值最大的节点对,若绝对值最大的元素为正,则在该节点对间增加连边,否则,表示删除该节点对间的连边,以更新邻接矩阵 得到 注意

说明书 :

一种基于动态迭代快速梯度的用户隐私保护方法

技术领域

[0001] 本发明属于网络隐私保护领域,具体涉及一种基于动态迭代快速梯度的用户隐私保护方法。

背景技术

[0002] 在现实生活中存在许多网络结构,社交网络便是其中一种。社交网络中的各个节点表示人,连边表示人与人之间的交流信息或者朋友关系。第三方可以依照节点间的连边关系可以提取每个节点的特征,进而对它们进行各种分析,例如将他们划分进不同的簇中,或者预测他们可能感兴趣的人或事。当下有许多图嵌入模型被提出,为分析社交网络的结构与特征提供了新的方法。
[0003] 图嵌入算法的目的是将网络结构映射到一个低维空间中,从而将传统的网络分析问题转化为数学问题进行求解。受word2vec启发,skip-gram模型被广泛的应用于图嵌入领域,产生了大量的图嵌入算法,例如Deepwalk,LINE和node2vec算法。它们通常将随机游走应用于节点序列中,并且将这些节点序列视作word2vec模型中的句子。与基于skip-gram模型的图嵌入算法不同,图卷积网络(GCN)是一种基于深度学习的图卷积算法。它学习局部图结构和节点特征并将其映射到隐藏层中。图卷积网络仅仅需要少量节点标签就可以有效地将网络中所有节点映射到低维空间中,这是其他算法不能比拟的。
[0004] 虽然图嵌入算法在网络分析领域获得了巨大的成功,但是它也造成了许多信息泄露问题,隐私保护也变得越来越受到人们的关注。与第三方期望获得更多的信息不同,许多用户不希望自己的信息被用于商业活动当中,例如政治家的政治交流,便衣警察的调查活动等等。这些人均不希望自己的标签属性被第三方发现并加以利用。对于这种情况,需要借助网络隐私保护算法,它通过对网络结构进行较小的改动实现目标节点分类结果的较大变动,从而影响下游各网络分析算法的结果。
[0005] 对于一个庞大的网络,不同的部分对目标节点属性的影响是不同的。因此需要借助合适的模型来寻找这些对目标节点属性影响最大的连边组合。

发明内容

[0006] 本发明的目的是提供了一种基于动态迭代快速梯度的用户隐私保护方法,该用户隐私保护方法能够快速有效地隐藏用户的信息,实现对用户隐私的保护。
[0007] 本发明的技术方案为:
[0008] 一种基于动态迭代快速梯度的用户隐私保护方法,包括以下步骤:
[0009] (1)对于原始网络,采用原始网络和对应的真实类标训练图卷积神经网络(Graph Convolutional Network,GCN),并确定图卷积神经网络参数;
[0010] (2)根据图卷积神经网络参数,以原始网络中目标节点重连边前后的交叉熵作为隐藏目标函数,并计算隐藏目标函数对邻接矩阵的梯度信息,再综合上一次的梯度信息计算动量信息,根据获得的动量信息对原始网络对应的邻接矩阵进行更新。
[0011] 本发明中提供的用户隐私保护方法中,借助GCN来搜索重连边的最优解,如此一来,度量目标节点的属性变化就被转化为度量目标节点特征向量的变化问题。考虑到基于梯度的简单迭代容易陷入局部最优的情况,在更新邻接矩阵时还考虑上一次的梯度信息,将两次的梯度信息合并为动量信息决定搜索方向,从而帮助算法跳出局部最优点并增加算法的可迁移性。
[0012] 优选地,在训练图卷积神经网络时,图卷积神经网络前向传递的表达式为:
[0013]
[0014] 其中,X为原始网络G中节点的特征矩阵, 为 的度矩阵,为原始网络G带有自连接的邻接矩阵,I为单位矩阵,A为原始网络G的邻接矩阵,W0∈RC×H和W1∈RH×|F|分别是输出层到隐藏层和隐藏层到输出层的权重,F为类标集合,f(·)和σ(·)分别是softmax激活函数和Relu激活函数;
[0015] 并以目标函数L为目标,更新图卷积神经网络参数,
[0016]
[0017] 其中,VL为含有类标的节点集合,F为类标集合,Y为真实类标矩阵,若第l个节点vl的类标为h,则Ylh=1,否则Ylh=0,Y′lh(A)为图卷积神经网络的输出结果。
[0018] 在训练图卷积神经网络时,采用快速梯度下降法来更新图卷积神经网络中第i层权重Wi:
[0019]
[0020] 其中,η是学习率,Wi包含第i个输出层到隐藏层的权重Wi,0和第i个输出层到隐藏层的权重Wi,1。
[0021] 当训练结束后,图卷积神经网络即确定了,后续生成对抗网络时确定的图卷积神经网络参数不变。在对原始网络中目标节点进行隐藏时,即是对原始网络的邻接矩阵看作一个变量,对其进行迭代更新。具体地,对目标节点t构建的隐藏目标函数Lt为:
[0022]
[0023] 其中,F为类标集合,Y为真实类标矩阵,若第l个节点vl的类标为h,则Yth=1,否则Yth=0,Y′th(A)为图卷积神经网络的输出结果;
[0024] 隐藏目标函数Lt表示对于目标节点t的预测类标和真实类标的差异大小。对于隐私保护来说,目标是通过修改邻接矩阵A来尽可能的增加社区隐藏目标函数的值。因此,将隐藏目标函数Lt对邻接矩阵A进行求导,获得梯度矩阵
[0025]
[0026] 其中,i和j为节点索引。
[0027] 由于梯度矩阵 是非对称的,在计算动量信息之前,还需要构建梯度网络g:
[0028]
[0029] 在梯度网络g中,任何节点对间都具有一个数值,若该数值为正,则表示在该节点对间增加连边以使隐藏目标函数Lt增大,否则,表示删除该节点对间的连边以使隐藏目标函数Lt增大。
[0030] 其中,所述综合上一次的梯度信息计算动量信息包括:
[0031] 第k次迭代产生的动量 如下:
[0032]
[0033] 其中,μ为衰减因子, ||gk-1||1为上一代梯度网络gk-1的一范数。
[0034] 本发明不使用梯度网络g直接更新邻接矩阵A,而是使用第k-1次迭代的梯度网络gk-1和动量 计算新的动量 借助新动量来更新上一次的邻接矩阵Ak-1。这样的好处是新的搜索方向不是严格的当前梯度方向,而是综合之前的梯度信息得到的一个新的方向,有助于算法跳出局部最优解。
[0035] 所述根据获得的动量信息对原始网络对应的邻接矩阵进行更新包括:
[0036] 从动量 中选择出元素绝对值最大的节点对,若绝对值最大的元素为正,则在在该节点对间增加连边否则,表示删除该节点对间的连边,以更新邻接矩阵 得到 注意
[0037] 本发明的有益效果主要表现在:
[0038] 基于梯度动量对邻接矩阵进行更新可以有效地搜索到全局最优解,避免陷入局部最优解,加强算法的可迁移性。使用深度模型GCN搜索重连边策略,将目标节点的属性变化转化为它在重连边前后特征向量间的距离的变化,这样更加直观并且便于算法更快、更精确地寻找对目标节点影响最大的连边。最后在真实数据集上的实验结果表明,该算法具有良好的适用性和可扩展性,能够快速有效地隐藏用户的信息,实现对用户隐私的保护。

附图说明

[0039] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
[0040] 图1是本发明基于动态迭代快速梯度的用户隐私保护方法的流程图;
[0041] 图2是本发明基于动态迭代快速梯度的用户隐私保护方法的结构框图。

具体实施方式

[0042] 为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
[0043] 如图1和图2所示,本发明提供的基于动态迭代快速梯度的用户隐私保护方法,包括以下步骤:
[0044] 首先本实施例使用原网络和真实标签训练GCN,以此得到GCN各层矩阵的权重,这些权重在之后生成对抗网络时不再变化。对于一个无向网络G,它的邻接矩阵为A,则为网络G带有自连接的邻接矩阵,I为单位矩阵。GCN的前向过程可以简单的表示为:
[0045]
[0046] 其中X为节点特征矩阵, 为 的度矩阵,W0∈RC×H和W1∈RH×|F|分别是输出层到隐藏层和隐藏层到输出层的权重,F为类标集合,f(·)和σ(·)分别是softmax激活函数和Relu激活函数;
[0047] 对于节点分类,本发明使用交叉熵作为目标函数,定义如公式(2)所示。
[0048]
[0049] 其中VL为含有类标的节点集合,F为类标集合,Y为真实类标矩阵,其中如果节点vl的类标为h,则Ylh=1,否则Ylh=0,Y′lh(A)为GCN的输出结果,A为原始网络的邻接矩阵。
[0050] 在第m次迭代中,使用快速梯度下降法来更新神经网络中各层权重Wi:
[0051]
[0052] 其中η是学习率。
[0053] 在训练完GCN后,将邻接矩阵A看作一个变量并对其进行迭代更新。首先对于目标节点t,定义社区隐藏目标函数Lt为:
[0054]
[0055] 该隐藏目标函数Lt表示对于目标节点t的预测类标和真实类标的差异大小。对于隐私保护来说,本文的目标是通过修改邻接矩阵A来尽可能的增加社区隐藏目标函数的值。为此,将Lt对邻接矩阵A进行求导,以获得梯度矩阵
[0056]
[0057] 因为梯度矩阵 是非对称的,所以构建梯度网络g如公式(6)所示。
[0058]
[0059] 在梯度网络g中,任何节点对间都具有一个数值。若该值为正,则表示在该节点对间增加连边将使目标函数Lt增大,否则表示删除该节点对间的连边将使Lt增大。并且该值的绝对值越大,这次增删连边对Lt的影响越大。需要注意的是,如果该值为正(负),此节点对间已有(没有)连边,则忽略这样的节点对。
[0060] 本发明不使用梯度网络g直接更新邻接矩阵A,而是使用第k-1次迭代的梯度网络gk-1和动量 计算新的动量 借助新的动量来更新上一次的邻接矩阵Ak-1。这样计算的好处是新的搜索方向不是严格的当前梯度方向,而是综合之前的梯度信息得到的一个新的方向,是故这有助于算法跳出局部最优解。定义第k次迭代产生的动量 如下。
[0061]
[0062] 最后从动量 中选择出元素绝对值最大的节点对,根据绝对值最大元素的正负更新对抗网络邻接矩阵 得到 注意
[0063] 生成对抗网络的步骤如下:
[0064] a-1:使用原始网络G训练GCN模型;
[0065] a-2:初始化对抗网络的邻接矩阵 初始动量
[0066] a-3:对于第k次迭代,根据 构建梯度网络gk-1;
[0067] a-4:根据公式7计算动量
[0068] a-5:从 中选出绝对值最大的节点对,根据上文所述更新规则得到新的对抗网络邻接矩阵
[0069] a-6:若k<K,则重复a-3~a-5。
[0070] 实验仿真
[0071] 实验使用政治博客数据集来测试MIFGS算法的效果。该数据集反映网络中博客的政治倾向,其中节点表示博客,连边是从博客首页自动爬取的。网络中共有1490个节点,19090条边,2个类。
[0072] 选择隐私保护成功率(ASR)和平均保护成功所需的重连边数(AML)作为评价指标来衡量各算法隐藏某特定节点的能力。
[0073] ASR:平均保护成功率,即某种图嵌入算法将目标节点错误分类的比率。这里扰动大小K取1到20,共20个。
[0074] AML:平均成功隐藏目标节点所需的重连边个数,本文限制重连边上限为20,若某节点不能通过修改20条连边来隐藏成功,则取20作为成功隐藏的重连边数。
[0075] 为了验证本发明提供的基于动态迭代快速梯度的用户隐私保护方法(简称MIFGS)中动量确实有助于算法跳出局部最优点,将MIFGS与直接使用梯度网络更新邻接矩阵 的FGS算法和DICE进行比较。简述两种对照算法如下:
[0076] FGS:直接使用梯度网络g来更新对抗网络的邻接矩阵 具体来说,直接选择梯度网络g中绝对值最大的节点对,按上文所说的更新规则更新
[0077] DICE:一种简单的启发式网络隐私保护算法,若K为扰动大小(在MIFGS与FGS中为最大迭代次数),则随机删除b(b<K)条目标节点的连边,并随机将目标节点与K-b个其它类别的节点相连。
[0078] 在实验中本文取μ=0.5,各算法最终结果如表1所示。
[0079] 表1政治博客数据集各算法最终结果
[0080]
[0081] 从表1中可以看出,MIFGS的各项指标均优于FGS,这充分说明了使用动量信息更新对抗网络将有助于算法更快地跳出局部最优点,使得结果更准确。另外无论是MIFGS还是FGS算法都明显优于DICE算法,这表明通过GCN将传统网络分析问题转化为数学问题是可行的,且能取得较准确的结果。
[0082] 以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。