一种面向隐私保护的图神经网络联邦推荐方法转让专利

申请号 : CN202110614924.0

文献号 : CN113420232B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李尤慧子潘倩倩殷昱煜梁婷婷万健张纪林

申请人 : 杭州电子科技大学

摘要 :

本发明公开了一种面向隐私保护的图神经网络联邦推荐方法。目前已有很多学术策略提出矩阵分解,协同过滤等推荐方法来提高推荐的准确率,然而提出的方法中推荐的准确率、数据孤岛的问题、多个客户端如何联合训练的问题、数据的安全隐私性这些方面无法兼顾。本发明包含三部分的内容:基于二分图每个客户端进行图神经网络推荐,基于联邦学习进行共同训练图神经网络推荐方法和面向隐私保护的服务器和客户端传输数据进行同态加密。通过本发明提供的面向隐私保护的图神经网络联邦推荐方法,可以在数据孤岛的环境下联合多个客户端进行保证隐私性和数据安全性的图神经推荐建模训练,显著提高所有客户端的推荐准确率和保护数据的安全。

权利要求 :

1.一种面向隐私保护的图神经网络联邦推荐方法,其特征在于该方法包括如下步骤:步骤1. 中央服务器维护全局的物品存在表;初始化全局权重和全局的物品网络嵌入矩阵,分发给各个参与联邦训练的客户端;

步骤2. 各个客户端在拿到初始化的全局权重和物品网络嵌入矩阵后,并行的使用各自本地数据进行基于图神经网络的推荐模型训练;

步骤3. 每个客户端在一个epoch的本地训练结束后,将各自本地的梯度和本地的物品网络嵌入矩阵进行同态加密并上传至中央服务器;

步骤4. 中央服务器在接收到各个客户端上传的同态加密后的本地梯度和本地物品网络嵌入矩阵,使用FedAvg算法进行聚合,产生新的全局权重;根据全局物品存在表,加权平均得到全局物品网络嵌入矩阵;将聚合后的全局权重和全局物品网络嵌入矩阵分发给各个客户端;

步骤5. 每个客户端在接收到聚合后的全局权重和全局网络嵌入矩阵后,进行解密,将全局权重赋值给本地权重,将全局物品网络嵌入作为本地的物品网络嵌入;各客户端并行的训练本地推荐系统模型;

步骤6. 以步骤3至步骤5为一个周期,周期性循环步骤3到步骤5至初始化设定的迭代周期数,各客户端输出各自的最终预测结果。

2.根据权利要求1所述的一种面向隐私保护的图神经网络联邦推荐方法,其特征在于:所述的方法中需要唯一的中央服务器和多个客户端参与,目标函数是使得各个客户端的推荐误差最小化。

3.根据权利要求1所述的一种面向隐私保护的图神经网络联邦推荐方法, 其特征在于:所述的方法中中央服务器维护着一张全局的物品存在向量表。

4.根据权利要求1所述的一种面向隐私保护的图神经网络联邦推荐方法, 其特征在于:所述的方法中参与训练的客户端拥有相同的密匙,传输参数至中央服务器需要进行同态加密后进行聚合,聚合后的结果传输至参与的每一个客户端后进行同态解密。

5.根据权利要求1所述的一种面向隐私保护的图神经网络联邦推荐方法, 其特征在于:对权重使用FedAvg算法进行聚合,对物品网络嵌入矩阵根据全局物品存在向量表使用加权平均算法。

6.根据权利要求1所述的一种面向隐私保护的图神经网络联邦推荐方法, 其特征在于:所述的方法中客户端解密全局参数后需要赋值给本地参数,本地模型进行基于二分图的图卷积神经网络模型的训练。

说明书 :

一种面向隐私保护的图神经网络联邦推荐方法

技术领域

[0001] 本发明属于联邦推荐系统领域,涉及一种面向隐私保护的图神经网络联邦推荐方法,尤其是需要高度保护数据安全的方法。

背景技术

[0002] 近年来,随着云计算、大数据、物联网等技术的迅猛发展,互联网空间中各类应用的层出不穷引发了数据规模的爆炸式增长,越来越多的信息和服务充斥着网络,人们在日
常生活中能接触到越来越多的信息,但同时也增加了其找到对自己有用信息的难度,即产
生了“信息过载”。用户的的知识水平、认知能力有限,在面对海量复杂的互联网信息时,不
能快速找到自己需要的信息,甚至无法理解和使用信息,从大量信息中挑选目标信息变成
了一种复杂且耗时的作业,所以如何从中摄取到对用户有用的数据成为焦点。
[0003] 推荐系统提供了一种有效的解决方案,在解决信息过载问题方面取得了很大的成功,如视频、电子商务、新闻推送等各个领域。推荐系统不需要用户提供明确的需求,而是分
析用户的历史行为(评论、评级、评论、点击行为等)进行建模。协同过滤、基于内容的推荐、
混合推荐是推荐系统中常见的方法,很多研究仍然是采用这些方法。然而他们或多或少存
在着一些问题,如冷启动、稀疏数据、可拓展性的问题。
[0004] 目前的推荐系统常采用的是集中式训练后进行推荐,然而现实中人工智能和深度学习存在两个突出的难题:数据孤岛和隐私安全,两者之前存在一定程度的制衡。数据孤岛
是指不同的数据源之间存在难以打破的壁垒,难以实现跨域共享交换。保护数据隐私已成
为一个世界性的共识和趋势,以欧盟的《通用数据保护条例》(GDPR)为代表的条例法规纷纷
出台。医院中、银行中的数据都具有高度安全性要求,因此机构间或者公司间的原始数据并
不能直接的收集和交互,所以传统的集中式训练模型进行推荐的方法不可取。

发明内容

[0005] 本发明的目的在于解决数据孤岛的困境下,如何联合多方数据发挥出大数据的优势,且保证数据安全性进行推荐的问题,而提出一种面向隐私保护的图神经网络联邦推荐
(FGC)方法。
[0006] 本发明在图神经网络模型的基础上,将每个机构/公司看做一个客户端,每个客户端的数据不进行外泄,各自将本地数据的交互关系转换成图结构,并各自进行图卷积建模
训练。并设置一个中央服务器,负责聚合各个客户端的权重和网络嵌入(Network 
Embedding)。
[0007] 该方法与传统的推荐系统的方法相比,每个参与方的数据更加的安全,不需要集中收集进行训练;比传统的推荐系统方法更加的灵活,且推荐的准确率更加高。
[0008] 本发明方法的使用步骤是:
[0009] 步骤1.中央服务器维护全局的物品存在表。初始化全局权重和全局的物品网络嵌入矩阵,分发给各个参与联邦训练的客户端。
[0010] 步骤2.各个客户端在拿到初始化的全局权重和物品网络嵌入矩阵后,并行的使用各自本地数据进行基于图神经网络的推荐模型训练。
[0011] 步骤3.每个客户端在一个epoch的本地训练结束后,将各自本地的梯度和本地的物品网络嵌入矩阵进行同态加密(Homomorphic Encryption,HE)并上传至中央服务器。
[0012] 步骤4.中央服务器在接收到各个客户端上传的同态加密后的本地梯度和本地物品网络嵌入矩阵,使用FedAvg算法进行聚合,产生新的全局权重。根据全局物品存在表,加
权平均得到全局物品网络嵌入矩阵。将聚合后的全局权重和全局物品网络嵌入矩阵分发给
各个客户端。
[0013] 步骤5.每个客户端在接收到聚合后的全局权重和全局网络嵌入矩阵后,进行解密,将全局权重赋值给本地权重,将全局物品网络嵌入作为本地的物品网络嵌入。各客户端
并行的训练本地推荐系统模型。
[0014] 步骤6.以步骤3至步骤5为一个周期,周期性循环步骤3到步骤5至初始化设定的迭代周期数。本方法训练结束,各客户端输出各自的最终预测结果。
[0015] 进一步说,所述的方法中需要唯一的中央服务器和多个客户端参与,目标函数是使得各个客户端的推荐误差最小化。
[0016] 进一步说,所述的方法中中央服务器维护着一张全局的物品存在向量表。
[0017] 进一步说,所述的方法中参与训练的客户端拥有相同的密匙,传输参数至中央服务器需要进行同态加密后进行聚合,聚合后的结果传输至参与的每一个客户端后进行同态
解密。
[0018] 进一步说,对权重使用FedAvg算法进行聚合,对物品网络嵌入矩阵根据全局物品存在向量表使用加权平均算法。
[0019] 进一步说,所述的方法中客户端解密全局参数后需要赋值给本地参数,本地模型进行基于二分图的图卷积神经网络模型的训练。
[0020] 本发明的有益效果:
[0021] 效果一:提出了一种面向隐私保护的图神经网络联邦推荐(FGC)方法;
[0022] 效果二:采用了联邦学习的模式,解决了数据孤岛问题,保证了客户端的本地原始数据不外泄;
[0023] 效果三:使用了同态加密的方法,应用于客户端和中央服务器的数据交流上,增强了数据的安全性,保护了数据的隐私性;
[0024] 效果四:从推荐结果的准确率指标来看,提高了推荐的准确率。

附图说明

[0025] 图1是面向隐私保护的图神经网络联邦推荐(FGC)方法的系统构架图。
[0026] 图2是参与训练的两个客户端数据重叠或相似的示意图。
[0027] 图3是FGC客户端本地训练模型的结构图。
[0028] 图4是原始数据同态加密计算后进行解密的示意图。
[0029] 图5是FGC方法的训练流程图。

具体实施方式

[0030] 下面结合案例,请参阅图1,图1给出了本发明提出的面向隐私保护的图神经网络联邦推荐方法的体系结构。以下案例以一个中央服务器和四个客户端为例,对本发明进行
进一步详细说明,具体实施步骤如下。
[0031] 步骤1.使用本方法,中央服务器维护全局的物品存在表P。维护全局物品存在向量表P的目的是,如图2所示,某两个客户端物品存在不同程度的重叠或相似的情况,P为后续
服务器端加权平均聚合做准备。初始化全局权重W0和全局的物品网络嵌入矩阵E0,v,分发给
4个参与联邦训练的客户端。
[0032] 步骤2.在4个客户端在拿到初始化的全局权重和物品网络嵌入矩阵后,并行的训练本地的图神经网络模型。
[0033] 每个客户端的本地数据是Nu个用户对Nv个物品的评分,视为一个交互矩阵M。表1为4个客户端中数据统计的示意表。
[0034] 表1
[0035] 客户端编号 评分个数 用户个数 物品个数 评分等级k1 25000 943 1444 1,2,3,4,5
k1 25000 943 1464 1,2,3,4,5
k1 25000 943 1469 1,2,3,4,5
k1 25000 943 1452 1,2,3,4,5
[0036] 每个客户端将本地的交互矩阵转换成二部图G(P,ε,R),用户特征X′u和物品特征X′v分别分布在用户顶点集上和物品顶点集上。二部图作为输入,经过图卷积编码层,获得
用户嵌入矩阵(User Embedding)和物品嵌入矩阵(Item Embedding)。由用户嵌入矩阵Eu和
物品嵌入矩阵Ev拼接而成嵌入层 如下式(1)所示。
[0037]
[0038] 随后进入模型的全连接层,最后经过双线性解码器获得这一个epoch的本地预测结果 其本地训练模型参阅图3,图3中给出了本发明中客户端本地训练的模型。其中优化
目标损失函数L使用交叉熵损失函数,如下式(2)所示。
[0039]
[0040] 其中,I[·]∈0,1为指示函数。步骤2就是本地客户端基于二部图的链路预测。
[0041] 步骤3.每个客户端在一个epoch的本地训练结束后。4个客户端并行调用相同的密匙key,将本轮的各自本地的梯度wt和物品网络嵌入矩阵et,v这两个明文数据加密后变为HE
(wt)和HE(et,v),并上传至中央服务器。在保护数据隐私的同时,并行化处理提高了数据加
密处理的效率。
[0042] 步骤4.中央服务器在接收到4个客户端上传的加密后的密文,使用FedAvg算法,如式(3)所示,进行聚合产生新的全局权重密文HE(Wt)。
[0043]
[0044] 根据全局物品存在表,加权平均得到全局物品网络嵌入矩阵密文HE(Et+1,v),如式(4)所示。将聚合后的全局权重密文和全局物品网络嵌入矩阵密文分发给4个客户端。
[0045]
[0046] 本发明在中央服务器端进行计算的是同态加密后的权重和网络嵌入矩阵。如图4所示,解密结果相当于对明文做同样的计算操作。这进一步加强了数据的安全性,保证了客
户端和服务器之间传输数据的隐私性。
[0047] 服务器端进行聚合操作,其对应具体伪代码实施步骤如下:
[0048]
[0049] 步骤5.每个客户端在接收到聚合后的全局权重密文和全局网络嵌入矩阵密文后,根据本地的密钥进行解密还原为Wt+1和Et+1,v。将全局权重赋值给本地权重,将全局物品网络
嵌入矩阵作为本地的物品网络嵌入矩阵。4个客户端并行的训练本地推荐系统模型。
[0050] 客户端训练过程,其对应具体伪代码实施步骤如下:
[0051]
[0052]
[0053] 步骤6.周期性循环步骤3到步骤5至本次任务结束。请参阅图5,本方法的整体流程图,是通过不断的本地客户端的训练,得出本地推荐预测结果。在各个客户端本地训练的过
程中,得到的数据,如权重和物品网络嵌入矩阵;本方法将其进行同态加密后,通过联邦学
习的框架,联合多方共同训练,在中央服务器聚合同态加密后的数据,再分发给各个客户
端;客户端解密接收的密文数据用于本地训练,由此达到提升各个客户端训练准确率的效
果。
[0054] 本实施例主要从推荐的均方根误差(RMSE)、均方误差(MAE)两个方面来进行推荐质量评价,其计算公式分别如(5)(6)所示。
[0055]
[0056]
[0057] 其中,n是测试样本的数量,yi和 分别代表第i个样本的真实和预测值。
[0058] 表2为仅在本地训练的与本实施例中改进方法的推荐结果对比示意表。
[0059]
[0060] 由表2可以看出本实施案例中的改进后的基于图神经网络联邦推荐方法降低了推荐的误差,提高了准确率。
[0061] 以上是本发明的较佳实施过程,凡依本发明技术所做的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。