基于元学习的少样本知识图谱补全方法转让专利
申请号 : CN202110680623.8
文献号 : CN113239131B
文献日 : 2022-04-29
发明人 : 向行 , 陈毅波 , 蒋志怡 , 黄鑫 , 蒋破荒 , 田建伟 , 朱宏宇 , 祝视 , 吕欣琪 , 高建良
申请人 : 国网湖南省电力有限公司 , 国网湖南省电力有限公司信息通信分公司 , 国家电网有限公司
摘要 :
权利要求 :
1.一种基于元学习的少样本知识图谱补全方法,包括如下步骤:S1.获取待补全的知识图谱和对应的邻域知识图谱;所述邻域知识图谱包括待补全的知识图谱中所有实体的邻域信息;
S2.采用步骤S1获取的邻域知识图谱,对待补全的知识图谱中的实体嵌入进行初始化;
S3.将待补全的知识图谱的关系集合分为训练关系集合和测试关系集合,并从训练关系集合或测试关系集合中选取一个关系所对应的三元组构建元训练任务或元测试任务;具体包括如下步骤:
A.将待补全的知识图谱的关系集合R分为训练关系集合Rtrain和测试关系集合Rtest;
B.从训练关系集合Rtrain或测试关系集合Rtest中选取一个关系r所对应的三元组构建元训练任务Ttrain或元测试任务Ttest;所述的元训练任务Ttrain和元测试任务Ttest均包括支持集Sr和查询集Qr;
C.采用如下步骤得到元训练任务Ttrain的支持集从元训练任务Ttrain的任务关系r所对应的三元组中随机选取Ns个有效三元组,然后为每个有效三元组(h,r,t)从对应的尾实体候选项集合Ch,r中随机选取一个错误尾实体t',从而构建对应的无效三元组(h,r,t'),最终得到元训练任务Ttrain的支持集 所述的尾实体候选项集合Ch,r为已知h和r的尾实体候选集合;h为一个有效三元组的头实体;
D.采用如下步骤得到元测试任务Ttest的支持集从元测试任务Ttest的任务关系r所对应的三元组中随机选取Ns个有效三元组,然后为每个有效三元组(h,r,t)从对应的尾实体候选项集合Ch,r中随机选取一个错误尾实体t',从而构建对应的无效三元组(h,r,t'),最终得到元测试任务Ttest的支持集 所述的尾实体候选项集合Ch,r为已知h和r的尾实体候选集合;h为一个有效三元组的头实体;
E.采用如下步骤得到元训练任务Ttrain的查询集从剩余的三元组中,随机选取Nq个有效三元组,并为每个有效三元组(h,r,t)从对应的尾实体候选项集合Ch,r中随机选取一个错误尾实体t',从而构建对应的无效三元组(h,r,t'),最终得到元训练任务Ttrain的查询集F.采用如下步骤得到元测试任务Ttest的查询集从剩余的三元组中,选取一个有效三元组(h,r,t)作为待补全三元组,并穷举对应的尾实体候选项集合Ch,r中的尾实体,并替换有效三元组(h,r,t)中的尾实体,从而构建|Ch,r|个候选三元组,最终得到元测试任务Ttest的查询集 其中| |为集合中的元素个数;
S4.在若干个批次的元训练任务上训练得到少样本知识图谱补全模型;
S5.采用训练好的少样本知识图谱补全模型,对元测试任务进行补全。
2.根据权利要求1所述的基于元学习的少样本知识图谱补全方法,其特征在于步骤S2所述的采用步骤S1获取的邻域知识图谱,对待补全的知识图谱中的实体嵌入进行初始化,具体为采用嵌入方法,在步骤S1获取的邻域知识图谱上训练得到待补全的知识图谱的实体的嵌入表示;且若邻域知识图谱不存在,则随机初始化待补全的知识图谱的实体的嵌入表示。
3.根据权利要求2所述的基于元学习的少样本知识图谱补全方法,其特征在于步骤S4所述的在若干个批次的元训练任务上训练得到少样本知识图谱补全模型,具体包括如下步骤:
a.将步骤S3构建的元训练任务分成L批次的元训练阶段;
b.对于第l批次的元训练阶段,采用未训练完成的少样本知识图谱补全模型对批次内的所有元训练任务进行学习,并对模型参数进行优化更新;
c.判断步骤b得到的模型是否收敛:
若模型收敛,则得到最终的少样本知识图谱补全模型;本步骤结束;
若模型不收敛,则进入步骤d;
d.判断元训练阶段的批次数l是否达到设定值L:若批次数l达到设定值L,则令批次数l为1,并返回步骤b再次进行训练和优化;
若批次数l未达到设定值L,则令批次数l增加1,并返回步骤b再次进行训练和优化。
4.根据权利要求3所述的基于元学习的少样本知识图谱补全方法,其特征在于步骤b所述的对于第l批次的元训练阶段,采用未训练完成的少样本知识图谱补全模型对批次内的所有元训练任务进行学习,并对模型参数进行优化更新,具体包括如下步骤:(1)基于TransE的翻译假设,利用支持集Sr中的有效三元组的头实体和尾实体,得到任务关系的弱表示r=t‑h;同时,当Ns大于1时,对Ns个三元组的弱关系表示取平均值为(2)将元学习任务中的每一个三元组的头尾实体对嵌入(h,t)与步骤(1)得到的关系弱表示进行组合,得到元学习任务中的每一个三元组的矩阵表示A=[h,r,t];
(3)将步骤(2)得到的元学习任务中所有三元组的矩阵表示A输入到卷积神经网络构成的少样本知识图谱补全模型中,得到三元组模式的向量表示;通过带有残差更新机制的模式学习器,从三元组的矩阵表示中提取模式的向量表示,以矩阵A为输入,对矩阵A进行复制,获得双通道输入;首先采用1×3卷积核对输入进行卷积,然后采用1×1卷积核对输出进行降维,最后输出1×d维的三元组模式向量P;当支持集中包括至少2个三元组时,对Ns为三元组的模型向量取平均值;同时,令模式学习器的参数为θ,Pi=fθ(Ai);式中fθ()为模式学习器的模式提取函数;Ai为第i个三元组对应的矩阵表示;
(4)使用包含有效性均衡机制的模式匹配器计算查询三元组的有效性分数,将查询集中的三元组的模式向量Pqry与支持集有效三元组的模式向量Ppos和无效三元组的模式向量Pneg输入模式匹配器,分别计算三元组模式与有效模式的欧式距离d(Ppos,Pqry)和三元组模式与无效模式的欧氏距离d(Pneg,Pqry),从而得到查询集三元组的有效性分数scoreqry为scoreqry=d(Ppos,Pqry)‑d(Pneg,Pqry);式中d(Ppos,Pqry)=||Ppos‑Pqry||2,d(Pneg,Pqry)=||Pneg‑Pqry||2,|| ||2为二范数;
(5)对d(Ppos,Pqry)和d(Pneg,Pqry)采用softmax函数得到查询三元组为有效的概率ppos或为无效的概率pneg;然后采用下式计算损失并更新模式学习器的参数和实体的嵌入表示:式中LQ(fθ)为模式学习器通过查询集计算得到的损失;fθ为模式学习器的模式提取函数;yi为第i个三元组的有效性标签;log()为取任意对数操作;θnew为更新后的模式学习器参数;θ为更新前的模式学习器参数;α为给定的任务学习率; 为θ对应的梯度。
5.根据权利要求4所述的基于元学习的少样本知识图谱补全方法,其特征在于步骤S5所述的采用训练好的少样本知识图谱补全模型,对元测试任务进行补全,具体包括如下步骤:
1)将元测试任务的支持集中的有效三元组和无效三元组输入到模式学习器中得到关系r的有效模式Ppos和无效模式Pneg;
2)将元测试任务的查询集中的三元组输入到模式学习器中得到所有三元组的模式的向量表示;再利用模式匹配器计算查询集中的三元组的有效性分数;
3)利用包含有效性均衡机制的模式匹配器计算查询集三元组的模式Pqry与有效模式Ppos的匹配度d(Ppos,Pqry),以及查询集三元组的模式Pqry与无效模式Pneg的匹配度d(Pneg,Pqry),计算三元组的有效性分数scoreqry为scoreqry=d(Ppos,Pqry)‑d(Pneg,Pqry);
4)基于查询集中所有三元组的有效性分数,对当前元测试任务中的关系r进行补全:选取分数最高的候选项作为补全的三元组。
说明书 :
基于元学习的少样本知识图谱补全方法
技术领域
背景技术
关系和尾实体组成,代表现实世界中的知识。
数据中的特征,从而自动补全知识图谱,是知识图谱补全的关键问题。
元组,然而知识图谱中很大一部分关系是仅已知少量三元组的长尾关系。因此,嵌入方法对
长尾关系的效果不好,从而严重影响了知识图谱补全的效果。
发明内容
务;
知识图谱的实体的嵌入表示;且若邻域知识图谱不存在,则随机初始化待补全的知识图谱
的实体的嵌入表示。
元测试任务,具体包括如下步骤:
持集Sr和查询集Qr;
t',从而构建对应的无效三元组(h,r,t'),最终得到元训练任务Ttrain的支持集Sr;所述的尾
实体候选项集合Ch,r为已知h和r的尾实体候选集合;h为一个有效三元组的头实体;
从而构建对应的无效三元组(h,r,t'),最终得到元训练任务Ttrain的支持集Sr;所述的尾实
体候选项集合Ch,r为已知h和r的尾实体候选集合;h为一个有效三元组的头实体;
r,t'),最终得到元训练任务Ttrain的查询集Qr;
Ch,r|个候选三元组,最终得到元测试任务Ttest的查询集Qr;其中||为集合中的元素个数;
骤:
的模式学习器,从三元组的矩阵表示中提取模式的向量表示,以矩阵A为输入,对矩阵A进行
复制,获得双通道输入;首先采用1×3卷积核对输入进行卷积,然后采用1×1卷积核对输出
进行降维,最后输出1×d维的三元组模式向量P;当支持集中包括至少2个三元组时,对Ns为
三元组的模型向量取平均值;同时,令模式学习器的参数为θ,Pi=fθ(Ai);式中fθ()为模式
学习器的模式提取函数;Ai为第i个三元组对应的矩阵表示;
向量Pneg输入模式匹配器,分别计算三元组模式与有效模式的欧式距离d(Ppos,Pqry)(即匹配
度)和三元组模式与无效模式的欧氏距离d(Pneg,Pqry)(即匹配度),从而得到查询集三元组
的有效性分数scoreqry为scoreqry=d(Ppos,Pqry)‑d(Pneg,Pqry);式中d(Ppos,Pqry)=||Ppos‑Pqry
||2,d(Pneg,Pqry)=||Pneg‑Pqry||2,|| ||2为二范数;
示:
习器参数;θ为更新前的模式学习器参数;α为给定的任务学习率; 为θ对应的梯度。
Pqry),计算三元组的有效性分数scoreqry为scoreqry=d(Ppos,Pqry)‑d(Pneg,Pqry);
少样本关系的补全效果不好的问题;通过基于神经网络的模式学习器从三元组的嵌入矩阵
中学习三元组元素的共现模式,并通过比较候选三元组与参考三元组的模式相似性计算候
选三元组的有效性,因此本发明对邻域知识图谱的依赖性较低,鲁棒性更好;引入了残差更
新机制和有效性平衡机制,使得模型在模型训练过程中不损失实体嵌入表示的初始信息,
从而学习到质量更高的实体嵌入表示,而且使得模型充分考虑候选三元组和有效三元组与
无效三元组的相似度,从而更准确地计算三元组的有效性分数;因此本发明方法能够根据
少量三元组就进行知识图谱补全,而且可靠性高、效果好。
附图说明
具体实施方式
的实体的嵌入表示;且若邻域知识图谱不存在,则随机初始化待补全的知识图谱的实体的
嵌入表示;
务;具体包括如下步骤:
持集Sr和查询集Qr;
t',从而构建对应的无效三元组(h,r,t'),最终得到元训练任务Ttrain的支持集Sr;所述的尾
实体候选项集合Ch,r为已知h和r的尾实体候选集合;h为一个有效三元组的头实体;
从而构建对应的无效三元组(h,r,t'),最终得到元训练任务Ttrain的支持集Sr;所述的尾实
体候选项集合Ch,r为已知h和r的尾实体候选集合;h为一个有效三元组的头实体;
r,t'),最终得到元训练任务Ttrain的查询集Qr;
Ch,r|个候选三元组,最终得到元测试任务Ttest的查询集Qr;其中| |为集合中的元素个数;
的模式学习器,从三元组的矩阵表示中提取模式的向量表示,以矩阵A为输入,对矩阵A进行
复制,获得双通道输入;首先采用1×3卷积核对输入进行卷积,然后采用1×1卷积核对输出
进行降维,最后输出1×d维的三元组模式向量P;当支持集中包括至少2个三元组时,对Ns为
三元组的模型向量取平均值;同时,令模式学习器的参数为θ,Pi=fθ(Ai);式中fθ()为模式
学习器的模式提取函数;Ai为第i个三元组对应的矩阵表示;
向量Pneg输入模式匹配器,分别计算三元组模式与有效模式的欧式距离即匹配度d(Ppos,
Pqry)和三元组模式与无效模式的欧氏距离即匹配度d(Pneg,Pqry),从而得到查询集三元组的
有效性分数scoreqry为scoreqry=d(Ppos,Pqry)‑d(Pneg,Pqry);式中d(Ppos,Pqry)=||Ppos‑Pqry|
|2,d(Pneg,Pqry)=||Pneg‑Pqry||2,|| ||2为二范数;
示:
习器参数;θ为更新前的模式学习器参数;α为给定的任务学习率; 为θ对应的梯度。
Pqry),计算三元组的有效性分数scoreqry为scoreqry=d(Ppos,Pqry)‑d(Pneg,Pqry);