一种基于异构图注意力网络的实体对齐方法转让专利

申请号 : CN202110405963.X

文献号 : CN112800770B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王晓杨林瑶程振荣辛柯俊王飞跃

申请人 : 南京樯图数据研究院有限公司

摘要 :

本发明公开了一种基于异构图注意力网络的实体对齐方法,首先,基于聚类将实体划分为不同类别;然后,基于异构图注意力网络学习实体的嵌入向量;基于实体嵌入向量计算不同实体类别之间的相似性,结合向量相似性得到任意实体对的相似性;最后,将实体对齐问题建模为整数规划问题,通过求解获得满足一对一对齐约束的对齐结果。本发明不仅时间复杂度低,而且实体对齐精度高。

权利要求 :

1.一种基于异构图注意力网络的实体对齐方法,其特征在于,包括以下步骤:步骤1,基于BERT预训练实体名称得到的词向量,根据词向量计算得到实体语义名称向量,并根据得到的实体语义名称向量进行聚类,将实体划分为 类,得到实体类别信息;

步骤2,根据步骤1得到的实体语义名称向量和实体类别信息采用异构图注意力网络聚合不同类别的邻居信息,学习更新实体嵌入向量;

基于异构图注意力网络聚合邻居实体的信息以学习实体嵌入向量,实体嵌入向量更新公式为:

其中, 为非线性激活函数, 表示类型 相关的邻接矩阵,其每一行表示一种实体,每一列表示一个类型为 的邻居实体, 表示所有实体在神经网络第层的嵌入向量矩阵, 表示类型为 的邻居实体在神经网络第 层的嵌入向量矩阵,是类型 实体的特征变换矩阵;

将实体嵌入向量更新公式分解为节点级注意力和类型级注意力,实体嵌入向量更新公式由节点级注意力和类型级注意力结合更新得到,将类型 相关的注意力权重矩阵作为类型 相关的邻接矩阵 ,其 行 列的元素即为实体 与类型为 的邻居 的节点级注意力权重 ;

采用损失函数训练异构图注意力网络,通过最小化已知对齐实体的嵌入向量距离得到最佳的实体表示向量;

损失函数为:

其中, 表示异构图注意力网络的损失函数, 表示分属于知识图谱一 和知识图谱二 的一对等价实体, 表示知识图谱一 中的一个实体, 表示知识图谱二 中的一个实体, 表示一组等价实体对, 表示知识图谱二 中的一个实体二, 表示一组不等价的实体对, 表示两个向量之间的欧式距离, 表示已知的对齐种子集合, 表示负样本集合,在每一轮迭代之前,通过选取知识图谱二 中与知识图谱二 中的一个实体 的嵌入向量距离最小的实体与知识图谱一 中的一个实体 结合形成本轮训练的负样本,  表示一个正的阈值, 表示 函数;

步骤3,基于实体对嵌入向量的距离计算不同实体类别之间的相似性,结合嵌入向量相似性得到实体对之间的相似性;

实体 ,实体 表示知识图谱一 中的实体类别一, 表示知识图谱二 中的实体类别二 ,实体类别一包含的所 有实体的嵌入向量 为, 表示类别一的实体数量,实体类别二包含的所有实体的嵌入向量为 , 表示类别二的实体数量,基于所含实体的成对嵌入向量之间的距离得到实体类别一和实体类别二之间的相似性:其中, 表示实体类别一和实体类别二之间的相似性, 为正数;结合实体所属类别之间的相似性,实体 与实体 之间的相似性为:其中,  表示实体 与实体 之间的相似性, 为常数;根据实体与实体 之间的相似性得到两知识图谱实体相似性矩阵;

步骤4,结合两知识图谱实体相似性矩阵,基于0‑1整数规划识别等价实体对,得到实体对齐结果;

将等价实体对的识别问题建模为0‑1整数规划问题,其目标函数为:约束为: 

其中, 表示实体 之间的相似性 为对应的0‑1决策变量,其值为1表示实体 和实体 对齐,否则,其值为0;求解0‑1整数规划问题,得到满足一对一约束的优化的对齐结果。

2.根据权利要求1所述基于异构图注意力网络的实体对齐方法,其特征在于:步骤1中根据实体名称,检索其所含字符的BERT预训练所得词向量,利用幂平均运算得到实体语义名称向量,具体方式为:

实体 名称的词向 量包括 ,幂平均运 算形式 为,其中, 表示实体名称中第 个字符的词向量, 表示字符数, 表示维度为 的向量空间, 表示实数集合, 表示词向量的维数, 表示幂平均参数;基于幂平均运算形式计算,得到第 个实体的实体语义名称向量 。

3.根据权利要求2所述基于异构图注意力网络的实体对齐方法,其特征在于:幂平均参数 根据幂平均计算方法确定:使用算数平均时, 为1;使用谐波平均时, 为‑1。

4.根据权利要求3所述基于异构图注意力网络的实体对齐方法,其特征在于:步骤1中根据实体语义名称向量采用K‑means聚类方法将实体划分为 类的方法:随机选取 个中心点,将每个实体分配到向量欧氏距离最近的中心点所在的类别,并基于各类别所含实体语义名称向量的平均值更新各类别的中心点,直到所有中心点不再改变,即将实体分为 类。

5.根据权利要求4所述基于异构图注意力网络的实体对齐方法,其特征在于:步骤2中类型级注意力学习不同类型邻居的权重,实体 与类型 邻居之间的类型级注意力值为:

其中, 为类型 邻居实体的注意力权重向量, 表示转置运算, 表示实体 的嵌入向量, 表示向量的拼接运算, 为所有类型为 的邻居实体转换后的嵌入向量,由公式 计算, 是实体 的类型为 的邻居实体, 表示实体 与的连边权重,其值初始化为1,在训练中为上一轮所得的两实体之间的注意力权重;实体与类型 邻居的类型级注意力权重 为:其中, 表示类型为 , 表示所有实体类型。

6.根据权利要求5所述基于异构图注意力网络的实体对齐方法,其特征在于:步骤2中节点级注意力通过直接计算实体与对应邻居实体之间的注意力得到,实体 与类型为的邻居 之间的节点级注意力值 为:其中, 是共享的注意力参数向量;

实体 与类型为 的邻居 的节点级注意力权重 为:其中, 表示实体 的邻居集合。

7.根据权利要求6所述基于异构图注意力网络的实体对齐方法,其特征在于:步骤4中采用单纯形法求解0‑1整数规划问题得到满足一对一约束的优化的对齐结果。

说明书 :

一种基于异构图注意力网络的实体对齐方法

技术领域

[0001] 本发明属于知识融合领域,具体地涉及实体对齐相关的基于异构图注意力网络的实体对齐方法。

背景技术

[0002] 随着知识库规模的扩大和实体数量的增加,不同知识库之间的实体链接的重要性日益凸显,多知识图谱的实体对齐成为研究的热点方向。
[0003] 目前的实体对齐相关技术与方法来源于数据库中的实体匹配,但是,在实际应用中,存在许多问题和挑战,其中最突出的是计算复杂度、数据对齐质量的问题。在大数据条
件下,知识库数据量庞大繁杂,传统的实体对齐算法时间复杂度高,实体对齐精度不足。

发明内容

[0004] 发明目的:为了克服现有技术中存在的不足,本发明提供一种时间复杂度低、实体对齐精度高的基于异构图注意力网络的实体对齐方法。
[0005] 技术方案:为实现上述目的,本发明采用的技术方案为:
[0006] 一种基于异构图注意力网络的实体对齐方法,包括以下步骤:
[0007] 步骤1,基于BERT预训练实体名称得到的词向量,根据词向量计算得到实体语义名称向量,并根据得到的实体语义名称向量进行聚类,将实体划分为 类,得到实体类别信
息。
[0008] 步骤2,根据步骤1得到的实体语义名称向量和实体类别信息采用异构图注意力网络聚合不同类别的邻居信息,学习更新实体嵌入向量。
[0009] 基于异构图注意力网络聚合邻居实体的信息以学习实体嵌入向量,实体嵌入向量更新公式为:
[0010]
[0011] 其中, 为非线性激活函数, 表示类型 相关的邻接矩阵,其每一行表示一种实体,每一列表示一个类型为 的邻居实体, 表示所有实体在神经网络第
层的嵌入向量矩阵, 表示类型为 的邻居实体在神经网络第 层的嵌入向
量矩阵, 是类型 实体的特征变换矩阵。
[0012] 将实体嵌入向量更新公式分解为节点级注意力和类型级注意力,实体嵌入向量更新公式由节点级注意力和类型级注意力结合更新得到,将类型 相关的注意力权重矩阵作
为类型 相关的邻接矩阵 ,其 行 列的元素即为实体 与类型为 的邻居 的
节点级注意力权重 。
[0013] 采用损失函数训练异构图注意力网络,通过最小化已知对齐实体的嵌入向量距离得到最佳的实体表示向量。
[0014] 损失函数为:
[0015]
[0016] 其中, 表示异构图注意力网络的损失函数,表示分属于知识图谱一 和知识图谱二 的一对等价实体, 表示知识图谱一 中
的一个实体, 表示知识图谱二 中的一个实体, 表示一组等价实体对, 表
示知识图谱二 中的一个实体二, 表示一组不等价的实体对, 表示两
个向量之间的欧式距离, 表示已知的对齐种子集合, 表示负样本集合,在每一轮迭代
之前,通过选取 中与 的嵌入向量距离最小的实体与 结合形成本轮训练的负样本,
 表示一个正的阈值, 表示 函数。
[0017] 步骤3,基于实体对嵌入向量的距离计算不同实体类别之间的相似性,结合嵌入向量相似性得到实体对之间的相似性。
[0018] 实体 ,实体 表示知识图谱一 中的实体类别一, 表示知识图谱二 中的实体类别二,实体类别一包含的所有实体的嵌入向量为
, 表示类别一的实体数量,实体类别二包含的所有实体的
嵌入向量为 , 表示类别二的实体数量,基于所含实体的成对嵌
入向量之间的距离得到实体类别一和实体类别二之间的相似性:
[0019]
[0020] 其中, 表示实体类别一和实体类别二之间的相似性, s是一个足够大的正数,一般取10。结合实体所属类别之间的相似性,实体 与实体 之间的相似性
为:
[0021]
[0022] 其中, 表示实体 与实体 之间的相似性, 为足够大的常数,一般取20。根据实体 与实体 之间的相似性得到两知识图谱实体相似性矩阵。
[0023] 步骤4,结合两知识图谱实体相似性矩阵,基于0‑1整数规划识别等价实体对,得到实体对齐结果。
[0024] 将等价实体对的识别问题建模为0‑1整数规划问题,其目标函数为:
[0025]
[0026] 约束为:
[0027] 其中, 表示实体 之间的相似性 为对应的0‑1决策变量,其值为1表示实体 和实体 对齐,否则,其值为0。求解0‑1整数规划问题,得到满
足一对一约束的优化的对齐结果。
[0028] 优选的:步骤1中根据实体名称,检索其所含字符的BERT预训练所得词向量,利用幂平均运算得到实体语义名称向量,具体方式为:
[0029] 实体名称的词向量包括 ,幂平均运算形式化为,其中, 表示实体名称中第 个字符的词向量, 表示
字符数, 表示维度为 的向量空间, 表示词向量的维数, 表示幂平均参数, 表
示实数集合。基于幂平均运算形式计算,得到第 个实体的实体语义名称向量 。
[0030] 优选的:幂平均参数 根据幂平均计算方法确定:使用算数平均时, 为1;使用谐波平均时, 为‑1。
[0031] 优选的:步骤1中根据实体语义名称向量采用K‑means聚类方法将实体划分为 类的方法:
[0032] 随机选取 个中心点,将每个实体分配到向量欧氏距离最近的中心点所在的类别,并基于各类别所含实体语义名称向量的平均值更新各类别的中心点,重复上述过程,直
到所有中心点不再改变,即将实体分为 类。
[0033] 优选的:步骤2中类型级注意力学习不同类型邻居的权重,实体 与类型 邻居之间的类型级注意力值 为:
[0034]
[0035] 其中, 为类型 邻居实体的注意力权重向量, 表示转置运算, 表示实体的嵌入向量, 表示向量的拼接运算, 为所有类型为 的邻居实体转换后的嵌入向
量,由公式 计算, 是实体 的类型为 的邻居实体, 表示实
体 与 的连边权重,其值初始化为1,在训练中为上一轮所得的两实体之间的注意力权
重。实体 与类型 邻居的类型级注意力权重 为:
[0036]
[0037] 其中, 表示类型为 , 表示所有实体类型。
[0038] 优选的:步骤2中节点级注意力通过直接计算实体与对应邻居实体之间的注意力得到,实体 与类型为 的邻居 之间的节点级注意力值 为:
[0039]
[0040] 其中, 是共享的注意力参数向量。
[0041] 实体 与类型为 的邻居 的节点级注意力权重 为:
[0042]
[0043] 其中, 表示实体 的邻居集合。
[0044] 优选的:步骤4中采用单纯形法求解0‑1整数规划问题得到满足一对一约束的优化的对齐结果。
[0045] 本发明相比现有技术,具有以下有益效果:
[0046] 本发明基于实体的名称语义向量将实体划分为不同类别,获得实体的类别信息。利用异构图注意力网络获得实体的嵌入向量。基于实体嵌入距离和实体类别信息计算实体
之间的相似性。将实体对齐问题建模为一个整数规划问题,提高实体对齐的质量和精度。

附图说明

[0047] 图1是本发明实施例所公开的一种基于异构图注意力网络的实体对齐方法的流程示意图;
[0048] 图2是本发明所公开的异构图注意力网络模型图。

具体实施方式

[0049] 下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种
等价形式的修改均落于本申请所附权利要求所限定的范围。
[0050] 一种基于异构图注意力网络的实体对齐方法,如图1所示,包括以下步骤:
[0051] 步骤1,基于BERT预训练实体名称得到的词向量,根据词向量计算得到实体语义名称向量,并根据得到的实体语义名称向量进行聚类,将实体划分为 类,得到实体类别信息。
[0052] 根据实体名称,检索其所含字符的BERT预训练所得词向量,利用幂平均运算得到实体语义名称向量,具体方式为:
[0053] 给定第 个实体的实体名称的词向量包括 ,幂平均运算形式化为 ,其中, 表示实体名称中第 个字符的词
向量, 表示字符数, 表示维度为 的向量空间, 表示实数集合, 表示词向量的
维数,幂平均参数 根据幂平均计算方法确定,使用算数平均时, 为1,使用谐波平均时,
为‑1。基于上述幂平均运算形式计算,得到第 个实体的实体语义名称向量 :
[0054]
[0055] 根据实体语义名称向量 采用K‑means聚类方法将实体划分为 类的方法:
[0056] 随机选取 个中心点,将每个实体分配到向量欧氏距离最近的中心点所在的类别,并基于各类别所含实体语义名称向量的平均值更新各类别的中心点,重复上述过程,直
到所有中心点不再改变,即将实体分为 类。
[0057] 步骤2,根据步骤1得到的实体语义名称向量和实体类别信息采用异构图注意力网络聚合不同类别的邻居信息,学习更新实体嵌入向量。
[0058] 如图2所示,基于异构图注意力网络聚合邻居实体的信息以学习实体嵌入向量,实体嵌入向量更新公式为:
[0059]
[0060] 其中, 为非线性激活函数, 表示类型 相关的邻接矩阵,其每一行表示一种实体,每一列表示一个类型为 的邻居实体, 表示所有实体在神经网络第
层的嵌入向量矩阵, 表示类型为 的邻居实体在神经网络第 层的嵌入向量
矩阵, 是类型 实体的特征变换矩阵。
[0061] 将实体嵌入向量更新公式分解为由节点级注意力和类型级注意力组成的图注意力机制,具体而言:
[0062] 类型级注意力学习不同类型邻居的权重,实体 与类型 邻居之间的类型级注意力值 为:
[0063]
[0064] 其中, 为类型 邻居实体的注意力权重向量, 表示转置运算, 表示实体的嵌入向量, 表示向量的拼接运算, 为所有类型为 的邻居实体转换后的嵌入向
量,由公式 计算, 是实体 的类型为 的邻居实体, 表示实
体 与 的连边权重,
[0065] 其值初始化为1,在训练中为上一轮所得的两实体之间的注意力权重。在得到实体的所有不同类型邻居的类型注意力值之后,实体 与类型 邻居的类型级注意力权重
为:
[0066]
[0067] 其中, 表示类型为 , 表示所有实体类型。
[0068] 节点级注意力通过直接计算实体与对应邻居实体之间的注意力得到,实体 与类型为 的邻居 之间的节点级注意力值 为:
[0069]
[0070] 其中, 是共享的注意力参数向量。
[0071] 同样,实体 与类型为 的邻居 的节点级注意力权重 由归一化计算得到:
[0072]
[0073] 其中, 表示实体 的邻居集合。
[0074] 最后,实体嵌入向量更新公式由节点级注意力和类型级注意力结合更新得到,将类型 相关的注意力权重矩阵作为类型 相关的邻接矩阵 ,其 行 列的元素即为
实体 与类型为 的邻居 的节点级注意力权重 。
[0075] 采用损失函数训练异构图注意力网络,通过最小化已知对齐实体的嵌入向量距离得到最佳的实体表示向量。
[0076] 损失函数为:
[0077]
[0078] 其中, 表示异构图注意力网络的损失函数, 表示分属于知识图谱一 和知识图谱二 的一对等价实体, 表示知识图谱一 中的一
个实体, 表示知识图谱二 中的一个实体, 表示一组等价实体对, 表示
知识图谱二 中的一个实体二, 表示一组不等价的实体对, 表示两个
向量之间的欧式距离, 表示已知的对齐种子集合, 表示负样本集合,在每一轮迭代之
前,通过选取 中与 的嵌入向量距离最小的实体与 结合形成本轮训练的负样本,
表示一个正的阈值, 表示 函数。
[0079] 步骤3,基于实体对嵌入向量的距离计算不同实体类别之间的相似性,结合嵌入向量相似性得到实体对之间的相似性。
[0080] 实体 ,实体 表示知识图谱一 中的实体类别一, 表示知识图谱二 中的实体类别二,实体类别一包含的所有实体的嵌入向量为
, 表示类别一的实体数量,实体类别二包含的所有实体的
嵌入向量为 , 表示类别二的实体数量,基于所含实体的成对
嵌入向量之间的距离得到实体类别一和实体类别二之间的相似性:
[0081]
[0082] 其中, 表示实体类别一和实体类别二之间的相似性, 是一个足够大的正数,一般为10。结合实体所属类别之间的相似性,实体 与实体 之间的相似性
为:
[0083]
[0084] 其中, 表示实体 与实体 之间的相似性, 为足够大的常数,一般为20。根据实体 与实体 之间的相似性得到两知识图谱实体相似性矩阵。
[0085] 步骤4,结合两知识图谱实体相似性矩阵,基于0‑1整数规划识别等价实体对,得到实体对齐结果。
[0086] 将等价实体对的识别问题建模为0‑1整数规划问题,其目标函数为:
[0087]
[0088] 约束为: 
[0089] 即最大化所有对齐实体之间总的相似值,约束条件分别表示决策变量对应矩阵的每一行、每一列取值的和不能大于1,以保证每个实体最多只能与一个实体配对。其中,
表示实体 之间的相似性 为对应的0‑1决策变量,其值为1表示
实体 和实体 对齐,否则,其值为0。采用单纯形法求解0‑1整数规划问题得到满足一
对一约束的优化的对齐结果。
[0090] 以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应
视为本发明的保护范围。