基于实体对齐的多源异构知识图谱协同推理方法及装置转让专利

申请号 : CN202110416650.4

文献号 : CN112818137B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王晓杨林瑶辛柯俊张俊王飞跃

申请人 : 中国科学院自动化研究所

摘要 :

本发明提供一种基于实体对齐的多源异构知识图谱协同推理方法及装置,所述方法包括:基于待推理实体对,以及待推理实体对的查询关系,确定查询关系的等价关系路径;将各等价关系路径对应的特征向量输入至关系推理模型,得到查询关系对应的推理结果。本发明中用于训练关系推理模型的正样本三元组是从多个知识图谱中获取的,同时等价关系路径包括跨知识图谱的等价关系路径,实现了不同知识图谱之间的连通,从而关系推理模型能够学习多个知识图谱中的语义信息,避免传统方法中针对单一知识图谱进行知识推理造成推理精度较低的问题。

权利要求 :

1.一种基于实体对齐的多源异构知识图谱协同推理方法,所述方法应用于智能体,其特征在于,包括:

基于待推理实体对,以及所述待推理实体对的查询关系,确定所述查询关系的等价关系路径;所述等价关系路径包括跨知识图谱的等价关系路径;

将各等价关系路径对应的特征向量输入至关系推理模型,得到所述查询关系对应的推理结果;所述推理结果为所述智能体选择所述查询关系的概率;所述推理结果用于补全知识图谱;

其中,所述关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识图谱中获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组是基于各正样本三元组的k阶邻居确定的。

2.根据权利要求1所述的基于实体对齐的多源异构知识图谱协同推理方法,其特征在于,所述基于待推理实体对,以及所述待推理实体对的查询关系,确定所述查询关系的等价关系路径,包括:

基于所述待推理实体对的查询关系、多个知识图谱的三元组以及对齐锚链,确定强化学习环境;所述对齐锚链用于连通多个知识图谱中的三元组;

基于所述待推理实体对,在所述强化学习环境中确定所述查询关系的等价关系路径。

3.根据权利要求2所述的基于实体对齐的多源异构知识图谱协同推理方法,其特征在于,所述对齐锚链是基于如下步骤确定的:将所述多个知识图谱输入至嵌入模型,得到所述嵌入模型输出的实体和关系嵌入向量;

若任意两个嵌入向量之间的距离小于预设值,则为对应的两个实体添加所述对齐锚链;

其中,所述嵌入模型是基于正样本实体对以及负样本实体对训练得到的,所述正样本实体对为多个知识图谱中的对齐种子,所述负样本实体对是基于各正样本实体对的k阶邻居确定的。

4.根据权利要求3所述的基于实体对齐的多源异构知识图谱协同推理方法,其特征在于,所述将所述多个知识图谱输入至嵌入模型,得到所述嵌入模型输出的实体和关系嵌入向量,包括:

将所述多个知识图谱输入至所述嵌入模型的图注意力层,得到所述图注意力层输出的实体初始嵌入向量;

将所述实体初始嵌入向量输入至所述嵌入模型的翻译向量层,得到所述翻译向量层输出的实体和关系嵌入向量。

5.根据权利要求2所述的基于实体对齐的多源异构知识图谱协同推理方法,其特征在于,所述基于所述待推理实体对的查询关系、多个知识图谱的三元组以及对齐锚链,确定强化学习环境,包括:

基于所述待推理实体对的查询关系,在所述多个知识图谱的三元组中确定用于构建强化学习环境的训练集;所述训练集为关系类型与所述查询关系类型相同的三元组;

基于所述训练集,以及所述对齐锚链,确定所述强化学习环境。

6.根据权利要求2所述的基于实体对齐的多源异构知识图谱协同推理方法,其特征在于,所述基于所述待推理实体对,在所述强化学习环境中确定所述查询关系的等价关系路径,包括:

在所述强化学习环境中,以所述待推理实体对的头实体作为起点,根据状态转移规则跳转,并根据所述强化学习环境的奖励更新参数,直至成功到达所述待推理实体对的尾实体,并将对应的成功路径作为所述查询关系的等价关系路径。

7.根据权利要求6所述的基于实体对齐的多源异构知识图谱协同推理方法,其特征在于,所述以所述待推理实体对的头实体作为起点,根据状态转移规则跳转,包括:以所述待推理实体对的头实体作为起点,在每次选择下一跳关系类型之前,基于Mask机制滤除不可行的关系类型,并对剩余关系类型进行概率归一化后再进行概率化随机选择,确定下一跳关系类型。

8.一种基于实体对齐的多源异构知识图谱协同推理装置,所述装置应用于智能体,其特征在于,包括:

等价路径确定单元,用于基于待推理实体对,以及所述待推理实体对的查询关系,确定所述查询关系的等价关系路径;所述等价关系路径包括跨知识图谱的等价关系路径;

关系推理单元,用于将各等价关系路径对应的特征向量输入至关系推理模型,得到所述查询关系对应的推理结果;所述推理结果为所述智能体选择所述查询关系的概率;所述推理结果用于补全知识图谱;

其中,所述关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识图谱中获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组是基于各正样本三元组的k阶邻居确定的。

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于实体对齐的多源异构知识图谱协同推理方法的步骤。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于实体对齐的多源异构知识图谱协同推理方法的步骤。

说明书 :

基于实体对齐的多源异构知识图谱协同推理方法及装置

技术领域

[0001] 本发明涉及知识推理技术领域,尤其涉及一种基于实体对齐的多源异构知识图谱协同推理方法及装置。

背景技术

[0002] 知识推理即根据已知的信息预测某三元组存在与否的任务,是知识图谱补全和基于知识的决策问题的重要基础。
[0003] 近年来,随着大数据和人工智能技术的发展及发展可解释的人工智能的需求,知识图谱的知识推理问题得到了广泛研究,目前多采用基于规则的方法、基于表示学习的方
法和基于路径的方法等进行知识推理。然而,上述方法主要针对单一知识图谱的知识推理,
知识推理的精度较低。

发明内容

[0004] 本发明提供一种基于实体对齐的多源异构知识图谱协同推理方法及装置,用以解决现有技术中知识推理精度较低的缺陷。
[0005] 本发明提供一种基于实体对齐的多源异构知识图谱协同推理方法,包括:
[0006] 基于待推理实体对,以及所述待推理实体对的查询关系,确定所述查询关系的等价关系路径;所述等价关系路径包括跨知识图谱的等价关系路径;
[0007] 将各等价关系路径对应的特征向量输入至关系推理模型,得到所述查询关系对应的推理结果;
[0008] 其中,所述关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识
图谱中获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组
是基于各正样本三元组的k阶邻居确定的。
[0009] 根据本发明提供的一种基于实体对齐的多源异构知识图谱协同推理方法,所述基于待推理实体对,以及所述待推理实体对的查询关系,确定所述查询关系的等价关系路径,
包括:
[0010] 基于所述待推理实体对的查询关系、多个知识图谱的三元组以及对齐锚链,确定强化学习环境;所述对齐锚链用于连通多个知识图谱中的三元组;
[0011] 基于所述待推理实体对,在所述强化学习环境中确定所述查询关系的等价关系路径。
[0012] 根据本发明提供的一种基于实体对齐的多源异构知识图谱协同推理方法,所述对齐锚链是基于如下步骤确定的:
[0013] 将所述多个知识图谱输入至嵌入模型,得到所述嵌入模型输出的实体和关系嵌入向量;
[0014] 若任意两个嵌入向量之间的距离小于预设值,则为对应的两个实体添加所述对齐锚链;
[0015] 其中,所述嵌入模型是基于正样本实体对以及负样本实体对训练得到的,所述正样本实体对为多个知识图谱中的对齐种子,所述负样本实体对是基于各正样本实体对的k
阶邻居确定的。
[0016] 根据本发明提供的一种基于实体对齐的多源异构知识图谱协同推理方法,所述将所述多个知识图谱输入至嵌入模型,得到所述嵌入模型输出的实体和关系嵌入向量,包括:
[0017] 将所述多个知识图谱输入至所述嵌入模型的图注意力层,得到所述图注意力层输出的实体初始嵌入向量;
[0018] 将所述实体初始嵌入向量输入至所述嵌入模型的翻译向量层,得到所述翻译向量层输出的实体和关系嵌入向量。
[0019] 根据本发明提供的一种基于实体对齐的多源异构知识图谱协同推理方法,所述基于所述待推理实体对的查询关系、多个知识图谱的三元组以及对齐锚链,确定强化学习环
境,包括:
[0020] 基于所述待推理实体对的查询关系,在所述多个知识图谱的三元组中确定用于构建强化学习环境的训练集;所述训练集为关系类型与所述查询关系类型相同的三元组;
[0021] 基于所述训练集,以及所述对齐锚链,确定所述强化学习环境。
[0022] 根据本发明提供的一种基于实体对齐的多源异构知识图谱协同推理方法,所述基于所述待推理实体对,在所述强化学习环境中确定所述查询关系的等价关系路径,包括:
[0023] 在所述强化学习环境中,以所述待推理实体对的头实体作为起点,根据状态转移规则跳转,并根据所述强化学习环境的奖励更新参数,直至成功到达所述待推理实体对的
尾实体,并将对应的成功路径作为所述查询关系的等价关系路径。
[0024] 根据本发明提供的一种基于实体对齐的多源异构知识图谱协同推理方法,所述以所述待推理实体对的头实体作为起点,根据状态转移规则跳转,包括:
[0025] 以所述待推理实体对的头实体作为起点,在每次选择下一跳关系类型之前,基于Mask机制滤除不可行的关系类型,并对剩余关系类型进行概率归一化后再进行概率化随机
选择,确定下一跳关系类型。
[0026] 本发明还提供一种基于实体对齐的多源异构知识图谱协同推理装置,包括:
[0027] 等价路径确定单元,用于基于待推理实体对,以及所述待推理实体对的查询关系,确定所述查询关系的等价关系路径;所述等价关系路径包括跨知识图谱的等价关系路径;
[0028] 关系推理单元,用于将各等价关系路径对应的特征向量输入至关系推理模型,得到所述查询关系对应的推理结果;
[0029] 其中,所述关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识
图谱中获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组
是基于各正样本三元组的k阶邻居确定的。
[0030] 本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所
述基于实体对齐的多源异构知识图谱协同推理方法的步骤。
[0031] 本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于实体对齐的多源异构知识图谱协同
推理方法的步骤。
[0032] 本发明提供的基于实体对齐的多源异构知识图谱协同推理方法及装置,基于待推理实体对,以及待推理实体对的查询关系,确定查询关系的等价关系路径,并将各等价关系
路径对应的特征向量输入至关系推理模型中得到推理结果,由于等价关系路径包括跨知识
图谱的等价关系路径,实现了不同知识图谱之间的连通,从而关系推理模型能够学习多个
知识图谱中的语义信息,避免传统方法中针对单一知识图谱进行知识推理造成推理精度较
低的问题。

附图说明

[0033] 为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一
些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些
附图获得其他的附图。
[0034] 图1是本发明提供的基于实体对齐的多源异构知识图谱协同推理方法的流程示意图;
[0035] 图2是本发明提供的等价关系路径推导的流程示意图;
[0036] 图3是本发明提供的基于实体对齐的多源异构知识图谱协同推理装置的结构示意图;
[0037] 图4是本发明提供的电子设备的结构示意图。

具体实施方式

[0038] 为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,
而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳
动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0039] 目前已有的知识推理方法主要针对单一知识图谱的知识推理。现实中,针对某一领域往往存在大量由不同机构构建的具有一定互补性的知识图谱,如何利用多个知识图谱
的互补知识以提升知识推理的精度,尚未得到很好地解决。
[0040] 针对以上问题,本发明提出基于已有的多源异构知识图谱对齐种子,以实体对齐为目标任务训练图注意力和TransE模型,进而获得统一向量空间下的知识图谱表示并通过
实体对齐预测得到对齐实体锚链。为了挖掘有效的等价跨知识图谱关系路径,本发明设计
了一种基于LSTM和分层图注意力模型的策略智能体,并基于强化学习方法通过智能体与环
境的交互自动挖掘成功的等价关系路径,并以此为特征训练神经网络模型用以预测实体对
之间给定类型关系的存在性,进而预测未知三元组的正确性。下面将通过具体实施例对本
发明提供的内容进行详细解释和说明。
[0041] 对此,本发明提供一种基于实体对齐的多源异构知识图谱协同推理方法。图1是本发明提供的基于实体对齐的多源异构知识图谱协同推理方法的流程示意图,如图1所示,该
方法包括如下步骤:
[0042] 步骤110、基于待推理实体对,以及待推理实体对的查询关系,确定查询关系的等价关系路径;等价关系路径包括跨知识图谱的等价关系路径。
[0043] 具体地,待推理实体对指待预测关系类型的两个实体,例如对于实体A和实体B,需要预测实体A与B之间是否存在关系r,则实体A和实体B为待推理实体对,r为待推理实体对
的查询关系。查询关系的等价关系路径指可以从待推理实体对的头实体成功到达尾实体的
关系,该关系等价于查询关系。例如对于实体对(A,B),若A与B之间存在成功路径A→r1→C
→r2→B,则r1→r2可以看作是r的等价关系路径。其中,等价关系路径包括跨知识图谱的等
价关系路径,从而可以实现多个知识图谱的连通,避免传统方法中针对单一知识图谱进行
知识推理造成推理精度较低的问题。
[0044] 其中,待推理实体对的等价关系路径可以基于强化学习方法推导得出,例如可以基于多个知识图谱的三元组以及对齐锚链构造用于强化学习知识推理的环境,其中对齐锚
链是基于知识图谱中的三元组对应的实体进行实体对齐后得到的,从而可以连通多个知识
图谱,进而能够跨知识图谱获取有效的查询关系的等价关系路径,学习到多个知识图谱的
语义信息。
[0045] 步骤120、将各等价关系路径对应的特征向量输入至关系推理模型,得到查询关系对应的推理结果;
[0046] 其中,关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识图谱
中获取的,且各正样本三元组的关系类型与查询关系类型相同,各负样本三元组是基于各
正样本三元组的k阶邻居确定的。
[0047] 具体地,等价关系路径对应的特征向量可以按等价关系路径的数量顺序编码成特征向量,关系推理模型输出的推理结果可以为待推理实体对的查询关系存在的概率a1和不
存在的概率a2,若a1> a2,则表明待推理实体对中存在该查询关系,反之则不存在该查询关
系。由此可见,本发明实施例通过将等价关系路径对应的特征向量输入至关系推理模型,从
而可以得到查询关系的推理结果。
[0048] 需要说明的是,关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本三元组的等价关系路径对应的特征向量训练得到的;其中,各正样本三元组是从
多个知识图谱中获取的,且各正样本三元组的关系类型与查询关系类型相同;此外,各负样
本三元组是基于如下步骤确定的:将正样本三元组中的任一实体替换为对应的k阶邻居,若
形成的新的三元组不存在于正样本三元组中,则将其作为负样本三元组。例如:对于已知的
所推理关系 的三元组正样本 ,从尾实体  的 k阶邻居集合中,任选一个
实体 代替 ,若  不存在于正样本集合中,则将其添加到负样本集合中。重复
上述方法,直至为每个正样本生成N个负样本,由此即构成负样本三元组。此外,在将正样本
三元组中的任一实体替换为对应的k阶邻居时,k值宜取较小值(如k≤3),从而可以使得关
系推理模型能够准确学习到与正样本实体对相似但具有不同推理关系的负样本实体对信
息。
[0049] 举例来说,针对任意 样本,基于宽度优先搜索算法查找  和 之间存在的等价关系路径的数量,并将其按顺序编码成特征向量,将此特征向量及其样本标签
输入关系推理模型(三层感知机模型),模型的输入层维度为等价关系路径类型数量,输出
层维度为2,输出为实体对存在关系 与否的概率,以最小化预测输出与标签之间的
CrossEntropy损失为目标函数,即可训练得到实体对之间给定关系的连接预测模型。对于
任给实体对 ,为了判断其是否存在关系 ,首先基于宽度优先搜索,查询实体之间存
在的 的等价关系路径的数量,将其编码为特征向量,然后,将特征向量输入的关系推理模
型,若最终模型输出中存在的概率值大于不存在的概率值,则预测  之间存在关系 
,即三元组 成立,否则,预测三元组不成立。
[0050] 由此可见,本发明实施例提供的基于实体对齐的多源异构知识图谱协同推理方法,基于待推理实体对,以及待推理实体对的查询关系,确定查询关系的等价关系路径,并
将各等价关系路径对应的特征向量输入至关系推理模型中得到推理结果,由于等价关系路
径包括跨知识图谱的等价关系路径,实现了不同知识图谱之间的连通,从而关系推理模型
能够学习多个知识图谱中的语义信息,避免传统方法中针对单一知识图谱进行知识推理造
成推理精度较低的问题。
[0051] 基于上述实施例,基于待推理实体对,以及待推理实体对的查询关系,确定查询关系的等价关系路径,包括:
[0052] 基于待推理实体对的查询关系、多个知识图谱的三元组以及对齐锚链,确定强化学习环境;对齐锚链用于连通多个知识图谱中的三元组;
[0053] 基于待推理实体对,在强化学习环境中确定查询关系的等价关系路径。
[0054] 具体地,对齐锚链是对多个知识图谱中的三元组进行对齐预测后得到的,从而可以连通多个知识图谱,学习到不同知识图谱的语义信息。基于已知的知识图谱三元组和对
齐锚链,针对给定查询关系 ,删除三元组集合中所有关系为 的三元组。为了提升搜索
成功路径的效率,可以倒退以使能够调整失败的路径,对于任意三元组  ,构造
其逆三元组 ,其中  表示关系 的反向关系,进而得到有两个连通知识图
谱组成的强化学习环境。
[0055] 在确定强化学习环境后,可以建立马尔可夫决策模型,从待推理实体对的头实体出发,在每一步根据当前状态选择一种关系类型,然后根据奖励更新参数,直至能够成功到
达待推理实体对的尾实体。即等价关系路径不是一次推出来的,一次推一步,比如A→r1→C
→r2→B,从A出发,决策模型选中r1,则跳转到C 继续,直至到达B;若选中r3,则没有下一
跳,代表本轮失败。根据奖励更新参数,重选一组样本进行学习,在此过程中只记录下成功
的等价路径。
[0056] 基于上述任一实施例,对齐锚链是基于如下步骤确定的:
[0057] 将多个知识图谱输入至嵌入模型,得到嵌入模型输出的实体和关系嵌入向量;
[0058] 若任意两个嵌入向量之间的距离小于预设值,则为对应的两个实体添加对齐锚链;
[0059] 其中,嵌入模型是基于正样本实体对以及负样本实体对训练得到的,正样本实体对为多个知识图谱中的对齐种子,负样本实体对是基于各正样本实体对的k阶邻居确定的。
[0060] 具体地,由于不同知识图谱往往具有异构的特征空间,为了避免不同知识图谱的异构空间影响,将多个知识图谱输入至嵌入模型,得到嵌入模型输出的实体嵌入向量,从而
可以使得来源于不同知识图谱的实体和关系能够有统一的向量表示,以降低不同图谱特征
空间异构对后续强化学习发现等价路径的影响。其中,嵌入模型是基于正样本实体对以及
负样本实体对训练得到的,正样本实体对为多个知识图谱中的对齐种子,对齐种子可以是
通过人工或众包方式在多个知识图谱中标注的对齐种子,负样本实体对是基于各正样本实
体对的k阶邻居确定的。
[0061] 若任意两个嵌入向量之间的距离小于预设值,则为对应的两个实体添加对齐锚链,从而可以连通多个知识图谱,学习多个知识图谱的语义信息,降低不同知识图谱特征空
间异构后对强化学习发现等价关系路径的影响。
[0062] 举例来说,获取两个知识图谱的三元组和对齐种子集合,构造实体对齐训练集,基于图注意力模型和TransE模型,得到两个知识图谱同一向量空间下的嵌入向量,具体为:
[0063] 基于人工或众包的方式获得一定数量的实体对齐种子集合 ,对于任意 ,随机地从 或 的 k阶邻居中选择一个实体对应替换 或 ,直至对应任
意正样本生成N个负样本,进而获得负样本集合 ,其中,
表示实体  的k阶邻居集合。基于所得正负样本,以最小化正样本实体对之间的嵌入向
量距离、最大化负样本实体对之间的嵌入向量距离,同时最小化三元组嵌入向量距离为目
标,迭代训练图注意力模型和TransE模型,最终得到两个知识图谱所有实体和关系的嵌入
向量。其中,目标函数的数学表达式即为:
[0064]
[0065] 其中,  表示实体对之间的曼哈顿向量距离, 是一个权重参数, 为与 之间的关系类型, 表示给定三元组  嵌入向量的曼哈顿距
离,即 分别表示头实体、关系、尾实体的嵌入向量, 
表示一种取最大值的损失函数。
[0066] 基于两个知识图谱实体和关系的嵌入向量,计算剩余实体对之间的距离,将向量距离小于给定阈值的实体对添加到对齐实体集合中,为上述所得高置信度的对齐实体对添
加锚链,具体为:
[0067] 对于给定的知识图谱  和 ,计算两个知识图谱之间除对齐种子外的任意实体对嵌入向量的曼哈顿距离,得到任意实体对的向量距离矩阵,若实体对
之间的距离 满足:
[0068]
[0069] 其中,为一个给定阈值,则将实体对  添加到包含对齐种子的对齐实体集合 A中 ,并 为 对齐 实 体 集 合中 的 实 体 对 添 加锚 链 ,构造 新 的 三 元组

[0070] 基于上述任一实施例,将多个知识图谱输入至嵌入模型,得到嵌入模型输出的实体和关系嵌入向量,包括:
[0071] 将多个知识图谱输入至嵌入模型的图注意力层,得到图注意力层输出的实体初始嵌入向量;
[0072] 将实体初始嵌入向量输入至嵌入模型的翻译向量层,得到翻译向量层输出的实体和关系嵌入向量。
[0073] 具体地,图注意力层用于提取各知识图谱中实体初始嵌入向量,图注意力层可以基于图注意力模型得到,也可以基于其它神经网络模型得到,其可以最小化历史正样本实
体对之间的嵌入向量距离,最大化负样本实体对之间的嵌入向量距离,从而可以准确提取
出实体初始嵌入向量。
[0074] 在得到实体初始嵌入向量之后,将其输入翻译向量层,从而可以得到各知识图谱中实体和关系嵌入向量。其中,翻译向量层可以基于TransE模型得到,TransE模型可以将各
知识图谱中各实体和关系进行分布式向量表示,从而可以使得来源于不同知识图谱的实体
和关系能够有统一的向量表示。
[0075] 基于上述任一实施例,基于待推理实体对的查询关系、多个知识图谱的三元组以及对齐锚链,确定强化学习环境,包括:
[0076] 基于待推理实体对的查询关系,在多个知识图谱的三元组中确定用于构建强化学习环境的训练集;训练集为关系类型与查询关系类型相同的三元组;
[0077] 基于训练集,以及对齐锚链,确定强化学习环境。
[0078] 具体地,基于已知的知识图谱三元组和对齐锚链,针对给定查询关系 ,删除三元组集合中所有关系为  的三元组。为了提升搜索成功路径的效率,可以倒退以使能够调整
失败的路径,对于任意三元组 ,构造其逆三元组 ,其中 表示关系
 的反向关系,进而得到有两个连通知识图谱组成的强化学习环境。
[0079] 在确定强化学习环境后,可以建立马尔可夫决策模型,从待推理实体对的头实体出发,在每一步根据当前状态选择一种关系类型,然后根据奖励更新参数,直至能够成功到
达待推理实体对的尾实体。即等价关系路径不是一次推出来的,一次推一步,比如A→r1→C
→r2→B,从A出发,决策模型选中r1,则跳转到C 继续,直至到达B;若选中r3,则没有下一
跳,代表本轮失败。根据奖励更新参数,重选一组样本进行学习,在此过程中只记录下成功
的等价路径。
[0080] 基于上述任一实施例,基于待推理实体对,在强化学习环境中确定查询关系的等价关系路径,包括:
[0081] 在强化学习环境中,以待推理实体对的头实体作为起点,根据状态转移规则跳转,并根据强化学习环境的奖励更新参数,直至成功到达待推理实体对的尾实体,并将对应的
成功路径作为查询关系的等价关系路径。
[0082] 具体地,在强化学习环境中,以待推理实体对的头实体作为起点,根据状态转移规则跳转,并根据强化学习环境的奖励更新参数,直至成功到达待推理实体对的尾实体,并将
对应的成功路径作为查询关系的等价关系路径。在对待推理实体对进行等价关系路径推导
的过程中,可以基于宽度优先搜索算法确定当前节点的所有邻居节点,然后根据状态转移
规则选择相应的关系进行跳转。可以理解的是,若查询关系的等价关系路径数量越多,则表
明查询关系存在于待推理实体对的概率越高。例如要确认实体对(A,B)之间是否存在查询
关系r,则基于强化学习环境进行推导得到从A到B存在A→r1→C→r2→B,则r1→r2可以看
作是r的等价关系路径。
[0083] 如图2所示,将协同知识推理问题建模为一个马尔科夫决策问题,给定所推理关系的一组实例 ,智能体输入状态向量,输出下一跳关系类型的概率分布。智能体
决策模型由长短时记忆网络(LSTM)、分层图注意力网络和感知机模型组成,模型在第i步的
输入为:
[0084]
[0085] 其中, 表示当前所处实体的嵌入向量及当前实体与目标实体的向量距离,即,  表示向量拼接操作。 表示智能体在本轮训练中所选择过的历史
动作的映射表示, 表示周围邻居节点的加权表示,由分层图注意力模型编码得到。 由
一个三层的LSTM网络编码得到,其数学计算过程为:
[0086]
[0087]  表示第 步的隐含状态编码,其在第0步的初始编码为一个等尺寸的零向量, 为智能体在第  步选择的关系类型的编码。 由两部分组成,一是当前所处
实体的同一知识图谱内的一阶邻居的加权编码,即
[0088]
[0089] 其中, 表示实体  在同知识图谱的一阶邻居集合, 表示邻居 的嵌入向量,是一个共享权重矩阵, 表示 与 之间的相似性权重:
[0090]
[0091] 其中, 是一个共享的权重向量,LeakyReLU是一个非线性激活函数,最终 由Softmax函数归一化得到。 的第二部分是  的对齐实体的一阶邻居加权表示,采用如上
方式计算,若 不存在对齐实体,则其为与 等长的零向量。最后,以上述状态向量 作为
特征向量输入一个包含一个隐含层的感知机神经网络模型,模型输出层维度等于所有关系
类型的数量,其输出为智能体选择相应关系类型作为动作的概率。
[0092] 基于上述任一实施例,以待推理实体对的头实体作为起点,根据状态转移规则跳转,包括:
[0093] 以待推理实体对的头实体作为起点,在每次选择下一跳关系类型之前,基于Mask机制滤除不可行的关系类型,并对剩余关系类型进行概率归一化后再进行概率化随机选
择,确定下一跳关系类型。
[0094] 具体地,在确定查询关系的等价关系路径时,会从当前实体跳到下一个实体,但为了减少失败的概率,可以基于Mask机制,对各候选关系进行筛选,得到可行关系。例如当前
实体a位于知识图谱1,当前实体a的下一跳实体b位于知识图谱2,由于在进行等价关系路径
推导时,当前实体和下一跳实体需要位于同一知识图谱,则可以判断下一跳实体b是无效
的,可以进行删除,避免对无效路径进行分析造成效率较低的问题。
[0095] 在决策模型的每一步学习中,根据决策模型输出的关系动作概率分布,智能体在每一轮随机选择一种关系类型。由于智能体每一步只能处于一个知识图谱中,因此其可行
的动作空间仅包含一个知识图谱的关系类型及锚链关系,为了降低智能体选择失败的概
率,本发明实施例在每一次在选择关系类型前首先由Mask筛选掉一半不可行关系类型,然
后,将剩余关系类型的概率归一化,再进行概率化随机选择。选定下一跳关系后,环境根据
当前实体是否存在相应关系类型的三元组进行状态跳转。若存在,则从相应三元组中随机
选择一个跳转到其尾实体上,否则,判定当前路径失败,通过随机抽取可行的路径有监督指
导智能体学习。若本轮训练智能体成功到达目标实体,则记录其走过的关系路径为关系
的等价关系路径,并给予其每一步动作奖励为 ,并以最大化如下
函数为目标反向传播梯度更新决策模型的参数:
[0096]
[0097] 其中,为模型所有待优化的权重参数, 为每一轮训练所允许探索的最大步数,即为所有奖励的期望。
[0098] 基于上述任一实施例,推理结果为查询关系存在于待推理实体对中的概率以及查询关系不存在于待推理实体对中的概率。
[0099] 具体地,关系推理模型输出的推理结果为查询关系存在的概率a1和不存在的概率a2,若a1> a2,则表明待推理实体对中存在查询关系,反之则不存在该查询关系。
[0100] 下面对本发明提供的基于实体对齐的多源异构知识图谱协同推理装置进行描述,下文描述的基于实体对齐的多源异构知识图谱协同推理装置与上文描述的基于实体对齐
的多源异构知识图谱协同推理方法可相互对应参照。
[0101] 基于上述任一实施例,本发明还提供一种基于实体对齐的多源异构知识图谱协同推理装置,如图3所示,该装置包括:
[0102] 等价路径确定单元310,用于基于待推理实体对,以及所述待推理实体对的查询关系,确定所述查询关系的等价关系路径;所述等价关系路径包括跨知识图谱的等价关系路
径;
[0103] 关系推理单元320,用于将各等价关系路径对应的特征向量输入至关系推理模型,得到所述查询关系对应的推理结果;
[0104] 其中,所述关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识
图谱中获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组
是基于各正样本三元组的k阶邻居确定的。
[0105] 基于上述任一实施例,所述等价路径确定单元310包括:
[0106] 第一确定单元,用于基于所述待推理实体对的查询关系、多个知识图谱的三元组以及对齐锚链,确定强化学习环境;所述对齐锚链用于连通多个知识图谱中的三元组;
[0107] 第二确定单元,用于基于所述待推理实体对,在所述强化学习环境中确定所述查询关系的等价关系路径。
[0108] 基于上述任一实施例,还包括:
[0109] 嵌入单元,用于将所述多个知识图谱输入至嵌入模型,得到所述嵌入模型输出的实体和关系嵌入向量;
[0110] 对齐单元,用于若任意两个嵌入向量之间的距离小于预设值,则为对应的两个实体添加所述对齐锚链;
[0111] 其中,所述嵌入模型是基于正样本实体对以及负样本实体对训练得到的,所述正样本实体对为多个知识图谱中的对齐种子,所述负样本实体对是基于各正样本实体对的k
阶邻居确定的。
[0112] 基于上述任一实施例,所述嵌入单元,包括:
[0113] 图注意力单元,用于将所述多个知识图谱输入至所述嵌入模型的图注意力层,得到所述图注意力层输出的实体初始嵌入向量;
[0114] 翻译向量单元,用于将所述实体初始嵌入向量输入至所述嵌入模型的翻译向量层,得到所述翻译向量层输出的实体和关系嵌入向量。
[0115] 基于上述任一实施例,所述第一确定单元,包括:
[0116] 构建单元,用于基于所述待推理实体对的查询关系,在所述多个知识图谱的三元组中确定用于构建强化学习环境的训练集;所述训练集为关系类型与所述查询关系类型相
同的三元组;
[0117] 环境确定单元,用于基于所述训练集,以及所述对齐锚链,确定所述强化学习环境。
[0118] 基于上述任一实施例,所述第二确定单元,用于:
[0119] 在所述强化学习环境中,以所述待推理实体对的头实体作为起点,根据状态转移规则跳转,并根据所述强化学习环境的奖励更新参数,直至成功到达所述待推理实体对的
尾实体,并将对应的成功路径作为所述查询关系的等价关系路径。
[0120] 基于上述任一实施例,所述第二确定单元,用于:
[0121] 以所述待推理实体对的头实体作为起点,在每次选择下一跳关系类型之前,基于Mask机制滤除不可行的关系类型,并对剩余关系类型进行概率归一化后再进行概率化随机
选择,确定下一跳关系类型。
[0122] 基于上述任一实施例,所述推理结果为所述查询关系存在于所述待推理实体对中的概率以及所述查询关系不存在于所述待推理实体对中的概率。
[0123] 图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和
通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通
信。处理器410可以调用存储器430中的逻辑指令,以执行基于实体对齐的多源异构知识图
谱协同推理方法,该方法包括:基于待推理实体对,以及所述待推理实体对的查询关系,确
定所述查询关系的等价关系路径;所述等价关系路径包括跨知识图谱的等价关系路径;将
各等价关系路径对应的特征向量输入至关系推理模型,得到所述查询关系对应的推理结
果;其中,所述关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本
三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识图谱中
获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组是基于
各正样本三元组的k阶邻居确定的。
[0124] 此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本
发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以
使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施
例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,
Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
[0125] 另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序
指令被计算机执行时,计算机能够执行上述各方法所提供的基于实体对齐的多源异构知识
图谱协同推理方法,该方法包括:基于待推理实体对,以及所述待推理实体对的查询关系,
确定所述查询关系的等价关系路径;所述等价关系路径包括跨知识图谱的等价关系路径;
将各等价关系路径对应的特征向量输入至关系推理模型,得到所述查询关系对应的推理结
果;其中,所述关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本
三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识图谱中
获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组是基于
各正样本三元组的k阶邻居确定的。
[0126] 又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于实体对齐的多源异构知识
图谱协同推理方法,该方法包括:基于待推理实体对,以及所述待推理实体对的查询关系,
确定所述查询关系的等价关系路径;所述等价关系路径包括跨知识图谱的等价关系路径;
将各等价关系路径对应的特征向量输入至关系推理模型,得到所述查询关系对应的推理结
果;其中,所述关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本
三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识图谱中
获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组是基于
各正样本三元组的k阶邻居确定的。
[0127] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单
元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下,即可以理解并实施。
[0128] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
[0129] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。