基于实体对齐的多源异构知识图谱协同推理方法及装置转让专利
申请号 : CN202110416650.4
文献号 : CN112818137B
文献日 : 2022-04-08
发明人 : 王晓 , 杨林瑶 , 辛柯俊 , 张俊 , 王飞跃
申请人 : 中国科学院自动化研究所
摘要 :
权利要求 :
1.一种基于实体对齐的多源异构知识图谱协同推理方法,所述方法应用于智能体,其特征在于,包括:
基于待推理实体对,以及所述待推理实体对的查询关系,确定所述查询关系的等价关系路径;所述等价关系路径包括跨知识图谱的等价关系路径;
将各等价关系路径对应的特征向量输入至关系推理模型,得到所述查询关系对应的推理结果;所述推理结果为所述智能体选择所述查询关系的概率;所述推理结果用于补全知识图谱;
其中,所述关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识图谱中获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组是基于各正样本三元组的k阶邻居确定的。
2.根据权利要求1所述的基于实体对齐的多源异构知识图谱协同推理方法,其特征在于,所述基于待推理实体对,以及所述待推理实体对的查询关系,确定所述查询关系的等价关系路径,包括:
基于所述待推理实体对的查询关系、多个知识图谱的三元组以及对齐锚链,确定强化学习环境;所述对齐锚链用于连通多个知识图谱中的三元组;
基于所述待推理实体对,在所述强化学习环境中确定所述查询关系的等价关系路径。
3.根据权利要求2所述的基于实体对齐的多源异构知识图谱协同推理方法,其特征在于,所述对齐锚链是基于如下步骤确定的:将所述多个知识图谱输入至嵌入模型,得到所述嵌入模型输出的实体和关系嵌入向量;
若任意两个嵌入向量之间的距离小于预设值,则为对应的两个实体添加所述对齐锚链;
其中,所述嵌入模型是基于正样本实体对以及负样本实体对训练得到的,所述正样本实体对为多个知识图谱中的对齐种子,所述负样本实体对是基于各正样本实体对的k阶邻居确定的。
4.根据权利要求3所述的基于实体对齐的多源异构知识图谱协同推理方法,其特征在于,所述将所述多个知识图谱输入至嵌入模型,得到所述嵌入模型输出的实体和关系嵌入向量,包括:
将所述多个知识图谱输入至所述嵌入模型的图注意力层,得到所述图注意力层输出的实体初始嵌入向量;
将所述实体初始嵌入向量输入至所述嵌入模型的翻译向量层,得到所述翻译向量层输出的实体和关系嵌入向量。
5.根据权利要求2所述的基于实体对齐的多源异构知识图谱协同推理方法,其特征在于,所述基于所述待推理实体对的查询关系、多个知识图谱的三元组以及对齐锚链,确定强化学习环境,包括:
基于所述待推理实体对的查询关系,在所述多个知识图谱的三元组中确定用于构建强化学习环境的训练集;所述训练集为关系类型与所述查询关系类型相同的三元组;
基于所述训练集,以及所述对齐锚链,确定所述强化学习环境。
6.根据权利要求2所述的基于实体对齐的多源异构知识图谱协同推理方法,其特征在于,所述基于所述待推理实体对,在所述强化学习环境中确定所述查询关系的等价关系路径,包括:
在所述强化学习环境中,以所述待推理实体对的头实体作为起点,根据状态转移规则跳转,并根据所述强化学习环境的奖励更新参数,直至成功到达所述待推理实体对的尾实体,并将对应的成功路径作为所述查询关系的等价关系路径。
7.根据权利要求6所述的基于实体对齐的多源异构知识图谱协同推理方法,其特征在于,所述以所述待推理实体对的头实体作为起点,根据状态转移规则跳转,包括:以所述待推理实体对的头实体作为起点,在每次选择下一跳关系类型之前,基于Mask机制滤除不可行的关系类型,并对剩余关系类型进行概率归一化后再进行概率化随机选择,确定下一跳关系类型。
8.一种基于实体对齐的多源异构知识图谱协同推理装置,所述装置应用于智能体,其特征在于,包括:
等价路径确定单元,用于基于待推理实体对,以及所述待推理实体对的查询关系,确定所述查询关系的等价关系路径;所述等价关系路径包括跨知识图谱的等价关系路径;
关系推理单元,用于将各等价关系路径对应的特征向量输入至关系推理模型,得到所述查询关系对应的推理结果;所述推理结果为所述智能体选择所述查询关系的概率;所述推理结果用于补全知识图谱;
其中,所述关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识图谱中获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组是基于各正样本三元组的k阶邻居确定的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于实体对齐的多源异构知识图谱协同推理方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于实体对齐的多源异构知识图谱协同推理方法的步骤。
说明书 :
基于实体对齐的多源异构知识图谱协同推理方法及装置
技术领域
背景技术
法和基于路径的方法等进行知识推理。然而,上述方法主要针对单一知识图谱的知识推理,
知识推理的精度较低。
发明内容
图谱中获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组
是基于各正样本三元组的k阶邻居确定的。
包括:
阶邻居确定的。
境,包括:
尾实体,并将对应的成功路径作为所述查询关系的等价关系路径。
选择,确定下一跳关系类型。
图谱中获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组
是基于各正样本三元组的k阶邻居确定的。
述基于实体对齐的多源异构知识图谱协同推理方法的步骤。
推理方法的步骤。
路径对应的特征向量输入至关系推理模型中得到推理结果,由于等价关系路径包括跨知识
图谱的等价关系路径,实现了不同知识图谱之间的连通,从而关系推理模型能够学习多个
知识图谱中的语义信息,避免传统方法中针对单一知识图谱进行知识推理造成推理精度较
低的问题。
附图说明
些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些
附图获得其他的附图。
具体实施方式
而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳
动前提下所获得的所有其他实施例,都属于本发明保护的范围。
的互补知识以提升知识推理的精度,尚未得到很好地解决。
实体对齐预测得到对齐实体锚链。为了挖掘有效的等价跨知识图谱关系路径,本发明设计
了一种基于LSTM和分层图注意力模型的策略智能体,并基于强化学习方法通过智能体与环
境的交互自动挖掘成功的等价关系路径,并以此为特征训练神经网络模型用以预测实体对
之间给定类型关系的存在性,进而预测未知三元组的正确性。下面将通过具体实施例对本
发明提供的内容进行详细解释和说明。
方法包括如下步骤:
的查询关系。查询关系的等价关系路径指可以从待推理实体对的头实体成功到达尾实体的
关系,该关系等价于查询关系。例如对于实体对(A,B),若A与B之间存在成功路径A→r1→C
→r2→B,则r1→r2可以看作是r的等价关系路径。其中,等价关系路径包括跨知识图谱的等
价关系路径,从而可以实现多个知识图谱的连通,避免传统方法中针对单一知识图谱进行
知识推理造成推理精度较低的问题。
链是基于知识图谱中的三元组对应的实体进行实体对齐后得到的,从而可以连通多个知识
图谱,进而能够跨知识图谱获取有效的查询关系的等价关系路径,学习到多个知识图谱的
语义信息。
中获取的,且各正样本三元组的关系类型与查询关系类型相同,各负样本三元组是基于各
正样本三元组的k阶邻居确定的。
存在的概率a2,若a1> a2,则表明待推理实体对中存在该查询关系,反之则不存在该查询关
系。由此可见,本发明实施例通过将等价关系路径对应的特征向量输入至关系推理模型,从
而可以得到查询关系的推理结果。
多个知识图谱中获取的,且各正样本三元组的关系类型与查询关系类型相同;此外,各负样
本三元组是基于如下步骤确定的:将正样本三元组中的任一实体替换为对应的k阶邻居,若
形成的新的三元组不存在于正样本三元组中,则将其作为负样本三元组。例如:对于已知的
所推理关系 的三元组正样本 ,从尾实体 的 k阶邻居集合中,任选一个
实体 代替 ,若 不存在于正样本集合中,则将其添加到负样本集合中。重复
上述方法,直至为每个正样本生成N个负样本,由此即构成负样本三元组。此外,在将正样本
三元组中的任一实体替换为对应的k阶邻居时,k值宜取较小值(如k≤3),从而可以使得关
系推理模型能够准确学习到与正样本实体对相似但具有不同推理关系的负样本实体对信
息。
输入关系推理模型(三层感知机模型),模型的输入层维度为等价关系路径类型数量,输出
层维度为2,输出为实体对存在关系 与否的概率,以最小化预测输出与标签之间的
CrossEntropy损失为目标函数,即可训练得到实体对之间给定关系的连接预测模型。对于
任给实体对 ,为了判断其是否存在关系 ,首先基于宽度优先搜索,查询实体之间存
在的 的等价关系路径的数量,将其编码为特征向量,然后,将特征向量输入的关系推理模
型,若最终模型输出中存在的概率值大于不存在的概率值,则预测 之间存在关系
,即三元组 成立,否则,预测三元组不成立。
将各等价关系路径对应的特征向量输入至关系推理模型中得到推理结果,由于等价关系路
径包括跨知识图谱的等价关系路径,实现了不同知识图谱之间的连通,从而关系推理模型
能够学习多个知识图谱中的语义信息,避免传统方法中针对单一知识图谱进行知识推理造
成推理精度较低的问题。
齐锚链,针对给定查询关系 ,删除三元组集合中所有关系为 的三元组。为了提升搜索
成功路径的效率,可以倒退以使能够调整失败的路径,对于任意三元组 ,构造
其逆三元组 ,其中 表示关系 的反向关系,进而得到有两个连通知识图
谱组成的强化学习环境。
达待推理实体对的尾实体。即等价关系路径不是一次推出来的,一次推一步,比如A→r1→C
→r2→B,从A出发,决策模型选中r1,则跳转到C 继续,直至到达B;若选中r3,则没有下一
跳,代表本轮失败。根据奖励更新参数,重选一组样本进行学习,在此过程中只记录下成功
的等价路径。
可以使得来源于不同知识图谱的实体和关系能够有统一的向量表示,以降低不同图谱特征
空间异构对后续强化学习发现等价路径的影响。其中,嵌入模型是基于正样本实体对以及
负样本实体对训练得到的,正样本实体对为多个知识图谱中的对齐种子,对齐种子可以是
通过人工或众包方式在多个知识图谱中标注的对齐种子,负样本实体对是基于各正样本实
体对的k阶邻居确定的。
间异构后对强化学习发现等价关系路径的影响。
意正样本生成N个负样本,进而获得负样本集合 ,其中,
表示实体 的k阶邻居集合。基于所得正负样本,以最小化正样本实体对之间的嵌入向
量距离、最大化负样本实体对之间的嵌入向量距离,同时最小化三元组嵌入向量距离为目
标,迭代训练图注意力模型和TransE模型,最终得到两个知识图谱所有实体和关系的嵌入
向量。其中,目标函数的数学表达式即为:
离,即 分别表示头实体、关系、尾实体的嵌入向量,
表示一种取最大值的损失函数。
加锚链,具体为:
之间的距离 满足:
。
体对之间的嵌入向量距离,最大化负样本实体对之间的嵌入向量距离,从而可以准确提取
出实体初始嵌入向量。
知识图谱中各实体和关系进行分布式向量表示,从而可以使得来源于不同知识图谱的实体
和关系能够有统一的向量表示。
失败的路径,对于任意三元组 ,构造其逆三元组 ,其中 表示关系
的反向关系,进而得到有两个连通知识图谱组成的强化学习环境。
达待推理实体对的尾实体。即等价关系路径不是一次推出来的,一次推一步,比如A→r1→C
→r2→B,从A出发,决策模型选中r1,则跳转到C 继续,直至到达B;若选中r3,则没有下一
跳,代表本轮失败。根据奖励更新参数,重选一组样本进行学习,在此过程中只记录下成功
的等价路径。
成功路径作为查询关系的等价关系路径。
对应的成功路径作为查询关系的等价关系路径。在对待推理实体对进行等价关系路径推导
的过程中,可以基于宽度优先搜索算法确定当前节点的所有邻居节点,然后根据状态转移
规则选择相应的关系进行跳转。可以理解的是,若查询关系的等价关系路径数量越多,则表
明查询关系存在于待推理实体对的概率越高。例如要确认实体对(A,B)之间是否存在查询
关系r,则基于强化学习环境进行推导得到从A到B存在A→r1→C→r2→B,则r1→r2可以看
作是r的等价关系路径。
决策模型由长短时记忆网络(LSTM)、分层图注意力网络和感知机模型组成,模型在第i步的
输入为:
动作的映射表示, 表示周围邻居节点的加权表示,由分层图注意力模型编码得到。 由
一个三层的LSTM网络编码得到,其数学计算过程为:
实体的同一知识图谱内的一阶邻居的加权编码,即
方式计算,若 不存在对齐实体,则其为与 等长的零向量。最后,以上述状态向量 作为
特征向量输入一个包含一个隐含层的感知机神经网络模型,模型输出层维度等于所有关系
类型的数量,其输出为智能体选择相应关系类型作为动作的概率。
择,确定下一跳关系类型。
实体a位于知识图谱1,当前实体a的下一跳实体b位于知识图谱2,由于在进行等价关系路径
推导时,当前实体和下一跳实体需要位于同一知识图谱,则可以判断下一跳实体b是无效
的,可以进行删除,避免对无效路径进行分析造成效率较低的问题。
的动作空间仅包含一个知识图谱的关系类型及锚链关系,为了降低智能体选择失败的概
率,本发明实施例在每一次在选择关系类型前首先由Mask筛选掉一半不可行关系类型,然
后,将剩余关系类型的概率归一化,再进行概率化随机选择。选定下一跳关系后,环境根据
当前实体是否存在相应关系类型的三元组进行状态跳转。若存在,则从相应三元组中随机
选择一个跳转到其尾实体上,否则,判定当前路径失败,通过随机抽取可行的路径有监督指
导智能体学习。若本轮训练智能体成功到达目标实体,则记录其走过的关系路径为关系
的等价关系路径,并给予其每一步动作奖励为 ,并以最大化如下
函数为目标反向传播梯度更新决策模型的参数:
的多源异构知识图谱协同推理方法可相互对应参照。
径;
图谱中获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组
是基于各正样本三元组的k阶邻居确定的。
阶邻居确定的。
同的三元组;
尾实体,并将对应的成功路径作为所述查询关系的等价关系路径。
选择,确定下一跳关系类型。
通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通
信。处理器410可以调用存储器430中的逻辑指令,以执行基于实体对齐的多源异构知识图
谱协同推理方法,该方法包括:基于待推理实体对,以及所述待推理实体对的查询关系,确
定所述查询关系的等价关系路径;所述等价关系路径包括跨知识图谱的等价关系路径;将
各等价关系路径对应的特征向量输入至关系推理模型,得到所述查询关系对应的推理结
果;其中,所述关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本
三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识图谱中
获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组是基于
各正样本三元组的k阶邻居确定的。
发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以
使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施
例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,
Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
指令被计算机执行时,计算机能够执行上述各方法所提供的基于实体对齐的多源异构知识
图谱协同推理方法,该方法包括:基于待推理实体对,以及所述待推理实体对的查询关系,
确定所述查询关系的等价关系路径;所述等价关系路径包括跨知识图谱的等价关系路径;
将各等价关系路径对应的特征向量输入至关系推理模型,得到所述查询关系对应的推理结
果;其中,所述关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本
三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识图谱中
获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组是基于
各正样本三元组的k阶邻居确定的。
图谱协同推理方法,该方法包括:基于待推理实体对,以及所述待推理实体对的查询关系,
确定所述查询关系的等价关系路径;所述等价关系路径包括跨知识图谱的等价关系路径;
将各等价关系路径对应的特征向量输入至关系推理模型,得到所述查询关系对应的推理结
果;其中,所述关系推理模型是基于正样本三元组的等价关系路径对应的特征向量、负样本
三元组的等价关系路径对应的特征向量训练得到的,各正样本三元组是从多个知识图谱中
获取的,且各正样本三元组的关系类型与所述查询关系类型相同,各负样本三元组是基于
各正样本三元组的k阶邻居确定的。
元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下,即可以理解并实施。
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。