一种获取知识图谱向量化表示的方法以及装置转让专利

申请号 : CN201610197184.4

文献号 : CN105824802B

文献日 : 2018-10-30

本发明公开一种获取知识图谱向量化表示的方法以及装置。其中，所述方法包括：根据待处理的知识图谱，使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体，得到实体标注的文本语料；基于所述文本语料，构建由词和实体组成的共现网络，以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联，进而学习得到文本上下文嵌入表示；根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模，得到所述知识图谱的嵌入表示模型；使用随机梯度下降法训练所述嵌入表示模型，得到所述知识图谱中实体和关系的嵌入表示。本发明不仅能提高关系的表示能力，而且还能有效地解决知识图谱稀疏性带来的表示效果不足的问题。

1.一种获取知识图谱向量化表示的方法，其特征在于，所述方法包括：根据待处理的知识图谱，使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体，得到实体标注的文本语料；

基于所述文本语料，构建由词和实体组成的共现网络，以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联，进而学习得到文本上下文嵌入表示；

根据所述文本上下文嵌入表示对所述知识图谱中实体和关系的嵌入表示分别进行建模，得到所述知识图谱的嵌入表示模型；

使用随机梯度下降法训练所述嵌入表示模型，得到所述知识图谱中实体和关系的嵌入表示；

所述基于所述文本语料，构建由词和实体组成的共现网络，以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联，进而学习得到文本上下文嵌入表示，包括：根据所述共现网络分别定义一元文本上下文和二元文本上下文；

以所述文本语料为输入，采用Skip-gram Word2Vec进行词嵌入表示学习，得到所述共现网络中任意一点的词向量嵌入表示；

根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示；

根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示；

对于共现网络中任意一点xi，该点的一元文本上下文n(xi)定义为其在共现网络中关联程度较高的邻居节点：n(xi)＝{xj|yij＞θ}，其中，θ表示共现频率的阈值，yij表示点xi和点xj之间的共现频率；该点的一元文本上下文嵌入表示N(xi)定义为n(xi)中词向量嵌入表示的加权平均向量：对于共现网络中任意两点xi和xj，该两点的二元文本上下文n(xi,xj)定义为该两点xi和xj在共现网络中均具有较高关联程度的公共邻居节点：n(xi,xj)＝{xk|xk∈n(xi)∩n(xj)}；该两点的二元文本上下文嵌入表示N(xi,xj)定义为n(xi,xj)中词向量嵌入表示的加权平均向量：其中公共邻居节点xk的权重定义为yik和yjk的最小值，为所有权重之和。

2.根据权利要求1所述的获取知识图谱向量化表示的方法，其特征在于，所述实体标注工具为以下中的至少一者：AIDI、TAGME以及Wikify！。

3.根据权利要求1所述的获取知识图谱向量化表示的方法，其特征在于，所述根据所述文本上下文嵌入表示对所述知识图谱中实体和关系的嵌入表示分别进行建模，得到所述知识图谱的嵌入表示模型，包括：采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实体的一元文本上下文嵌入表示，得到所述实体的嵌入表示模型；

采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示，得到所述关系的嵌入表示模型；

根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入表示模型。

4.根据权利要求1所述的获取知识图谱向量化表示的方法，其特征在于，所述使用随机梯度下降法训练所述嵌入表示模型，得到所述知识图谱中实体和关系的嵌入表示，包括：根据所述嵌入表示模型定义基于边缘的损失函数；

使用随机梯度下降法训练所述嵌入表示模型，使得所述损失函数最小化，从而得到所述知识图谱中实体和关系的嵌入表示。

5.一种获取知识图谱向量化表示的装置，其特征在于，所述装置包括：标注单元，用于根据待处理的知识图谱，使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体，得到实体标注的文本语料；

构建单元，用于基于所述文本语料，构建由词和实体组成的共现网络，以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联，进而学习得到文本上下文嵌入表示；

建模单元，用于根据所述文本上下文嵌入表示对所述知识图谱中实体和关系的嵌入表示分别进行建模，得到所述知识图谱的嵌入表示模型；

训练单元，用于使用随机梯度下降法训练所述嵌入表示模型，得到所述知识图谱中实体和关系的嵌入表示；

所述构建单元，具体用于：

根据所述共现网络分别定义一元文本上下文和二元文本上下文；

以所述文本语料为输入，采用Skip-gram Word2Vec进行词嵌入表示学习，得到所述共现网络中任意一点的词向量嵌入表示；

根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示；

根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示；

6.根据权利要求5所述的获取知识图谱向量化表示的装置，其特征在于，所述实体标注工具为以下中的至少一者：AIDI、TAGME以及Wikify！。

7.根据权利要求5所述的获取知识图谱向量化表示的装置，其特征在于，所述建模单元，具体用于：采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实体的一元文本上下文嵌入表示，得到所述实体的嵌入表示模型；

采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示，得到所述关系的嵌入表示模型；

根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入表示模型。

8.根据权利要求5所述的获取知识图谱向量化表示的装置，其特征在于，所述训练单元，具体用于：根据所述嵌入表示模型定义基于边缘的损失函数；

使用随机梯度下降法训练所述嵌入表示模型，使得所述损失函数最小化，从而得到所述知识图谱中实体和关系的嵌入表示。

一种获取知识图谱向量化表示的方法以及装置

技术领域

[0001] 本发明涉及语义万维网领域，具体地，涉及一种获取知识图谱向量化表示的方法以及装置。

背景技术

[0002] 语义万维网是当前万维网的扩展，含有精确语义信息的数据的网络是语义万维网的核心。万维网之父Tim Berners-Lee提出的开放链接数据项目(Linking Open Data Project)旨在构建这样一个数据网络，语义知识库是构成该数据网络的根本。

[0003] 在语义万维网环境下，知识图谱的向量化表示计算旨在将知识图谱中的实体表示成一个分布的、低维度的向量，进一步赋予知识图谱可计算的性质，已被证明在知识图谱补充、文本分类和信息抽取上有重要提升作用。将知识图谱的关系视为一个翻译操作，TransE是第一个简单、高效的知识图谱表示学习方法，TransH和TransR分别通过超平面映射和向量空间变换进一步允许一个实体在给定不同的关系时拥有不同的嵌入表示，使一对多、多对一和多对多关系的表示能力进一步提高。

[0004] 然而，现有的知识图谱向量化表示计算中仍存在如下问题：

[0005] 1、一对多、多对一和多对多关系的表示能力低下：TransH和TransR从模型的角度对TransE进行优化，没有扩展表示学习中可用的信息来源，对关系表示能力的提高有限。

[0006] 2、知识图谱稀疏性导致表示效果不足：TransE、TransH和TransR均从知识图谱的结构关系中对嵌入表示进行学习，受限于当前知识图谱通常比较稀疏，表示学习的效果依然无法令人满意。

发明内容

[0007] 本发明的目的是提供一种获取知识图谱向量化表示的方法以及装置。其中，所述方法不仅能够提高一对多、多对一以及多对多关系的表示能力，而且还能有效地解决知识图谱稀疏性带来的表示效果不足的问题。

[0008] 为了实现上述目的，本发明提供一种获取知识图谱向量化表示的方法。所述方法包括：

[0009] 根据待处理的知识图谱，使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体，得到实体标注的文本语料；

[0010] 基于所述文本语料，构建由词和实体组成的共现网络，以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联，进而学习得到文本上下文嵌入表示；

[0011] 根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模，得到所述知识图谱的嵌入表示模型；

[0012] 使用随机梯度下降法训练所述嵌入表示模型，得到所述知识图谱中实体和关系的嵌入表示。

[0013] 可选地，所述实体标注工具为以下中的至少一者：

[0014] AIDI、TAGME以及Wikify！。

[0015] 可选地，所述基于所述文本语料，构建由词和实体组成的共现网络，以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联，进而学习得到文本上下文嵌入表示，包括：

[0016] 根据所述共现网络分别定义一元文本上下文和二元文本上下文；

[0017] 以所述文本语料为输入，采用Skip-gram Word2Vec进行词嵌入表示学习，得到所述共现网络中任意一点的词向量嵌入表示；

[0018] 根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示；

[0019] 根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示。

[0020] 可选地，所述根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模，得到所述知识图谱的嵌入表示模型，包括：

[0021] 采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实体的一元文本上下文嵌入表示，得到所述实体的嵌入表示模型；

[0022] 采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示，得到所述关系的嵌入表示模型；

[0023] 根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入表示模型。

[0024] 可选地，所述使用随机梯度下降法训练所述嵌入表示模型，得到所述知识图谱中实体和关系的嵌入表示，包括：

[0025] 根据所述嵌入表示模型定义基于边缘的损失函数；

[0026] 使用随机梯度下降法训练所述嵌入表示模型，使得所述损失函数最小化，从而得到所述知识图谱中实体和关系的嵌入表示。

[0027] 相应地，本发明还提供一种获取知识图谱向量化表示的装置。所述装置包括：

[0028] 标注单元，用于根据待处理的知识图谱，使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体，得到实体标注的文本语料；

[0029] 构建单元，用于基于所述文本语料，构建由词和实体组成的共现网络，以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联，进而学习得到文本上下文嵌入表示；

[0030] 建模单元，用于根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模，得到所述知识图谱的嵌入表示模型；

[0031] 训练单元，用于使用随机梯度下降法训练所述嵌入表示模型，得到所述知识图谱中实体和关系的嵌入表示。

[0032] 可选地，所述实体标注工具为以下中的至少一者：

[0033] AIDI、TAGME以及Wikify！。

[0034] 可选地，所述构建单元，具体用于：

[0035] 根据所述共现网络分别定义一元文本上下文和二元文本上下文；

[0036] 以所述文本语料为输入，采用Skip-gram Word2Vec进行词嵌入表示学习，得到所述共现网络中任意一点的词向量嵌入表示；

[0037] 根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示；

[0038] 根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示。

[0039] 可选地，所述建模单元，具体用于：

[0040] 采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实体的一元文本上下文嵌入表示，得到所述实体的嵌入表示模型；

[0041] 采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示，得到所述关系的嵌入表示模型；

[0042] 根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入表示模型。

[0043] 可选地，所述训练单元，具体用于：

[0044] 根据所述嵌入表示模型定义基于边缘的损失函数；

[0045] 使用随机梯度下降法训练所述嵌入表示模型，使得所述损失函数最小化，从而得到所述知识图谱中实体和关系的嵌入表示。

[0046] 通过上述技术方案，采用文本辅助的方法，在知识图谱的实体和关系嵌入表示建模过程中，引入文本上下文嵌入表示，使得一种关系在给定不同的实体对时可以拥有不同的表示，大大提高对一对多、多对一和多对多关系的表示能力。另一方面，文本上下文嵌入表示的引入，极大地丰富了现有知识图谱的信息，有效解决了知识图谱稀疏性带来的表示效果不足的问题。

附图说明

[0047] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

[0048] 图1是本发明一实施例提供的获取知识图谱向量化表示的方法的流程图；

[0049] 图2是本发明一实施例提供的知识图谱向量化表示计算的示意图；

[0050] 图3是本发明一实施例提供的获取知识图谱向量化表示的装置的结构示意图。

具体实施方式

[0051] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0052] 图1是本发明一实施例提供的获取知识图谱向量化表示的方法的流程图。如图1所示，本发明一实施例提供的获取知识图谱向量化表示的方法包括：

[0053] 在步骤S101中，根据待处理的知识图谱，使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体，得到实体标注的文本语料。

[0054] 对于辅助文本语料，形式化表示为一个由词组成的有序序列其中wi表示单个的词，m为该有序序列的长度。给定知识图谱，形式化表示为一个由三元组组成的集合其中(h,r,t)表示一个语义三元组，h和t分别表示头实体和尾实
体，r表示头实体和尾实体之间的关系。

[0055] 给定辅助文本语料使用实体标注工具自动地在给定辅助文本语料中标注知识图谱中存在的实体，得到实体标注的文本语料其中，xi表示中的一个词或者中的一个实体。由于多个连续的词可能被标注为一个实体，的长度m'小于的长度m。通用的实体标注工具均可用于以上的实体标注，如AIDI、TAGME和Wikify！等，也即是实体标注工具为以下中的至少一者：AIDI、TAGME以及Wikify！。

[0056] 接着，在步骤S102中，基于所述文本语料，构建由词和实体组成的共现网络，以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联，进而学习得到文本上下文嵌入表示。

[0057] 具体地，该步骤包括：根据所述共现网络分别定义一元文本上下文和二元文本上下文；以所述文本语料为输入，采用Skip-gram Word2Vec进行词嵌入表示学习，得到所述共现网络中任意一点的词向量嵌入表示；根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示；根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示。

[0058] 给定实体标注的文本语料构建一个由词和实体组成的共现网络以将文本信息和实体信息进行关联。其中，表示共现网络中的点，为一个词或者一个实体，表示点xi和点xj之间的共现频率，而且共现网络构造中的共现窗口设置为5。

[0059] 基于共现网络分别定义一元文本上下文和二元文本上下文。具体地，给定共现网络中任意一点xi，考虑到其邻居节点可以反映其上下文信息，因此，xi的一元文本上下文n(xi)定义为其在共现网络中关联程度较高的邻居节点：

[0060] n(xi)＝{xj|yij>θ} (1)

[0061] 其中，θ表示共现频率的阈值。图2是本发明一实施例提供的知识图谱向量化表示计算的示意图。如图2所示，n(Avatar)＝{film,movie,directed}和n(James_Cameron)＝{director}分别揭示了头实体和尾实体的背景知识。类似地，给定共现网络中任意两点xi和xj，该两点的二元文本上下文n(xi,xj)定义为二者的公共邻居节点：

[0062] n(xi,xj)＝{xk|xk∈n(xi)∩n(xj)} (2)

[0063] 如图2所示，n(Avatar,James_Cameron)＝{direct}描述了两个实体之间“direct”(“导演”)的隐含关系。

[0064] 由于共现网络和实体标注的文本语料同构，以语料为输入，采用Skip-gram Word2Vec进行词嵌入表示学习，进而对于共现网络中的任意一点xi得到一个k维的词向量嵌入表示。根据上述对文本上下文的定义，给定共现网络中任意一点xi，其一元文本上下文嵌入表示n(xi)定义为n(xi)中词向量嵌入表示的加权平均向量：

[0065]

[0066] 若n(xi)为空，则n(xi)为零向量0。类似地，给定网络中任意两点xi和xj，其二元文本上下文嵌入表示n(xi,xj)定义为n(xi,xj)中词向量嵌入表示的加权平均向量：

[0067]

[0068] 其中公共邻居节点 x k 的权重定义为 y i k 和 y j k 的最小值，为所有权重之和。若n(xi,xj)为空，则n(xi,xj)为零向量0。

[0069] 紧接着，在步骤S103中，根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模，得到所述知识图谱的嵌入表示模型。

[0070] 具体地，该步骤包括：采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实体的一元文本上下文嵌入表示，得到所述实体的嵌入表示模型；采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示，得到所述关系的嵌入表示模型；根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入表示模型。

[0071] 基于上述所得的文本上下文嵌入表示，分别对知识图谱中实体和关系的嵌入表示进行建模，定义基于翻译方法的模型优化目标。更为具体地，实体的嵌入表示模型定义为该实体的一元文本上下文嵌入表示的线性变换：

[0072]

[0073]

[0074] 其中，和分别表示头实体h和尾实体t的嵌入表示模型，A是一个k×k的矩阵，h和t分别表示偏置向量。类似地，关系r的嵌入表示模型定义为头实体h和尾实体t的二元文本上下文嵌入表示的线性变换：

[0075]

[0076] 其中，表示关系的嵌入表示模型，B是一个k×k的矩阵，r表示偏置向量。

[0077] 进一步地，实体/关系(知识图谱)的嵌入表示模型的目标为该模型的优化即最小化以下损失函数：

[0078]

[0079] 对于实体/关系(知识图谱)的嵌入表示模型中的向量和权重矩阵作规范化限制，包括：||h||2≤1、||r||2≤1、||n(h)A||2≤1、||t||2≤1、||n(t)A||2≤1、||n(h,t)B||2≤1、以及

[0080] 为了进一步提高对一对多、多对一和多对多关系的表示能力，可以令实体在给定不同的关系时拥有不同的嵌入表示，包括基于超平面映射的方法和基于空间变换的方法。

[0081] 其中，基于超平面映射的方法将实体嵌入表示和首先映射到向量wr对应的超平面上，得到映射后的嵌入表示和其损失函数为基于空间变换的方法使用变换矩阵Mr将实体嵌入表示和首先映
射另一个向量空间，得到变换后的嵌入表示和其损失函数为

[0082] 最后，在步骤S104中，使用随机梯度下降法训练所述嵌入表示模型，得到所述知识图谱中实体和关系的嵌入表示。

[0083] 具体地，该步骤包括：根据所述嵌入表示模型定义基于边缘的损失函数；使用随机梯度下降法训练所述嵌入表示模型，使得所述损失函数最小化，从而得到所述知识图谱中实体和关系的嵌入表示。

[0084] 根据上述所得的知识图谱的嵌入表示模型，定义基于边缘的损失函数为：

[0085]

[0086] 其中，max(·,·)表示两个输入的最大值，γ表示边缘值，表示知识图谱中已知的正确的三元组集合，是通过采用随机替换方法从中生成的错误的三元组集合，f(h,r,t)表示损失函数。训练过程采用随机梯度下降的方法，使得上述损失函数(9)最小化，从而得到知识图谱中实体和关系的嵌入表示。

[0087] 采用本发明实施例提供的方法进行了实验，具体实验过程如下：

[0088] 1、数据集介绍。实验采用2个在知识图谱表示学习中使用的通用数据集，其中WN11来源于由词的义项组成的知识图谱WordNet，FB15K来源于实体组成的世界知识图谱FreeBase。数据集的相关信息如表1所示。

[0089] 表1数据集相关统计

[0090]

[0091] 辅助文本语料采用2015年8月的维基百科词条描述文本，共包括4,919,463篇文档。实体标注仅以维基百科中已标注的超链接作为候选，若维基百科所标注链接和给定知识图谱中实体的名称相同，则标注为实体，否则不予标注。

[0092] 2、实验设置。实验评测使用知识图谱表示学习中的通用评测任务——链接预测：即给定一个实体(头实体或尾实体)和一个关系，预测缺失的另一个实体(尾实体或头实体)。链接预测任务首先对所有候选实体通过计算损失函数值的大小进行排序，进而以正确的实体所在位置作为评测指标，包括平均排序和前10命中率。平均排序(Mean Rank)即正确实体排序位置的平均值，前10命中率(Hits@10)即正确实体排序位置位居前10的百分比。考虑到除了该正确实体外，其他实体也可能构成正确的三元组，以上指标会低估表示学习的性能。进一步对实体排序列表中除该正确实体以外其他构成正确三元组的实体过滤，得到矫正的评估指标。我们将未矫正的评估指标记为原始指标(Raw),矫正后的评估指标记为过滤指标(Filter)。易知，更低的平均排序和更高的前10命中率体现了更优秀的表示学习方法。

[0093] 3、实验结果与分析

[0094] 采用以上数据集和实验设置，同当前知识图谱表示学习主流方法TransE、TransH和TransR进行对比。除了基于线性变换的文本辅助的知识图谱表示学习方法，本申请人还实现了基于超平面映射和基于空间变换的文本辅助的知识图谱表示学习方法，分别将线性变换方法、超平面映射方法和空间变换方法记为TEKE_E、TEKE_H和TEKE_R。其中，unif和bern表示知识图谱表示学习中通用的两种错误训练三元组样本生成策略。

[0095] 如表2、表3所示，为链接预测任务的评测结果。在WN18数据集上，本发明实施例提供的方法明显优于对比方法。在FB15K上，本发明实施例提供的方法在前10命中率上明显优于对比方法，考虑到平均排序易受个别极端靠后排序的影响，认为前10命中率更能体现方法的效果对比。

[0096] 表2 WN18结果分析

[0097]

[0098] 表3 FB15K结果分析

[0099]

[0100] 一对多、多对一和多对多关系的表示能力对比分析。对于FB15K数据集，分析得到包含一对一、一对多、多对一和多对多关系比例分别为24.2％、22.9％、28.9％和24.0％。如表4、表5所示，分别为预测头实体和预测尾实体的前10命中率对比分析。可知当待预测的实体可能为多个时(预测头实体时多对一和多对多关系，以及预测尾实体时一对多和多对多关系)，本发明实施例提供的方法大幅度提高了前10命中率，而仅仅在一对一关系上有轻微的降幅。

[0101] 表4预测头实体前10命中率分析(％)

[0102]

[0103] 表5预测尾实体前10命中率分析(％)

[0104]

[0105] 知识图谱稀疏性对表示学习效果的影响。基于FB15K数据集，随机抽取3,000实体及其相关的三元组，进而得到数据集FB3K和2,238个测试三元组以及2,106个验证三元组。在FB3K的基础上，进一步随机扩充3,000个实体得到FB6K数据集，类似地在FB6K的基础上得到FB9K数据集。FB3K、FB6K和FB9K平均每个实体相关的三元组分别为6.45、12.56和18.58个，其稀疏程度逐步降低。为了公平对比，基于FB3K的3,000实体集合和2,238个测试三元组，对比分析了TransE和TEKE_E在平均排序上的效果，如表6所示，当知识图谱稀疏程度降低时，知识表示的效果逐步上升，本发明实施例提供的方法的效果均优于对比方法，且在知识图谱稀疏性强时提升更加明显。

[0106] 表6知识图谱稀疏性对表示学习效果的影响

[0107]

[0108] 本发明实施例通过采用文本辅助的方法，在知识图谱的实体和关系嵌入表示建模过程中，引入文本上下文嵌入表示，使得一种关系在给定不同的实体对时可以拥有不同的表示，大大提高对一对多、多对一和多对多关系的表示能力。另一方面，文本上下文嵌入表示的引入，极大地丰富了现有知识图谱的信息，有效解决了知识图谱稀疏性带来的表示效果不足的问题。

[0109] 对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

[0110] 图3是本发明一实施例提供的获取知识图谱向量化表示的装置的结构示意图。如图3所示，本发明一实施例提供的获取知识图谱向量化表示的装置包括：

[0111] 标注单元201，用于根据预设的知识图谱，使用实体标注工具标注辅助文本语料中存在的实体，得到实体标注的文本语料；

[0112] 构建单元202，用于基于所述文本语料，构建由词和实体组成的共现网络，以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联，进而学习得到文本上下文嵌入表示；

[0113] 建模单元203，用于根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模，得到所述知识图谱的嵌入表示模型；

[0114] 训练单元204，用于使用随机梯度下降法训练所述嵌入表示模型，得到所述知识图谱中实体和关系的嵌入表示。

[0115] 在本发明一实施例中，所述实体标注工具为以下中的至少一者：

[0116] AIDI、TAGME以及Wikify！。

[0117] 在本发明一实施例中，所述构建单元202，具体用于：

[0118] 根据所述共现网络分别定义一元文本上下文和二元文本上下文；

[0119] 以所述文本语料为输入，采用Skip-gram Word2Vec进行词嵌入表示学习，得到所述共现网络中任意一点的词向量嵌入表示；

[0120] 根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示；

[0121] 根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示。

[0122] 在本发明一实施例中，所述建模单元203，具体用于：

[0123] 采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实体的一元文本上下文嵌入表示，得到所述实体的嵌入表示模型；

[0124] 采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示，得到所述关系的嵌入表示模型；

[0125] 根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入表示模型。

[0126] 在本发明一实施例中，所述训练单元204，具体用于：

[0127] 根据所述嵌入表示模型定义基于边缘的损失函数；

[0128] 使用随机梯度下降法训练所述嵌入表示模型，使得所述损失函数最小化，从而得到所述知识图谱中实体和关系的嵌入表示。

[0129] 对于本发明一实施例提供的获取知识图谱向量化表示的装置中还涉及的具体细节已在本发明一实施例提供的获取知识图谱向量化表示的方法中作了详细的描述，在此不再赘述。

[0130] 应当注意的是，在本发明的系统的各个部件中，根据其要实现的功能而对其中的部件进行了逻辑划分，但是，本发明不受限于此，可以根据需要对各个部件进行重新划分或者组合，例如，可以将一些部件组合为单个部件，或者可以将一些部件进一步分解为更多的子部件。

[0131] 本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

[0132] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

[0133] 以上实施方式仅适于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

一种获取知识图谱向量化表示的方法以及装置转让专利

申请号 : CN201610197184.4

文献号 : CN105824802B

文献日 : 2018-10-30

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李涓子 , 王志刚

申请人 : 清华大学

摘要 :

权利要求 :

说明书 :