会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 电脑零配件 / 向量处理 / 一种知识图谱数据处理方法及装置

一种知识图谱数据处理方法及装置

阅读:413发布:2021-02-23

IPRDB可以提供一种知识图谱数据处理方法及装置专利检索,专利查询,专利分析的服务。并且本申请提供了一种知识图谱数据处理方法及装置,方案通过构建实体对应的局部子图,组合局部子图对应的向量集合,计算得到实体的特征向量,使得计算出的实体的向量能够融合或体现相邻实体的向量特征,调整或优化实体的向量表示。方案提高了实体的嵌入效果,使得后续知识图谱的构建和/或应用效果足够理想。,下面是一种知识图谱数据处理方法及装置专利的具体信息内容。

1.一种知识图谱数据处理方法,其特征在于,对知识图谱全部或部分实体中的每个实体,执行如下操作:使用所述实体及所述实体的至少一个相邻实体,构建所述实体对应的至少一个局部子图;

组合表示所述至少一个局部子图中每一实体的各原向量,得到所述至少一个局部子图对应的原向量集合;

基于所述原向量集合,计算得到所述实体对应的特征向量,所述特征向量能够反映所述实体与其他至少一个实体之间的关系。

2.根据权利要求1所述的方法,其特征在于,所述至少一个相邻实体是与所述实体直接相连的至少一个实体。

3.根据权利要求1所述的方法,其特征在于,使用所述实体对应的特征向量替换或更新表示所述实体的原向量。

4.根据权利要求1所述的方法,其特征在于,还包括:对于已计算出特征向量的至少一个第一实体和至少一个第二实体,执行如下操作:使用所述至少一个第一实体对应的至少一个第一特征向量和所述至少一个第二实体对应的至少一个第二特征向量,计算所述至少一个第一实体与所述至少一个第二实体之间的关联强度。

5.根据权利要求4所述的方法,其特征在于,还包括:使用所述计算出的关联强度构建或更新所述至少一个第一实体与所述至少一个第二实体之间的关系。

6.根据权利要求4所述的方法,其特征在于,所述关联强度的计算由解码器执行,所述解码器还使用评分函数对所述关联强度的计算结果进行评估。

7.根据权利要求4-6任一所述的方法,其特征在于,所述基于所述原向量集合,计算得到所述实体对应的特征向量,包括:将所述原向量集合输入到编码器中,利用编码器的内设参数及权重信息计算生成所述特征向量,所述编码器采用多层图卷积神经网络,所述权重信息反映在所述局部子图中所述实体与所述实体的至少一个相邻实体之间的已知关联强度。

8.根据权利要求7所述的方法,其特征在于,将计算得出的所述关联强度,与所述至少一个第一实体与所述至少一个第二实体的已知关联强度进行比较,根据比较结果对所述编码器进行训练,优化所述编码器的内设参数。

9.一种知识图谱数据处理装置,其特征在于,包括:

子图构建模块,用于使用实体及所述实体的至少一个相邻实体,构建所述实体对应的至少一个局部子图;

集合生成模块,用于组合表示所述至少一个局部子图中每一实体的各原向量,得到所述至少一个局部子图对应的原向量集合;

向量计算模块,用于基于所述原向量集合,计算得到所述实体对应的特征向量,所述特征向量能够反映所述实体与其他至少一个实体之间的关系。

10.根据权利要求9所述的装置,其特征在于,还包括:

关联计算模块,用于使用所述至少一个第一实体对应的至少一个第一特征向量和所述至少一个第二实体对应的至少一个第二特征向量,计算所述至少一个第一实体与所述至少一个第二实体之间的关联强度。

说明书全文

一种知识图谱数据处理方法及装置

技术领域

[0001] 本申请涉及大数据处理技术领域,具体而言,涉及一种知识图谱数据处理方法及装置。

背景技术

[0002] 知识图谱(Knowledge Graph)作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱旨在描述的是真实世界中存在的实体及其关系,一般可以采用三元组表示,该三元组包括头实体、尾实体和关系,实体之间是通过关系相互联结,形成了网状的知识结构。
[0003] 实体嵌入是构建知识图谱的关键技术,其主要目的是应用低维度向量对实体及其关系进行建模。目前常用的实体嵌入方法是通过嵌入矩阵的查找操作,从原始知识库中查找属于特定实体的一维向量,如对于张三这一实体而言,查找到的一维向量对应于张三的相关信息(如出生地、身份证号等)。
[0004] 这种方式的嵌入忽略了实体之间的关联,对实体间关系的可靠性和强度的考虑不足,导致嵌入效果不佳,使得后续知识图谱的构建和/或应用效果不够理想。

发明内容

[0005] 有鉴于此,本申请实施例的目的在于提供一种知识图谱数据处理方法及装置,能够充分考虑实体间的关系,提高实体嵌入效果。
[0006] 本申请实施例提供了一种知识图谱数据处理方法,对知识图谱全部或部分实体中的每个实体,执行如下操作:
[0007] 使用所述实体及所述实体的至少一个相邻实体,构建所述实体对应的局部子图;
[0008] 组合表示所述局部子图中每一实体的各原向量,得到所述局部子图对应的原向量集合;
[0009] 基于所述原向量集合,计算得到所述实体对应的特征向量,所述特征向量能够反映所述实体与其他至少一个实体之间的关系。
[0010] 可选的,所述至少一个相邻实体是与所述实体直接相连的至少一个实体。
[0011] 可选的,使用所述实体对应的特征向量替换或更新表示所述实体的原向量。
[0012] 可选的,所述方法还包括:对于已计算出特征向量的至少一个第一实体和至少一个第二实体,执行如下操作:使用所述至少一个第一实体对应的至少一个第一特征向量和所述至少一个第二实体对应的至少一个第二特征向量,计算所述至少一个第一实体与所述至少一个第二实体之间的关联强度。
[0013] 可选的,所述方法还包括:使用所述计算出的关联强度构建或更新所述至少一个第一实体与所述至少一个第二实体之间的关系。
[0014] 可选的,所述关联强度的计算由解码器执行,所述解码器还使用评分函数对所述关联强度的计算结果进行评估。
[0015] 可选的,所述基于所述原向量集合,计算得到所述实体对应的特征向量,包括:将所述原向量集合输入到编码器中,利用编码器的内设参数及权重信息计算生成所述特征向量,所述编码器采用多层图卷积神经网络,所述权重信息反映在所述局部子图中所述实体与所述实体的至少一个相邻实体之间的已知关联强度。
[0016] 可选的,将计算得出的所述关联强度,与所述至少一个第一实体与所述至少一个第二实体的已知关联强度进行比较,根据比较结果对所述编码器进行训练,优化所述编码器的内设参数。
[0017] 本申请实施例还提供了一种知识图谱数据处理装置,包括:
[0018] 子图构建模块,用于使用实体及所述实体的至少一个相邻实体,构建所述实体对应的局部子图;
[0019] 集合生成模块,用于组合表示所述局部子图中每一实体的各原向量,得到所述局部子图对应的原向量集合;
[0020] 向量计算模块,用于基于所述原向量集合,计算得到所述实体对应的特征向量,所述特征向量能够反映所述实体与其他至少一个实体之间的关系。
[0021] 可选的,所述装置还包括:
[0022] 关联计算模块,用于使用所述至少一个第一实体对应的至少一个第一特征向量和所述至少一个第二实体对应的至少一个第二特征向量,计算所述至少一个第一实体与所述至少一个第二实体之间的关联强度。
[0023] 本申请实施例提供的知识图谱数据处理方法及装置,解决了相关技术中的实体嵌入方法由于忽略了实体之间的关联,导致嵌入效果不佳,实体间关系的可靠性和强度较差的问题。本申请实施例所提供的知识图谱数据处理方法及装置,充分考虑了知识图谱中的局部图谱结构,针对实体及所述实体的相邻实体,构建局部子图,通过对局部子图的运算,得到实体对应的特征向量,使得所得到的特征向量能够反映实体之间的关系,提高了实体间关系的可靠性和强度,优化了嵌入效果。
[0024] 为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

[0025] 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0026] 图1示出了本申请实施例所提供的一种知识图谱数据处理方法的流程图;
[0027] 图2示出了本申请实施例所提供的一种结合编码器和解码器实现特征向量迭代运算的示意图;
[0028] 图3示出了本申请实施例所提供的一种知识图谱数据处理装置的功能模块图;
[0029] 图4示出了本申请实施例所提供的一种计算机设备的结构示意图。

具体实施方式

[0030] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0031] 考虑到相关技术忽略三元组表示中实体之间的关联,导致嵌入效果不佳。基于此,本申请一种实施例提供了一种知识图谱数据处理方法,以提高实体间关系的可靠性和强度,进一步使得后续知识图谱的构建和/或应用效果更佳。
[0032] 如图1所示,为本申请实施例提供的知识图谱数据处理方法的流程图,该知识图谱数据处理方法的执行主体可以是计算机设备,上述知识图谱数据处理方法对知识图谱全部或部分实体中的每个实体,执行如下操作:
[0033] S101、使用实体及实体的至少一个相邻实体,构建实体对应的局部子图。
[0034] 这里,本申请实施例中的实体及其相邻实体均可以来自于原始知识库,该原始知识库可以是Freebase知识库,还可以是Wordnet知识库,还可以是YAGO知识库,还可以是其他知识库。本申请实施例中,在原始知识库中的各个实体作为知识库的各个节点,可以对应有与实体相对应的属性信息。基于实体及其至少一个相邻实体所构建的局部子图可以包含实体与相邻实体之间的连接关系,且构建的局部子图是与实体相对应的。同理可知,对于每个相邻实体而言,基于该相邻实体及该相邻实体的相邻实体即可构建对应于每个相邻实体的局部子图。
[0035] 相邻实体可以是与实体直接相连的实体,例如:实体A与实体B直接相连,此时可以称实体B为实体A的1级相邻节点。相邻实体也可以是与实体间接相连的实体,例如:实体A与实体B直接相连,实体B与实体C直接相连,而实体A与实体C并不直接相连,则实体A与实体C通过实体B间接相连,此时可以称实体C为实体A的2级相邻节点,依次类推,还包括3级、4级相邻节点,等等。
[0036] 在具体操作时,可以通过设定相邻层级,确定与实体相邻的相邻节点,例如:设定相邻层级为1,则只通过实体及与实体直接相邻的相邻节点构建局部子图,此时可以简化运算;设定相邻层级为2,则局部子图包括实体、与实体直接相邻的相邻节点、以及实体的2级相邻节点,等等,以此类推。
[0037] 对于某一实体,还可以构建多个局部子图,例如:构建相邻层级为1的局部子图,构建相邻层级为2的局部子图,构建相邻层级为3的局部子图,等等。此外,还可以将局部子图按照相邻层级归类,例如:对于某一实体,构建:只包含实体及与实体直接相邻的相邻节点的局部子图、只包含实体及实体的2级相邻节点的局部子图、只包含实体及实体的3级相邻节点的局部子图,等等,以此类推。
[0038] 构建局部子图的方式是多种多样的,此处并不限制局部子图的构建方式。
[0039] 这里,本申请实施例中,可以采用实体向量来表征实体。由于在原始知识库中,上述实体可能是以文字形式进行描述的,对于原始获得的数据,为了方便计算机处理,通常需要转化为向量表示,即将实体编码到向量空间,这样每一实体都由向量空间的向量进行表示。对于原始获得的实体的初始向量化表示,即将实体映射到向量空间中,可以选择常见的方法或模型,例如现有的语义映射方法等等,此处不做限制。
[0040] 本申请实施例并不限制实体完成初始向量空间映射与构建实体局部子图的先后顺序,例如:可以在得到原始数据之后,先进行实体的初始向量化表示,然后再构建相应的局部子图(可以基于已知的三元组和/或实体在向量空间的位置);也可以先面向节点构建局部子图(可以基于已知的三元组确定节点间的关系,进行局部子图的构建),再对实体进行向量空间映射。
[0041] 正是由于目前对实体的向量映射,并不能充分反映实体之间的关联,因此,本申请实施例通过构建实体所对应的局部子图的方式,进行运算或多轮迭代运算,使得计算出的实体的向量能够融合或体现相邻实体的向量特征,使得实体的原始向量表示得以优化。
[0042] S102、组合表示至少一个局部子图中每一实体的各原向量,得到至少一个局部子图对应的原向量集合。
[0043] 正如前面所述,实体由向量来表示,此处通过组合表示局部子图中每一实体的各个原向量,得到局部子图所对应的原向量集合,为下一步的计算提供基础。
[0044] 此处的原向量,可以是通过现有向量空间映射所得到的初始向量,也可以是经过上一轮迭代运算所得到相应实体的表示向量。
[0045] 这里,将局部子图中表示每一实体的每一原向量组合起来,即可得到与该局部子图对应的原向量集合。当局部子图的数量是多个的时候,可以选择所有或部分局部子图,对于所选择的局部子图,组合表示实体的原向量,形成原向量集合。
[0046] S103、基于原向量集合,计算得到实体对应的特征向量,特征向量能够反映实体与其他至少一个实体之间的关系。
[0047] 这里,通过局部子图,将实体以及相邻实体的组合在一起,通过所得到的原向量集合进行计算,便参考了知识图谱的局部结构,得到的特征向量,能够反映实体间的关系,提升实体间关系的可靠性和强度。
[0048] 在申请实施例中,有关上述基于原向量集合计算实体对应的特征向量的过程可以是一个循环的迭代过程,也即,可以将本轮计算得到与实体对应的特征向量作为下一轮该实体的原向量,并可以基于确定的该原向量进行该轮特征向量的计算。在具体应用时,可以结合编码器和解码器实现上述迭代过程。
[0049] 如图2所示,本申请实施例中的编码器,首先可以接收多个实体的原向量集合,并基于本轮迭代所采用的当前权重信息以及编码器的内设参数,将每个原向量集合编码为与实体对应的特征向量,然后可以将多个特征向量输入至解码器,并基于多个特征向量之间的相似度来确定多个实体之间的关联强度,最后可以根据确定的关联强度与已知关联强度之间的比较结果来调节权重信息和编码器的内置参数,并将该权重信息和内置参数反馈到编码器,以进行下一轮的迭代,等等,以此类推。
[0050] 本申请实施例提供的知识图谱数据处理方法,编码器的具体工作过程如下:
[0051] 本申请实施例可以使用编码器运算得到目标特征向量,编码器采用多层图卷积神经网络。将局部子图对应的原向量集合作为编码器的输入,
[0052] 该特征向量可以采用如下公式计算得出:
[0053]
[0054] 其中, 表示编码器l层的输入特征,f(·)是类似于ReLU激活函数的非线性激活函数, 是指在l层神经网络所有实体共享的线性变换矩阵(也即编码器的内设(ij)参数),p 表示权重信息,用于衡量实体ei和实体ej间的关联强度。Neighbor(i)指的是与实体ei相邻的全部相邻实体集。这里,并不限制编码器的层数,可以根据需要设置或调整。
经过编码器的最后一层计算之后,输出结果变为目标特征向量。
[0055] 权重信息即为在加权图中,每个实体与其相邻实体的加权权重,定义如下:
[0056]
[0057] 其中,pij(l)′是指实体ei与相邻实体ej间的权重,σ(·)函数是指用于获取概率变量的sigmoid激活函数,p(ij)是指经σ(·)函数归一化后的聚合权重值。对于首次计算,可以设定初始值,例如将权重平均分配,对于实体A的5个相邻实体,每个相邻实体分配同样的权重,代表具有相同的关联强度。
[0058] 对于上述公式(1),考虑到W(l)过大将会弱化权重信息的影响力,因此,本申请实施例还可以采用L2正则化或Squashing函数这两种激活函数来约束W(l)长度以避免权重信息的弱化现象。其中,在实体所对应的相邻实体的数量较少时,可以选择L2正则化约束,在实体所对应的相邻实体的数量较多时,可以选择Squashing函数约束。
[0059] 其中,上述L2正则化约束可以采用如下定义:
[0060]
[0061] 上述Squashing函数约束可以采用如下定义:
[0062]
[0063] 这样,将式(3)或式(4)代入式(2)即可得到更新后的特征向量,具体表示如下式:
[0064]
[0065] 其中,函数g(·)表示L2正则化约束或Squashing函数约束。
[0066] 可见,利用编码器的编码功能可以将某实体的原始向量转换为上述特征向量的向量表示形式,能够融合或体现该实体的相邻实体对该实体的影响,还可以基于运算或多轮迭代运算,进一步优化原始向量的向量表示。
[0067] 本申请实施例中,在计算得到实体对应的特征向量后,可以将该实体对应的特征向量替换或更新表示实体的原向量,这样,局部子图对应的原向量集合也随之发生变化,且基于原向量集合,计算得到实体对应的特征向量也会随之发生变化。能够理解的是,对于多次迭代运算,在进行向量替换或更新之后,本轮实体的特征向量变构成了下一轮运算时该实体的原向量,以此类推,即通过多次迭代的方式,直至得到的实体对应的特征向量符合预设要求,该预设要求可以是达到类推次数,还可以是在多个实体之间的关联强度达到评分函数的评估值,还可以是其它预设要求。
[0068] 多个实体的关联强度可以通过解码器进行计算,即将计算之后表示实体的特征向量输入到解码器,逆向操作,解得实体之间的关联强度,计算得到的关联强度,可以更新前述的权重信息。基于表示实体的特征向量来计算实体之间的关系,可以由现有的方法计算,此处不做限制。
[0069] 例如:基于局部子图,已经计算出至少一个第一实体对应的至少一个第一特征向量和至少一个第二实体对应的至少一个第二特征向量,基于上述第一特征向量和第二特征向量,通过解码器计算,能够得到第一实体与第二实体之间的关联强度,确定二者之间的关系。关联强度能够表达实体之间的关系,例如:关联强度越大,表示实体之间的关系越紧密或联系越多,等等。
[0070] 例如:对于詹姆斯·哈登、斯蒂芬·库里两个实体,原始获得的信息并不清楚二者之间的关系,或者二者之间的关系并不正确,分别构建二者的局部子图,得到并迭代更新分别表示这两个实体的特征向量,通过计算出的特征向量,计算出二者之间的权重信息,从而能够确定二者之间的关系及关系强度。进一步,基于上述确定的关联强度还可以对局部子图实体之间的关系进行构建或更新。
[0071] 在实现时,解码器可以使用评分函数对关联强度的计算结果进行评估,并将评估结果反馈到编码器,实现对编码器的训练,调整编码器的内设参数W(l)。可以基于通过特征向量计算出的实体之间的关联强度与已知关联强度进行比较,根据比较结果调整编码器的内设参数而实现。例如:在原始信息中,已知第一实体与第二实体之间存在较强的关联强度,比如可以选择第一实体与第二实体互为相邻实体进行输入,通过编码器、解码器计算之后,重新计算出的关联强度如果与已知信息(至少已知二者互为邻居)差别较大,则将结果反馈到编码器,对参数进行调整。也即,本申请实施例还能寻找一个优化的内置参数使得两个关联强度的比较结果尽可能的接近。
[0072] 基于同一发明构思,本申请实施例提供了一种与知识图谱数据处理方法对应的知识图谱数据处理装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述知识图谱数据处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0073] 如图3所示,本申请实施例所提供的知识图谱数据处理装置的结构示意图,该知识图谱数据处理装置具体包括:
[0074] 子图构建模块301,用于使用实体及实体的至少一个相邻实体,构建实体对应的至少一个局部子图;
[0075] 集合生成模块302,用于组合表示至少一个局部子图中每一实体的各原向量,得到至少一个局部子图对应的原向量集合;
[0076] 向量计算模块303,用于基于原向量集合,计算得到实体对应的特征向量,特征向量能够反映实体与其他至少一个实体之间的关系。
[0077] 其中,至少一个相邻实体是与实体直接相连的至少一个实体。
[0078] 在一种实施方式中,集合生成模块302,还用于使用实体对应的特征向量替换或更新表示实体的原向量。
[0079] 在另一种实施方式中,上述知识图谱数据处理装置还包括:
[0080] 关联强度计算模块304,用于使用至少一个第一实体对应的至少一个第一特征向量和至少一个第二实体对应的至少一个第二特征向量,计算至少一个第一实体与至少一个第二实体之间的关联强度。
[0081] 在又一种实施方式中,上述知识图谱数据处理装置还包括:
[0082] 关系更新模块305,用于使用计算出的关联强度构建或更新至少一个第一实体与至少一个第二实体之间的关系。
[0083] 其中,关联强度的计算由解码器执行,解码器还使用评分函数对关联强度的计算结果进行评估。
[0084] 在再一种实施方式中,向量计算模块303,具体用于:
[0085] 将原向量集合输入到编码器中,利用编码器的内设参数及权重信息计算生成特征向量,编码器采用多层图卷积神经网络,权重信息反映在局部子图中实体与实体的至少一个相邻实体之间的已知关联强度。
[0086] 在再一种实施方式中,上述知识图谱数据处理装置还包括:
[0087] 参数优化模块306,用于将计算得出的关联强度,与至少一个第一实体与至少一个第二实体的已知关联强度进行比较,根据比较结果对编码器进行训练,优化编码器的内设参数。
[0088] 如图4所示,为本申请实施例所提供的计算机设备的装置示意图,该计算机设备包括:处理器401、存储器402和总线403,存储器402存储执行指令,当装置运行时,处理器401与存储器402之间通过总线403通信,处理器401执行存储器402中存储的如下执行指令:
[0089] 使用实体及实体的至少一个相邻实体,构建实体对应的至少一个局部子图;
[0090] 组合表示至少一个局部子图中每一实体的各原向量,得到至少一个局部子图对应的原向量集合;
[0091] 基于原向量集合,计算得到实体对应的特征向量,特征向量能够反映实体与其他至少一个实体之间的关系。
[0092] 其中,至少一个相邻实体是与实体直接相连的至少一个实体。
[0093] 在一种实施方式中,上述处理器401执行的处理中,使用实体对应的特征向量替换或更新表示实体的原向量。
[0094] 在另一种实施方式中,上述处理器401执行的处理中,对于已计算出特征向量的至少一个第一实体和至少一个第二实体,执行如下操作:使用至少一个第一实体对应的至少一个第一特征向量和至少一个第二实体对应的至少一个第二特征向量,计算至少一个第一实体与至少一个第二实体之间的关联强度。
[0095] 在又一种实施方式中,上述处理器401执行的处理中,还包括:使用计算出的关联强度构建或更新至少一个第一实体与至少一个第二实体之间的关系。
[0096] 其中,关联强度的计算由解码器执行,解码器还使用评分函数对关联强度的计算结果进行评估。
[0097] 在再一种实施方式中,上述处理器401执行的处理中,基于原向量集合,计算得到实体对应的特征向量,包括:将原向量集合输入到编码器中,利用编码器的内设参数及权重信息计算生成特征向量,编码器采用多层图卷积神经网络,权重信息反映在局部子图中实体与实体的至少一个相邻实体之间的已知关联强度。
[0098] 在再一种实施方式中,上述处理器401执行的处理中,还包括:将计算得出的关联强度,与至少一个第一实体与至少一个第二实体的已知关联强度进行比较,根据比较结果对编码器进行训练,优化编码器的内设参数。
[0099] 本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器401运行时执行上述知识图谱数据处理方法的步骤。
[0100] 具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述知识图谱数据处理方法,从而解决相关技术中的实体嵌入方法由于忽略了三元组表示中实体之间的联结,实体间关系的可靠性和强度均较差的问题,用以提升实体间的可靠性和强度。
[0101] 接下来结合实例来具体说明本申请实施例所提供的知识图谱数据处理方法和/或装置的应用效果。
[0102] 如图表1所示,可以采用四个原始知识库中的数据作为数据集。其中,FB15K数据集是基于Freebase知识库提供的通用知识,如电影知识和运动知识;WN18数据集是Wordnet知识库的数据,该Wordnet中是可用的字典和辞典,主要提供词汇的语义知识;YAGO3数据集主要是基于YAGO提供有关于人的属性的知识。另外,表示实体数量,|R|表示关系数,#Train表示训练样本,#Test表示测试样本。
[0103] 表1实例中的数据集统计
[0104]
[0105] 基于上述数据集,将本申请实施例提供的知识图谱数据处理方法与现有技术中比较常用的知识图谱嵌入模型进行对比,如表2至表4依次所示的FB15K数据集、WN18数据集、YAGO3数据集的实验结果,其中,MR(mean rank,平均排名)、MRR(mean reciprocal rank,平均交互排名)以及Hits@k(其中k∈{1,3,10})均为实验评估指标。MR表示正确实体的平均排名,MRR表示平均交互排名,Hits@k表示原始三元组比例的排名前k(k=1或3或10)。根据实验结果可知,本申请实施例具有更加优良的实体嵌入效果,实体间关系的可靠性和强度较好。
[0106] 表2 FB15K数据集的实验结果
[0107]
[0108] 表3 WIN8数据集的实验结果
[0109]
[0110] 表4 YAGO3数据集的实验结果
[0111]
[0112] 在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0113] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0114] 另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0115] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0116] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0117] 最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用