知识图谱的处理方法及装置转让专利

申请号 : CN201811162047.2

文献号 : CN110019843B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 韩旭红

申请人 : 北京国双科技有限公司

摘要 :

本发明公开了一种知识图谱的处理方法及装置。其中,该方法包括:从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系;对于每组实体数据,确定在待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数;根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率;根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充。本发明解决了相关技术中对知识图谱的实体关系处理耗时耗力,降低知识图谱的构建效率的技术问题。

权利要求 :

1.一种知识图谱的处理方法,其特征在于,包括:

从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系;

对于每组实体数据,确定在所述待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数;

根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率;

根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充,根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率包括:构建矩阵,所述矩阵中包括每组实体数据和与该组实体数据匹配成功的候选关系模板以及匹配成功的次数;通过预设排序算法对所述矩阵进行迭代,得到各组实体数据与各候选关系模板之间正确匹配的概率。

2.根据权利要求1所述的方法,其特征在于,获取多组实体数据和多个候选关系模板包括:获取所述知识图谱中的当前实体关系,其中,所述当前实体关系对应的数据类别被定义为目标实体类别;

依据所述当前实体关系,从所述待分析文本的语句中抽取与所述目标实体类别对应的多组实体数据;

从完成抽取后每个语句的剩余词语中删除预定语义词,其中,所述预定语义词至少包括:停用词;

对所述每个语句删除后剩余的文字进行组合,得到所述多个候选关系模板。

3.根据权利要求1所述的方法,其特征在于,所述预设排序算法为二部图排序算法。

4.根据权利要求1所述的方法,其特征在于,确定各组实体数据与各候选关系模板之间正确匹配的概率包括:获取各组实体数据和各候选关系模板之间匹配的总数量一;

确定各组实体数据与各候选关系模板之间正确匹配的数量二;

依据所述数量二和总数量一,确定各组实体数据与各候选关系模板之间正确匹配的概率。

5.根据权利要求4所述的方法,其特征在于,对知识图谱中的实体数据关系进行补充包括:获取所述各组实体数据与各候选关系模板之间出现正确匹配的概率值;

选取所述概率值大于预设概率阈值所对应的实体数据;

将选取的实体数据确定为待补充实体数据;

将所述待补充实体数据补充至所述知识图谱中;

将各候选关系模板中能正确匹配实体数据关系的模板定义为目标关系模板;

通过所述目标关系模板对目标新文本进行提取,并将提取后的实体数据补充进所述知识图谱中。

6.根据权利要求1所述的方法,其特征在于,对知识图谱中的实体数据关系进行补充还包括:获取每组实体数据与候选关系模板之间的匹配概率值;

选取匹配概率值在预设概率范围内的实体数据按照预设公式确定实体数据是否为目标实体数据,所述预设公式为:其中,pattern_probr为候选关系模板中能建立正确的实体数据关系的模板数量与模板总数量的比值,countkr为第k组实体数据被第r个候选关系模板匹配的次数,threshold为所述预设概率范围,IF函数在满足条件时为1,否则为0,当fpair大于目标阈值时,表示当前实体数据为所述目标实体数据;

将所述目标实体数据补充进入所述知识图谱中。

7.一种知识图谱的处理装置,其特征在于,包括:

获取单元,用于从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系;

第一确定单元,用于对于每组实体数据,确定在所述待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数;

第二确定单元,用于根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率;

补充单元,用于根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充,所述第二确定单元包括:第一构建模块,用于构建矩阵,所述矩阵中包括每组实体数据和与该组实体数据匹配成功的候选关系模板以及匹配成功的次数;迭代模块,用于通过预设排序算法对所述矩阵进行迭代,得到各组实体数据与各候选关系模板之间正确匹配的概率。

8.一种存储介质,其特征在于,所述存储介质用于存储程序,其中,所述程序在被处理器执行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的知识图谱的处理方法。

9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的知识图谱的处理方法。

说明书 :

知识图谱的处理方法及装置

技术领域

[0001] 本发明涉及数据处理技术领域,具体而言,涉及一种知识图谱的处理方法及装置。

背景技术

[0002] 相关技术中,知识图谱技术是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。随着人工智能的技术发展和应用,知识图谱作为关键技术之一,已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。当前,知识图谱的构建从最原始的数据(包括结构化、半结构化、非结构化数据)出发,采用一系列自动或者半自动的技术手段,从原始数据库和第三方数据库中提取知识事实,并将其存入知识库的数据层和模式层。当前知识图谱构建方法主要有三种:一种为人工构建,通过人工整理结构化数据得到;另一种为自动构建,主要通过NLP(神经语言程序学,Neuro-Linguistic Programming)技术对数据进行实体抽取,再通过模板匹配或者分类模型获取实体之间的关系,从而构建知识图谱。
[0003] 但是,当前知识图谱构建面临多种问题,首先,通过人工构建知识图谱的方式,会耗时耗力,占用大量人力和时间,不利于长期使用;而使用知识图谱的模板来构建知识图谱时,准确率相对较差,会产生很多的噪声;另外,若通过分类模型来构建知识图谱,则需要大量的人工标注训练语料,即需要人工预先进行语料标注,同样需要花费大量的时间,且占用大量的人力资源,会导致构建知识图谱的效率降低。
[0004] 针对上述的问题,目前尚未提出有效的解决方案。

发明内容

[0005] 本发明实施例提供了一种知识图谱的处理方法及装置,以至少解决相关技术中对知识图谱的实体关系处理耗时耗力,降低知识图谱的构建效率的技术问题。
[0006] 根据本发明实施例的一个方面,提供了一种知识图谱的处理方法,包括:从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系;对于每组实体数据,确定在所述待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数;根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率;根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充。
[0007] 进一步地,获取多组实体数据和多个候选关系模板包括:获取所述知识图谱中的当前实体关系,其中,所述当前实体关系对应的数据类别被定义为目标实体类别;依据所述当前实体关系,从所述待分析文本的语句中抽取与所述目标实体类别对应的多组实体数据;从完成抽取后每个语句的剩余词语中删除预定语义词,其中,所述预定语义词至少包括:停用词;对所述每个语句删除后剩余的文字进行组合,得到所述多个候选关系模板。
[0008] 进一步地,根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率包括:构建矩阵,所述矩阵中包括每组实体数据和与该组实体数据匹配成功的候选关系模板以及匹配成功的次数;通过预设排序算法对所述矩阵进行迭代,得到各组实体数据与各候选关系模板之间正确匹配的概率。
[0009] 进一步地,所述预设排序算法为二部图排序算法。
[0010] 进一步地,确定各组实体数据与各候选关系模板之间正确匹配的概率包括:获取各组实体数据和各候选关系模板之间匹配的总数量一;确定各组实体数据与各候选关系模板之间正确匹配的数量二;依据所述数量二和总数量一,确定各组实体数据与各候选关系模板之间正确匹配的概率。
[0011] 进一步地,对知识图谱中的实体数据关系进行补充包括:获取所述各组实体数据与各候选关系模板之间出现正确匹配的概率值;选取所述概率值大于预设概率阈值所对应的实体数据;将选取的实体数据确定为待补充实体数据;将所述待补充实体数据补充至所述知识图谱中;将各候选关系模板中能正确匹配实体数据关系的模板定义为目标关系模板;通过所述目标关系模板对目标新文本进行提取,并将提取后的实体数据补充进所述知识图谱中。
[0012] 进一步地,对知识图谱中的实体数据关系进行补充还包括:获取每组实体数据与候选关系模板之间的匹配概率值;选取匹配概率值在预设概率范围内的实体数据按照预设公式确定实体数据是否为目标实体数据,所述预设公式为:其中,pattern_probr为候选关系模板中能建
立正确的实体数据关系的模板数量与模板总数量的比值,countkr为第k组实体数据被第r个候选关系模板匹配的次数,threshold为所述预设概率范围,IF函数在满足条件时为1,否则为0,当fpair大于目标阈值时,表示当前实体数据为所述目标实体数据;将所述目标实体数据补充进入所述知识图谱中。
[0013] 根据本发明实施例的另一方面,还提供了一种知识图谱的处理装置,包括:获取单元,用于从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系;第一确定单元,用于对于每组实体数据,确定在所述待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数;第二确定单元,用于根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率;补充单元,用于根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充。
[0014] 进一步地,所述获取单元包括:第一获取模块,用于获取所述知识图谱中的当前实体关系,其中,所述当前实体关系对应的数据类别被定义为目标实体类别;第一抽取模块,用于依据所述当前实体关系,从所述待分析文本的语句中抽取与所述目标实体类别对应的多组实体数据;删除模块,用于从完成抽取后每个语句的剩余词语中删除预定语义词,其中,所述预定语义词至少包括:停用词;第一组合模块,用于对所述每个语句删除后剩余的文字进行组合,得到所述多个候选关系模板。
[0015] 进一步地,所述第二确定单元包括:第一构建模块,用于构建矩阵,所述矩阵中包括每组实体数据和与该组实体数据匹配成功的候选关系模板以及匹配成功的次数;迭代模块,用于通过预设排序算法对所述矩阵进行迭代,得到各组实体数据与各候选关系模板之间正确匹配的概率。
[0016] 进一步地,所述预设排序算法为二部图排序算法。
[0017] 进一步地,所述第二确定单元还包括:第二获取模块,用于获取各组实体数据和各候选关系模板之间匹配的总数量一;第一确定模块,用于确定各组实体数据与各候选关系模板之间正确匹配的数量二;第二确定模块,用于依据所述数量二和总数量一,确定各组实体数据与各候选关系模板之间正确匹配的概率。
[0018] 进一步地,所述补充单元包括:第三获取模块,用于获取所述各组实体数据与各候选关系模板之间出现正确匹配的概率值;第一选取模块,用于选取所述概率值大于预设概率阈值所对应的实体数据;第三确定模块,用于将选取的实体数据确定为待补充实体数据;第一补充模块,用于将所述待补充实体数据补充至所述知识图谱中;定义模块,用于将各候选关系模板中能正确匹配实体数据关系的模板定义为目标关系模板;提取模块,用于通过所述目标关系模板对目标新文本进行提取,并将提取后的实体数据补充进所述知识图谱中。
[0019] 进一步地,所述补充单元还包括:第四获取模块,用于获取每组实体数据与候选关系模板之间的匹配概率值;第二选取模块,用于选取匹配概率值在预设概率范围内的实体数据按照预设公式确定实体数据是否为目标实体数据,所述预设公式为:其中,pattern_probr为候选关系模板中能建
立正确的实体数据关系的模板数量与模板总数量的比值,countkr为第k组实体数据被第r个候选关系模板匹配的次数,threshold为所述预设概率范围,IF函数在满足条件时为1,否则为0,当fpair大于目标阈值时,表示当前实体数据为所述目标实体数据;第二补充模块,用于将所述目标实体数据补充进入所述知识图谱中。
[0020] 根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质用于存储程序,其中,所述程序在被处理器执行时控制所述存储介质所在设备执行上述任意一项所述的知识图谱的处理方法。
[0021] 根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的知识图谱的处理方法。
[0022] 在本发明实施例中,从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系,对于每组实体数据,确定在待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数,根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率,根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充。在该实施例中,可以利用关系模板和多组实体数据,来对实体关系进行补充,选取匹配成功次数较高的实体数据,利用选取出的实体关系对知识图谱进行补充,优化知识图谱,进而解决相关技术中对知识图谱的实体关系处理耗时耗力,降低知识图谱的构建效率的技术问题。

附图说明

[0023] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0024] 图1是根据本发明实施例的一种知识图谱的处理方法的流程图;
[0025] 图2是根据本发明实施例的另一种知识图谱的处理装置的示意图。

具体实施方式

[0026] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0027] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0028] 为便于用户理解本发明,下面对本发明各实施例中涉及的部分术语或名词做出解释:
[0029] 知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
[0030] 相关技术中,对于知识图谱的关系抽取方式,包括:第一种,有监督的学习方法,将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测知识图谱内的实体关系;第二种,半监督的学习方法,采用Bootstrapping进行关系抽取,对于要抽取的实体关系,首先手工设定若干种子实例,然后迭代地从数据中抽取实体关系对应的关系模板;第三种,无监督的学习方法,假设拥有相同语义关系的实体对拥有相似的上下文信息,利用每个实体对的对应上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。
[0031] 上述知识图谱的关系抽取方式中,有监督学习方法因为能够抽取并有效利用特征,在获得高准确率和高召回率方面更有优势,但是有监督的学习方法缺点在于需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。而对于半监督和无监督方法,其抽取关系的准确率相对较差,对于不同的实体关系之间可能对应多种关系,且相同更多上下文信息在不同语境下或者领域下可以表示不同的关系,导致结果抽取不够理想。
[0032] 针对上述关系抽取方式存在的问题,本发明下述实施例可以应用于各种知识图谱的构建方案中,通过构建关系模板和实体数据之间的相关矩阵,对关系模板和实体数据之间匹配是否成功进行排序,进而选取出匹配成功率较高的实体数据,或者对匹配成功率较高的关系模板对新文本进行实体数据抽取,进而将实体数据补充进入知识图谱中,提高知识图谱建立实体数据关系的准确率,完成知识图谱的构建。即在本发明下述实施例中可以进行无监督的自动化实体关系抽取,从而完成知识图谱的构建,准确率较高。下面结合各个实施例对本发明进行详细说明。
[0033] 实施例一
[0034] 根据本发明实施例,提供了一种知识图谱的处理的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0035] 图1是根据本发明实施例的一种知识图谱的处理方法的流程图,如图1所示,该方法包括如下步骤:
[0036] 步骤S102,从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系;
[0037] 步骤S104,对于每组实体数据,确定在待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数;
[0038] 步骤S106,根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率;
[0039] 步骤S108,根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充。
[0040] 通过上述步骤,可以从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系,对于每组实体数据,确定在所述待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数,根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率,根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充。在该实施例中,可以利用关系模板和多组实体数据,来对实体关系进行补充,选取准确率较高的实体关系,进而利用选取出的实体关系对知识图谱进行补充,优化知识图谱,进而解决相关技术中对知识图谱的实体关系处理耗时耗力,降低知识图谱的构建效率的技术问题。
[0041] 下面对上述各个步骤进行详细说明。
[0042] 步骤S102,从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系。
[0043] 在本示例性实施例中,可以实现文本的实体抽取,并获取多个候选关系模板,实现关系模板的统计。
[0044] 对于待分析文本,可以是需要分析的文本,文本中可以包括多个语句。
[0045] 实体数据可以是对每一个语句或者关系描述语言进行词语抽取后得到的数据;实体数据可以表述为实体对;抽取时需要对应于实体数据关系,如依据“首都”这一个实体数据关系,抽取出“中国的首都是北京”的实体关系为“中国-北京”。而候选关系模板可以是对应于每一个语句表述实体数据关系的一个模板,如“**首都是**”。在本步骤中,获取多组实体数据时,可以首先根据当前实体关系抽取文本中对应实体类别的相关实体数据,针对已经定义实体类别的实体数据,可以建立多组实体数据,比如“首都”关系中,“中国”-“北京”、“日本”-“东京”、“英国”-“伦敦”是相关的“首都”关系实体对。
[0046] 在本发明实施例中,获取多组实体数据和多个候选关系模板包括:获取知识图谱中的当前实体关系,其中,当前实体关系对应的数据类别被定义为目标实体类别;依据当前实体关系,从待分析文本的语句中抽取与目标实体类别对应的多组实体数据;从完成抽取后每个语句的剩余词语中删除预定语义词,其中,预定语义词至少包括:停用词;对每个语句删除后剩余的文字进行组合,得到多个候选关系模板。
[0047] 对于上述目标实体类别,是对应于实体数据关系的,如实体数据关系表述为“首都”,则抽取的实体类别可以为国家名和城市名。本发明中对于具体的实体类别不做限定,可以依据每个实体数据关系进行设定。这里选择爬取网页相关实体类型词语进行匹配获取实体词语,可选的,可以针对要识别的实体类型选择合适的算法(例如CRF,HMM等),也可以采用词语匹配,词性标注中人名、地名、机构名等获取到实体数据。
[0048] 上述实施方式中,获取知识图谱的当前实体关系,知识图谱可以是已经初步建立但抽取的实体数据准确率不高的知识图谱,在后续将实体数据与候选关系模板之间正确匹配的概率较高的实体数据补充至知识图谱后,知识图谱中的实体数据对应于实体数据关系的准确率会提高。
[0049] 而上述的当前实体关系,可以是已经定义好的实体关系,可以为下述的实体数据关系,也可以为与其相近表述的实体数据关系。
[0050] 可选地,在抽取完成每个语句的实体数据后,可以对每个语句建立一个候选关系模板,这里可以是先将每个语句的剩余词语删除预定语义词,然后组合剩下的词语,就可以得到后续关系模板。在一个示例中,在一个句子“中国的首都是北京”,在抽取出实体数据“中国-北京”后,剩余的词语为“**的首都是**”,这时可以删除预定语义词“的”,然后组合剩下的词语,得到候选关系模板“首都-是”(对应于国家-城市)。
[0051] 对于上述的预定语义词,可以理解为对候选关系模板限定无意义的词语,可以为停用词,还可以为其它词语,如“的”,“是”。
[0052] 在本示例性实施例中,为了避免部分稀疏词语的影响,可以通过采样领域文本训练word2vec词向量,对候选关系模板中包含的词语进行相似度计算,将相似度值高于某一阈值的词汇进行替换和相关候选关系模板进行合并,以缩减关系相近的关系模板,减少后续匹配的工作量。
[0053] 通过上述对稀疏词语的处理,可以增加实体数据的召回率,也提升关系模板的匹配准确率。
[0054] 而对于上述步骤S104,对于每组实体数据,确定在待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数。
[0055] 上述确定在待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数,可以指从待分析文本中抽取多组实体数据,多组实体数据中可能存在多个相同实体数据,这时,就可以将多组相同的实体数据匹配一个候选关系模板匹配成功的次数查找到。
[0056] 本发明实施例中,每组实体数据在和候选关系模板匹配时,存在匹配成功和匹配失败两种情况,本发明实施例中可以依据每组实体数据与候选关系模板匹配成功的次数占总次数的比例,确定匹配成功的概率。
[0057] 对于上述步骤S106,根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率。
[0058] 在本发明一可选的示例中,上述步骤S106根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率包括:构建矩阵,矩阵中包括每组实体数据和与该组实体数据匹配成功的候选关系模板以及匹配成功的次数;通过预设排序算法对矩阵进行迭代,得到各组实体数据与各候选关系模板之间正确匹配的概率。
[0059] 对于上述的矩阵,可以构建如下所示的矩阵:
[0060]
[0061] 对于上述目标矩阵,pairk为抽取的第k组实体数据(即实体对),pattr为第r个候选关系模板,countkr表示pairk被pattr匹配的次数。
[0062] 需要说明的是,预设排序算法可以为二部图排序算法。在通过二部图排序算法对实体数据进行迭代时,可以是通过如下方式迭代:
[0063] 1.Pair_Probst=Count_Matrix·Pattern_Probst;
[0064] 2.Pair_Probs′t=norm(Pair_Probst);
[0065] 3.Pattern_Probst+1=Count_MatrixT·Pair_Probs′t;
[0066] 4.Pattern_Probs′t+1=norm(Pair_Probst+1);
[0067] 其中,Pair_Probst表示实体数据在第t次迭代中的概率矩阵,Pattern_Probst表示候选关系模板在第t次迭代中的概率矩阵,Count_Matrix为目标矩阵。norm为标准化操作,其中,X为需要标准化处理的矩阵,这里分母乘以n是为了防止总和为1导致多次迭代乘积造成部分值过早收敛到零,而无法得到有效的收敛结果。
[0068] 通过上述迭代计算,直至Pattern_Probst和Pattern_Probst+1差值小于某一阈值,这样就可以得到各组实体数据与各候选关系模板之间正确匹配的概率。
[0069] 在本发明实施例中,确定各组实体数据与各候选关系模板之间正确匹配的概率包括:获取各组实体数据和各候选关系模板之间匹配的总数量一;确定各组实体数据与各候选关系模板之间正确匹配的数量二;依据数量二和总数量一,确定各组实体数据与各候选关系模板之间正确匹配的概率。
[0070] 上述总数量一指示了实体数据和候选关系模板匹配的数量,而数量二指示了正确匹配的数量,通过上述的计算方式可以直接得到各组实体数据与各候选关系模板之间正确匹配的概率值。
[0071] 对于上述步骤S108,根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充。
[0072] 作为本发明一可选的示例,对知识图谱中的实体数据关系进行补充包括:获取各组实体数据与各候选关系模板之间出现正确匹配的概率值;选取概率值大于预设概率阈值所对应的实体数据;将选取的实体数据确定为待补充实体数据;将待补充实体数据补充至知识图谱中;将各候选关系模板中能正确匹配实体数据关系的模板定义为目标关系模板;通过目标关系模板对目标新文本进行提取,并将提取后的实体数据补充进知识图谱中。
[0073] 通过上述实施方式,可以将该次从待分析文本抽取的匹配正确的实体数据补充进入知识图谱中,当然,也可以使用正确匹配的关系模板对新的文本进行实体关系抽取,得到新的实体数据,进而将该新文本的实体数据补充进入知识图谱,优化知识图谱关于实体数据关系的连接关系,使得实体数据之间连接更加的紧密。
[0074] 在本发明实施例中,根据每组实体数据与候选关系模板之间正确匹配的概率之后,还包括:获取每组实体数据与候选关系模板之间的匹配概率值;选取匹配概率值在预设概率范围内的实体数据按照预设公式确定实体数据是否为目标实体数据,预设公式为:
[0075]
[0076] 其中,pattern_probr为候选关系模板中能建立正确的实体数据关系的模板数量与模板总数量的比值,countkr为第k组实体数据被第r个候选关系模板匹配的次数,threshold为预设概率范围,IF函数在满足条件时为1,否则为0,当fpair大于目标阈值时,表示当前实体数据为目标实体数据;将目标实体数据补充进入知识图谱中。
[0077] 对于上述的预设概率范围,可以是指上述每组实体数据与候选关系模板之间正确匹配的概率中,概率值低于一个第二概率阈值的概率范围,将该概率范围内的实体数据再次拿出来,通过上述公式,选取出正确的实体关系。目标实体数据可以是指正确实体关系,可以将该目标实体数据补充进入知识图谱中,以完善知识图谱的内容。
[0078] 上述预设公式是对低频稀疏实体数据的召回,确定出概率值较低的实体数据中出现正确实体数据。
[0079] 可选的,IF函数可以是指上述预设公式中的 指示的关系,通过该IF函数返回数值,如果是1,就可以计算该实体数据与关系模板之间正确匹配的概率,如果该概率大于第三概率阈值,表示该实体关系对应的候选关系模板概率大于第三概率阈值的模板占比高于某一值,从而确定该次匹配的实体数据为正确的实体数据。
[0080] 通过上述方式,可以利用确定出的关系模板对新的目标文本进行实体数据抽取,由于选取的关系模板为正确的关系模板,则可以抽取出新文本中的较准确地实体数据,将该实体数据补充进入知识图谱中,可以丰富知识图谱的内容。本发明上述实施例,利用无监督学习方式,不需要任何标注语料,就可以实现实体数据的抽取和关系模板的搭建,自动化确定出实体数据,节省人力,并且还可以通过二部图排序算法提高抽取关系模板和实体对准确率,相对于其他无监督或半监督方法准确率较高,最后,本发明实施例中可以通过词向量相似度计算和稀疏实体数据补充,提高对于稀疏实体对和关系模板的召回率。
[0081] 下面结合另一种可选的装置实施例对本发明进行说明。
[0082] 实施例二
[0083] 下述实施例中涉及到知识图谱的处理装置,其可以包括多个单元,每个单元对应于上述实施例一中的各个实施步骤。
[0084] 图2是根据本发明实施例的另一种知识图谱的处理装置的示意图,如图2所示,该装置包括:获取单元21、第一确定单元23、第二确定单元25、补充单元27,其中,[0085] 获取单元21,用于从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系;
[0086] 第一确定单元23,用于对于每组实体数据,确定在待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数;
[0087] 第二确定单元25,用于根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率;
[0088] 补充单元27,用于根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充。
[0089] 通过上述知识图谱的处理装置,可以利用获取单元21从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系,通过第一确定单元23对于每组实体数据,确定在待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数,通过第二确定单元25根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率,通过补充单元27根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充。在该实施例中,可以利用关系模板和多组实体数据,来对实体关系进行补充,选取准确率较高的实体关系,进而利用选取出的实体关系对知识图谱进行补充,优化知识图谱,进而解决相关技术中对知识图谱的实体关系处理耗时耗力,降低知识图谱的构建效率的技术问题。
[0090] 可选地,获取单元包括:第一获取模块,用于获取知识图谱中的当前实体关系,其中,当前实体关系对应的数据类别被定义为目标实体类别;第一抽取模块,用于依据当前实体关系,从待分析文本的语句中抽取与目标实体类别对应的多组实体数据;删除模块,用于从完成抽取后每个语句的剩余词语中删除预定语义词,其中,预定语义词至少包括:停用词;第一组合模块,用于对每个语句删除后剩余的文字进行组合,得到多个候选关系模板。
[0091] 在本发明一可选的示例中,第二确定单元包括:第一构建模块,用于构建矩阵,矩阵中包括每组实体数据和与该组实体数据匹配成功的候选关系模板以及匹配成功的次数;迭代模块,用于通过预设排序算法对矩阵进行迭代,得到各组实体数据与各候选关系模板之间正确匹配的概率。
[0092] 进一步地,预设排序算法为二部图排序算法。
[0093] 在本发明实施例中,第二确定单元还包括:第二获取模块,用于获取各组实体数据和各候选关系模板之间匹配的总数量一;第一确定模块,用于确定各组实体数据与各候选关系模板之间正确匹配的数量二;第二确定模块,用于依据数量二和总数量一,确定各组实体数据与各候选关系模板之间正确匹配的概率。
[0094] 可选地,补充单元包括:第三获取模块,用于获取各组实体数据与各候选关系模板之间出现正确匹配的概率值;第一选取模块,用于选取概率值大于预设概率阈值所对应的实体数据;第三确定模块,用于将选取的实体数据确定为待补充实体数据;第一补充模块,用于将待补充实体数据补充至知识图谱中;定义模块,用于将各候选关系模板中能正确匹配实体数据关系的模板定义为目标关系模板;提取模块,用于通过目标关系模板对目标新文本进行提取,并将提取后的实体数据补充进知识图谱中。
[0095] 作为本发明一可选的示例,补充单元还包括:第四获取模块,用于获取每组实体数据与候选关系模板之间的匹配概率值;第二选取模块,用于选取匹配概率值在预设概率范围内的实体数据按照预设公式确定实体数据是否为目标实体数据,预设公式为:其中,pattern_probr为候选关系模板中能建
立正确的实体数据关系的模板数量与模板总数量的比值,countkr为第k组实体数据被第r个候选关系模板匹配的次数,threshold为预设概率范围,IF函数在满足条件时为1,否则为0,当fpair大于目标阈值时,表示当前实体数据为目标实体数据;第二补充模块,用于将目标实体数据补充进入知识图谱中。
[0096] 上述的知识图谱的处理装置还可以包括处理器和存储器,上述获取单元21、第一确定单元23、第二确定单元25、补充单元27等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0097] 上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来对知识图谱的实体关系进行补充。
[0098] 上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
[0099] 根据本发明实施例的另一方面,还提供了一种存储介质,存储介质用于存储程序,其中,程序在被处理器执行时控制存储介质所在设备执行上述任意一项的知识图谱的处理方法。
[0100] 根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的知识图谱的处理方法。
[0101] 本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系;对于每组实体数据,确定在待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数;根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率;根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充。
[0102] 可选地,上述处理器在执行程序时,还可以实现如下步骤:获取知识图谱中的当前实体关系,其中,当前实体关系对应的数据类别被定义为目标实体类别;依据当前实体关系,从待分析文本的语句中抽取与目标实体类别对应的多组实体数据;从完成抽取后每个语句的剩余词语中删除预定语义词,其中,预定语义词至少包括:停用词;对每个语句删除后剩余的文字进行组合,得到多个候选关系模板。
[0103] 可选地,上述处理器在执行程序时,还可以实现如下步骤:构建矩阵,矩阵中包括每组实体数据和与该组实体数据匹配成功的候选关系模板以及匹配成功的次数;通过预设排序算法对矩阵进行迭代,得到各组实体数据与各候选关系模板之间正确匹配的概率。
[0104] 进一步地,预设排序算法为二部图排序算法。
[0105] 可选地,上述处理器在执行程序时,还可以实现如下步骤:获取各组实体数据和各候选关系模板之间匹配的总数量一;确定各组实体数据与各候选关系模板之间正确匹配的数量二;依据数量二和总数量一,确定各组实体数据与各候选关系模板之间正确匹配的概率。
[0106] 可选地,上述处理器在执行程序时,还可以实现如下步骤:获取各组实体数据与各候选关系模板之间出现正确匹配的概率值;选取概率值大于预设概率阈值所对应的实体数据;将选取的实体数据确定为待补充实体数据;将待补充实体数据补充至知识图谱中;将各候选关系模板中能正确匹配实体数据关系的模板定义为目标关系模板;通过目标关系模板对目标新文本进行提取,并将提取后的实体数据补充进知识图谱中。
[0107] 可选地,上述处理器在执行程序时,还可以实现如下步骤:获取每组实体数据与候选关系模板之间的匹配概率值;选取匹配概率值在预设概率范围内的实体数据按照预设公式确定实体数据是否为目标实体数据,预设公式为:其中,pattern_probr为候选关系模板中能建
立正确的实体数据关系的模板数量与模板总数量的比值,countkr为第k组实体数据被第r个候选关系模板匹配的次数,threshold为预设概率范围,IF函数在满足条件时为1,否则为0,当fpair大于目标阈值时,表示当前实体数据为目标实体数据;将目标实体数据补充进入知识图谱中。
[0108] 本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:从待分析文本中获取多组实体数据和多个候选关系模板,其中,候选关系模板用于描述一组实体数据中多个实体数据之间的关系;对于每组实体数据,确定在待分析文本中该组实体数据所匹配的候选关系模板匹配成功的次数;根据每组实体数据和各个候选关系模板匹配成功的次数,确定各组实体数据与各候选关系模板之间正确匹配的概率;根据每组实体数据与候选关系模板之间正确匹配的概率,对知识图谱中的实体数据关系进行补充。
[0109] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0110] 在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0111] 在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0112] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0113] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0114] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0115] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。