一种基于实体关系获取链接实体的数据处理系统转让专利

申请号 : CN202211543320.2

文献号 : CN116167339B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘羽常鸿宇张正义傅晓航

申请人 : 中科雨辰科技有限公司

摘要 :

本发明提供了一种基于实体关系获取链接实体的数据处理系统,系统包括初始实体列表、预设实体关系优先级集、处理器和存储由计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:将初始实体的数量与预设的实体数量阈值进行比对,当初始实体的数量大于等于预设的实体数量阈值时,获取初始实体列表对应的关键实体集和关键实体集对应的关键实体优先级集,根据关键实体优先级集,获取中间实体集和中间实体集对应的中间优先级集,根据中间优先级集,获取中间实体对应的链接实体列表;本发明能够基于实体关系和实体关系与实体关系之间的关联程度,对实体优先级进行处理,获取到更加精确的实体优先级,提高了获取链接实体的准确度。

权利要求 :

1.一种基于实体关系获取链接实体的数据处理系统,其特征在于,所述系统包括:初始实体列表A={A1,A2,……,Ai,……,Am}、预设实体关系优先级集、处理器和存储有计算机程序的存储器,其中,Ai为第i个初始实体,i=1,2……m,m为初始实体的数量,当所述计算机程序被处理器执行时,实现以下步骤:S200,将m与预设的实体数量阈值m0进行比对;

S210,当m≥m0时,获取A对应的关键实体集A'={A'1,A'2,……,A'i,……,A'm}和A'对应的关键实体优先级集FA'={FA'1,FA'2,……,FA'i,……,FA'm},其中,A'i={A'i1,A'i2,……,A'ij,……,A'in},A'ij为Ai对应的关键实体列表中第j个关键实体,FA'i={FA'i1,FA'i2,……,FA'ij,……,FA'in},FA'ij为A'ij对应的关键实体优先级,j=1,2……n,n为关键实体列表中关键实体的数量;

1 2 g m‑1

S220,根据FA',获取中间实体集FA={FA ,FA ,……,FA ,……,FA }和FA对应的中间

1 2 g m‑1 g g g

优先级集TFA={TFA ,TFA ,……,TFA ,……,TFA },FA为第g个中间实体列表,TFA为FAg对应的中间优先级列表,g=2……m‑1,其中,在S220中通过如下步骤获取FA:g‑1 g‑1

S2201,遍历TFA ,获取TFA 中最大的中间优先级,其中,在S2201中通过如下步骤获g‑1取TFA :

g‑2 g‑2 g‑2 g‑2 g‑2

S22011,获取FA 对应的第一关键实体集DFA ={DFA 1,DFA 2,……,DFA x,……,g‑2 g‑2 g‑2 g‑2 g‑2 g‑2 g‑2 g‑2DFA m‑g+2},DFA x={DFA x1,DFA x2,……,DFA xj,……,DFA xn},DFA xj为FA 中第x个中间实体对应的第j个第一关键实体,其中,所述第一关键实体为从A'中获取到的中间实体对应的关键实体,x=1,2……m‑g+2;

g‑2 g‑2 g‑2 g‑2 g‑2 g‑2 gS22013,获取TFA ={TFA 1,TFA 2,……,TFA x,……,TFA m‑g},TFA x={TFA‑2x1,

g‑2 g‑2 g‑2 g‑2 g‑2

TFA x2,……,TFA xj,……,TFA xn},TFA xj为DFA xj对应的中间优先级;

g‑2 g‑2 g‑2 g

S22015,当TFA xj为TFA 中最大的中间优先级时,获取FA 中第x个中间实体和DFA‑2xj;

g‑2 g‑2 g‑2 g‑2 g‑2

S22017,获取候选优先级集GFA ={GFA 1,GFA 2,……,GFA p,……,GFA m‑g‑1},g‑2 g‑2 g‑2 g‑2 g‑2 g‑2GFA p={GFA p1,GFA p2,……,GFA pj,……,GFA pn},GFA pj为第p个候选优先级列表g‑2 g‑2中第j个候选优先级,p=1,2……m‑g‑1,其中,所述候选优先级列表为TFA 删除TFA x后其它中间优先级列表按照顺序排列获取到中间优先级列表;

g‑1 g‑1 g‑1 g

S22019,根据预设实体关系优先级列表,获取TFA ={TFA 1,TFA 2,……,TFA‑1 g‑1 g‑1 g‑1 g‑1 g‑1 g‑1 gp,……,TFA m‑g‑1},TFA p={TFA p1,TFA p2,……,TFA pj,……,TFA pn},其中TFA‑1 g‑2pj为对GFA pj进行处理获取到的;

g‑1 g‑1 g

S2203,从FA 中删除TFA 中最大的中间优先级对应的中间实体后,获取到FA;

0 0 0 0 0

S230,根据TFA,获取FA对应的链接实体列表FA={FA1,FA2,……,FAg,……,FAm‑1},0

其中,FAg为获取到的第g个链接实体。

2.根据权利要求1所述的基于实体关系获取链接实体的数据处理系统,其特征在于,m0的取值为3。

3.根据权利要求1所述的基于实体关系获取链接实体的数据处理系统,其特征在于,所

0 0 0 0 0 0 0 0

述预设实体关系优先级集Y ={Y 1,Y 2,……,Y a,……,Y u},Y a={Y a1,Y a2,……,

0 0 0

Yay,……,Yaq},Yay为第a个预设三元组与第y个非预设三元组之间的实体关系优先级,a=

1,2……u,u为预设三元组的数量,y=1,2……q,q为非预设三元组的数量。

4.根据权利要求3所述的基于实体关系获取链接实体的数据处理系统,其特征在于,所述实体关系优先级为任一实体关系与其它实体关系或实体之间的关联程度,其中,所述实体关系为包括任意两个实体和两个实体之间的关系的三元组。

5.根据权利要求4所述的基于实体关系获取链接实体的数据处理系统,其特征在于,所述实体关系为包括任意两个实体和两个实体之间的关系的三元组。

6.根据权利要求1所述的基于实体关系获取链接实体的数据处理系统,其特征在于,在g‑1S22019中通过如下步骤获取TFA pj:g‑1 g‑2 g‑1

S1,根据TFA pj对应的第一关键实体和DFA xj,获取TFA pj对应的第一关键三元组,g‑1 g‑1 g‑2 g其中,TFA pj对应的第一关键三元组为包括TFA pj对应的第一关键实体、DFA xj以及TFA‑1 g‑2pj对应的第一关键实体和DFA xj之间的关系的三元组;

g‑1 0

S2,根据预设实体关系优先级集,获取TFA pj对应的第一关键三元组的第一优先级E

0 0 0 0 0 g‑1

={E1,E2,……,Ey,……,Eq},Ey为TFA pj对应的第一关键三元组的第y个第一优先级;

g‑2 g‑1 g‑1

S3,根据FA 中第x个中间实体和TFA pj对应的初始实体,获取TFA pj对应的第二关键g‑1 g‑2 g‑1三元组,其中,所述TFA pj对应的第二关键三元组为包括FA 中第x个中间实体、TFA pj对g‑2 g‑1应的初始实体以及FA 中第x个中间实体和TFA pj对应的初始实体之间的关系的三元组;

g‑1 0 0 0

S4,获取TFA pj对应的第二关键三元组对应的第二优先级列表T ={T 1,T 2,……,

0 0 0 g‑1

Ty,……,Tq},Ty为TFA pj对应的第二关键三元组对应的第y个第二优先级;

0 0 g‑1

S5,根据E和T,获取TFA pj。

7.根据权利要求6所述的基于实体关系获取链接实体的数据处理系统,其特征在于,在S5中还包括如下步骤:g

S51,当预设实体关系优先级表中不存在负值的预设实体关系优先级时,获取TFAxj,其g中,TFAxj符合如下条件:

g

S53,当预设实体关系优先级表中存在负值的预设实体关系优先级时,获取TFA xj,其g中,TFAxj符合如下条件:

8.根据权利要求1所述的基于实体关系获取链接实体的数据处理系统,其特征在于,在gS230中,当TFA中某一中间优先级为最大优先级时,获取其对应的中间实体为其对应的初始实体的链接实体。

说明书 :

一种基于实体关系获取链接实体的数据处理系统

技术领域

[0001] 本发明涉及实体链接技术领域,特别是涉及一种基于实体关系获取链接实体的数据处理系统。

背景技术

[0002] 随着互联网的普及和发展,大量信息数据被存储于互联网平台中,例如百度百科、维基百科等数据库中存有大量的文本信息,如何对数据库中的文本信息进行处理获取有价值的信息,成为目前热门研究方向,近来,实体链接技术不断更新,将文本中已识别出的实体正确指向数据库中目标实体对理解文本的真实含义具有重大意义,能够解决文本中存在
的实体多样性和歧义的问题。
[0003] 目前,现有技术中获取链接实体的方法为:对文本中的一个实体进行链接,通过计算从文本中抽取的实体指称与知识库中获得的候选实体之间的上下文相似度,选择相似度最大的候选实体作为链接实体。
[0004] 综上所述获取链接实体的方法存在的问题:在获取链接实体的过程中,局限于实体之间的相似度,未考虑实体关系和实体关系与实体关系之间的关联程度,降低了获取链
接实体的准确度。

发明内容

[0005] 针对上述技术问题,本发明采用的技术方案为:一种基于实体关系获取链接实体的数据处理系统,系统包括:初始实体列表A={A1,A2,……,Ai,……,Am}、预设实体关系优先级集、处理器和存储有计算机程序的存储器,其中,Ai为第i个初始实体,i=1,2……m,m为初始实体的数量,当计算机程序被处理器执行时,实现以下步骤:
[0006] S200,将m与预设的实体数量阈值m0进行比对。
[0007] S210,当m≥m0时,获取A对应的关键实体集A'={A'1,A'2,……,A'i,……,A'm}和A'对应的关键实体优先级集FA'={FA'1,FA'2,……,FA'i,……,FA'm},其中,A'i={A'i1,A'i2,……,A'ij,……,A'in},A'ij为Ai对应的关键实体列表中第j个关键实体,FA'i={FA'i1,FA'i2,……,FA'ij,……,FA'in},FA'ij为A'ij对应的关键实体优先级,j=1,2……n,n为关键实体列表中关键实体的数量。
[0008] S220,根据FA',获取中间实体集FA={FA1,FA2,……,FAg,……,FAm‑1}和FA对应的1 2 g m‑1 g g
中间优先级集TFA={TFA ,TFA ,……,TFA ,……,TFA },FA为第g个中间实体列表,TFA为g g
FA对应的中间优先级列表,g=2……m‑1,其中,在S220中通过如下步骤获取FA:
[0009] S2201,遍历TFAg‑1,获取TFAg‑1中最大的中间优先级,其中,在S2201中通过如下步g‑1骤获取TFA :
[0010] S22011,获取FAg‑2对应的第一关键实体集DFAg‑2={DFAg‑21,DFAg‑22,……,DFAg‑2x,……,
[0011] DFAg‑2m‑g+2},DFAg‑2x={DFAg‑2x1,DFAg‑2x2,……,DFAg‑2xj,……,DFAg‑2xn},DFAg‑2xj为g‑2FA 中第x个
[0012] 中间实体对应的第j个第一关键实体,其中,所述第一关键实体为从A'中获取到的中间实体对应的关键实体,x=1,2……m‑g+2。
[0013] S22013,获取TFAg‑2={TFAg‑21,TFAg‑22,……,TFAg‑2x,……,TFAg‑2m‑g},TFAg‑2x=g‑2{TFA x1,
[0014] TFAg‑2x2,……,TFAg‑2xj,……,TFAg‑2xn},TFAg‑2xj为DFAg‑2xj对应的中间优先级。
[0015] S22015,当TFAg‑2xj为TFAg‑2中最大的中间优先级时,获取FAg‑2中第x个中间实体和g‑2DFA xj;
[0016] S22017,获取候选优先级集GFAg‑2={GFAg‑21,GFAg‑22,……,GFAg‑2p,……,GFAg‑2 g‑2 g‑2 g‑2 g‑2 g‑2 g‑2m‑g‑1},GFA p={GFA p1,GFA p2,……,GFA pj,……,GFA pn},GFA pj为第p个候选优先g‑2
级列表中第j个候选优先级,p=1,2……m‑g‑1,其中,所述候选优先级列表为TFA 删除g‑2
TFA x后其它中间优先级列表按照顺序排列获取到中间优先级列表。
[0017] S22019,根据预设实体关系优先级列表,获取TFAg‑1={TFAg‑11,TFAg‑12,……,TFAg‑1 g‑1 g‑1 g‑1 g‑1 g‑1 g‑1 gp,……,TFA m‑g‑1},TFA p={TFA p1,TFA p2,……,TFA pj,……,TFA pn},其中TFA‑1 g‑2
pj为对GFA pj进行处理获取到的。
[0018] S2203,从FAg‑1中删除TFAg‑1中最大的中间优先级对应的中间实体后,获取到FAg。
[0019] S230,根据TFA,获取FA对应的链接实体列表FA0={FA01,FA02,……,FA0g,……,0 0
FAm‑1},其中,FAg为获取到的第g个链接实体。
[0020] 本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的一种基于实体关系获取链接实体的数据处理系统可达到相当的技术进步性及实用性,并具
有产业上的广泛利用价值,其至少具有以下有益效果:
[0021] 本发明提供了一种基于实体关系获取链接实体的数据处理系统,系统包括初始实体列表、预设实体关系优先级集、处理器和存储由计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:将初始实体的数量与预设的实体数量阈值进行比对,当初始实体的数量大于等于预设的实体数量阈值时,获取初始实体列表对应的关键实体集和关键实
体集对应的关键实体优先级集,根据关键实体优先级集,获取中间实体集和中间实体集对
应的中间优先级集,其中,实体关系优先级为任一实体关系与其它实体关系或实体之间的
关联程度,根据中间优先级集,获取中间实体对应的链接实体列表;上述,在获取链接实体的过程中,不局限于实体之间的相似度,基于实体关系和实体关系与实体关系之间的关联
程度,对实体优先级进行处理,获取到更加精确的实体优先级,提高了获取链接实体的准确度。

附图说明

[0022] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图。
[0023] 图1为本发明实施例一提供的一种基于实体关系获取链接实体的数据处理系统的执行计算机程序的流程图。
[0024] 图2为本发明实施例一提供的S2201步骤的流程图;
[0025] 图3为本发明实施例一提供的S22019步骤的流程图;
[0026] 图4为本发明实施例二提供的一种基于实体关系获取链接实体的数据处理系统的执行计算机程序的流程图;
[0027] 图5为本发明实施例三提供的一种基于实体关系获取链接实体的数据处理系统的执行计算机程序的流程图;
[0028] 图6为本发明实施例四提供的一种基于实体关系获取链接实体的数据处理系统的执行计算机程序的流程图。

具体实施方式

[0029] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本发明保护的范围。
[0030] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0031] 实施例一
[0032] 本实施例提供了一种基于实体关系获取链接实体的数据处理系统,所述系统包括:初始实体列表A={A1,A2,……,Ai,……,Am}、预设实体关系优先级集、处理器和存储有计算机程序的存储器,其中,Ai为第i个初始实体,i=1……m,m为初始实体的数量;当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
[0033] S200,将m与预设的实体数量阈值m0进行比对。
[0034] 具体的,m0的取值为3。
[0035] S210,当m≥m0时,获取A对应的关键实体集A'={A'1,A'2,……,A'i,……,A'm}和A'对应的关键实体优先级集FA'={FA'1,FA'2,……,FA'i,……,FA'm},其中,A'i={A'i1,A'i2,……,A'ij,……,A'in},A'ij为Ai对应的关键实体列表中第j个关键实体,FA'i={FA'i1,FA'i2,……,FA'ij,……,FA'in},FA'ij为A'ij对应的关键实体优先级,j=1……n,n为关键实体列表中关键实体的数量。
[0036] 具体的,所述系统中还包括初始文本集,所述初始文本集包括若干个初始文本,其中,所述初始文本为用户从任一网页上通过爬虫方法获取到的文本,本领域技术人员知晓,现有技术中任意一个爬虫方法均属于本发明的保护范围,在此不再赘述。
[0037] 进一步的,所述初始实体为将初始文本输入至实体识别模型中获取到的实体;本领域技术人员也知晓,现有技术中任一通过实体识别模型获取实体的方法均属于本发明的
保护范围,在此不再赘述;例如,实体识别模型为NER模型。
[0038] 具体的,所述系统中还包括预设实体列表和预设三元组集,预设实体列表包括若干个预设实体,预设三元组集包括每一预设实体对应的预设三元组列表,其中,预设三元组列表包括每一预设实体对应的若干个预设三元组,本领域技术人员知晓,现有技术中任意
一种获取三元组的方法均属于本发明的保护范围,在此不再赘述。
[0039] 进一步的,所述预设实体为从预先设置的知识库中获取到的任一实体,本领域技术人员知晓,现有技术中任一知识库均属于本发明的保护范围,在此不再赘述;例如,知识库为维基百科等。
[0040] 进一步的,所述关键实体优先级为将初始实体和初始实体对应的关键实体输入至实体匹配模型中,获取到的初始实体与初始实体对应的关键实体之间的匹配概率,其中,本领域技术人员知晓,现有技术中任意一种实体匹配模型均属于本发明的保护范围,在此不
再赘述。
[0041] 具体的,所述预设实体关系优先级集Y0={Y01,Y02,……,Y0a,……,Y0u},Y0a={Y0a1,0 0 0 0
Ya2,……,Yay,……,Yaq},Yay为第a个预设三元组与第y个非预设三元组之间的实体关系优先级,a=1……u,u为预设三元组的数量,y=1……q,q为非预设三元组的数量;本领域技术人员知晓,所述实体关系优先级为任一实体关系与其它实体关系或实体之间的关联程
度,其中,所述实体关系为包括任意两个实体和两个实体之间的关系的三元组。
[0042] 进一步的,所述非预设三元组为对样本三元组进行去重处理获取到的三元组,其中,样本三元组为将样本文本输入至实体关系抽取模型中获取到的三元组,本领域技术人
员知晓,样本文本为用于训练实体关系抽取模型的文本,在此不再赘述。
[0043] 进一步的,本领域技术人员知晓,现有技术中任一通过实体关系抽取模型获取三元组的方法均属于本发明的保护范围,在此不再赘述。
[0044] S220,根据FA',获取中间实体集FA={FA1,FA2,……,FAg,……,FAm‑1}和FA对应的1 2 g m‑1 g g
中间优先级集TFA={TFA ,TFA ,……,TFA ,……,TFA },FA为第g个中间实体列表,TFA为g
FA对应的中间优先级列表,g=2……m‑1。
[0045] 具体的,在S220中通过如下步骤获取FAg:
[0046] S2201,遍历TFAg‑1,获取TFAg‑1中最大的中间优先级。
[0047] S2203,从FAg‑1中删除TFAg‑1中最大的中间优先级对应的中间实体后,获取到FAg。
[0048] 进一步的,在S2201中通过如下步骤获取TFAg‑1,如图2所示:
[0049] S22011,获取FAg‑2对应的第一关键实体集DFAg‑2={DFAg‑21,DFAg‑22,……,DFAg‑2x,……,
[0050] DFAg‑2m‑g+2},DFAg‑2x={DFAg‑2x1,DFAg‑2x2,……,DFAg‑2xj,……,DFAg‑2xn},DFAg‑2xj为g‑2FA 中第x个
[0051] 中间实体对应的第j个第一关键实体,其中,所述第一关键实体为从A'中获取到的中间实体对应的关键实体,x=1……m‑g+2。
[0052] S22013,获取TFAg‑2={TFAg‑21,TFAg‑22,……,TFAg‑2x,……,TFAg‑2m‑g},TFAg‑2x=g‑2{TFA x1,
[0053] TFAg‑2x2,……,TFAg‑2xj,……,TFAg‑2xn},TFAg‑2xj为DFAg‑2xj对应的中间优先级。
[0054] S22015,当TFAg‑2xj为TFAg‑2中最大的中间优先级时,获取FAg‑2中第x个中间实体和g‑2DFA xj。
[0055] S22017,获取候选优先级集GFAg‑2={GFAg‑21,GFAg‑22,……,GFAg‑2p,……,GFAg‑2 g‑2 g‑2 g‑2 g‑2 g‑2 g‑2m‑g‑1},GFA p={GFA p1,GFA p2,……,GFA pj,……,GFA pn},GFA pj为第p个候选优先g‑2 g
级列表中第j个候选优先级,p=1……m‑g‑1,其中,所述候选优先级列表为TFA 删除TFA‑2
x后其它中间优先级列表按照顺序排列获取到中间优先级列表。
[0056] S22019,根据预设实体关系优先级列表,获取TFAg‑1={TFAg‑11,TFAg‑12,……,TFAg‑1 g‑1 g‑1 g‑1 g‑1 g‑1 g‑1 gp,……,TFA m‑g‑1},TFA p={TFA p1,TFA p2,……,TFA pj,……,TFA pn},其中TFA‑1 g‑2
pj为对GFA pj进行处理获取到的。
[0057] 具体的,在S22019中通过如下步骤获取TFAg‑1pj,如图3所示:
[0058] S1,根据TFAg‑1pj对应的第一关键实体和DFAg‑2xj,获取TFAg‑1pj对应的第一关键三元g‑1 g‑1 g‑2组,其中,TFA pj对应的第一关键三元组为包括TFA pj对应的第一关键实体、DFA xj以及
g‑1 g‑2
TFA pj对应的第一关键实体和DFA xj之间的关系的三元组。
[0059] S2,根据预设实体关系优先级集,获取TFAg‑1pj对应的第一关键三元组的第一优先0 0 0 0 0 0 g‑1
级E={E1,E2,……,Ey,……,Eq},Ey为TFA pj对应的第一关键三元组的第y个第一优先g‑1 0 0 0
级;可以理解为:当TFA pj对应的第一关键三元组与Ya一致时,则Ey=Yay。
[0060] S3,根据FAg‑2中第x个中间实体和TFAg‑1pj对应的初始实体,获取TFAg‑1pj对应的第g‑1 g‑2二关键三元组,其中,所述TFA pj对应的第二关键三元组为包括FA 中第x个中间实体、
g‑1 g‑2 g‑1
TFA pj对应的初始实体以及FA 中第x个中间实体和TFA pj对应的初始实体之间的关系
的三元组。
[0061] S4,获取TFAg‑1pj对应的第二关键三元组对应的第二优先级列表T0={T01,0 0 0 0 g‑1
T2,……,Ty,……,Tq},Ty为TFA pj对应的第二关键三元组对应的第y个第二优先级。
[0062] 具体的,所述第二优先级为将包括FAg‑2中第x个中间实体和TFAg‑1pj对应的初始实体的样本文本输入至实体关系抽取模型中获取到的非预设三元组对应的优先级。
[0063] S5,根据E0和T0,获取TFAg‑1pj。
[0064] 进一步的的,在S5中还包括如下步骤:
[0065] S51,当预设实体关系优先级表中不存在负值的预设实体关系优先级时,获取g g
TFAxj,其中,TFAxj符合如下条件:
[0066]
[0067] S53,当预设实体关系优先级表中存在负值的预设实体关系优先级时,获取TFAgxj,g其中,TFAxj符合如下条件:
[0068]
[0069] 上述,通过判断预设实体关系优先级集中预设实体关系优先级的值表示方式,提供了不同获取中间优先级的方法,使得获取到的中间优先级更加精确,进而提高获取链接
实体的准确度。
[0070] 在一个具体的实施例中,
[0071] 当g=2时,通过如下步骤获取TFA1:
[0072] S11,获取FA0对应的第一关键实体集DFA0={DFA01,DFA02,……,DFA0i,……,0 0 0 0 0 0 0 0
DFA m},DFAi={DFAi1,DFA i2,……,DFAij,……,DFA in},其中,DFAi与A'i一致,DFAij与A'ij一致。
[0073] S21,获取TFA0={FA'1,FA'2,……,FA'i,……,FA'm},FA'i={FA'i1,FA'i2,……,FA'ij,……,
[0074] FA'in}。
[0075] S31,根据预设实体关系优先级列表,获取TFA1,其中,TFA1的获取方式参照本实施例中S22015~22019步骤。
[0076] 通过如下步骤获取FA1:
[0077] S10,遍历FA',获取FA'中最大的关键实体优先级。
[0078] S20,从A'中删除FA'中最大的关键实体优先级对应的关键实体后,获取到FA1。
[0079] S230,根据TFA,获取FA对应的链接实体列表FA0={FA01,FA02,……,FA0g,……,0 0 g
FAm‑1},其中,FA g为获取到的第g个链接实体;可以理解为:当TFA中某一中间优先级为最大优先级时,获取其对应的中间实体为其对应的初始实体的链接实体。
[0080] 具体的,所述链接实体为对任一实体进行实体链接获取到的实体。
[0081] 上述,基于实体与实体之间的关系,对任一初始实体的关键实体对应的实体优先级进行处理后,获取到更加精确的实体优先级,以使得根据更加精确的实体优先级,获取初始实体的链接实体,进而提高了获取链接实体的准确度。
[0082] 本实施例一提供的一种基于实体关系获取链接实体的数据处理系统,系统包括初始实体列表、预设实体关系优先级集、处理器和存储由计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:将初始实体的数量与预设的实体数量阈值进行比对,当初始实体的数量大于等于预设的实体数量阈值时,获取初始实体列表对应的关键实体集和关
键实体集对应的关键实体优先级集,根据关键实体优先级集,获取中间实体集和中间实体
集对应的中间优先级集,其中,实体关系优先级为任一实体关系与其它实体关系或实体之
间的关联程度,根据中间优先级集,获取中间实体对应的链接实体列表;上述,在获取链接实体的过程中,不局限于实体之间的相似度,基于实体关系和实体关系与实体关系之间的
关联程度,对实体优先级进行处理,获取到更加精确的实体优先级,提高了获取链接实体的准确度。
[0083] 实施例二
[0084] 一种获取链接实体的数据处理系统,所述系统包括:初始实体列表A={A1,A2,……,Ai,……,Am}、预设实体标签优先级集、处理器和存储有计算机程序的存储器,其中,Ai为第i个初始实体,i=1……m,m为初始实体的数量;当所述计算机程序被处理器执行时,实现以下步骤,如图4所示:
[0085] S100,将m与预设的实体数量阈值m0进行比对。
[0086] 具体的,m0的取值为3。
[0087] S110,当m<m0时,获取A对应的关键实体集A'={A'1,A'2,……,A'i,……,A'm}和A'对应的关键实体优先级集FA'={FA'1,FA'2,……,FA'i,……,FA'm},其中,A'i={A'i1,A'i2,……,A'ij,……,A'in},A'ij为Ai对应的关键实体列表中第j个关键实体,FA'i={FA'i1,FA'i2,……,FA'ij,……,FA'in},FA'ij为A'ij对应的关键实体优先级,j=1……n,n为关键实体列表中关键实体的数量。
[0088] 具体的,所述系统中还包括初始文本集,所述初始文本集包括若干个初始文本,其中,所述初始文本为用户从任一网页上通过爬虫方法获取到的文本,本领域技术人员知晓,现有技术中任意一个爬虫方法均属于本发明的保护范围,在此不再赘述。
[0089] 进一步的,所述初始实体为将初始文本输入至实体识别模型中获取到的实体;本领域技术人员也知晓,现有技术中任一通过实体识别模型获取实体的方法均属于本发明的
保护范围,在此不再赘述;例如,实体识别模型为NER模型。
[0090] 具体的,所述系统中还包括预设实体列表、预设实体列表对应的预设实体标签列表和预设三元组集,预设实体列表包括若干个预设实体,预设实体标签列表包括每一预设
实体对应的预设实体标签,预设三元组集包括每一预设实体对应的预设三元组列表,其中,预设三元组列表包括每一预设实体对应的若干个预设三元组,本领域技术人员知晓,现有
技术中任意一种获取三元组的方法均属于本发明的保护范围,在此不再赘述。
[0091] 进一步的,所述预设实体为从预先设置的知识库中获取到的任一实体,本领域技术人员知晓,现有技术中任一知识库均属于本发明的保护范围,在此不再赘述;例如,知识库为维基百科等。
[0092] 进一步的,所述预设实体标签为表征预设实体对应的实体类型的唯一标签,本领域技术人员知晓,现有技术中任一获取实体对应的实体标签的方法均属于本发明的保护范
围,在此不再赘述。
[0093] 具体的,所述关键实体为在与初始实体一致的预设实体对应的预设三元组列表中,每一预设三元组中除初始实体之外的实体;例如当初始实体为北京时,获取到的关键实体为北平、燕京等。
[0094] 进一步的,所述关键实体优先级为将初始实体和初始实体对应的关键实体输入至实体匹配模型中,获取到的初始实体与初始实体对应的关键实体之间的匹配概率,其中,本领域技术人员知晓,现有技术中任意一种实体匹配模型均属于本发明的保护范围,在此不
再赘述。
[0095] 具体的,所述预设实体标签优先级集U0={U01,U02,……,U0f,……,U0z},U0f={U0f1,0 0 0 0
Uf2,……,Ufr,……,Ufs},Ufr为第f个预设实体标签与第r个非预设实体标签之间的标签优先级,f=1……z,z为预设实体标签的数量,r=1……s,s为非预设实体标签的数量;本领域技术人员知晓,所述标签优先级为任一实体标签与其它实体标签或任一实体之间的关联
程度。
[0096] 进一步的,所述非预设实体标签为对样本实体标签进行去重处理获取到的实体标签,其中,样本实体标签为将样本文本输入至实体识别模型中获取到的实体标签,本领域技术人员知晓,样本文本为用于训练实体识别模型的文本,在此不再赘述。
[0097] S120,根据预设实体标签优先级集,获取A'对应的目标优先级集RA'={RA'1,RA'2,……,RA'i,……,RA'm},RA'i={RA'i1,RA'i2,……,RA'ij,……,RA'in},RA'ij为A'ij对应的目标优先级。
[0098] 具体的,在S120中通过以下步骤获取RA'ij:
[0099] S1201,获取A'ij对应的关键实体标签Aij,其中,Aij为从预设实体标签列表中获取到的A'ij对应的预设实体标签。
[0100] S1203,根据U0,获取Aij对应的第一中间标签优先级列表PAij={PA1ij,PA2ij,……,r s r 0PAij,……,PAij},PAij为Aij对应的第r个第一中间标签优先级;可以理解为:当Aij与Ufr对
0 r
应的预设实体标签一致时,则Ufr=PAij。
[0101] S1205,获取Ai对应的第二中间标签标签优先级列表KA'i={KA'i1,KA'i2,……,KA'ir,……,KA'is},KA'ir为Ai对应的第二中间标签优先级。
[0102] 具体的,所述第二中间标签优先级为将初始实体输入至实体识别模型中获取到的非预设实体标签对应的标签优先级。
[0103] S1207,根据PAij和KA'i,获取RA'ij。
[0104] 具体的,S1207中还包括如下步骤:
[0105] S12071,当预设实体标签优先级集不存在负值的预设实体标签优先级时,获取RA'ij,其中,RA'ij符合如下条件:
[0106]
[0107] S12073,当预设实体标签优先级集存在负值的预设实体标签优先级时,获取RA'ij,其中,RA'ij符合如下条件:
[0108]
[0109] 上述,通过判断预设实体标签优先级集中预设实体优先级的值表示方式,提供了不同获取目标优先级的方法,使得获取到的目标优先级更加精确,进而提高获取链接实体
的准确度。
[0110] S130,根据RA'i,获取A对应的链接实体列表A0={A01j,A02j,……,A0ij,……,A0mj},0
其中,A ij为Ai的链接实体;可以理解为:当RA'ij为RA'i中最大的目标优先级时,将A'ij作为
0
Aij。
[0111] 具体的,所述链接实体为对任一实体进行实体链接获取到的实体。
[0112] 上述,对任一初始实体的关键实体对应的实体优先级进行处理后,获取到更加精确的实体优先级,以使得根据更加精确的实体优先级,获取初始实体的链接实体,进而提高了获取链接实体的准确度。
[0113] 本实施例二提供的一种基于实体关系获取链接实体的数据处理系统,包括:初始实体列表、预设实体标签优先级集、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:将初始实体的数量与预设的实体数量阈值进行比对,当初始实体的数量小于预设的实体数量阈值时,获取初始实体列表对应的关键实体集,根据
预设实体标签优先级集,获取关键实体集对应的目标优先级集,其中,预设实体标签优先级为预设实体标签和非预设实体标签之间的标签优先级,标签优先级为任一实体标签与其它
实体标签或任一实体之间的关联程度,根据目标优先级集,获取初始实体对应的链接实体;
上述,在获取链接实体时,不局限于实体本身,考虑了实体对应的实体标签以及实体标签与实体标签之间的关联程度,提高了获取到的链接实体的准确度。
[0114] 实施例三
[0115] 一种基于实体关系获取链接实体的数据处理系统,所述系统包括:初始实体列表A={A1,A2,……,Ai,……,Am}、预设实体关系优先级集、处理器和存储有计算机程序的存储器,其中,Ai为第i个初始实体,i=1……m,m为初始实体的数量;当所述计算机程序被处理器执行时,实现以下步骤,如图5所示:
[0116] S300,将m与预设的实体数量阈值m0进行比对。
[0117] 具体的,m0的取值为3。
[0118] S310,当m≥m0时,获取A对应的关键实体集A'={A'1,A'2,……,A'i,……,A'm}和A'对应的关键实体优先级集FA'={FA'1,FA'2,……,FA'i,……,FA'm},其中,A'i={A'i1,A'i2,……,A'ij,……,A'in},A'ij为Ai对应的关键实体列表中第j个关键实体,FA'i={FA'i1,FA'i2,……,FA'ij,……,FA'in},FA'ij为A'ij对应的关键实体优先级,j=1……n,n为关键实体列表中关键实体的数量,其中,FA'i1>FA'i2>……>FA'ij>……>FA'in。
[0119] 具体的,所述系统中还包括预设实体列表和预设三元组集,预设实体列表包括若干个预设实体,预设三元组集包括每一预设实体对应的预设三元组列表,其中,预设三元组列表包括每一预设实体对应的若干个预设三元组,本领域技术人员知晓,现有技术中任意
一种获取三元组的方法均属于本发明的保护范围,在此不再赘述。
[0120] 进一步的,所述预设实体为从预先设置的知识库中获取到的任一实体,本领域技术人员知晓,现有技术中任一知识库均属于本发明的保护范围,在此不再赘述;例如,知识库为维基百科等。
[0121] 进一步的,所述关键实体优先级为将初始实体和初始实体对应的关键实体输入至实体匹配模型中,获取到的初始实体与初始实体对应的关键实体之间的匹配概率,其中,本领域技术人员知晓,现有技术中任意一种实体匹配模型均属于本发明的保护范围,在此不
再赘述。
[0122] 具体的,所述预设实体关系优先级集Y0={Y01,Y02,……,Y0a,……,Y0u},Y0a={Y0a1,0 0 0 0
Ya2,……,Yay,……,Yaq},Yay为第a个预设三元组与第y个非预设三元组之间的实体关系优先级,a=1……u,u为预设三元组的数量,y=1……q,q为非预设三元组的数量;本领域技术人员知晓,所述实体关系优先级为任一实体关系与其它实体关系或实体之间的关联程
度,其中,所述实体关系为包括任意两个实体和两个实体之间的关系的三元组。
[0123] 进一步的,所述非预设三元组为对样本三元组进行去重处理获取到的三元组,其中,样本三元组为将样本文本输入至实体关系抽取模型中获取到的三元组,本领域技术人
员知晓,样本文本为用于训练实体关系抽取模型的文本,在此不再赘述。
[0124] 进一步的,本领域技术人员知晓,现有技术中任一通过实体关系抽取模型获取三元组的方法均属于本发明的保护范围,在此不再赘述。
[0125] S320,当FA'i1为FA'中最大的关键优先级时,获取A'i1为Ai的链接实体,其中,所述链接实体为对任一实体进行实体链接获取到的实体。
[0126] S330,从A中删除Ai,获取第一初始实体列表B={B1,B2,……,Bd,……,Bm‑1}、B对应的第一中间实体集B'={B'1,B'2,……,B'd,……,B'm‑1}和B'对应的第一中间优先级集FB'={FB'1,FB'2,……,FB'd,……,FB'm‑1},其中,Bd为第d个第一初始实体,B'd={B'd1,B'd2,……,B'dj,……,B'dn},B'dj为Bd对应的第一中间实体列表中第j个第一中间实体,FB'd={FB'd1,FB'd2,……,FB'dj,……,FB'dn},FB'dj为B'dj对应的第一中间优先级,d=1……m‑1,其中,FB'd1>FB'd2>……>FB'dj>……>FB'dn。
[0127] 具体的,所述第一初始实体为从A中删除Ai后的任一初始实体,所述第一中间实体为从A'中获取到的第一初始实体对应的关键实体,所述第一中间优先级为从FA'中获取到
的第一初始实体对应的关键优先级。
[0128] S340,根据预设实体关系优先级集,获取B'对应的第一关键优先级集VFB'={VFB'1,
[0129] VFB'2,……,VFB'd,……,VFB'm‑1},VFB'd={VFB'd1,VFB'd2,……,VFB'dj,……,VFB'dn},其中,
[0130] VFB'dj为对应的第一关键优先级。
[0131] 具体的,在S340中通过如下步骤获取VFB'dj:
[0132] S3401,根据Ai和Bd,获取Bd对应的第一候选三元组ABid,其中,所述Bd对应的第一候选三元组为包括Ai、Bd和Ai和Bd之间的关系的三元组。
[0133] S3403,根据预设实体关系优先级集,获取ABid对应的第一待定优先级={EAB1id,2 y q y
EABid,……,EABid,……,EAB id},EAB id为ABid对应的第y个第一待定优先级;可以理解为:
0 y 0
当ABid与Ya一致时,则EABid=Yay。
[0134] S3405,根据A'i1和B'd,获取B'd对应的第一候选三元组AB'id,其中,所述B'd对应的第一候选三元组包括A'i1、B'd和A'i1和B'd之间的关系的三元组。
[0135] S3407,获取AB'id对应的第二待定优先级列表WAB'id={WAB'1id,WAB'2id,……,y q yWAB'id,……,WAB'id},WAB'id为AB'id对应的第y个第二待定优先级。
[0136] 具体的,所述第二待定优先级为将包括A'i1和B'd样本文本输入至实体关系抽取模型中获取到的非预设三元组对应的优先级。
[0137] S3409,根据EABid和WAB'id,获取VFB'dj。
[0138] 进一步的的,在S3409中还包括如下步骤:
[0139] S34091,当预设实体关系优先级表中不存在负值的预设实体关系优先级时,获取VFB'dj,其中,VFB'dj符合如下条件:
[0140]
[0141] S34093,当预设实体关系优先级表中存在负值的预设实体关系优先级时,获取VFB'dj,其中,VFB'dj符合如下条件:
[0142]
[0143] 上述,通过判断预设实体关系优先级集中预设实体关系优先级的值表示方式,提供了不同获取中间优先级的方法,使得获取到的中间优先级更加精确,进而提高获取链接
实体的准确度。
[0144] S350,根据VFB',获取第一目标链接实体列表C={C1,C2,……,Cζ,……,Cη},Cζ为第ζ个第一目标链接实体,ζ=1……η,η为第一目标链接实体的数量,其中,所述第一目标链接实体为当VFB'd1为VFB'd中最大的第一关键优先级时,获取B'd1为Bd对应的链接实体;可以理解为:FB'd中最大值的位置与VFB'd中的最大值的位置不发生变化时,获取VFB'd中的最大值对应的第一中间实体为其对应的第一初始实体的链接实体。
[0145] S360,根据C,获取第二初始实体列表D={D1,D2,……,De,……,Dt},De为第e个第二初始实体,其中,所述第二初始实体为从B中删除Cζ对应的第一初始实体后的任意一个初始实体。
[0146] 具体的,η+t=m‑1。
[0147] 上述,基于实体与实体之间的关系对任一初始实体的关键实体对应的实体优先级进行处理,当初始实体的关键实体对应的实体优先级进行处理后获取到的实体优先级中最
大实体优先级的位置保持不变时,直接获取满足条件的关键实体作为初始实体的链接实
体,减少了需要处理的数据量,提高了获取链接实体的效率,进而使得获取到的链接实体的准确度较高。
[0148] S370,根据D,获取第二目标链接实体列表C0={C01,C02,……,C0i,……,C0m},C0i为0
Ai对应的链接实体,其中,C通过重复执行S320~S360,直到获取到的第二初始实体列表为空集时。
[0149] 上述,基于实体与实体之间的关系,对任一初始实体的关键实体对应的实体优先级进行处理后,获取到更加精确的实体优先级,以使得根据更加精确的实体优先级,获取初始实体的链接实体,进而提高了获取链接实体的准确度。
[0150] 本实施例三提供的一种基于实体关系获取链接实体的数据处理系统,所述系统包括:初始实体列表、预设实体关系优先级集、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:将初始实体的数量与预设的实体数量阈值进
行比较,当初始实体的数量大于等于预设的实体数量阈值时,获取初始实体列表对应的关
键实体集和关键实体集对应的关键实体优先级集,获取最大的关键优先级,将最大关键优
先级对应的关键实体作为关键实体对应的初始实体的链接实体,从初始实体列表中删除最
大关键优先级对应的初始实体,获取第一初始实体列表和、第一初始实体列表对应的第一
中间实体集和第一中间实体集对应的第一中间优先级集,根据预设实体关系优先级集,获
取第一中间实体集对应的第一关键优先级集,根据第一关键优先级集获取第一目标链接实
体列表,根据第一目标链接实体列表获取第二初始实体列表,根据第二初始实体列表获取
第二目标链接实体列表;上述,在获取链接实体的过程中,考虑了实体关系和实体关系与实体关系之间的关联程度,未对每个实体优先级进行多次处理,增加了获取链接实体的效率,从而提高了获取链接实体的准确度。
[0151] 实施例四
[0152] 本实施例四提供了一种基于实体关系获取链接实体的数据处理系统,所述系统包括:初始实体列表A={A1,A2,……,Ai,……,Am}、预设实体标签优先级集、预设实体关系优先级集、处理器和存储有计算机程序的存储器,其中,Ai为第i个初始实体,i=1……m,m为初始实体的数量;当所述计算机程序被处理器执行时,实现以下步骤,如图6所示:
[0153] S400,获取A对应的关键实体集A'={A'1,A'2,……,A'i,……,A'm}和A'对应的关键实体优先级集FA'={FA'1,FA'2,……,FA'i,……,FA'm},其中,A'i={A'i1,A'i2,……,A'ij,……,A'in},A'ij为Ai对应的关键实体列表中第j个关键实体,FA'i={FA'i1,FA'i2,……,FA'ij,……,FA'in},FA'ij为A'ij对应的关键实体优先级,j=1……n,n为关键实体列表中关键实体的数量。
[0154] 具体的,关键实体的获取方式可以参照实施例一中的关键实体的获取方式,在此不再赘述。
[0155] 具体的,关键实体优先级的获取方式可以参照实施例一中的关键实体优先级的获取方式,在此不再赘述。
[0156] S410,根据预设实体标签优先级集,获取A'对应的第一候选优先级集SA'={SA'1,SA'2,……,SA'i,……,SA'm},SA'i={SA'i1,SA'i2,……,SA'ij,……,SA'in},SA'ij为A'ij对应的第一候选优先级。
[0157] 具体的,SA'ij的获取方式可以参照实施例一中RA'ij的获取方式,在此不再赘述。
[0158] S420,根据预设实体关系优先级集,获取获取A'对应的第二候选优先级集VA'={VA'1,
[0159] VA'2,……,VA'i,……,VA'm},VA'i={VA'i1,VA'i2,……,VA'ij,……,VA'in},VA'ij为A'ij对应的第二候选优先级。
[0160] 具体的,VA'ij的获取方式可以参照实施例二中TFAg‑1pj的获取方式或实施例三中VFB'dj的获取方式获取到的。
[0161] S430,根据SA'和VA',获取A'对应的最终优先级集EA'={EA'1,EA'2,……,EA'i,……,EA'm},EA'i={EA'i1,EA'i2,……,EA'ij,……,EA'in},其中,EA'ij符合如下条件:
[0162] EA'ij=(SA'ij+VA'ij)/2。
[0163] S440,根据EA'i,获取A的最终链接实体列表PA={PA1j,PA2j,……,PAij,……,PAmj},其中,PAij为Ai的最终链接实体;可以理解为:当EA'ij为EA'i中最大的最终优先级时,将A'i作为PAij。
[0164] 上述,通过两种方式对任一初始实体的关键实体对应的实体优先级进行处理,获取到更加精确的实体优先级,以使得根据更加精确的实体优先级,获取初始实体的链接实
体,进而提高了获取链接实体的准确度。
[0165] 本实施例四提供的一种基于实体关系获取链接实体的数据处理系统,系统包括初始实体列表、预设实体标签优先级集、预设实体关系优先级集、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:获取初始实体列表对应的关键实体集和关键实体集对应的关键实体优先级集,根据预设实体标签优先级集获取关键实体集
对应的第一候选优先级集,根据预设实体关系优先级集,获取关键实体对应的第二候选优
先级集,根据第一候选优先级集和第二候选优先级集,获取关键实体对应的最终优先级集,根据最终优先级集,获取初始实体列表对应的最终链接实体列表;上述,既考虑了实体标签与实体标签的关联程度,又考虑了实体关系与实体关系之间的关联程度,获取到了更加精
确的实体优先级,以使得根据更加精确的实体优先级,获取初始实体的链接实体,进而提高了获取链接实体的准确度。
[0166] 虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的
范围由所附权利要求来限定。