一种确定异常文本的数据处理系统转让专利

申请号 : CN202210976335.1

文献号 : CN115048925B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张正义林方傅晓航常鸿宇

申请人 : 中科雨辰科技有限公司

摘要 :

本发明提供了一种确定异常文本的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:根据初始文本,获取初始语句列表和初始字符;获取实体关系概率列表以及目标实体关系概率列表;获取目标实体关系的最大概率值;获取初始文本对应的优先级;优先级大于或等于预设的优先级阈值时,确定初始文本为目标文本;否则,确定初始文本为异常文本。本发明一方面在对文本进行处理的过程中,只使用一种预设模型将实体抽取出来,使用到的文本数据较少,降低标注人员的工作量,另一方面在实体关系的抽取过程中,使用多种方法将实体关系抽取出来,提高了模型对实体关系的预测准确性。

权利要求 :

1.一种确定异常文本的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:初始文本列表H={H1,……,Hi,……,Hm},Hi为第i个初始文本,i=1……m,m为初始文本的数量,当所述计算机程序被处理器执行时,实现以下步骤:S100、根据Hi,获取Hi对应的初始语句列表Di={Di1,……,Dij,……,Dini},Dij=

1 r sj r

(Dij,……,Dij,……,D ij),Dij为Hi中第j个初始语句的第r个初始字符,j=1……ni,ni为Hi中的初始语句的数量,r=1……sj,sj为第j个初始语句中初始字符的数量;

r r r r1 rx rq

S200、根据D ij,获取Dij对应的初始实体关系列表G ij={G ij,……,G ij,……,G ij},rx rG ij为Dij对应的第x类初始实体关系的概率值,x=1……q,q为初始实体关系的类型数量;

r rx r

S300、遍历Gij并且当G ij对应的初始实体关系的类型为非目标关系的类型时,将从G ijrx r r r1 ry rp ry中删除G ij,构建Dij对应的目标实体关系列表U ij={U ij,……,U ij,……,U ij},U ij为rDij对应的第y类目标实体关系的概率值,y=1……p,p为目标实体关系的类型数量;

r ry r

S400、遍历U ij且当U ij≥U0时,从Uij中获取目标实体关系的最大概率值,U0为预设的概率值阈值;

S500、根据目标实体关系的最大概率值,确定出Hi为异常文本。

2.根据权利要求1所述的确定异常文本的数据处理系统,其特征在于,在S200步骤中,所述初始实体关系为在初始语句对应的三元组中,实体与实体之间的关联关系。

3.根据权利要求1所述的确定异常文本的数据处理系统,其特征在于,在S200步骤中,q rx∑x=(1 G ij)=1。

4.根据权利要求1所述的确定异常文本的数据处理系统,其特征在于,在S300步骤中,所述非目标关系为实体与实体之间的无关联关系。

5.根据权利要求1所述的确定异常文本的数据处理系统,其特征在于,在S400步骤中,U0的取值范围值为0.5 0.6。

~

6.根据权利要求1所述的确定异常文本的数据处理系统,其特征在于,在S500步骤中还包括如下步骤:r

S501、基于U ij中目标实体关系的最大概率值,构建成Hi对应的第一中间数据列表Vi=

1 t kj t

{Vi1,……,Vij,……,Vini},Vij=(Vij,……,V ij,……,V ij),Vij为Hi对应的第j个初始语句中第t个目标字符的概率值,t=1……kj,kj为第j个初始语句中目标字符的数量;

t 0 0

S503、根据Vij,获取Fi,Fi符合如下条件:;

0

S505、当Fi≥F0时,确定Hi为目标文本,其中F0为预设的优先级阈值;

0

S507、当Fi

7.根据权利要求1所述的确定异常文本的数据处理系统,其特征在于,S500步骤中通过如下步骤:S501、根据目标实体关系的最大概率值,获取Hi对应的优先级列表Fi={Fi1,……,Fiy,……,Fip},Fiy为Hi的第y类目标实体关系对应的优先级;

其中,在S501步骤中还通过如下步骤获取Fiy:r

S5011、基于Uij中目标实体关系的最大概率值,构建成Hi对应的第二中间数据列表Ci=

1 g zy g g1 ge

{Ci1,……,Ciy,……,Cip},Ciy={C iy,……,Ciy,……,C iy},Ciy=(C iy,……,C iy,……,gwg geC iy),C iy为在Hi对应的第y个类目标实体关系中,第g个初始语句内的第e个目标字符的概率值,g=1……zy,zy为第y个类目标实体关系中第g个初始语句的数量,e=1……wg,wg为第g个初始语句中目标字符的数量;

ge

S5013、根据C iy,Fiy符合如下条件:;

S503、当Fip≥F0时,确定Hi为目标文本,其中F0为预设的优先级阈值;

S505、当Fip

8.根据权利要求6或7所述的确定异常文本的数据处理系统,其特征在于,F0的取值范围为0.8‑1。

9.根据权利要求6或7所述的确定异常文本的数据处理系统,其特征在于,所述目标文本是标注文本中的实体关系的优先级不小于预设优先级阈值的文本。

10.根据权利要求6或7所述的确定异常文本的数据处理系统,其特征在于,所述异常文本是标注文本中的实体关系的优先级小于预设优先级阈值的文本。

说明书 :

一种确定异常文本的数据处理系统

技术领域

[0001] 本发明涉及文本处理技术领域,特别是涉及一种确定异常文本的数据处理系统。

背景技术

[0002] 现有的异常文本确定方法,大多是通过判断文本中的实体是否满足预设条件来确定的,将待识别的文本输入到实体识别模型中,将各类实体从文本中抽取出来,并对抽取出的实体进行处理,当实体不满足预设条件时,判定该文本是异常文本。
[0003] 现有的实体关系抽取方法包括:确定目标句子包中每一句子的句子分布式向量和查询关系的关系分布式向量;其中,目标句子包中每一句子均包括第一实体和第二实体;根据所述句子分布式向量和所述关系分布式向量确定策略函数,并利用所述策略函数将所述目标句子包中的所有句子划分为正例和未标注实例;利用所述正例和未标注实例训练关系抽取模型,得到所述第一实体与所述第二实体的实体关系。
[0004] 但上述方法也存在以下技术问题:
[0005] 第一、在对文本进行处理的过程中,需要使用到多种预设模型将实体抽取出来,需要使用到大量的文本数据以及存储空间,标注人员的工作量过大。
[0006] 第二、在实体关系的抽取过程中,处理过程较为单一,只能通过一种方式将实体关系抽取出来,模型对实体关系的预测准确性较低。

发明内容

[0007] 针对上述技术问题,本发明采用的技术方案为:
[0008] 一种确定异常文本的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:初始文本列表H={H1,……,Hi,……,Hm},Hi为第i个初始文本,i=1……m,m为初始文本的数量,当计算机程序被处理器执行时,实现以下步骤:
[0009] S100、根据Hi,获取Hi对应的初始语句列表Di={Di1,……,Dij,……,Dini},Dij=1 r sj r
(Dij,……,Dij,……,D ij),Dij为Hi中第j个初始语句的第r个初始字符,j=1……ni,ni为Hi中的初始语句的数量,r=1……sj,sj为第j个初始语句中初始字符的数量。
[0010] S200、根据Drij,获取Drij对应的初始实体关系列表Grij={Gr1ij,……,Grxij,……,rq rx rG ij},G ij为Dij对应的第x类初始实体关系的概率值,x=1……q,q为初始实体关系的类型数量。
[0011] S300、遍历Grij并且当Grxij对应的初始实体关系的类型为非目标关系的类型时,将r rx r r r1 ry rp从G ij中删除G ij,构建D ij对应的目标实体关系列表U ij={U ij,……,U ij,……,U ij},ry r
U ij为Dij对应的第y类目标实体关系的概率值,y=1……p,p为目标实体关系的类型数量。
[0012] S400、遍历Urij且当Uryij≥U0时,从Urij中获取目标实体关系的最大概率值,U0为预设的置信度阈值。
[0013] S500、根据目标实体关系的最大概率值,确定出Hi为异常文本。
[0014] 本发明至少具有以下有益效果:
[0015] 本发明提供了一种确定异常文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,其中,数据库包括:初始文本集,当计算机程序被处理器执行时,实现以下步骤:根据初始文本,获取初始文本对应的初始语句列表和初始字符;根据初始字符,获取对应的实体关系概率列表,对实体关系概率列表进行遍历处理,获取初始字符对应的目标实体关系概率列表;对目标实体关系概率列表进行遍历处理,获取目标实体关系的最大概率值;根据目标实体关系的最大概率值,获取初始文本对应的优先级;优先级大于或等于预设的优先级阈值时,确定初始文本为目标文本;优先级小于预设的优先级阈值时,确定初始文本为异常文本;可知,本发明一方面能够在对文本进行处理的过程中,只使用一种预设模型将实体抽取出来,使用到的文本数据较少,降低标注人员的工作量;另一方面能够在实体关系的抽取过程中,使用多种方法将实体关系抽取出来,提高了模型对实体关系的预测准确性。

附图说明

[0016] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
[0017] 图1为本发明实施例提供的一种确定异常文本的数据处理系统执行计算机程序的流程图。

具体实施方式

[0018] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
[0019] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0020] 本实施例提供了一种确定异常文本的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:初始文本列表H={H1,……,Hi,……,Hm},Hi为第i个初始文本,i=1……m,m为初始文本的数量,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
[0021] S100、根据Hi,获取Hi对应的初始语句列表Di={Di1,……,Dij,……,Dini},Dij=1 r sj r
(Dij,……,Dij,……,D ij),Dij为Hi中第j个初始语句的第r个初始字符,j=1……ni,ni为Hi中的初始语句的数量,r=1……sj,sj为第j个初始语句中初始字符的数量。
[0022] 具体地,所述初始语句为对初始文本进行分句处理,获取到的语句,其中,本领域技术人员知晓,现有技术中任一分句处理方法均属于本实施例的保护范围,在此不再赘述。
[0023] 进一步地,所述初始字符是指初始语句中任一字符。
[0024] S200、根据Drij,获取Drij对应的初始实体关系列表Grij={Gr1ij,……,Grxij,……,rq rx rG ij},G ij为Dij对应的第x类初始实体关系的概率值,x=1……q,q为初始实体关系的类型数量。
[0025] 具体地,所述初始实体关系为在初始语句对应的三元组中,实体与实体之间的关联关系,其中,所述实体关系的概率值和所述三元组都是通过预设模型获取的。
[0026] 进一步地,所述预设模型为主动学习模型,本领域技术人员知晓,现有技术中任一主动学习模型均均属于本实施例的保护范围,在此不再赘述。
[0027] 具体地,∑qx=(1 Grxij)=1。
[0028] S300、遍历Grij并且当Grxij对应的初始实体关系的类型为非目标关系的类型时,将r rx r r r1 ry rp从G ij中删除G ij,构建D ij对应的目标实体关系列表U ij={U ij,……,U ij,……,U ij},ry r
U ij为Dij对应的第y类目标实体关系的概率值,y=1……p,p为目标实体关系的类型数量。
[0029] 具体地,所述非目标关系为实体与实体之间的无关联状态的关系,例如,所述非目标关系。
[0030] S400、遍历Urij且当Uryij≥U0时,从Urij中获取目标实体关系的最大概率值,U0为预设的概率值阈值。
[0031] 具体地,U0的取值范围值为0.5~0.6。
[0032] 优选地,U0取值为0.5,能够避免阈值设置过高,导致一些关系概率被删除,导致遗漏数据,进而导致对异常文本的判断不够准确。
[0033] S500、根据目标实体关系的最大概率值,确定出Hi为异常文本。
[0034] 具体地,步骤S500包括以下步骤:
[0035] S501、基于Urij中目标实体关系的最大概率值,构建成Hi对应的第一中间数据列表1 t kj t
Vi={Vi1,……,Vij,……,Vini},Vij=(Vij,……,Vij,……,V ij),Vij为Hi对应的第j个初始语句中第t个目标字符的概率值,t=1……kj,kj为第j个初始语句中目标字符的数量。
[0036] S503、根据Vtij,获取F0i,F0i符合如下条件:
[0037] 。
[0038] S505、当F0i≥F0时,确定Hi为目标文本,其中F0为预设的优先级阈值。
[0039] S507、当F0i
[0040] 本实施例在对文本进行处理的过程中,只使用一种预设模型将文本中的实体以及数据抽取出来,而不是使用多种预设模型来抽取文本中的实体及数据,使用到的文本数据较少,降低了标注人员的工作量。
[0041] 在一个具体的实施例中,步骤S500还包括以下步骤:
[0042] S501、根据目标实体关系的最大概率值,获取Hi对应的优先级列表Fi={Fi1,……,Fiy,……,Fip},Fiy为Hi的第y类目标实体关系对应的优先级。
[0043] 其中,在S501步骤中还通过如下步骤获取Fiy:
[0044] S5011、基于Urij中目标实体关系的最大概率值,构建成Hi对应的第二中间数据列1 g zy g g1
表Ci={Ci1,……,Ciy,……,Cip},Ciy={C iy,……,C iy,……,C iy},C iy=(C iy,……,ge gwg ge
C iy,……,C iy),C iy为在Hi对应的第y个类目标实体关系中,第g个初始语句内的第e个目标字符的概率值,g=1……zy,zy为第y个类目标实体关系中第g个初始语句的数量,e=1……wg,wg为第g个初始语句中目标字符的数量。
[0045] S5013、根据Cgeiy,Fiy符合如下条件:
[0046]   。
[0047] S503、当Fip≥F0时,确定Hi为目标文本,其中F0为预设的优先级阈值。
[0048] S505、当Fip
[0049] 本实施例相较于上述实施例,在确定异常文本时,采用了分类的方法,只有实体间不存在任意一类关系时,才可以确定初始文本为异常文本,提高了模型对实体关系的预测准确性。
[0050] 在另一个具体实施例中,步骤S500还包括以下步骤:
[0051] S501、基于Urij中目标实体关系的最大概率值,构建成Hi对应的第一中间数据列表1 t kj t
Vi={Vi1,……,Vij,……,Vini},Vij=(Vij,……,Vij,……,V ij),Vij为Hi对应的第j个初始语句中第t个目标字符的概率值,t=1……kj,kj为第j个初始语句中目标字符的数量。
[0052] S503、根据Vtij,获取F0i,F0i符合如下条件:
[0053]   。
[0054] S505、当F0i≥F0时,确定Hi为目标文本,其中,F0为预设的优先级阈值。
[0055] S507、当F0i
[0056] S509、根据Hi目标实体关系的最大概率值,获取Hi对应的优先级列表Fi={Fi1,……,Fiy,……,Fip},Fiy为Hi的第y类目标实体关系对应的优先级。
[0057] 进一步地,在S509步骤中还通过如下步骤获取Fiy:
[0058] S5091、基于Urij中目标实体关系的最大概率值,构建成Hi对应的第二中间数据列1 g zy g g1
表Ci={Ci1,……,Ciy,……,Cip},Ciy={C iy,……,C iy,……,C iy},C iy=(C iy,……,ge gwg ge
C iy,……,C iy),C iy为在Hi对应的第y个类目标实体关系中,第g个初始语句内的第e个目标字符的概率值,g=1……zy,zy为第y个类目标实体关系中第g个初始语句的数量,e=1……wg,wg为第g个初始语句中目标字符的数量。
[0059] S5093、根据Cgeiy,Fiy符合如下条件:
[0060]   。
[0061] S511、当Fip≥F0时,确定Hi为目标文本,其中F0为预设的优先级阈值。
[0062] S513、当Fip
[0063] 本实施例相较于第一实施例,可以降低把目标文本判断成为异常文本的概率,进一步提高了模型对实体关系的预测准确性,相较于第二实施例,,提高了效率,减少了标注人员的工作量。
[0064] 具体地,所述目标字符为当Uryij≥U0时,Uryij对应的初始字符。
[0065] 具体地,F0的取值范围为0.8‑1。
[0066] 优选地,F0取值为0.8,能够避免阈值设置过低,导致对异常文本的判断不够准确。
[0067] 更优选地,F0取值为0.9,能够更加准确的对异常文本进行判断。
[0068] 最优选地,F0取值为1,能够百分之百确定初始文本为异常文本。
[0069] 具体地,所述目标文本是标注文本中的实体关系的优先级不小于优先级阈值的文本。
[0070] 具体地,所述异常文本是标注文本中的实体关系的优先级小于优先级阈值的文本,其中,异常文本可以理解为在预设的实体关系类型中,不存在初始文本对应的实体关系类型的初始文本,或者异常文本也可以理解为,对实体关系标注错误的初始文本。
[0071] 本实施例提供了一种确定异常文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,其中,数据库包括:初始文本集,当计算机程序被处理器执行时,实现以下步骤:根据初始文本,获取初始文本对应的初始语句列表和初始字符;根据初始字符,获取对应的实体关系概率列表,对实体关系概率列表进行遍历处理,获取初始字符对应的目标实体关系概率列表;对目标实体关系概率列表进行遍历处理,获取目标实体关系的最大概率值;根据目标实体关系的最大概率值,获取初始文本对应的优先级;优先级大于或等于预设的优先级阈值时,确定初始文本为目标文本;优先级小于预设的优先级阈值时,确定初始文本为异常文本;可知,本发明一方面能够在对文本进行处理的过程中,只使用一种预设模型将实体抽取出来,使用到的文本数据较少,降低标注人员的工作量;另一方面能够在实体关系的抽取过程中,使用多种方法将实体关系抽取出来,提高了模型对实体关系的预测准确性。
[0072] 虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。