一种基于主动学习确定异常文本的数据处理系统转让专利

申请号 : CN202210976431.6

文献号 : CN115062137B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张正义傅晓航林方常鸿宇

申请人 : 中科雨辰科技有限公司

摘要 :

本发明涉及文本处理领域,提供了一种基于主动学习确定异常文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,数据库包括:初始文本列表,当计算机程序被处理器执行时,实现以下步骤:获取初始文本对应的事件摘要列表;获取事件摘要对应的触发词列表;获取触发词对应的论元集;获取论元对应的论元角色集;根据事件摘要的触发词、论元和论元角色确定异常文本;可知,本发明一方面能够在对文本进行处理时,使用三种学习模型分别抽取出文本中的触发词、论元以及论元角色;另一方面能够在对异常文本进行判断时,通过不同的方式根据事件的触发词、论元以及论元角色确定出是否为异常文本,提高了确定异常文本的准确度。

权利要求 :

1.一种基于主动学习确定异常文本的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:初始文本列表H={H1,……,Hi,……,Hm},Hi为第i个初始文本,i=1……m,m为初始文本的数量,当所述计算机程序被处理器执行时,实现以下步骤:S100、根据Hi,获取Hi对应的事件摘要列表Ai={Ai1,……,Aij,……,Ain(i)},Aij为Hi中第j个事件摘要,j=1……n(i),n(i)为Hi中的事件的数量;

S200、遍历Ai,获取Hi对应的触发词列表Bi={Bi1,……,Bij,……,Bin(i)},Bij为Aij对应的触发词;

1

S300、根据Bi,获取Bi对应的论元集Ci={Ci1,……,Cij,……,Cin(i)},Cij={Cij,……,e f eCij,……,Cij},Cij为Bij对应的第e个论元,e=1……f,f为Bij对应的论元的数量;

S400、根据Bi和Ci,获取Ci对应的论元角色集Di={Di1,……,Dij,……,Din(i)},Dij=

1 e f e e

{Dij,……,Dij,……,Dij},Dij为Cij与Bij之间的论元角色;

1

S500、根据Bi,获取Hi对应的第一优先级Fi;其中,在S500中还包括如下步骤:

1 r s(j) r

S501、获取Aij对应的文本字符串A'ij=(A'ij,……,A'ij,……,A' ij),A'ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量;

S503、将A'ij输入至预设的第一学习模型中,获取A'ij对应的第一概率集Gij=

1 r s(j) r r1 rx rp rx r{Gij,……,Gij,……,G ij},Gij={G ij,……,G ij,……,G ij},G ij为A'ij对应的第x类触发词的概率值,x=1……p,p为触发词的类型数量;

rx r rx r

S505、当G ij对应的触发词的类型为第一非标准类型时,将从Gij中删除G ij,构建Gijr r1 rα rp‑1 rα r对应的第一目标概率列表G'ij={G' ij,……,G' ij,……,G' ij},G' ij为A'ij对应的第α类触发词的概率值,α=1……p‑1;

rα 0 01 0β 0

S507、当G' ij≥G0时,获取Bij对应的第一中间数据列表Gij={G ij,……,G ij,……,Gγ 0βij},G ij为Bij对应的第β个第一目标字符的概率值,β=1……γ,γ为Bij对应的第一目标字符的数量,其中,G0为预设的第一概率阈值;

0 1 1

S509、根据Gij,获取Fi;其中,Fi符合如下条件:

1 1 1

S600、当Fi<F0,确定Hi为异常文本,其中,F0为预设的第一优先级阈值;

1 1

S700、当Fi≥F0,执行S800;

2

S800,根据Ci,获取Hi对应的第二优先级Fi;其中,在S800中还包括如下步骤:

1 r s(j) r

S801、获取Aij对应的文本字符串A'ij=(A'ij,……,A'ij,……,A' ij),A'ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量;

S803、将A'ij输入至预设的第二学习模型中,获取A'ij对应的第二概率集Uij=

1 r s(j) r r1 ry rq ry r{Uij,……,Uij,……,U ij},Uij={U ij,……,U ij,……,U ij},U ij为A'ij对应的第y类论元的概率值,y=1……q,q为论元的类型数量;

ry r ry r

S805、当U ij对应的论元的类型为第二非标准类型时,将从Uij中删除U ij,构建Uij对r r1 rδ rq‑1 rδ r应的第二目标概率列表U'ij={U' ij,……,U' ij,……,U' ij},U' ij为A'ij对应的第δ类论元的概率值,δ=1……q‑1;

rδ e 0 01 0

S807、当U' ij≥U0时,获取C ij对应的第二中间数据列表Ue ij={Ue ij,……,Ueε 0η 0ε e eij,……,Ue ij},Ue ij为C ij对应的第ε个第二目标字符的概率值,ε=1……η,η为Cij对应的第二目标字符的数量,其中,U0为预设的第二概率阈值;

0 2 2

S809、根据Ueij,获取Fi;其中,Fi符合如下条件:

2 2 2

S900、当Fi<F0,确定Hi为异常文本,其中,F0为预设的第二优先级阈值;

2 2

S1000、当Fi≥F0,执行S1100;

3

S1100、根据Di,获取Hi对应的第三优先级Fi;其中,在S1100中还包括如下步骤:

1 r s(j) r

S1101、获取Aij对应的文本字符串A'ij=(A'ij,……,A'ij,……,A' ij),A'ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量;

S1103、将A'ij输入至预设的第三学习模型中,获取A'ij对应的第三概率集Lij=

1 r s(j) r r1 rz rg rz r{Lij,……,Lij,……,L ij},Lij={L ij,……,L ij,……,L ij},L ij为A'ij对应的第zg rz类论元角色的概率值且∑z=1(L ij)=1;

rz r rz

S1105、当L ij对应的论元角色的类型为第三非标准类型时,将从Lij中删除L ij,构建r r r1 rθ rg‑1 rθLij对应的第三目标概率列表L'ij={L' ij,……,L' ij,……,L' ij},L' ij为A'rij对应的第θ类论元的概率值,θ=1……g‑1;

rθ e 0 01 0

S1107、当L' ij≥L0时,获取D ij对应的第三中间数据列表Le ij={Le ij,……,Leψ 0η 0ψ e eij,……,Le ij},Le ij为D ij对应的第ψ个第三目标字符的概率值,ψ=1……ξ,ξ为Dij对应e e的第三目标字符的数量,其中,Dij为Cij与Bij之间的论元角色,L0为预设的第三概率阈值;

0 3 3

S1109、根据Leij,获取Fi;其中,Fi符合如下条件:

3 3 3

S1200、当Fi<F0,确定Hi为异常文本,其中,F0为预设的第三优先级阈值;

3 3

S1300、当Fi≥F0,确定Hi为正常文本。

2.根据权利要求1所述的基于主动学习确定异常文本的数据处理系统,其特征在于,在1

S509中还通过如下步骤获取Fi:

0 1 1

S5091、根据Gij,获取Bij对应的优先级Fij,其中,Fij符合如下条件:

1 1

S5093、根据F ij,获取Bij对应的第一类触发词的优先级列表F'ij={F'ij,……,Ft k t'ij,……,F'ij},F'ij为Bij对应的第t个第一类触发词的优先级,t=1……k,k为Bij对应的第一类触发词的数量;

S5095、根据F'ij,获取Hi对应的第一优先级列表,其中,任一Hi对应的第一优先级F1符合如下条件:S5097、遍历所述第一优先级列表且将所述第一优先级列表中最小的第一优先级作为1

Fi。

3.根据权利要求2所述的基于主动学习确定异常文本的数据处理系统,其特征在于,Bij对应的第一类触发词包括Bij和在Bi中与Bij对应的触发词的类型一致的触发词。

4.根据权利要求1所述的基于主动学习确定异常文本的数据处理系统,其特征在于,在2

S809中还通过如下步骤获取Fi:

0 2 2 2

S8091、根据Ue ij,获取Cij对应的第一中间优先级列表Wij={W1ij,……,Weij,……,

2 2 e 2

Wfij},Weij为Cij对应的第一中间优先级,其中,Weij符合如下条件:

2 2

S8093、遍历Wij且从W ij中获取最小的第一中间优先级,构建Ci对应的第二中间优先级列表;

S8095、遍历所述第二中间优先级列表且将所述第二中间优先级列表中最小的第二中2

间优先级作为Fi。

5.根据权利要求1所述的基于主动学习确定异常文本的数据处理系统,其特征在于,在2

S809中还通过如下步骤获取Fi:

0 2 2 2 2 2

S8091、根据Ue ij,获取Ci对应论元优先级列表Wi={Wi1,……,Wij,……,W in(i)},Wij

2 2 2 2 e 2

={W1ij,……,We ij,……,Wfij},Weij为Cij对应的第一中间优先级,其中,Weij符合如下条件:

2 e e e1

S8093、根据We ij,获取C ij对应的第二类论元的优先级列表W'ij={W' ij,……,Wev eh ev e e' ij,……,W' ij},W' ij为C ij对应的第v个第一类论元的优先级,v=1……h,h为Cij对应的第一类论元的数量;

S8095、根据W'ij,获取Hi对应的第二优先级列表,其中,任一Hi对应的第二优先级F2符合如下条件:S8097、遍历所述第二优先级列表且将所述第二优先级列表中最小的第二优先级作为2

Fi。

6.根据权利要求5所述的基于主动学习确定异常文本的数据处理系统,其特征在于,e e eCij对应的第二类论元包括Cij和在Ci中与Cij对应的论元的类型一致的论元。

说明书 :

一种基于主动学习确定异常文本的数据处理系统

技术领域

[0001] 本发明涉及文本处理领域,特别是涉及一种基于主动学习确定异常文本的数据处理系统。

背景技术

[0002] 现有的获取异常文本的方法,大多是通过抽取文本中的事件得到的,现有的抽取事件的方法大多为将文本输入到预先训练好的事件抽取模型中,通过事件抽取模型获取待抽取文本中的数据的类别标签,其中,文本中的类别标签包括文本中存在的事件触发词类型标签和事件论元类型的标签。
[0003] 但上述方法也存在以下技术问题:
[0004] 在对文本进行处理的过程中,使用一种事件抽取模型抽取出所有的文本单元的类别标签,存在触发词和论元抽取错误的的情况,在对异常文本进行判断的过程中,只能通过一种方式根据从文本中抽取出事件的触发词或者论元确定出是否为异常文本,对异常文本的判断准确度较低。

发明内容

[0005] 针对上述技术问题,本发明采用的技术方案为:
[0006] 一种基于主动学习确定异常文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,其中,数据库包括:初始文本列表H={H1,……,Hi,……,Hm},Hi为第i个初始文本,i=1……m,m为初始文本的数量,当所述计算机程序被处理器执行时,实现以下步骤:
[0007] S100、根据Hi,获取Hi对应的事件摘要列表Ai={Ai1,……,Aij,……,Ain(i)},Aij为Hi中第j个事件摘要,j=1……n(i),n(i)为Hi中的事件的数量。
[0008] S200、遍历Ai,获取Hi对应的触发词列表Bi={Bi1,……,Bij,……,Bin(i)},Bij为Aij对应的触发词。
[0009] S300、根据Bi,获取Bi对应的论元集Ci={Ci1,……,Cij,……,Cin(i)},Cij={C1ij,……,e f eCij,……,Cij},Cij为Bij对应的第e个论元,e=1……f,f为Bij对应的论元的数量。
[0010] S400、根据Bi和Ci,获取Ci对应的论元角色集Di={Di1,……,Dij,……,Din(i)},Dij=1 e f e e
{Dij,……,Dij,……,Dij},Dij为Cij与Bij之间的论元角色。
[0011] S500、根据Bi,获取Hi对应的第一优先级F1i。
[0012] S600、当F1i<F10,确定Hi为异常文本,其中,F10为预设的第一优先级阈值。
[0013] S700、当F1i≥F10,执行S800。
[0014] S800,根据Ci,获取Hi对应的第二优先级F2i。
[0015] S900、当F2i<F20,确定Hi为异常文本,其中,F20为预设的第二优先级阈值。
[0016] S1000、当F2i≥F20,执行S1100。
[0017] S1100、根据Di,获取Hi对应的第三优先级F3i。
[0018] S1200、当F3i<F30,确定Hi为异常文本,其中,F30为预设的第三优先级阈值。
[0019] S1300、当F3i≥F30,确定Hi为正常文本。
[0020] 本发明至少具有以下有益效果:
[0021] 本发明提供了一种基于主动学习确定异常文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,数据库包括:初始文本列表,当计算机程序被处理器执行时,实现以下步骤:获取初始文本对应的事件摘要列表;获取事件摘要对应的触发词列表;获取触发词对应的论元集;获取论元及对应的论元角色集;根据事件摘要的触发词、论元和论元角色确定异常文本;可知,本发明一方面能够在对文本进行处理的过程中,使用三种学习模型分别抽取出文本中的触发词、论元以及论元角色;另一方面能够在对异常文本进行判断的过程中,通过不同的方式根据事件的触发词、论元以及论元角色确定出是否为异常文本,提高了确定异常文本的准确度。

附图说明

[0022] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023] 图1为本发明实施例提供的一种基于主动学习确定异常文本的数据处理系统执行计算机程序的流程图。

具体实施方式

[0024] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0026] 本实施例提供了一种基于主动学习确定异常文本的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:初始文本列表H={H1,……,Hi,……,Hm},Hi为第i个初始文本,i=1……m,m为初始文本的数量,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
[0027] S100、根据Hi,获取Hi对应的事件摘要列表Ai={Ai1,……,Aij,……,Ain(i)},Aij为Hi中第j个事件摘要,j=1……n(i),n(i)为Hi中的事件的数量,其中,本领域技术人员知晓,通过文本获取事件摘要的现有技术中任一方法均属于本实施例的保护范围,在此不再赘述。
[0028] S200、遍历Ai,获取Hi对应的触发词列表Bi={Bi1,……,Bij,……,Bin(i)},Bij为Aij对应的触发词,其中,本领域技术人员知晓,通过事件摘要获取触发词的现有技术中任一方法均属于本实施例的保护范围,在此不再赘述。
[0029] S300、根据Bi,获取Bi对应的论元集Ci={Ci1,……,Cij,……,Cin(i)},Cij={C1ij,……,e f eCij,……,C ij},Cij为Bij对应的第e个论元,e=1……f,f为Bij对应的论元的数量,其中,本领域技术人员知晓,通过事件摘要获取论元的现有技术中任一方法均属于本实施例的保护范围,在此不再赘述。
[0030] S400、根据Bi和Ci,获取Ci对应的论元角色集Di={Di1,……,Dij,……,Din(i)},Dij=1 e f e e
{Dij,……,Dij,……,Dij},Dij为Cij与Bij之间的论元角色,其中,本领域技术人员知晓,通过事件摘要获取论元角色的现有技术中任一方法均属于本实施例的保护范围,在此不再赘述。
[0031] S500、根据Bi,获取Hi对应的第一优先级F1i。
[0032] 具体地,在S500中还包括如下步骤:
[0033] S501、获取Aij对应的文本字符串A'ij=(A'1ij,……,A'rij,……,A's(j)ij),A'rij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量。
[0034] S503、将A'ij输入至预设的第一学习模型中,获取A'ij对应的第一概率集Gij=1 r s(j) r r1 rx rp rx r
{Gij,……,Gij,……,G ij},G ij={G ij,……,G ij,……,G ij},G ij为A'ij对应的第x类r
触发词的概率值,可以理解为:文本字符A'ij为x类触发词的概率,x=1……p,p为触发词的类型数量。
[0035] 具体地,∑px=1(Grxij)=1。
[0036] S505、当Grxij对应的触发词的类型为第一非标准类型时,将从Grij中删除Grxij,构建r r r1 rα rp‑1 rα rGij对应的第一目标概率列表G'ij={G' ij,……,G' ij,……,G' ij},G' ij为A'ij对应的r
第α类触发词的概率值,可以理解为:文本字符A'ij为α类触发词的概率,α=1……p‑1。
[0037] 具体地,所述第一非标准类型为非预设的触发词的类型,其中,本领域技术人员知晓,可以根据实际需求设置预设触发词的类型。
[0038] S507、当G'rαij≥G0时,获取Bij对应的第一中间数据列表G0ij={G01ij,……,G0β 0γ 0βij,……,G ij},G ij为Bij对应的第β个第一目标字符的概率值,可以理解为:Bij为第β个第一目标字符的概率,β=1……γ,γ为Bij对应的第一目标字符的数量,其中,G0为预设的第一概率阈值。
[0039] 具体地,第一目标字符可以理解为:在A'ij中满足当G'rαij≥G0时的文本字符。
[0040] 具体地,G0的取值范围为0.5‑0.6。
[0041] S509、根据G0ij,获取F1i。
[0042] 进一步的,F1i符合如下条件:
[0043] 。
[0044] 上述,在确定事件摘要的触发词时,采用第一学习模型,将文本中的所有事件的触发词抽取出来,能够准确无误的获取到事件的触发词,提高了模型抽取事件的准确度,进而可以准确的通过触发词的概率,确定文本是否为异常文本。
[0045] 在另一个具体的实施例中,在S509中还通过如下步骤获取F1i:
[0046] S5091、根据G0ij,获取Bij对应的优先级F1ij,其中,F1ij符合如下条件:
[0047] 。
[0048] S5093、根据F1ij,获取Bij对应的第一类触发词的优先级列表F'ij={F'1ij,……,Ft k t'ij,……,F'ij},F'ij为Bij对应的第t个第一类触发词的优先级,t=1……k,k为Bij对应的第一类触发词的数量。
[0049] S5095、根据F'ij,获取Hi对应的第一优先级列表,其中,任一Hi对应的第一优先级F1符合如下条件:
[0050] 。
[0051] S5097、遍历所述第一优先级列表且将所述第一优先级列表中最小的第一优先级1
作为Fi。
[0052] 进一步的,Bij对应的第一类触发词包括Bij和在Bi中与Bij对应的触发词的类型一致的触发词。
[0053] 相较于上述实施例,在本实施例中在确定事件摘要的触发词时,对获取到的事件摘要的触发词进行了分类处理,根据触发词的类型确定出任一触发词的类型的概率值,进而确定触发词的类型。
[0054] S600、当F1i<F10,确定Hi为异常文本,其中,F10为预设的第一优先级阈值。
[0055] S700、当F1i≥F10,执行S800。
[0056] 具体地,F10的取值范围为0.8‑1。
[0057] S800,根据Ci,获取Hi对应的第二优先级F2i。
[0058] 具体地,在S800中还包括如下步骤:
[0059] S801、获取Aij对应的文本字符串A'ij=(A'1ij,……,A'rij,……,A's(j)ij),A'rij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量。
[0060] S803、将A'ij输入至预设的第二学习模型中,获取A'ij对应的第二概率集Uij=1 r s(j) r r1 ry rq ry r
{Uij,……,Uij,……,U ij},U ij={U ij,……,U ij,……,U ij},U ij为A'ij对应的第y类r
论元的概率值,可以理解为:文本字符A'ij为y类论元的概率,y=1……q,q为论元的类型数量。
[0061] 具体地,∑qy=1(Uryij)=1。
[0062] S805、当Uryij对应的论元的类型为第二非标准类型时,将从Urij中删除Uryij,构建r r r1 rδ rq‑1 rδ 'rUij对应的第二目标概率列表U'ij={U' ij,……,U' ij,……,U' ij},U' ij为A ij对应的r
第δ类论元的概率值,可以理解为:文本字符A'ij为δ类论元的概率,δ=1……q‑1。
[0063] 具体地,所述第二非标准类型为非预设的论元的类型,其中,本领域技术人员知晓,可以根据实际需求设置预设论元的类型。
[0064] S807、当U'rδij≥U0时,获取Ceij对应的第二中间数据列表Ue0ij={Ue01ij,……,Ue0ε 0η 0η e eij,……,Ue ij},Ue ij为Cij对应的第ε个第二目标字符的概率值,可以理解为:Cij为第ε个e
第二目标字符的概率,ε=1……η,η为C ij对应的第二目标字符的数量,其中,U0为预设的第二概率阈值。
[0065] 具体地,所述第二目标字符可以理解为:在A'ij中满足当U'rδij≥U0时的文本字符。
[0066] 具体地,U0的取值范围为0.5‑0.6。
[0067] S809、根据Ue0ij,获取F2i。
[0068] 进一步的,F2i符合如下条件:
[0069]   。
[0070] 上述,在确定事件摘要的论元时,采用第二学习模型,将文本中的所有事件的论元抽取出来,能够准确无误的获取到事件的论元,提高了模型抽取事件的准确度,进而可以准确的通过论元的概率,确定文本是否为异常文本。
[0071] 在一个具体的实施例中,在S809中还通过如下步骤获取F1i:
[0072] S8091、根据Ue0ij,获取Cij对应的第一中间优先级列表W2ij={W12ij,……,2 2 2 e 2
Weij,……,Wfij},Weij为Cij对应的第一中间优先级,其中,Weij符合如下条件:
[0073]   。
[0074] S8093、遍历W2ij且从W2ij中获取最小的第一中间优先级,构建Ci对应的第二中间优先级列表。
[0075] S8095、遍历所述第二中间优先级列表且将所述第二中间优先级列表中最小的第2
二中间优先级作为Fi。
[0076] 相较于上述实施例,在本实施例中在确定事件摘要的论元时,对获取到的事件摘要的论元进行了分类处理,根据论元的类型确定出任一论元的类型的概率值,进而确定论元的类型。
[0077] 在另一个具体的实施例中,在S809中还通过如下步骤获取F2i:
[0078] S8091、根据Ue0ij,获取Ci对应论元优先级列表W2i={W2i1,……,W2ij,……,W2in(i)},2 2 2 2 2 e 2
Wij={W1ij,……,Weij,……,Wf ij},We ij为Cij对应的第一中间优先级,其中,Weij符合如下条件:
[0079]   。
[0080] S8093、根据We2ij,获取Ceij对应的第二类论元的优先级列表W'eij={W'e1ij,……,Wev eh ev e e' ij,……,W' ij},W' ij为Cij对应的第v个第一类论元的优先级,v=1……h,h为Cij对应的第一类论元的数量。
[0081] S8095、根据W'ij,获取Hi对应的第二优先级列表,其中,任一Hi对应的第二优先级F2符合如下条件:
[0082]   。
[0083] S8097、遍历所述第二优先级列表且将所述第二优先级列表中最小的第二优先级2
作为Fi。
[0084] 相较于上述实施例,在本实施例中在确定事件摘要的论元时,对获取到的事件摘要的论元,按照所属初始文本进行划分处理,之后再对初始文本中的论元进行分类处理,进而确定文本是否为异常文本。
[0085] 进一步的,Ceij对应的第二类论元包括Ceij和在Ci中与Ceij对应的论元的类型一致的论元。
[0086] S900、当F2i<F20,确定Hi为异常文本,其中,F20为预设的第二优先级阈值。
[0087] S1000、当F2i≥F20,执行S1100。
[0088] 具体地,F20的取值范围为0.8‑1。
[0089] S1100、根据Bi和Ci,获取Hi对应的第三优先级F30。
[0090] 具体地,在S1100中还包括如下步骤:
[0091] S1101、获取Aij对应的文本字符串A'ij=(A'1ij,……,A'rij,……,A's(j)ij),A'rij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量。
[0092] S1103、将A'ij输入至预设的第三学习模型中,获取A'ij对应的第三概率集Lij=1 r s(j) r r1 rz rg rz r
{Lij,……,Lij,……,L ij},L ij={L ij,……,L ij,……,L ij},L ij为A'ij对应的第z类r
论元角色的概率值,可以理解为:文本字符A'ij为z类论元角色的概率,z=1……g,g为论元角色的类型数量。
[0093] 具体地,∑gz=1(Lrzij)=1。
[0094] S1105、当Lrzij对应的论元角色的类型为第三非标准类型时,将从Lrij中删除Lrzij,r r r1 rθ rg‑1 rθ 'r构建Lij对应的第三目标概率列表L'ij={L' ij,……,L' ij,……,L' ij},L' ij为A ij对r
应的第θ类论元的概率值,可以理解为:文本字符A'ij为θ类论元角色的概率,θ=1……g‑1。
[0095] 具体地,所述第三非标准类型为非预设的论元角色的类型,其中,本领域技术人员知晓,可以根据实际需求设置预设论元角色的类型。
[0096] S1107、当L'rθij≥L0时,获取Deij对应的第三中间数据列表Le0ij={Le01ij,……,Le0ψ 0η 0ψ e eij,……,Le ij},Le ij为Dij对应的第ψ个第三目标字符的概率值,可以理解为:Dij为第ψ个e e e
第三目标字符的概率,ψ=1……ξ,ξ为D ij对应的第三目标字符的数量,其中,Dij为Cij与Bij之间的论元角色,L0为预设的第三概率阈值。
[0097] 具体地,所述第三目标字符可以理解为:在A'ij中满足当L'rθij≥L0时的文本字符。
[0098] 具体地,L0的取值范围为0.5‑0.6。
[0099] S1109、根据Le0ij,获取F3i。
[0100] 进一步的,F3i符合如下条件:
[0101]   。
[0102] 上述,在确定事件摘要的论元角色时,采用第三学习模型,将文本中的所有事件的论元角色抽取出来,能够准确无误的获取到事件的论元角色,提高了模型抽取事件的准确度,进而可以准确的通过论元角色的概率,确定文本是否为异常文本。
[0103] 在一个具体的实施例中,在S1109中还通过如下步骤获取F3i:
[0104] S11091、根据Le0ij,获取Dij对应的第三中间优先级列表T2ij={T12ij,……,2 2 2 e 2
Teij,……,Tfij},Teij为Dij对应的第三中间优先级,其中,Teij符合如下条件:
[0105]   。
[0106] S11093、遍历T2ij且从T2ij中获取最小的第三中间优先级,构建Di对应的第四中间优先级列表。
[0107] S11095、遍历所述第四中间优先级列表且将所述第四中间优先级列表中最小的第3
四中间优先级作为Fi。
[0108] 相较于上述实施例,在本实施例中在确定事件摘要的论元角色时,对获取到的事件摘要的论元角色进行了分类处理,根据论元角色的类型确定出任一论元角色的类型的概率值,进而确定论元角色的类型。
[0109] 在另一个具体的实施例中,在S1109中还通过如下步骤获取F3i:
[0110] S11091、根据Le0ij,获取Di对应论元角色优先级列表T2i={T2i1,……,T2ij,……,2 2 2 2 2 2 e 2
Tin(i)},Tij={T1ij,……,Teij,……,Tfij},Te ij为Dij对应的第三中间优先级,其中,Te ij符合如下条件:
[0111]   。
[0112] S11093、根据Te2ij,获取Deij对应的第二类论元角色的优先级列表T'eij={Te1 ed el ed e' ij,……,T' ij,……,T' ij},T' ij为D ij对应的第d个第一类论元角色的优先级,d=e
1……l,l为Cij对应的第一类论元角色的数量。
[0113] S11095、根据T'ij,获取Hi对应的第三优先级列表,其中,任一Hi对应的第三优先级F3符合如下条件:
[0114]   。
[0115] S11097、遍历所述第三优先级列表且将所述第三优先级列表中最小的第三优先级3
作为Fi。
[0116] 相较于上述实施例,在本实施例中在确定事件摘要的论元角色时,对获取到的事件摘要的论元角色,按照所属初始文本进行划分处理,之后再对初始文本中的论元角色进行分类处理,进而确定文本是否为异常文本。
[0117] 进一步的,Deij对应的第二类论元角色包括Deij和在Di中与Deij对应的论元角色的类型一致的论元角色。
[0118] S1200、当F3i<F30,确定Hi为异常文本,其中,F30为预设的第三优先级阈值。
[0119] S1300、当F3i≥F30,确定Hi为正常文本。
[0120] 具体地,F30的取值范围为0.8‑1。
[0121] 具体地,所述第一学习模型为针对触发词的主动学习模型,所述第二学习模型为针对论元的主动学习模型,所述第三学习模型为针对论元角色的主动学习模型,其中,本领域技术人员知晓,现有技术中任一主动学习模型均属于本实施例的保护范围,在此不再赘述。
[0122] 优选地,G0=U0=L0=0.5,能够避免阈值设置过高,导致一些数据被删除,进而导致事件摘要的触发词、论元以及论元角色抽取遗漏,对异常文本判断错误。
[0123] 优选地,F10取值为1,F20取值为0.9,F30取值为0.8,能够准确的抽取出触发词,避免针对触发词对论元和论元角色抽取错误或遗漏,能够更加准确的对异常文本进行判断。
[0124] 本发明提供了一种基于主动学习确定异常文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,数据库包括:初始文本列表,当计算机程序被处理器执行时,实现以下步骤:获取初始文本对应的事件摘要列表;获取事件摘要对应的触发词列表;获取触发词对应的论元集;获取论元及对应的论元角色集;根据事件摘要的触发词、论元和论元角色确定异常文本;可知,本发明一方面能够在对文本进行处理的过程中,使用三种学习模型分别抽取出文本中的触发词、论元以及论元角色;另一方面能够在对异常文本进行判断的过程中,通过不同的方式根据事件的触发词、论元以及论元角色确定出是否为异常文本,提高了确定异常文本的准确度。
[0125] 虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。