一种文本分类后处理方法、装置及系统转让专利

申请号 : CN201710780291.4

文献号 : CN107515858B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 席丽娜李德彦晋耀红

申请人 : 鼎富智能科技有限公司

摘要 :

本发明实施例公开了一种文本分类后处理方法、装置及系统,能够根据文本预分类结果,检测文本信息是否符合句式分析条件;如果文本信息符合句式分析条件,根据预设句式分析规则对文本信息进行句式分析;根据句式分析结果和预分类结果,生成文本分类结果。本申请的文本分类后处理方法,能够针对现有技术中基于规则的文本分类方法在处理文本信息时,容易出现分类错误的情况,对包含文本信息进行句式分析,得到能表达出文本语义倾向的句式分析结果,并根据句式分析结果,调整现有技术中的基于规则的文本分类方法产生的预分类结果,得到具有语义倾向的文本分类结果,从而,解决了现有技术中基于规则的文本分类方法会出现分类错误的问题。

权利要求 :

1.一种文本分类后处理方法,其特征在于,所述方法包括:设置分类器的至少一个句式资源;

根据所述句式资源,生成句式资源表达模型,所述句式资源表达模型至少包括句式分析类型和句式分析状态;

根据分类器的句式分析设置,从所述句式资源中获取用于所述分类器进行句式分析的目标句式资源;

从分类器中获取文本信息的预分类结果;

根据所述预分类结果,检测所述文本信息是否符合句式分析条件;

如果所述文本信息符合句式分析条件,根据预设句式分析规则对所述文本信息进行句式分析,获取句式分析结果;

根据所述句式分析结果和所述预分类结果,生成文本分类结果。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:创建与分类规则集中的文本分类规则对应的句式约束规则,所述句式约束规则中至少包含句式约束类型。

3.根据权利要求2所述的方法,其特征在于,所述根据分类器的句式分析设置,从所述句式资源中获取用于句式分析的目标句式资源的步骤,包括:根据分类器的句式分析设置,赋值所述句式约束规则中的所述句式约束类型;

根据所述句式约束类型的赋值结果,从所述句式资源中获取所述目标句式资源。

4.根据权利要求1-3任意一项所述的方法,其特征在于,所述根据预设句式分析规则对所述文本信息进行句式分析的步骤,包括:检测所述文本信息是否会进行否定句式分析;

如果进行否定句式分析,获取文本信息的否定句式分析结果,所述否定句式分析结果包括有效和无效;

如果不进行否定句式分析,返回否定句式分析结果为无效;

以及,

检测所述文本信息是否会进行比较句式分析;

如果进行比较句式分析,获取所述文本信息的比较句式分析结果,所述比较句式分析结果包括有效和无效;

如果不进行比较句式分析,返回比较句式分析结果为无效。

5.根据权利要求4所述的方法,其特征在于,所述根据句式分析结果和所述预分类结果,生成文本分类结果的步骤,包括:当所述文本信息进行否定句式分析和比较句式分析时,检测所述否定句式分析结果和所述比较句式分析结果是否相同;

如果相同,则保留所述预分类结果作为所述文本分类结果;

如果不相同,则排除所述预分类结果;

或者,

当所述文本信息只进行否定句式分析时,如果所述否定句式分析结果为有效,则保留所述预分类结果为所述文本分类结果;

如果所述否定句式分析结果为无效,则排除所述预分类结果;

或者,

当所述文本信息只进行比较句式分析时,如果所述比较句式分析结果为有效,则保留所述预分类结果为所述文本分类结果;

如果所述比较句式分析结果为无效,则排除所述预分类结果。

6.根据权利要求4所述的方法,其特征在于,所述否定句式分析包括:检测所述文本信息是否需要进行双重否定句式分析;

如果需要进行双重否定句式分析,获取所述文本信息的双重否定句式分析结果;

如果不需要进行双重否定句式分析,则检测所述文本信息是否需要进行单否定句式分析;

如果需要进行单否定句式分析,获取所述文本信息的单否定句式分析结果;

如果不需要进行单否定句式分析,则返回所述否定句式分析结果为有效。

7.根据权利要求4所述的方法,其特征在于,所述比较句式分析包括:设置所述比较句式分析结果的默认值为有效;

获取所述文本信息中比较句式的数量;

根据所述比较句式的数量和每个所述比较句式的所述句式分析结果,确定所述文本信息的所述句式分析结果。

8.一种文本分类后处理装置,其特征在于,所述装置包括:前设置模块,用于设置分类器的至少一个句式资源;

前生成模块,用于根据所述句式资源,生成句式资源表达模型,所述句式资源表达模型至少包括句式分析类型和句式分析状态;

前获取模块,用于根据分类器的句式分析设置,从所述句式资源中获取用于所述分类器进行句式分析的目标句式资源;

获取模块,用于从分类器中获取文本信息的预分类结果;

检测模块,用于根据所述预分类结果,检测所述文本信息是否符合句式分析条件;

句式分析模块,用于根据预设句式分析规则对所述文本信息进行句式分析,获取句式分析结果;

调整模块,用于根据所述句式分析结果和所述预分类结果,生成文本分类结果。

9.一种文本分类后处理系统,其特征在于,所述系统包括:存储器和处理器;所述存储器用于存储所述处理器的可执行程序;

所述处理器被配置为:

设置分类器的至少一个句式资源;

根据所述句式资源,生成句式资源表达模型,所述句式资源表达模型至少包括句式分析类型和句式分析状态;

根据分类器的句式分析设置,从所述句式资源中获取用于所述分类器进行句式分析的目标句式资源;

从分类器中获取文本信息的预分类结果;

根据所述预分类结果,检测所述文本信息是否符合句式分析条件;

如果所述文本信息符合句式分析条件,根据预设句式分析规则对所述文本信息进行句式分析,获取句式分析结果;

根据所述句式分析结果和所述预分类结果,生成文本分类结果。

说明书 :

一种文本分类后处理方法、装置及系统

技术领域

[0001] 本发明涉及文本语言处理技术领域,尤其涉及一种文本分类后处理方法、装置及系统。

背景技术

[0002] 在文本语言处理技术领域,文本数据的处理包括文本分类、文本组织和文本管理等类型,其中,文本分类是指在给定的分类体系下,根据文本内容自动确定文本类别的过程。
[0003] 现有技术中,文本分类的方法主要包括基于统计的分类方法和基于规则的分类方法。其中,在使用基于规则的分类方法进行文本分类时,首先,要根据预设的分类需求建立包含文本分类规则的分类规则集,然后,通过训练来完善和调整分类规则集,训练后的分类规则集用于进行文本分类。在基于规则的分类方法中,分类规则集中的文本分类规则遵循互斥规则,即:分类规则集中不应存在两条规则能够被同一条文本信息触发的情况,这个规则能够确保同一条文本信息至多被分类规则集中的一条规则覆盖。
[0004] 图1为现有技术的一种基于规则的文本分类方法的示意图,从图1可以看出,现有技术的基于规则的分类方法在处理具有正反语义的文本信息时,反类语义的文本信息很容易同时触发分类规则集中的两条规则,从而产生两条相互冲突的分类结果,导致文本分类出现错误,例如“很好”和“不是很好”为具有正反语义的两条文本信息,其中“不是很好”为反类语义的文本信息,该文本信息在进行分类时,容易触发“不好”和“很好”这两条相互冲突的规则,从而产生相互冲突的分类结果,导致文本分类出现错误。
[0005] 因此,如何避免现有技术中基于规则的文本分类方法,由于同时触发两条相互冲突的规则,而产生相互冲突的分类结果,成为本领域技术人员亟待解决的技术问题。

发明内容

[0006] 本发明提供了一种文本分类后处理方法、装置及系统,以解决现有技术中存在的问题。
[0007] 第一方面,本发明实施例提供了一种文本分类后处理方法,所述方法包括:从分类器中获取文本信息的预分类结果;根据所述预分类结果,检测所述文本信息是否符合句式分析条件;如果所述文本信息符合句式分析条件,根据预设句式分析规则对所述文本信息进行句式分析,获取句式分析结果;根据所述句式分析结果和所述预分类结果,生成文本分类结果。
[0008] 第二方面,本发明实施例提供了一种文本分类后处理装置,所述装置包括:获取模块,用于从分类器中获取文本信息的预分类结果;检测模块,用于根据所述预分类结果,检测所述文本信息是否符合句式分析条件;句式分析模块,用于根据预设句式分析规则对所述文本信息进行句式分析,获取句式分析结果;调整模块,用于根据所述句式分析结果和所述预分类结果,生成文本分类结果。
[0009] 第三方面,本发明实施例提供了一种文本分类后处理系统,所述系统包括:存储器和处理器;所述存储器用于存储所述处理器的可执行程序;所述处理器被配置为:从分类器中获取文本信息的预分类结果;根据所述预分类结果,检测所述文本信息是否符合句式分析条件;如果所述文本信息符合句式分析条件,根据预设句式分析规则对所述文本信息进行句式分析,获取句式分析结果;根据所述句式分析结果和所述预分类结果,生成文本分类结果。
[0010] 本发明实施例提供的技术方案,首先,从分类器中获取文本信息的预分类结果;根据所述预分类结果,检测所述文本信息是否符合句式分析条件;如果所述文本信息符合句式分析条件,根据预设句式分析规则对所述文本信息进行句式分析,获取句式分类结果;根据所述句式分析结果和所述预分类结果,生成文本分类结果。本发明提供的技术方案,针对现有技术中基于规则的文本分类方法在处理指定类型的文本信息时,容易出现分类错误的情况,对包含指定句式类型的文本信息进行句式分析,得到能表达出文本语义倾向的句式分析结果,并根据句式分析结果,调整现有技术中的基于规则的文本分类方法产生的预分类结果,得到具有语义倾向的文本分类结果,从而,解决了现有技术中基于规则的文本分类方法会出现分类错误的问题。

附图说明

[0011] 为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0012] 图1为现有技术的一种基于规则的文本分类方法的示意图;
[0013] 图2为本发明实施例提供的一种文本分类后处理方法的流程图;
[0014] 图3为本发明实施例提供的一种文本分类后处理方法步骤S030的流程图;
[0015] 图4为本发明实施例提供的一种文本分类后处理方法否定句式分析的流程图;
[0016] 图5为本发明实施例提供的一种文本分类后处理方法比较句式分析的流程图;
[0017] 图6为本发明实施例提供的一种文本分类后处理装置的框图;
[0018] 图7为本发明实施例提供的一种文本分类后处理系统的框图。

具体实施方式

[0019] 为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0020] 实施例一
[0021] 本发明实施例提供了一种文本分类后处理方法。图2为本发明实施例提供的一种文本分类后处理方法的流程图,如图2所示,所述方法可以包括以下步骤:
[0022] 在步骤S010中,设置分类器的至少一个句式资源。
[0023] 本发明中的分类器,是指在机器学习领域,用于将具有相似特征的目标数据分类聚集的机器算法。由于本发明的技术方案解决的是现有技术中基于规则的文本分类方法会出现分类错误的问题,因此,作为示例性的,本实施例中的分类器为基于规则的分类器。但是,由于在文本分类领域,使用其他类型的分类器也会不同程度的出现分类错误的情况,因此,为了改善其他类型的分类器出现的分类错误的情况,在不付出创造性劳动的情况下,本领域技术人员能够通过本发明提供的技术方案中得到技术启示,将本发明的技术方案应用于其他类型分类器的后处理过程中;所以,本发明中的分类器也可是基于统计的分类器或者其他分类器。
[0024] 基于规则的分类器是使用条件规则来对文本信息进行分类的技术,基于规则的分类器具有分类规则集,分类规则集中包含有至少一个文本分类规则,例如,在一个分类器中,某个分类规则为:服务态度(条件)----好(预测类),其中,分类规则左侧的“服务态度”为分类规则的条件或前提,分类规则右侧的“好”为分类规则的预测类,包含“对服务态度”评价的文本信息可能被分类到该类规则下。本实施例中,分类规则的表达形式仅作为示意使用,用以表达分类规则的基本结构,在机器学习语言中,分类器的分类规则会呈现出多种表达形式,例如:分类规则表达式、条件表达式、分类集合等,但无论分类规则以何种形式呈现,都符合本实施例中示出的分类规则的基本结构,因此本发明不对分类器以及分类规则的表达形式做具体限定。
[0025] 与现有技术的分类器不同,本发明的分类器除了包含分类规则集以外,针对分类规则集中的每个文本分类规则还设置有至少一个句式资源,每个句式资源对应一种句式类型,例如否定句式和比较句式,其中,否定句式可进一步分成双重否定句式和单否定句式,比较句式可进一步分成强比较句式和弱比较句式。本申请中的强比较句式是指具有“XXX比###更***”,以及“XXX与###相比还要***”等特征的句式,例如,“夏天比冬天更冷”,强比较句式中,被比较物“XXX”比参照物“###”更具有“***”所代表的特性;本申请中的弱比较句式是指具有“XXX不如###(***)”,以及“XXX比不上###(***)”等特征的句式,例如,“火车不如飞机快”“坐火车不如坐飞机”等,弱比较句式中,被比较物“XXX”比参照物“###”更不具有“***”所代表的特性。
[0026] 示例地,本发明还包括语义概念模型,语义概念模型包含有至少一个语义概念节点,其中,概念节点可包括:双重否定概念节点、单否定概念节点、强比较概念节点和弱比较概念节点等,每个概念节点下包含具有该节点特征的至少一个语义概念。示例地,本发明以概念节点入口为对应设置句式资源,并建立句式资源与概念节点的映射关系,例如:双重否定句式的句式资源映射双重否定概念节点。此外,当语义概念模型中缺少某个句式类型的概念节点时,会出现某些类型的句式资源无法在语义概念模型中映射到对应类型的概念节点的情况,例如:语义概念模型中缺少弱比较概念节点,当步骤S010设置句式资源时,如果包含弱比较句式资源,则弱比较句式资源就无法在语义概念模型中映射到对应的弱比较概念节点,为了解决这一问题,本发明实施例示出的语义概念模型可提供新建概念节点的入口。
[0027] 在步骤S020中,根据所述句式资源,生成句式资源表达模型,所述句式资源表达模型至少包括句式分析类型和句式分析状态。
[0028] 本发明中,每个句式资源表达模型对应一个文本分类规则,并集中表现与该文本分类规则对应的所有句式资源的句式分析类型以及每个句式资源的句式分析状态,句式分析状态可包括有效状态和无效状态,当句式分析状态为有效状态时,视为该句式资源活跃,能够用于句式分析,当句式分析状态为无效状态时,视该句式资源冻结,不能够用于句式分析。
[0029] 示例地,本发明实施例中的句式资源表达模型以句式资源表达式的形式体现,一种句式资源表达式如下所示:
[0030] SSTP:DNO;FLG:1;NODE:nodeId$SSTP:SNO;FLG:1;NODE:nodeId$SSTP:SCOM;FLG:1;NO DE:nodeId$SSTP:WCOM;FLG:1;NODE:nodeId
[0031] 该表达式中包含句式分析类型(SSTP)、句式分析状态(FLG)和句式资源节点编号(NODE),其中,句式分析类型(SSTP)包括:双重否定句式(DNO)、单否定句式(SNO)、强比较句式(SCOM)、弱比较句式(WCOM);句式分析状态(FLG)包括1(有效状态)和0(无效状态),当某个句式分析类型的句式分析状态(FLG)为有效状态时,意味着该句式分析类型已经在句式资源中被设置,可用于句式分析,当句式分析状态(FLG)为无效状态时,意味着该句式分析类型尚未在句式资源中被设置,或者,该句式分析类型虽然已经在句式资源中被设置,但是在当前的句式分析中并不使用,因而,不可用于句式分析;资源节点编号(NODE)表示该句式资源对应的概念节点在语义概念模型中的编号,该资源节点标号(NODE)用于定位到语义概念模型中的概念节点;“$”用作句式资源表达式的分隔符。
[0032] 由此可以看出,本发明实施例提供的句式资源表达式能够表达以下信息:
[0033] 句式分析类型 句式分析状态 资源节点编号双重否定句式 有效状态 编号XXX
单否定句式 有效状态 编号XXY
强比较句式 有效状态 编号XXZ
弱比较句式 有效状态 编号XXN
[0034] 在步骤S030中,根据分类器的句式分析设置,从所述句式资源中获取用于句式分析的目标句式资源。
[0035] 分类器的句式分析设置可以视作句式分析的开关,本实施例中,分类器的句式分析设置包括开启分析和关闭分析,当分类器的句式分析设置为关闭分析时,用于句式分析的目标句式资源不会被获取,句式分析也不会进行;当句式分析设置为开启分析时,本发明从句式资源中获取到在当前的文本分类任务中能够用得到的目标句式资源,用作句式分析使用。
[0036] 在一种实施例中,本发明的技术方案还包括步骤S040。
[0037] 在步骤S040中,创建与分类规则集中的文本分类规则对应的句式约束规则,所述句式约束规则中至少包含句式约束类型。
[0038] 本实施例中,文本分类规则以规则表达式的形式呈现,句式约束规则与规则表达式对应设置,用于约束和指定规则表达式的句式分析类型。
[0039] 示例地,句式约束规则可以使用表达式描述,一种句式约束规则表达式如下所示:
[0040] TP:NO=1;OBJ:XXX;POS:0;DIS:5;COMP:1$TP:COM=1;OBJ:XXX;POS:1;DIS:5;COMP:1$T P:PAR=0;OBJ:XXX;POS:0;DIS:5;COMP:1$E_服务态度+C_好
[0041] 在上述句式规则表达式中,$为分隔符,用以分开多个分析模式和规则表达式,其中,规则表达式位于最后一个$后面,在规则表达式之前,均为句式约束规则表达式中的分析模式;例如,在TP:NO=1;OBJ:XXX;POS:0;DIS:5;COMP:1中,TP代表句式约束类型,表示该分析模式能够分析的句式类型,NO表示否定句式、COM表示比较句式、PAR表示并列句式(本实施例中不对并列句式做句式分析);在句式规则表达式中,NO、COM和PAR共有1或0两个赋值,其中,赋值1表示需要对文本信息进行对应分析模式的句式分析,赋值0表示不需要对文本信息进行对应分析模式的句式分析。OBJ表示在进行句式分析时,指定的分析对象名称,该指定分析对象通常是文本信息中表示概念的词\词组、要素词\词组以及关键词\词组等,在否定句式或比较句式中,表示否定句义的否定词和表示比较句义的比较词通常以修辞成分出现在分析对象的前后,并与分析对象在文本信息中的位置相邻或相近。
[0042] 示例地,对于规则表达式“E_服务态度+C_好”来说,E表示分类条件,C表示预分类值,基于此,该示例的文本分类规则中,分类条件为“服务态度”,预分类值为“好”,此外,与该规则互斥地,分类规则集中还可以包含文本分类规则“E_服务态度+C_差”;并且,一个预分类中可包含多个同位预分类值,例如预分类值“好”可以拥有“不错”“热情”等同位预分类值,预分类值“差”可以拥有“恶劣”“消极”等同位预分类值。
[0043] 在一种实施例中,否定句式指定的分析对象为规则表达式中的预分类值C,比较句式指定的分析对象为规则表达式中的分类条件E,,对于并列句式指定的分析对象,本实施例中不做具体限定,因此,上述示例的约束规则表达式可以为:
[0044] TP:NO=1;OBJ:恶劣;POS:0;DIS:5;COMP:1$TP:COM=1;OBJ:服务态度;POS:1;DIS:5;COMP:1$TP:PAR=0;OBJ:恶劣;POS:0;DIS:5;COMP:1$E_服务态度+C_好[0045] 此外,在约束规则表达式中,POS表示文本信息中用来修饰分析对象的修饰性概念相对于分析对象本身的位置;示例地,POS可取值0或1,0代表修饰性概念位于分析对象之前,1代表修饰性概念位于分析对象之后。DIS表示进行句式分析时选择识别的文本信息的范围,本实施例中以分析对象的前后N个字符的范围,作为句式分析的范围;示例地,DIS的取值为5,表示以当前OBJ中的分析对象在文本信息中的位置为中心,向前或者向后取5个字符范围内的文本信息作为句式分析识别的文本信息范围。COMP表示约束规则表达式的应用类型,示例地,COMP的数值为1表示约束规则表达式应用于基于规则的文本分类中,当COMP的数值为其他值时,表示约束规则表达式应用于其他基于规则的运算中,例如应用于基于规则的排序中等,本实施例中仅涉及约束规则表达式应用于基于规则的文本分类中的情形,因此,COMP的数值为1。
[0046] 图3为本发明实施例提供的一种文本分类后处理方法步骤S030的流程图。
[0047] 如图3所示,在一种实施例中,步骤S030包括步骤S031和步骤S032。
[0048] 在步骤S031中,根据分类器的句式分析设置,赋值所述句式约束规则中的所述句式约束类型。
[0049] 当分类器的句式分析设置为关闭分析时,句式分析不会进行,因此,句式约束规则中的句式约束类型的值均为0,即不需要对文本信息进行句式分析。
[0050] 当分类器的句式分析设置为开启分析时,获取句式资源的句式资源表达模型,并解析句式资源表达模型中各种句式类型的句式分析状态,并根据句式类型和句式分析状态为约束规则表达式的句式约束类型赋值。
[0051] 示例地,句式资源表达模型以步骤S020中示出的句式资源表达式的形式体现,句式约束规则以约束规则表达式的形式体现,步骤S031中获取到的句式资源表达式为:
[0052] SSTP:DNO;FLG:1;NODE:001$SSTP:SNO;FLG:0;NODE:002$SSTP:SCOM;FLG:0;NODE:003$SSTP:WCOM;FLG:0;NODE:004
[0053] 然后,解析资源表达式中各种句式类型的句式分析状态的结果为:
[0054]
[0055] 本实施例中,当分类器的句式分析设置为开启分析时,赋值所述句式约束规则中的所述句式约束类型,采用以下原则:
[0056] 1、如果至少存在一种否定句式的句式分析状态为有效状态,则将约束规则表达式的句式约束类型中,否定句式NO赋值为1;否则,否定句式NO赋值为0;
[0057] 2、如果至少存在一种比较句式的句式分析状态为有效状态,则将约束规则表达式的句式约束类型中,比较句式COM赋值为1;否则,比较句式COM赋值为0;
[0058] 3、本实施例中不对并列句式做句式分析,因此,将约束规则表达式的句式约束类型中,并列句式PAR赋值为0。
[0059] 示例地,解析本步骤中示出的句式资源表达式,赋值步骤S040中示出的句式约束规则中的句式约束类型的结果为:
[0060] TP:NO=1;OBJ:恶劣;POS:0;DIS:5;COMP:1$TP:COM=0;OBJ:服务态度;POS:1;DIS:5;COMP:1$TP:PAR=0;OBJ:恶劣;POS:0;DIS:5;COMP:1$E_服务态度+C_好[0061] 在步骤S032中,根据所述句式约束类型的赋值结果,从所述句式资源中获取所述目标句式资源。
[0062] 本步骤的目的在于,根据句式约束类型的赋值结果,确定需要进行句式分析的目标句式类型,然后,从句式资源中获取与目标句式类型对应的目标句式资源,例如,根据步骤S031中句式约束类型的赋值结果,从句式资源中获取否定句式资源,还能获取与否定句式资源具有映射关系的双重否定概念节点和单否定概念节点,以及每个概念节点下的语义概念,本步骤的意义在于,获取只包含目标句式类型的目标句式资源,对于目标句式类型之外的非目标句式资源,本发明中不会获取,也不会参与到句式分析中,这样能够减小参与句式分析的句式资源的数量,提高句式分析效率。
[0063] 在步骤S110中,从分类器中获取文本信息的预分类结果。
[0064] 由于本发明的分类器除了包含分类规则集以外,还包含与分类规则集中的文本分类规则对应的句式约束规则,因此,对文本信息进行预分类时,文本信息能够匹配到至少一个文本分类规则以及该文本分类规则对应的句式约束规则,所以,本步骤中的预分类结果包含了分类器对文本信息的至少一个预分类和该文本信息匹配到的句式约束规则。
[0065] 示例地,对于文本信息“工作人员的服务态度不是很好”可能会匹配到两条文本分类规则“e_服务态度+c_很好”和“e_服务态度+c_不好”,因此该文本信息的预分类结果中将包含两个预分类,而这两个预分类是互斥的,同时,本示例中的文本信息的预分类结果中还会包含匹配到的两条文本分类规则中对应的句式约束规则,以约束规则表达式呈现,分别为:
[0066] TP:NO=1;OBJ:很好;POS:0;DIS:5;COMP:1$TP:COM=0;OBJ:服务态度;POS:1;DIS:5;COMP:1$TP:PAR=0;OBJ:恶劣;POS:0;DIS:5;COMP:1$E_服务态度+C_很好[0067] 以及,
[0068] TP:NO=1;OBJ:很好;POS:0;DIS:5;COMP:1$TP:COM=0;OBJ:服务态度;POS:1;DIS:5;COMP:1$TP:PAR=0;OBJ:恶劣;POS:0;DIS:5;COMP:1$E_服务态度+C_很好[0069] 在步骤S120中,根据所述预分类结果,检测所述文本信息是否符合句式分析条件。
[0070] 本实施例中,文本信息是否符合句式分析条件根据文本信息匹配到的句式约束规则中的句式约束类型的赋值来确定,句式约束规则中共包含三种句式约束类型,分别为:NO-否定句式、COM-比较句式、PAR-并列句式,其中,只要NO-否定句式和COM-比较句式的至少一个的赋值为1,则文本信息就符合句式分析条件。
[0071] 示例地,在步骤S110中,文本信息共匹配到两条文本分类规则,从两条文本分类规则对应的句式约束规则中可以确定NO=1、COM=0、PAR=0,因此,可以确定步骤S110示出的文本信息,在匹配到两个文本分类规则时,均符合句式分析条件。
[0072] 在步骤S130中,如果所述文本信息符合句式分析条件,根据预设句式分析规则对所述文本信息进行句式分析。
[0073] 在一种实施例中,步骤S130包括以下步骤:
[0074] 步骤S131,检测所述文本信息是否会进行否定句式分析。
[0075] 本实施例根据约束规则表达式中句式约束类型的赋值检测文本信息是否会进行否定句式分析,具体根据约束规则表达式中NO-否定句式的赋值来判断,例如,如果在文本信息匹配到的约束规则表达式中,NO的赋值为1,则文本信息进行否定句式分析,即分析结果为“是”;如果NO的赋值为0,则文本信息不进行否定句式分析,即分析结果为“否”。
[0076] 步骤S132,如果进行否定句式分析,获取文本信息的否定句式分析结果,所述否定句式分析结果包括有效和无效。
[0077] 步骤S133,如果不进行否定句式分析,返回否定句式分析结果为无效。
[0078] 此外,步骤S130中,还包括以下步骤:
[0079] 步骤S134,检测所述文本信息是否会进行比较句式分析。
[0080] 本实施例根据约束规则表达式的句式约束类型的赋值检测文本信息是否会进行比较句式分析,具体根据约束规则表达式中COM-比较句式的赋值来检测,例如,如果在文本信息匹配到的约束规则表达式中,COM的赋值为1,则文本信息进行比较句式分析,即分析结果为“是”;如果COM的赋值为0,则文本信息不进行比较句式分析,即分析结果为“否”。
[0081] 步骤S135,如果进行比较句式分析,获取所述文本信息的比较句式分析结果,所述比较句式分析结果包括有效和无效。
[0082] 步骤S136,如果不进行比较句式分析,返回比较句式分析结果为无效。
[0083] 在步骤S140中,根据句式分析结果和所述预分类结果,生成文本分类结果。
[0084] 在一种实施例中,步骤S140包括以下步骤:
[0085] 步骤S141,当所述文本信息进行否定句式分析和比较句式分析时,检测所述否定句式分析结果和所述比较句式分析结果是否相同。
[0086] 本实施例中,当同时存在否定句式分析和比较句式分析时,综合否定句式分析结果和比较句式分析结果,分析预分类结果是否正确,否定句式分析结果和比较句式分析结果均包括有效和无效,因此,否定句式分析结果和比较句式分析结果会包含以下情形:
[0087] 否定句式分析结果 比较句式分析结果 是否相同有效 有效 相同
无效 无效 相同
有效 无效 不相同
无效 有效 不相同
[0088] 步骤S1411,如果相同,则保留所述预分类结果作为所述文本分类结果。
[0089] 当否定句式的分析结果和比较句式的分析结果相同,且均为有效时,表示从否定句式分析的角度和从比较句式分析的角度来说,文本信息的预分类符合文本信息的语义,即文本信息的预分类结果正确,因此,该预分类结果可作为最终的文本分类结果保留。
[0090] 当否定句式的分析结果和比较句式的分析结果相同,且均为无效时,表示从否定句式分析的角度来说,文本信息的预分类与文本信息的否定语义相反,从比较句式分析的角度来说,文本信息的预分类与文本信息的比较语义相反,但是,由于文本信息的预分类与文本信息的比较语义和否定语义均相反,构成双重反义,该双重反义可以相互抵消,即认为文本信息的预分类结果正确,因此,该预分类结果可作为最终的文本分类结果保留。
[0091] 步骤S1412,如果否,则排除所述预分类结果。
[0092] 当否定句式的分析结果与肯定句式的分析结果不同时,说明在否定句式分析和比较句式分析中,文本信息的预分类与文本信息的否定语义或比较语义中的其中一个相反,与其中另一个相同,因此综合判断,该文本信息的预分类与文本信息的语义相反,预分类结果错误,排出预分类结果。
[0093] 步骤S142,当所述文本信息只进行否定句式分析时,如果所述否定句式分析结果为有效,则保留所述预分类结果为所述文本分类结果;如果所述否定句式分析结果为无效,则排除所述预分类结果。
[0094] 当文本信息只进行否定句式分析时,说明分类器的句式分类设置中,只设置了对文本信息进行否定句式分析,因此,本步骤中,根据否定句式分析结果,确定预分类结果是否保留为文本分类结果,当否定句式分析结果为有效时,说明文本信息的预分类与文本信息的否定语义相同,预分类结果正确,应保留预分类结果作为所述文本分类结果。
[0095] 当否定句式分析结果为无效时,说明文本信息的预分类与否定语义相反,预分类结果错误,应排除预分类结果。
[0096] 步骤S143,当所述文本信息只进行比较句式分析时,如果所述比较句式分析结果为有效,则保留所述预分类结果为所述文本分类结果;如果所述比较句式分析结果为无效,则排除所述预分类结果。
[0097] 当文本信息只进行比较句式分析时,说明分类器的句式分类设置中,只设置了对文本信息进行比较句式分析,因此,本步骤中,根据比较句式分析结果,确定预分类结果是否保留为文本分类结果,当比较句式分析结果为有效时,说明文本信息的预分类与文本信息的比较语义相同,预分类结果正确,应保留预分类结果作为所述文本分类结果。
[0098] 当比较句式分析结果为无效时,说明文本信息的预分类与比较语义相反,预分类结果错误,应排除预分类结果。
[0099] 本实施例中,步骤S140包含了“当所述文本信息进行否定句式分析和比较句式分析时”“当所述文本信息只进行否定句式分析时”“当所述文本信息只进行比较句式分析时”三种句式分析设置下,生成文本分类结果的方法,能够满足句式分析中可能出现的各种句式分析设置,使句式分析具有很强的适应性。
[0100] 图4为本发明实施例提供的一种文本分类后处理方法否定句式分析的流程图;
[0101] 如图4所示,在一种实施例中,否定句式分析包括以下步骤:
[0102] 步骤S210,检测所述文本信息是否需要进行双重否定句式分析。
[0103] 本实施例中,通过文本信息匹配到的文本分类规则,能够找到与匹配的文本分类规则对应的句式资源表达模型,然后,通过解析句式资源表达模型,能够得到每种句式分析类型的句式分析状态,根据句式分析状态,可检测文本信息是否需要进行双重否定句式分析。
[0104] 示例地,本发明实施例中的句式资源表达模型以句式资源表达式的形式体现,在一次文本分类中,文本信息匹配的文本分类规则对应的句式资源表达式为:
[0105] SSTP:DNO;FLG:1;NODE:nodeId$SSTP:SNO;FLG:1;NODE:nodeId$SSTP:SCOM;FLG:1;NO DE:nodeId$SSTP:WCOM;FLG:1;NODE:nodeId
[0106] 由于,该句式资源表达式中,式分析类型(SSTP)中双重否定句式DNO的句式分析状态(FLG)的值为1,即句式分析状态为有效状态,因此,在本示例中,文本信息需要进行双重否定句式分析。
[0107] 步骤S211,如果需要进行双重否定句式分析,获取所述文本信息的双重否定句式分析结果。
[0108] 本步骤中,对文本信息进行双重否定句式分析的规则为:
[0109] 判断文本信息中是否存在双重否定句式,如果存在,则否定句式分析结果为有效,如果不存在跳转至步骤S212。
[0110] 示例地,以文本信息“相比较甲银行,乙银行的工作人员服务态度不是很好”为例:
[0111] 该文本信息匹配到的文本分类规则为:e_银行名称+e_态度+c_好;
[0112] 该文本分类规则对应的句式约束规则表达式为:
[0113] TP:COM=1;OBJ:银行名称;POS0;DIS:5;COMP:1$TP:COM=1;OBJ:态度;POS:0;DIS:5;
[0114] COMP:1$TP:NO=1;OBJ:好;POS:0;DIS:5;COMP:1
[0115] 那么,在步骤SS211中,对“相比较甲银行,乙银行的工作人员服务态度不是很好”进行双重否定句式分析的过程为:
[0116] 从约束规则表达式可以看出,否定句式分析的分析对象OBJ为“好”,句式分析时选择识别的文本信息的范围DIS为5个字符,POS的取值为0,表示修饰型概念位于分析对象之前,因此在选取识别的文本信息的范围时,从分析对象OBJ向前查询5个字符,得到待识别文本为“态度不是很好”,然后根据文本分类规则“e_银行名称+e_态度+c_好”对应的句式资源,从句式资源映射的双重否定概念节点中匹配待识别文本“态度不是很好”。本实施例中“态度不是很好”不是双重否定句式,因而,在双重否定概念节点中无法匹配到对应的语义概念,所以,判断结果为:文本信息中不存在双重否定句式。跳转至步骤S212。
[0117] 步骤S212,如果不需要进行双重否定句式分析,则检测所述文本信息是否需要进行单否定句式分析。
[0118] 示例地,延续步骤S210和步骤S211中的示例,句式资源表达式中,否定分析类型(SSTP)中单否定句式(SNO)的句式分析状态(FLG)的值为1,即句式分析状态为有效状态,因此,在本示例中,文本信息需要进行单否定句式分析。
[0119] 步骤S2121,如果需要进行单否定句式分析,获取所述文本信息的单否定句式分析结果;。
[0120] 本步骤中,对文本信息进行单否定句式分析的规则为:
[0121] 判断文本信息中是否存在单否定句式,如果存在,则否定句式分析结果为无效,如果不存在,则否定句式分析结果为有效。
[0122] 示例地,延续步骤S210-步骤S212中的示例,待识别文本“态度不是很好”是单否定句式,因而,在单否定概念节点中能够匹配到对应的语义概念,所以,判断结果为:文本信息中存在单否定句式,否定句式分析结果为无效。
[0123] 此外,本步骤中还包括,如果判断结果为:文本信息中不存在单否定句式,跳转至步骤S2122。
[0124] 步骤S2122,如果不需要进行单否定句式分析,则返回所述否定句式分析结果为有效。
[0125] 示例地,对于文本信息“这家银行服务态度很好”,在步骤S2121中,判断结果会是:文本信息中不存在单否定句式,然后跳转至本步骤,在本步骤中,返回否定句式分析结果为有效。
[0126] 图5为本发明实施例提供的一种文本分类后处理方法比较句式分析的流程图。
[0127] 如图5所示,在一种实施例中,比较句式分析包括以下步骤:
[0128] 步骤S310,设置所述比较句式分析结果的默认值为有效。
[0129] 为了防止文本信息中不包含比较句式时,比较句式分析无法输出分析结果,本步骤中设置比较句式分析结果的默认值为有效,当较句式分析无法输出分析结果时,输出该默认值。
[0130] 步骤S320,获取所述文本信息中比较句式的数量。
[0131] 示例地,以文本信息“相比较甲银行,乙银行的工作人员服务态度不是很好”为例:
[0132] 该文本信息匹配到的文本分类规则为:e_银行名称+e_态度+c_好;
[0133] 该文本分类规则对应的句式约束规则表达式为:
[0134] TP:COM=1;OBJ:银行名称;POS:0;DIS:7;COMP:1$TP:COM=1;OBJ:态度;POS:0;DIS:7;
[0135] COMP:1$TP:NO=1;OBJ:好;POS:0;DIS:5;COMP:1
[0136] 从上述句式约束规则表达式中可以看出,文本信息中比较句式的数量有两个,分别对应句式约束规则表达式中的“TP:COM=1;OBJ:银行名称;POS0;DIS:7;COMP:1”和:“TP:COM=1;OBJ:态度;POS:0;DIS:7;COMP:1”。
[0137] 步骤S330,根据所述比较句式的数量和每个所述比较句式的所述句式分析结果,确定所述文本信息的所述句式分析结果。
[0138] 本步骤中,确定文本信息的所述句式分析结果的规则为:
[0139] 1、如果文本信息中只存在单个比较句式,则以单个比较句式的比较句式分析结果作为文本信息的比较句式分析结果。
[0140] 2、如果文本信息中存在多个比较句式,则:如果每个比较句式的比较句式分析结果相同,将该相同结果作为文本信息的比较句式分析结果;如果不相同,调用其他分析方法继续分析。
[0141] 示例地,以步骤S120中的示例中示出的文本信息“相比较甲银行,乙银行的工作人员服务态度不是很好”为例,本步骤中对句式约束规则表达式为“TP:COM=1;OBJ:银行名称;POS:0;DIS:7;COMP:1”的比较句式的分析过程为:
[0142] 该比较句式的分析对象为“乙银行”,POS的取值为0,表示修饰型概念位于分析对象之前,句式分析时选择识别的文本信息的范围DIS为7个字符。
[0143] 首先,如果修饰型概念位于分析对象之前,即POS的取值为0,判断分析对象的向前DIS个字符范围内的文本信息中是否存在比较句式,在本示例中,DIS的取值为7,因此,待识别的文本信息为:相比较甲银行,乙银行。
[0144] 然后,判断待识别的文本信息中是否存在比较句式,如果存在比较句式,判断是否存在弱比较句式,如果存在弱比较句式,则待识别的文本信息的比较句式分析结果为有效;如果不存在弱比较句式,则待识别文本信息的句式分析结果为无效;或者,判断是否存在强比较句式,如果存在强比较句式,则待识别的文本信息的比较句式分析结果为无效;如果不存在强比较句式,则待识别文本信息的句式分析结果为有效。此外,如果待识别的文本信息中不存在比较句式,则待识别的文本信息的比较句式分析结果为有效。
[0145] 示例地,根据文本分类规则“e_银行名称+e_态度+c_好”对应的句式资源,从句式资源映射的弱比较概念节点中匹配待识别文本“相比较甲银行,乙银行”。本实施例中“相比较甲银行,乙银行”不是弱比较句式,因而,在弱比较概念节点中无法匹配到对应的语义概念,所以,判断结果为:文本信息中不存在弱比较句式。
[0146] 此外,如果修饰型概念位于分析对象后,即POS的取值为1,判断分析对象的向后DIS个字符范围内的待识别文本信息中是否存在比较句式,具体分析规则为:
[0147] 判断待识别的文本信息中是否存在比较句式,如果存在比较句式,判断是否存在弱比较句式,如果存在弱比较句式,则待识别的文本信息的比较句式分析结果为无效;如果不存在弱比较句式,则待识别文本信息的句式分析结果为有效;或者,判断是否存在强比较句式,如果存在强比较句式,则待识别的文本信息的比较句式分析结果为有效;如果不存在强比较句式,则待识别文本信息的句式分析结果为无效。此外,如果待识别的文本信息中不存在比较句式,则待识别的文本信息的比较句式分析结果为有效。
[0148] 由以上技术方案可知,本发明实施例提供一种文本分类后处理方法,首先,从分类器中获取文本信息的预分类结果;根据所述预分类结果,检测所述文本信息是否符合句式分析条件;如果所述文本信息符合句式分析条件,根据预设句式分析规则对所述文本信息进行句式分析;根据句式分析结果和所述预分类结果,生成文本分类结果。本发明提供的技术方案,针对现有技术中基于规则的文本分类方法在处理指定类型的文本信息时,容易出现分类错误的情况,对包含指定句式类型的文本信息进行句式分析,得到能表达出文本语义倾向的句式分析结果,并根据句式分析结果,调整现有技术中的基于规则的文本分类方法产生的预分类结果,得到具有语义倾向的文本分类结果,从而,解决了现有技术中基于规则的文本分类方法会出现分类错误的问题。
[0149] 实施例二
[0150] 图6为本发明实施例提供的一种文本分类后处理装置的框图。如图6所示,本发明实施例提供的一种文本分类后处理装置,包括:
[0151] 获取模块500,用于从分类器中获取文本信息的预分类结果。
[0152] 检测模块600,用于根据所述预分类结果,检测所述文本信息是否符合句式分析条件。
[0153] 句式分析模块700,用于根据预设句式分析规则对所述文本信息进行句式分析。
[0154] 调整模块800,用于根据句式分析结果和所述预分类结果,生成文本分类结果。
[0155] 在一种实施例中,所述装置还包括:
[0156] 前设置模块410,用于设置分类器的至少一个句式资源。
[0157] 前生成模块420,用于根据所述句式资源,生成句式资源表达模型,所述句式资源表达模型至少包括句式分析类型和句式分析状态。
[0158] 前获取模块430,用于根据分类器的句式分析设置,从所述句式资源中获取用于句式分析的目标句式资源。
[0159] 在一种实施例中,所述装置还包括:
[0160] 前创建模块440,用于创建与分类规则集中的文本分类规则对应的句式约束规则,所述句式约束规则中至少包含句式约束类型。
[0161] 在一种实施例中,所述前获取模块430包括:
[0162] 赋值子模块431,用于根据分类器的句式分析设置,赋值所述句式约束规则中的所述句式约束类型。
[0163] 获取子模块432,用于根据所述句式约束类型的赋值结果,从所述句式资源中获取所述目标句式资源。
[0164] 由以上技术方案可知,本发明实施例提供一种文本分类后处理装置,针对现有技术中基于规则的文本分类方法在处理指定类型的文本信息时,容易出现分类错误的情况,对包含指定句式类型的文本信息进行句式分析,得到能表达出文本语义倾向的句式分析结果,并根据句式分析结果,调整现有技术中的基于规则的文本分类方法产生的预分类结果,得到具有语义倾向的文本分类结果,从而,解决了现有技术中基于规则的文本分类方法会出现分类错误的问题。
[0165] 实施例三
[0166] 图7为本发明实施例提供的一种文本分类后处理系统的框图。如图7所示,本发明实施例提供的一种文本分类后处理系统,包括:
[0167] 存储器910和处理器920;所述存储器910用于存储所述处理器920的可执行程序;
[0168] 所述处理器920被配置为:
[0169] 从分类器中获取文本信息的预分类结果;
[0170] 根据所述预分类结果,检测所述文本信息是否符合句式分析条件;
[0171] 如果所述文本信息符合句式分析条件,根据预设句式分析规则对所述文本信息进行句式分析;
[0172] 根据句式分析结果和所述预分类结果,生成文本分类结果。
[0173] 由以上技术方案可知,本发明实施例提供一种文本分类后处理系统,针对现有技术中基于规则的文本分类方法在处理指定类型的文本信息时,容易出现分类错误的情况,对包含指定句式类型的文本信息进行句式分析,得到能表达出文本语义倾向的句式分析结果,并根据句式分析结果,调整现有技术中的基于规则的文本分类方法产生的预分类结果,得到具有语义倾向的文本分类结果,从而,解决了现有技术中基于规则的文本分类方法会出现分类错误的问题。
[0174] 本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
[0175] 本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0176] 需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0177] 本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
[0178] 应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。