一种中文句子中谓语语块提取方法及系统转让专利

申请号 : CN201510065333.7

文献号 : CN104657348B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 朱筠晋耀红刘小蝶

申请人 : 北京师范大学

摘要 :

本发明提供了一种中文句子中谓语语块提取方法及系统,通过对中文句子进行分词处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;加载所述分词单位序列集合对应的概念,获得所述中文句子中所有分词单位的全部概念;对动态概念的兼类进行排除;根据剩余的动态概念与其它相关概念间的组合生成不同类型的候选谓语语块;从所述候选谓语语块中选取出所述中文句子的谓语语块。综合了多方面的语言规律对中文句子中所有分词单位的全部概念进行筛选和组合,并据此选取出中文句子的谓语语块,辨识精准,降低了误判率。

权利要求 :

1.一种中文句子中谓语语块提取方法,其特征在于,包括:对中文句子进行分词处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;

加载所述分词单位序列集合对应的概念,获得所述中文句子中所有分词单位的全部概念;

对动态概念的兼类进行排除;

根据剩余的动态概念与其它相关的概念间的组合生成不同类型的候选谓语语块;

从所述候选谓语语块中选取出所述中文句子的谓语语块;

所述从所述候选谓语语块中选取出所述中文句子的谓语语块包括:根据语义特征对所述候选谓语语块赋值;

设定权重阈值;

将每个所述候选谓语语块所赋予的权值中的最后一个权值作为所述候选谓语语块的有效权值;

将每个所述候选谓语语块的有效权值同所述权重阈值进行比较;

排除所述有效权值小于所述权重阈值的所述候选谓语语块;

判断是否剩余候选谓语语块;

当剩余时,将剩余的所述候选谓语语块进行排序;

选取有效权值最高的所述候选谓语语块作为所述中文句子的谓语语块。

2.根据权利要求1所述的中文句子中谓语语块提取方法,其特征在于,还包括:当不剩余时,则从排除的所述候选谓语语块中选取出有效权值最高的所述候选谓语语块作为所述中文句子的谓语语块。

3.一种中文句子中谓语语块提取系统,其特征在于,包括:分词单位序列集合获取单元(1),用于对中文句子进行分词处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;

概念获取单元(2),用于加载所述分词单位序列集合对应的概念,获得所述中文句子中所有分词单位的全部概念;

排除单元(3),用于对动态概念的兼类进行排除;

生成单元(4),用于根据剩余的动态概念与其它相关概念间的组合生成不同类型的候选谓语语块;

选取单元(5),用于从所述候选谓语语块中选取出所述中文句子的谓语语块;

所述选取单元(5)包括:

赋值子单元(51),用于根据语义特征对所述候选谓语语块赋值;

设定子单元(52),用于设定权重阈值;

有效权值确定子单元(53),用于将每个所述候选谓语语块所赋予的权值中的最后一个权值作为所述候选谓语语块的有效权值;

比较子单元(54),用于将每个所述候选谓语语块的有效权值同所述权重阈值进行比较;

排除子单元(55),用于排除所述有效权值小于所述权重阈值的所述候选谓语语块;

判断子单元(56),用于判断是否剩余候选谓语语块;

排序子单元(57),用于当剩余候选谓语语块时,将剩余的所述候选谓语语块进行排序;

谓语语块选取子单元(58),用于选取有效权值最高的所述候选谓语语块作为所述中文句子的谓语语块。

4.根据权利要求3所述的中文句子中谓语语块提取系统,其特征在于,所述选取单元(5)还包括:找回子单元(59),用于当不剩余候选谓语语块时,则从排除的所述候选谓语语块中选取出有效权值最高的所述候选谓语语块作为所述中文句子的谓语语块。

说明书 :

一种中文句子中谓语语块提取方法及系统

技术领域

[0001] 本发明涉及中文信息处理技术,具体地说涉及一种中文句子中谓语语块提取方法及系统。

背景技术

[0002] 中文信息处理技术经历了面向词语、面向语法结构、面向短语等几个阶段。现在,中文信息处理技术的热点转向面向语义分析。
[0003] HNC是英文Hierarchical Network of Concepts(概念层次网络)的缩写,HNC理论(概念层次网络理论)是一个关于自然语言理解处理的理论体系。HNC理论认为:自然语言理解的本质是概念联想脉络激活、扩展、浓缩、转换与存储的全过程运作。激活运作的要点是语句的理解;扩展与浓缩运作的要点是段落与篇章的理解;转换与存储的要点是记忆与学习。语句的理解必须定位于概念联想脉络运作全过程的激活。HNC理论建立了自然语言的概念空间,并认为语句及自然语言的理解就是从语言空间向语言概念空间的映射过程。这一处理方案,使计算机能够进入自然语言的语义深层,在“懂”的基础上完成对自然语言的各种处理。
[0004] 在HNC理论中,指明谓语语块决定了句子的句类,因此谓语语块的识别对句子的分析起到了非常重要的作用。但因中文句子中常包含多个动词且缺乏形态标记,这为辨识谓语语块带来了很大的困难。

发明内容

[0005] 为此,本发明所要解决的技术问题在于现有技术中在中文句子谓语语块识别方面存在很多困难。
[0006] 为解决上述技术问题,本发明的技术方案如下:
[0007] 本发明提供了一种中文句子中谓语语块提取方法,包括:
[0008] 对中文句子进行分词处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;
[0009] 加载所述分词单位序列集合对应的概念,获得所述中文句子中所有分词单位的全部概念;
[0010] 对动态概念的兼类进行排除;
[0011] 根据剩余的动态概念与其它相关的概念间的组合生成不同类型的候选谓语语块;
[0012] 从所述候选谓语语块中选取出所述中文句子的谓语语块。
[0013] 本发明所述的中文句子中谓语语块提取方法,所述根据剩余的动态概念与其它相关概念间的组合生成不同类型的候选谓语语块包括:
[0014] 加载生成谓语语块的简单中心构件的规则集,以将剩余的能做谓语语块的动态概念、属性概念生成不同类型的简单中心构件;
[0015] 加载相对排除的规则集,以对所述简单中心构件进行相对排除;
[0016] 加载复杂中心构件的规则集,以将相对排除后剩余的所述简单中心构件生成不同类型的复杂中心构件;
[0017] 加载生成谓语语块的修饰类构件的规则集,以将所述中文句子中相关的属性概念和语言逻辑概念生成不同类型的修饰类构件;
[0018] 加载合成候选谓语语块的规则集,以将所述复杂中心构件和所述修饰类构件合成为不同类型的候选谓语语块。
[0019] 本发明所述的中文句子中谓语语块提取方法,所述从所述候选谓语语块中选取出所述中文句子的谓语语块包括:
[0020] 根据语义特征对所述候选谓语语块赋值;
[0021] 设定权重阈值;
[0022] 将每个所述候选谓语语块所赋予的权值中的最后一个权值作为所述候选谓语语块的有效权值;
[0023] 将每个所述候选谓语语块的有效权值同所述权重阈值进行比较;
[0024] 排除所述有效权值小于所述权重阈值的所述候选谓语语块;
[0025] 判断是否剩余候选谓语语块;
[0026] 当剩余时,将剩余的所述候选谓语语块进行排序;
[0027] 选取有效权值最高的所述候选谓语语块作为所述中文句子的谓语语块。
[0028] 本发明所述的中文句子中谓语语块提取方法,还包括:
[0029] 当不剩余时,则从排除的所述候选谓语语块中选取出有效权值最高的所述候选谓语语块作为所述中文句子的谓语语块。
[0030] 本发明提供了一种中文句子中谓语语块提取系统,包括:
[0031] 分词单位序列集合获取单元,用于对中文句子进行分词处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;
[0032] 概念获取单元,用于加载所述分词单位序列集合对应的概念,获得所述中文句子中所有分词单位的全部概念;
[0033] 排除单元,用于对动态概念的兼类进行排除;
[0034] 生成单元,用于根据剩余的动态概念与其它相关概念间的组合生成不同类型的候选谓语语块;
[0035] 选取单元,用于从所述候选谓语语块中选取出所述中文句子的谓语语块。
[0036] 本发明所述的中文句子中谓语语块提取系统,所述生成单元包括:
[0037] 简单中心构件生成子单元,用于加载生成谓语语块的简单中心构件的规则集,以将剩余的能做谓语语块的动态概念、属性概念生成不同类型的简单中心构件;
[0038] 相对排除子单元,用于加载相对排除的规则集,以对所述简单中心构件进行相对排除;
[0039] 复杂中心构件生成子单元,用于加载复杂中心构件的规则集,以将相对排除后剩余的所述简单中心构件生成不同类型的复杂中心构件;
[0040] 修饰类构件生成子单元,用于加载生成谓语语块的修饰类构件的规则集,以将所述中文句子中相关的属性概念和语言逻辑概念生成不同类型的修饰类构件;
[0041] 候选谓语语块生成子单元,用于加载合成候选谓语语块的规则集,以将所述复杂中心构件和所述修饰类构件合成为不同类型的候选谓语语块。
[0042] 本发明所述的中文句子中谓语语块提取系统,所述选取单元包括:
[0043] 赋值子单元,用于根据语义特征对所述候选谓语语块赋值;
[0044] 设定子单元,用于设定权重阈值;
[0045] 有效权值确定子单元,用于将每个所述候选谓语语块所赋予的权值中的最后一个权值作为所述候选谓语语块的有效权值;
[0046] 比较子单元,用于将每个所述候选谓语语块的有效权值同所述权重阈值进行比较;
[0047] 排除子单元,用于排除所述有效权值小于所述权重阈值的所述候选谓语语块;
[0048] 判断子单元,用于判断是否剩余候选谓语语块;
[0049] 排序子单元,用于当剩余候选谓语语块时,将剩余的所述候选谓语语块进行排序;
[0050] 谓语语块选取子单元,用于选取有效权值最高的所述候选谓语语块作为所述中文句子的谓语语块。
[0051] 本发明所述的中文句子中谓语语块提取系统,所述选取单元还包括:
[0052] 找回子单元,用于当不剩余候选谓语语块时,则从排除的所述候选谓语语块中选取出有效权值最高的所述候选谓语语块作为所述中文句子的谓语语块。
[0053] 本发明的上述技术方案相比现有技术具有以下优点:
[0054] 本发明提供了一种中文句子中谓语语块提取方法及系统,通过对中文句子进行分词处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;加载所述分词单位序列集合对应的概念,获得所述中文句子中所有分词单位的全部概念;对动态概念的兼类进行排除;根据剩余的动态概念与其它相关概念间的组合生成不同类型的候选谓语语块;从所述候选谓语语块中选取出所述中文句子的谓语语块。综合了多方面的语言规律对中文句子中所有分词单位的全部概念进行筛选和组合,并据此选取出中文句子的谓语语块,辨识精准,降低了误判率。

附图说明

[0055] 为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
[0056] 图1是本发明所述中文句子中谓语语块提取方法的流程图;
[0057] 图2是本发明所述中文句子中谓语语块提取方法中步骤S4的流程图;
[0058] 图3是本发明所述中文句子中谓语语块提取方法中步骤S5的流程图;
[0059] 图4是本发明所述中文句子中谓语语块提取系统的结构框图。
[0060] 图中附图标记表示为:1-分词单位序列集合获取单元,2-概念获取单元,3-排除单元,4-生成单元,5-选取单元,41-简单中心构件生成子单元,42-相对排除子单元,43-复杂中心构件生成子单元,44-修饰类构件生成子单元,45-候选谓语语块生成子单元,51-赋值子单元,52-设定子单元,53-有效权值确定子单元,54-比较子单元,55-排除子单元,56-判断子单元,57-排序子单元,58-谓语语块选取子单元,59-找回子单元。

具体实施方式

[0061] 实施例1
[0062] 本实施例提供了一种中文句子中谓语语块提取方法,如图1所示,包括:
[0063] S1.对中文句子进行分词处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;
[0064] S2.加载所述分词单位序列集合对应的概念,获得所述中文句子中所有分词单位的全部概念;
[0065] S3.对动态概念的兼类进行排除;
[0066] S4.根据剩余的动态概念与其它相关概念间的组合生成不同类型的候选谓语语块;
[0067] S5.从所述候选谓语语块中选取出所述中文句子的谓语语块。
[0068] 具体地,步骤S1中,可以使用中文停止词表、分词词表按照前向最大分词法分割中文句子,当然也可以使用双向最大分词法,或者中科院张华平提出的隐马尔科夫模型法来分割中文句子,都能实现得到分词单位的目的,再根据分词单位就可以形成分词单位序列集合了,非常简便快捷。
[0069] 步骤S2中,可以从概念层次网络知识库中加载分词单位序列集合对应的概念,不同的分词单位可能对应同样的概念类别,也可能对应不同的概念类别。概念层次网络词语知识库主要服务于自然语言的模糊消解,其对每个词语的描写主要包括概念知识和句类知识两项内容,其中,概念知识主要包括:广义概念类别GCC、概念类别CC、语素QH、纯动态概念CHUNV等;句类知识主要包括广义分类GXGY、主语块数量SC_GBK_NUM、块扩EPER、原蜕SC_GBK1_YT、SC_GBK2_YT和被动语态ALL_PASS等。通过从概念层次网络知识库中加载分词单位序列集合对应的概念,能够准确地对中文句子中所有分词单位的全部概念进行分类,为后期准确提取中文句子中的谓语语块奠定了坚实的基础。
[0070] 步骤S3中,可以加载绝对排除的规则集以对动态概念的兼类进行排除,绝对排除的规则集是将中文句子中所有不可以构成谓语语块的动态概念进行绝对排除的规则集合。绝对排除指的是排除兼类的动态概念,动态概念的兼类基本可以分为四类:动态概念和静态概念的兼类、动态概念和语言逻辑概念的兼类、动态概念和动态概念的兼类、动态概念和属性概念的兼类。绝对排除的规则集利用前后共现的词语的语义特征,对中文句子中影响分析的一些兼类动态概念的标记进行选择,一些存在兼类的动态概念经过此步骤处理后被排除了作动态概念使用的可能,通过对动态概念的兼类进行绝对排除,可以将动态概念的兼类涉及的这部分干扰动词进行有效排除,降低了数据处理量,提升了谓语语块提取的效率。
[0071] 优选地,如图2所示,所述步骤S4可以包括:
[0072] S41.加载生成谓语语块的简单中心构件的规则集,以将剩余的能做谓语语块的动态概念、属性概念生成不同类型的简单中心构件;
[0073] S42.加载相对排除的规则集,以对所述简单中心构件进行相对排除;
[0074] S43.加载复杂中心构件的规则集,以将相对排除后剩余的所述简单中心构件生成不同类型的复杂中心构件;
[0075] S44.加载生成谓语语块的修饰类构件的规则集,以将所述中文句子中相关的属性概念和语言逻辑概念生成不同类型的修饰类构件;
[0076] S45.加载合成候选谓语语块的规则集,以将所述复杂中心构件和所述修饰类构件合成为不同类型的候选谓语语块。
[0077] 具体地,步骤S41中,生成谓语语块的简单中心构件的规则集包括将所有非vv类的动态概念v和纯动态概念ALL_V生成谓语语块的简单中心构件E;将位于中文句子末尾或与构成比较判断句的“比”搭配使用的属性概念u或uu+u生成谓语语块的简单中心构件E,为后期选取谓语语块奠定了基础。
[0078] 步骤S42中,相对排除的规则集包括当静态概念与动态概念组合时,根据词语的位置,为谓语语块的简单中心构件E赋值EG_CANNOT;当动态概念与静态概念/物类概念/词缀组合时,从词语的长度、词语的构成角度,为谓语语块的简单中心构件E赋值VOOV_HIGH、VOOV_MIDDLE、VOOV_LOW;为同时具有动态概念v和辅块前标记l1两项特征的谓语语块的简单中心构件E赋值L1V;其中,有EG_CANNOT、VOOV_HIGH权值的谓语语块的简单中心构件E是不能作谓语的,而有VOOV_MIDDLE、VOOV_LOW、L1V权值的谓语语块的简单中心构件E是可以作谓语的,这三个权值是在找不到更合适的其他谓语语块的情况下才有作谓语语块的资格,以此来精确实现对谓语语块的简单中心构件E的相对排除,为后期生成符合语言规律的复杂中心构件奠定了基础。
[0079] 步骤S43中,复杂中心构件的规则集包括将动态概念vv生成EQ构件;将与简单中心构件E搭配使用的部分静态概念,如与“有”搭配使用的静态概念“联系”等生成EH构件;将两个或两个以上的并列的简单中心构件E合成复杂中心构件E_E并赋上权值V_COMP;对于共现的EQ构件和简单中心构件E,如果EQ构件与简单中心构件E紧邻,将EQ+E合成复杂中心构件EQ_E并赋上权值V_COMP;如果EQ构件与简单中心构件E分离,则无法将EQ构件和简单中心构件E合成为一个复杂中心构件,而只能将两者单独合成为复杂中心构件EQ_E并赋上权值V_COMP;对于搭配使用的简单中心构件E和EH构件,不管二者是否紧邻,可以将E+EH或E+……+EH合成为复杂中心构件E_EH并赋上权值V_COMP;将搭配使用的EQ构件和EH构件合成为复杂中心构件EQ_EH并赋上权值V_COMP;将搭配使用的EQ构件、简单中心构件E和EH构件合成为复杂中心构件EQ_E_EH并赋上权值V_COMP。上述复杂中心构件的规则集符合语言规律,确保了后期准确提取出中文句子中的谓语语块。
[0080] 步骤S44中,生成谓语语块的修饰类构件的规则集包括将属性概念u、uu、uv生成谓语语块的属性修饰类构件EU;将语言逻辑概念la生成谓语语块的语言逻辑修饰类构件LA;将概念类别为jlu、l6、qv的概念生成谓语语块的普通修饰类构件QE;将hv类概念生成谓语语块的补充修饰类构件HV,据此生成符合语言规律的不同类型的修饰类构件,确保了后期准确提取出中文句子中的谓语语块。
[0081] 步骤S45中,合成候选谓语语块的规则集包括将属性修饰类构件EU、语言逻辑修饰类构件LA、普通修饰类构件QE以及补充修饰类构件HV同复杂中心构件E_E、EQ_E、E_EH、EQ_EH以及EQ_E_EH合成为候选谓语语块并赋予权值V_COAT,其中谓语语块的修饰类构件不是必要的,而复杂中心构件是必要的;修饰类构件EU、LA、QE只能放在简单中心构件E和复杂中心构件E_E、EQ_E、E_EH、EQ_EH、EQ_E_EH之前,当与简单中心构件E和复杂中心构件E_E、EQ_E、E_EH、EQ_EH、EQ_E_EH紧邻时,将修饰类构件EU、LA、QE、HV与简单中心构件E和谓语语块的复杂中心构件E_E、EQ_E、E_EH、EQ_EH、EQ_E_EH合成为候选谓语语块并赋予权值V_COAT;当与简单中心构件E和复杂中心构件E_E、EQ_E、E_EH、EQ_EH、EQ_E_EH不紧邻时,只把简单中心构件E和复杂中心构件E_E、EQ_E、E_EH、EQ_EH、EQ_E_EH作为候选谓语语块并赋予权值V_COAT;修饰类构件HV只能放在简单中心构件E和复杂中心构件E_E、EQ_E、E_EH、EQ_EH、EQ_E_EH之后。据此生成符合语言规律的不同类型的候选谓语语块。
[0082] 优选地,如图3所示,所述步骤S5可以包括:
[0083] S51.根据语义特征对所述候选谓语语块赋值;
[0084] S52.设定权重阈值;
[0085] S53.将每个所述候选谓语语块所赋予的权值中的最后一个权值作为所述候选谓语语块的有效权值;
[0086] S54.将每个所述候选谓语语块的有效权值同所述权重阈值进行比较;
[0087] S55.排除所述有效权值小于所述权重阈值的所述候选谓语语块;
[0088] S56.判断是否剩余候选谓语语块;
[0089] S57.当剩余时,将剩余的所述候选谓语语块进行排序;
[0090] S58.选取有效权值最高的所述候选谓语语块作为所述中文句子的谓语语块。
[0091] 具体地,步骤S51中,可以通过加载单一赋值的规则集来根据语义特征对所述候选谓语语块赋值,以此对候选谓语语块作谓语的可能性进行梳理。其中单一赋值的规则集包括:以“的”作为依据预判,为带从句的名词性短语的候选谓语语块赋值EL;为预判为从句的候选谓语语块赋值ER;为未被赋予任何权值的候选谓语语块赋值E_CANDIDATE;为纯动态概念构成的候选谓语语块赋值CHUNV;为由“是”及类似的判断句的词语构成的候选谓语语块赋值SHI;为具有GBK2/GBK3可以先验块扩属性的候选谓语语块赋值EPER;将位于句子末尾且与构成比较判断句的“比”搭配使用的属性概念u或uu+u生成的候选谓语语块赋值E_U;为前面是辅块的候选谓语语块赋值ABK_E;为能构成规范格式的候选谓语语块赋值E_FORMAT;为位于紧邻断句点号的候选谓语语块赋值E_TAIL;为位于句首的候选谓语语块赋值E_HEAD,可以生成包括候选谓语语块与其对应权值的权值列表,便于后期的查询处理。生成的权值列表如下所示:
[0092] EG_CANNOT
[0093] L1V
[0094] VOOV_HIGH
[0095] VOOV_MIDDLE
[0096] VOOV_LOW
[0097] EL
[0098] ER
[0099] E_TAIL
[0100] EG_CANDIDATE
[0101] CHUNV
[0102] V_COAT
[0103] V_COMP
[0104] ABK_E
[0105] E_FORMAT
[0106] SHI
[0107] E_U
[0108] EG
[0109] EP
[0110] 上述权值按照权值逐渐增大的顺序排列,其中,权值L1V、VOOV_HIGH、VOOV_MIDDLE、VOOV_LOW、EL、ER是第一档,权值E_TAIL、CHUNV、V_COAT、V_COMP是第二档,权值ABK_E、E_FORMAT是第三档,权值SHI、E_U、EG、EP是第四档,第一档内的权值依次逐渐增大,后三档按照权值逐渐增大的顺序排列,但同档内的权值高低相同。
[0111] 步骤S52中,对于同一中文句子中的不同类型的候选谓语语块而言,在多个权值中,只有大于等于E_TAIL的权值的谓语语块优先选择为句子最终合法的谓语语块。因此可以设定权重阈值为E_TAIL,以此为标准,来排除权值低的候选谓语语块,以确保最终能够精确提取出谓语语块,同时也可以减少提取过程的数据处理量。
[0112] 步骤S53中,由于动态概念可能具有多重属性,使得候选谓语语块有可能匹配多条规则而被赋予多个权值,对于一个候选谓语语块而言,只有最后一个权值是有效的;将每个候选谓语语块的最后一个权值作为有效权值,减少了判断的过程,同时也确保了最终提取结果的准确性。
[0113] 步骤S54-S58中,结合上述权值列表,选择最终有效权值中档次最高的谓语语块作为此句的谓语语块;同档内的权值同时出现时,结合位置信息,选择最靠前的谓语语块作为此句的谓语语块,确保了能够选取出最适合的谓语语块。
[0114] 优选地,还可以包括:
[0115] S59.当不剩余时,则从排除的所述候选谓语语块中选取出有效权值最高的所述候选谓语语块作为所述中文句子的谓语语块。
[0116] 具体地,有可能所有候选谓语语块的权值均低于权重阈值E_TAIL,导致所有的候选谓语语块均被排除,为了找到合适的候选谓语语块,可以从已排除的候选谓语语块中选择有效权值最高的候选谓语语块作为中文句子的谓语语块,找回有可能被误排除的候选谓语语块。
[0117] 为了更好的理解本方案,下面以中文句子“控制器在系统的第一操作模式期间根据第一串行数据总线协议产生第一时钟信号和第一数据信号。”为例,对本实施例所述的中文句子中谓语语块提取方法作进一步的说明。
[0118] 1)经过对中文句子进行前向最大分词处理,得到中文句子中的所有分词单位构成的分词单位序列集合为:
[0119] 控制\器\也\可以\根据\第一\串行数据总线\协议\在\用于\设置\部件\的\第一\操作\系统\期间\产生\第一\时钟\信号\的\数据\输出\。\
[0120] 其中,“\”是分词分隔符。
[0121] 2)加载了概念层次网络词语知识库后,所有的动词的加载结果是:“控制”加载了动态概念v,“可以”加载了语言逻辑概念jlu,“在”加载了动态概念v和语言逻辑概念l1,“用于”加载的是动态概念vv和动态概念v,“设置”加载了动态概念v,“操作”加载了动态概念v,“协议”加载了动态概念v和静态概念g,“操作”加载了动态概念v,“产生”加载了动态概念v,“输出”加载了动态概念v。
[0122] 3)对动态概念的兼类进行绝对排除:
[0123] 利用“在”和与其搭配的“期间”,确定“在”不是动态概念v,而是语言逻辑概念l1;
[0124] 利用“用于+动态概念”,确定“用于”只能是动态概念vv,而不是动态概念v;
[0125] 排除兼类后,所有动态概念加载概念层次网络词语知识库的结果是:“控制”加载了动态概念v,“可以”加载了语言逻辑概念jlu,“在”加载了语言逻辑概念l1,“用于”加载了动态概念vv,“设置”加载了动态概念v,“操作”加载了动态概念v,“协议”加载了动态概念v和静态概念g,“操作”加载了动态概念v,“产生”加载了动态概念v,“输出”加载了动态概念v。
[0126] 4)加载生成谓语语块的简单中心构件的规则集,把剩余的动态概念生成简单中心构件E后输出的结果是:控制、设置、操作、协议、产生、输出。
[0127] 5)加载相对排除的规则,对简单中心构件E进行相对排除:
[0128] “器”是词长为1的词缀,利用“控制+词长为1的词缀”的条件,在谓语中心语块“控制”上赋予VOOV_HIGH权值;
[0129] “部件”是词长为2的静态概念,利用“词长为2的动态概念+词长为2的静态概念”的条件,在谓语中心语块“设置”上赋予VOO_LOW权值;
[0130] “系统”是词长为2的类词缀的词语,利用“词长为2的动态概念+词长为2的类词缀的词语”的条件,在谓语中心语块“操作”上赋予VOO_MIDDLE权值;
[0131] 对于谓语中心语块“在”因其有语言逻辑概念l1,为其赋予L1V权值;
[0132] 6)加载复杂中心构件的规则集后,其输出的信息如下:
[0133] “用于”生成了构件EQ;
[0134] 构件EQ“用于”与简单中心构件E“设置”合成了复杂中心构件EQ_E“用于设置”并赋予权值V_COMP;
[0135] 构件EQ“用于”与简单中心构件E“输出”合成了复杂中心构件EQ_E“用于输出”并赋予权值V_COMP;
[0136] 7)加载生成谓语语块的修饰类构件的规则集后,其输出的信息如下:
[0137] “也”生成谓语语块的修饰类构件LA;
[0138] “可以”生成谓语语块的修饰类构件QE;
[0139] 8)加载合成候选谓语语块的规则集后,其输出的信息如下:
[0140] LA“也”、QE“可以”+E“产生”合成了候选谓语语块“可以产生”并赋予权值V_COAT;
[0141] 9)加载单一赋值规则集根据语义特征对候选谓语语块赋值后,其输出的信息如下:
[0142] 候选谓语语块“控制”上赋有权值EL;
[0143] 候选谓语语块“协议”上赋有权值EG_CANDIDATE;
[0144] 候选谓语语块“用于设置”上赋有权值ER;
[0145] 候选谓语语块“产生”上赋有权值EG_CANDIDATE、ABK_E、EG;
[0146] 候选谓语语块“输出”上赋有权值E_TAIL;
[0147] 10)输出所有的候选谓语语块及其权值列表,输出的信息如下:
[0148] 候选谓语语块“控制”上赋有权值VOOV_HIGH、EL;
[0149] 候选谓语语块“协议”上赋有权值EG_CANDIDATE;
[0150] 候选谓语语块“用于设置”上赋有权值V_COMP、ER;
[0151] 谓语中心语块“设置”上赋予权值VOOV_LOW;
[0152] 候选谓语语块“操作”上赋有权值VOOV_MIDDLE;
[0153] 候选谓语语块“产生”上赋有权值EG_CANDIDATE、V_COAT、ABK_E、EG;
[0154] 候选谓语语块“用于输出”上赋有权值E_TAIL、V_COMP;
[0155] 候选谓语语块“输出”上赋有权值E_TAIL、V_COMP;
[0156] 11)选取有效权值最高的候选谓语语块作为中文句子的谓语语块:
[0157] “产生”上的EG权值属于第四档,“产生”上的ABK_E权值属于第三档,“产生”上的V_COAT权值、“用于设置”上的V_COMP、“输出”上的E_TAIL、V_COMP权值属于第二档;因此“可以产生”是此中文句子的谓语语块。
[0158] 本实施例所述中文句子中谓语语块提取方法,综合了多方面的语言规律对中文句子中所有分词单位的全部概念进行筛选和组合,并据此选取出中文句子的谓语语块,辨识精准,降低了误判率。
[0159] 实施例2
[0160] 本实施例提供了一种中文句子中谓语语块提取系统,如图4所示,包括:分词单位序列集合获取单元1、概念获取单元2、排除单元3、生成单元4以及选取单元5,其中分词单位序列集合获取单元1用于对中文句子进行分词处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;概念获取单元2用于加载所述分词单位序列集合对应的概念,获得所述中文句子中所有分词单位的全部概念;排除单元3用于对动态概念的兼类进行排除;生成单元4用于根据剩余的动态概念与其它相关概念间的组合生成不同类型的候选谓语语块;选取单元5,用于从所述候选谓语语块中选取出所述中文句子的谓语语块。
[0161] 优选地,所述生成单元4可以包括:
[0162] 简单中心构件生成子单元41,用于加载生成谓语语块的简单中心构件的规则集,以将剩余的能做谓语语块的动态概念、属性概念生成不同类型的简单中心构件;
[0163] 相对排除子单元42,用于加载相对排除的规则集,以对所述简单中心构件进行相对排除;
[0164] 复杂中心构件生成子单元43,用于加载复杂中心构件的规则集,以将相对排除后剩余的所述简单中心构件生成不同类型的复杂中心构件;
[0165] 修饰类构件生成子单元44,用于加载生成谓语语块的修饰类构件的规则集,以将所述中文句子中相关的属性概念和语言逻辑概念生成不同类型的修饰类构件;
[0166] 候选谓语语块生成子单元45,用于加载合成候选谓语语块的规则集,以将所述复杂中心构件和所述修饰类构件合成为不同类型的候选谓语语块。
[0167] 优选地,所述选取单元5可以包括:
[0168] 赋值子单元51,用于根据语义特征对所述候选谓语语块赋值;
[0169] 设定子单元52,用于设定权重阈值;
[0170] 有效权值确定子单元53,用于将每个所述候选谓语语块所赋予的权值中的最后一个权值作为所述候选谓语语块的有效权值;
[0171] 比较子单元54,用于将每个所述候选谓语语块的有效权值同所述权重阈值进行比较;
[0172] 排除子单元55,用于排除所述有效权值小于所述权重阈值的所述候选谓语语块;
[0173] 判断子单元56,用于判断是否剩余候选谓语语块;
[0174] 排序子单元57,用于当剩余候选谓语语块时,将剩余的所述候选谓语语块进行排序;
[0175] 谓语语块选取子单元58,用于选取有效权值最高的所述候选谓语语块作为所述中文句子的谓语语块。
[0176] 优选地,所述选取单元5还可以包括:
[0177] 找回子单元59,用于当不剩余候选谓语语块时,则从排除的所述候选谓语语块中选取出有效权值最高的所述候选谓语语块作为所述中文句子的谓语语块。
[0178] 本实施例所述中文句子中谓语语块提取系统,综合了多方面的语言规律对中文句子中所有分词单位的全部概念进行筛选和组合,并据此选取出中文句子的谓语语块,辨识精准,降低了误判率。
[0179] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0180] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0181] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0182] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0183] 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。