文本信息抽取方法和系统转让专利

申请号 : CN201110273322.X

文献号 : CN102298642B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李培峰朱巧明孔芳周国栋钱龙华

申请人 : 苏州大学

摘要 :

本发明实施例公开了一种文本信息抽取方法,实现从文本中抽取某种现象或某个事件产生的原因信息;其方法根据原因种子对对从互联网中采集的语句进行分析,生成原因句抽取模式,并利用依存关系和依存路径表示原因句的抽取模式,再基于该抽取模式来抽取原因信息,抽取过程大大减少了人工成本;且以抽取的原因句和非原因句作为训练样本,训练一个支持向量机分类器在未分类的语句中进一步识别原因句,从而提高了性能;本发明还公开了一种文本信息抽取系统,用于抽取文本中某种现象或某个事件产生的原因的信息。

权利要求 :

1.一种文本信息抽取方法,其特征在于,包括:

设置第一检索条件,检索并选取第一候选网页,从所述第一候选网页中提取第一候选语句;所述第一候选网页与第一候选语句满足第一检索条件;

根据第一候选语句生成第一句法树,并得到第一标注候选语句;

根据第一句法树裁剪第一标注候选语句,生成裁剪依存树;把裁剪依存树分类为原因句依存树集合和非原因句依存树集合;根据第一句法树中的依存路径,合并原因句依存树集合中的裁剪依存树,生成原因句模式库;合并非原因句依存树集合中的依存树生成非原因句模式库;

读取用户输入的需要抽取原因的现象的关键词,根据所述关键词与原因句模式库,设置第二检索条件,检索并选取第二候选网页,从所述第二候选网页中提取第二候选语句,所述第二候选网页与第二候选语句满足第二检索条件;根据第二候选语句,生成第二标注候选语句;

裁剪第二标注候选语句,抽取候选原因结点,构造候选原因结点到现象结构的依存路径,并生成候选原因依存子树集合;从候选原因依存子树集合中抽取原因信息,添加到原因库中;

其中,所述根据第一句法树裁剪第一标注候选语句,生成裁剪依存树包括:根据第一句法树中现象结构和原因结构的根结点,裁剪第一标注候选语句,得到包含原因种子对的第一最小子句;根据第一最小子句的依存关系,生成第一依存树,抽取所述第一依存树中现象结构到原因结构的依存路径,裁剪第一最小子句,得到初步裁剪依存树;根据初步裁剪依存树上的谓词,裁剪初步裁剪依存树,得到裁剪依存树。

2.根据权利要求1所述的方法,其特征在于:

所述第一检索条件为原因种子对;

所述第二检索条件为需要抽取原因的现象的关键词与原因句模式库中的依存模式的每条路径中出现的结点的组合。

3.根据权利要求1所述的方法,其特征在于,所述把裁剪依存树分类为原因句依存树集合和非原因句依存树集合,包括:通过对裁剪依存树的原因结构与现象结构进行替换,生成替换依存树;

对替换依存树进行分类,若每两棵替换依存树之间的相似度大于第一预设阀值,则将该两棵替换依存树视为同类别,生成分类依存树;

判别各类别分类依存树是否表示原因句,若是,则将分类依存树标记为正例,并添加到原因句依存树集合;若否,则将分类依存树标记为负例,并添加到非原因句依存树集合。

4.根据权利要求3所述的方法,其特征在于,所述根据第一句法树中的依存路径,合并原因句依存树集合中的裁剪依存树,生成原因句模式库,包括:原因句依存树集合中,对同类别的任意两棵替换依存树的依存路径进行比较,根据比较结果,对原因句依存树集合中的分类依存树进行合并,生成原因句模式库。

5.根据权利要求1所述的方法,其特征在于,所述裁剪第二标注候选语句,抽取候选原因结点,构造候选原因结点到现象结构的依存路径,并生成候选原因依存子树集合包括:根据第一句法树中包含第二检索条件的子句的根结点,裁剪第二标注候选语句,生成第二最小子句,并调用句法分析工具和依存关系分析工具,生成所述第二最小子句的第二句法树和第二依存树;

从所述第二依存树的根结点下抽取不包含现象结构的分支上的结点集合,从所述第二句法树中抽取包含了所述结点集合的子树,在所述子树中查找子句和短语标记,把所述子句和短语标记内的所有词语合并成为一个词语,标记为候选原因结点;

查找每个所述候选原因结点到现象结构的依存路径,并根据所述依存路径生成候选依存树,对所述候选依存树进行裁剪,生成候选原因依存子树和候选原因依存子树集合。

6.根据权利要求5所述的方法,其特征在于,所述从候选原因依存子树集合中抽取原因信息,添加到原因库中之前进一步包括:计算所述候选原因依存子树集合中的候选原因依存子树,和原因句模式库中每个依存模式的相似度;若相似度的最大值大于第二预设阀值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到正例原因句集合,抽取所述候选原因依存子树的候选原因结点添加到原因库中;

若候选原因依存子树集合中存在一候选原因依存子树的候选原因结点,和原因库中任意一个候选原因结点的相似度大于所述第三预设阈值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到正例原因句集合。

7.根据权利要求6所述的方法,其特征在于,所述从候选原因依存子树集合中抽取原因信息,添加到原因库中之前还包括:计算所述候选原因依存子树集合中的未被删除的候选原因依存子树,和非原因句模式库中每个依存模式的相似度;若相似度的最大值大于第四预设阀值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到负例原因句集合;

若候选原因依存子树集合中存在一候选原因依存子树的候选原因结点,和所述负例原因句集合中任意一个候选原因结点的相似度大于第五预设阈值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到负例原因句集合。

8.根据权利要求7所述的方法,其特征在于,所述从候选原因依存子树集合中抽取原因信息,添加到原因库中包括:对候选原因依存子树集合中的未被删除的候选原因依存子树,以正例原因句集合中的候选原因依存子树和负例原因句集合中的候选原因依存子树作为训练样本,构造一个采用复合核的支持向量机分类器进行分类,把分到正例原因句集合的候选原因依存子树中的候选原因结点添加到原因库中。

9.一种文本信息抽取系统,其特征在于,包括:

原因句子采集模块,用于设置第一检索条件,检索并选取第一候选网页,从所述第一候选网页中提取第一候选语句;所述第一候选网页与第一候选语句满足第一检索条件;

句子标注模块,用于根据第一候选语句生成第一句法树,并得到第一标注候选语句;

依存模式抽取和归并模块,用于根据第一句法树裁剪第一标注候选语句,生成裁剪依存树;把裁剪依存树分类为原因句依存树集合和非原因句依存树集合;根据第一句法树中的依存路径,合并原因句依存树集合中的裁剪依存树,生成原因句模式库;合并非原因句依存树集合中的依存树生成非原因句模式库;

查询和预处理模块,用于读取用户输入的需要抽取原因的现象的关键词,根据所述关键词与原因句模式库,设置第二检索条件,检索并选取第二候选网页,从所述第二候选网页中提取第二候选语句,所述第二候选网页与第二候选语句满足第二检索条件;根据第二候选语句,生成第二标注候选语句;

原因信息抽取模块,用于裁剪第二标注候选语句,抽取候选原因结点,构造候选原因结点到现象结构的依存路径,并生成候选原因依存子树集合,从候选原因依存子树集合中抽取原因信息,添加到原因库中;

其中,所述依存模式抽取和归并模块包括:

句法树裁剪单元,用于根据第一句法树中现象结构和原因结构的根结点,裁剪第一标注候选语句,得到包含原因种子对的第一最小子句;

依存树初步裁剪单元,用于根据第一最小子句的依存关系,生成第一依存树,抽取所述第一依存树中现象结构到原因结构的依存路径,裁剪第一最小子句,得到初步裁剪依存树;

依存树谓词裁剪单元,用于根据初步裁剪依存树上的谓词,裁剪初步裁剪依存树,得到裁剪依存树。

10.根据权利要求9所述的系统,其特征在于,所述依存模式抽取和归并模块还包括:

原因句甄别单元,用于通过对裁剪依存树的原因结构与现象结构进行替换,生成替换依存树;对替换依存树进行分类,若每两棵替换依存树之间的相似度大于第一预设阀值,则将该两棵替换依存树视为同类别,生成分类依存树;判别各类别分类依存树是否表示原因句,若是,则将分类依存树标记为正例,并添加到原因句依存树集合;若否,则将分类依存树标记为负例,并添加到非原因句依存树集合;

依存模式归并单元,用于在原因句依存树集合中,对同类别的任意两棵替换依存树的依存路径进行比较,根据比较结果,对原因句依存树集合中的分类依存树进行合并,生成原因句模式库;用于在非原因句依存树集合中,对同类别的任意两棵替换依存树的依存路径进行比较,根据比较结果,对非原因句依存树集合中的分类依存树进行合并,生成非原因句模式库。

11.根据权利要求9所述的系统,其特征在于,所述原因信息抽取模块包括:

候选原因子树抽取单元,用于根据第一句法树中包含第二检索条件的子句的根结点,裁剪第二标注候选语句,生成第二最小子句,并调用句法分析工具和依存关系分析工具,生成所述第二最小子句的第二句法树和第二依存树;从所述第二依存树的根结点下抽取不包含现象结构的分支上的结点集合,从所述第二句法树中抽取包含了所述结点集合的子树,在所述子树中查找子句和短语标记,把所述子句和短语标记内的所有词语合并成为一个词语,标记为候选原因结点;查找每个所述候选原因结点到现象结构的依存路径,并根据所述依存路径生成候选依存树,对所述候选依存树进行裁剪,生成候选原因依存子树和候选原因依存子树集合;

原因句匹配和原因抽取单元,用于计算所述候选原因依存子树集合中的候选原因依存子树,和原因句模式库中每个依存模式的相似度;若相似度的最大值大于第二预设阀值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到正例原因句集合,抽取所述候选原因依存子树的候选原因结点添加到原因库中;若候选原因依存子树集合中存在一候选原因依存子树的候选原因结点,和原因库中任意一个候选原因结点的相似度大于所述第三预设阈值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到正例原因句集合;

非原因句匹配和抽取单元,用于计算所述候选原因依存子树集合中的未被删除的候选原因依存子树,和非原因句模式库中每个依存模式的相似度;若相似度的最大值大于第四预设阀值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到负例原因句集合;若候选原因依存子树集合中存在一候选原因依存子树的候选原因结点,和所述负例原因句集合中任意一个候选原因结点的相似度大于第五预设阈值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到负例原因句集合;

原因句分类抽取单元,用于对候选原因依存子树集合中的未被删除的候选原因依存子树,以正例原因句集合中的候选原因依存子树和负例原因句集合中的候选原因依存子树作为训练样本,构造一个采用复合核的支持向量机分类器进行分类,把分到正例原因句集合的候选原因依存子树中的候选原因结点添加到原因库中。

说明书 :

文本信息抽取方法和系统

技术领域

[0001] 本发明涉及面向互联网的自然语言处理领域,具体地说,是涉及一种抽取文本中某种现象或某个事件产生的原因的信息抽取方法和系统。

背景技术

[0002] 在互联网上,文本是信息表示的最主要方式,人们经常会通过互联网上的文本来得到想要获取的信息。
[0003] 文本信息抽取技术是一种精确化和高效的信息获取手段,它是从一个或多个网页中抽取指定的实体、关系、事件和事实等用户需要的信息,并形成结构化的数据,呈现给用户,具有内容精确、冗余度小、组织规范等优点。目前,基于互联网的文本信息抽取技术有两种常见形式:基于包装器(Wrapper)半结构化文本信息抽取,和基于自然语言处理技术的无结构化文本信息抽取。基于包装器半结构化文本信息抽取技术主要根据网页中的HTML标注生成包装器并利用包装器来从半结构化的HTML文本中抽取所需要的信息。如互联网的商品价格抽取系统就是它的一个应用实例。目前,绝大多数的Web信息抽取系统和方法就属于这一类;基于自然语言处理技术的无结构化文本信息抽取处理的对象是由大段的文字组成的自然文本(如网页的正文、邮件的正文等),在文字之间并无结构或标注信息。
[0004] 人们在生活中经常会问为什么,如“为什么会感冒?”、“网瘾的原因是什么?”、“法航447航班为什么会失事?”等,其目的是为了了解某个事情的原因。重要的是,从互联网文本中抽取某种现象或某个事件的原因,对情报分析、或对军事决策、或对灾难的预警、或对医学技术的研发等方面具有不可估量的价值。
[0005] 这种从互联网文本中抽取某种现象或某个事件的原因信息的属于无结构化文本信息抽取。目前在无结构化文本信息抽取方法中,根据其自动化程度,一般分为手工规则方法、有监督方法、半监督方法和无监督方法。手工规则方法由人工阅读大量的文档信息,从中总结出规则,然后系统利用这些规则来抽取信息,该方法准确率高,但是耗时、耗力,成本过高;有监督方法则是由用户标注出大量的训练样本,然后采用机器学习的方法学习训练样本得到一个训练后的分类器,用于抽取信息,该方法一般比手工规则方法准确率低,但是花费的成本相对也低;半监督方法首先标注少量样本,然后在此基础上加入大量未标注样本,学习该样本得到一个训练后的分类器,用于抽取信息,该方法一般比有监督方法准确率低,但是标注的样本同样也少;无监督方法则不需要用户的任何标注信息,在抽取过程中不需要用户的干预,自动化程度高、成本低,但是相比其它方法,准确率偏低。

发明内容

[0006] 为了解决现有技术方法中存在的不足,本发明实施例提供了一种文本信息抽取方法和系统,用于抽取文本中有关一种现象或事件产生的原因信息。
[0007] 一种文本信息抽取方法,其步骤包括:
[0008] 设置第一检索条件,检索并选取第一候选网页,从所述第一候选网页中提取第一候选语句;所述第一候选网页与第一候选语句满足第一检索条件;
[0009] 根据第一候选语句生成第一句法树,并得到第一标注候选语句;
[0010] 根据第一句法树裁剪第一标注候选语句,生成裁剪依存树;把裁剪依存树分类为原因句依存树集合和非原因句依存树集合;根据第一句法树中的依存路径,合并原因句依存树集合中的裁剪依存树,生成原因句模式库;合并非原因句依存树集合中的依存树生成非原因句模式库;
[0011] 读取用户输入的需要抽取原因的现象的关键词,根据所述关键词与原因句模式库,设置第二检索条件,检索并选取第二候选网页,从所述第二候选网页中提取第二候选语句,所述第二候选网页与第二候选语句满足第二检索条件;根据第二候选语句,生成第二标注候选语句;
[0012] 裁剪第二标注候选语句,抽取候选原因结点,构造候选原因结点到现象结构的依存路径,并生成候选原因依存子树集合,从候选原因依存子树集合中抽取原因信息,添加到原因库中。
[0013] 本发明实施例还提供了一种文本信息抽取系统,包括:原因句子采集模块,用于设置第一检索条件,检索并选取第一候选网页,从所述第一候选网页中提取第一候选语句;所述第一候选网页与第一候选语句满足第一检索条件;
[0014] 句子标注模块,用于根据第一候选语句生成第一句法树,并得到第一标注候选语句;
[0015] 依存模式抽取和归并模块,用于根据第一句法树裁剪第一标注候选语句,生成裁剪依存树;把裁剪依存树分类为原因句依存树集合和非原因句依存树集合;根据第一句法树中的依存路径,合并原因句依存树集合中的裁剪依存树,生成原因句模式库;合并非原因句依存树集合中的依存树生成非原因句模式库;
[0016] 查询和预处理模块,用于读取用户输入的需要抽取原因的现象的关键词,根据所述关键词与原因句模式库,设置第二检索条件,检索并选取第二候选网页,从所述第二候选网页中提取第二候选语句,所述第二候选网页与第二候选语句满足第二检索条件;根据第二候选语句,生成第二标注候选语句;
[0017] 原因信息抽取模块,用于裁剪第二标注候选语句,抽取候选原因结点,构造候选原因结点到现象结构的依存路径,并生成候选原因依存子树集合,从候选原因依存子树集合中抽取原因信息,添加到原因库中。
[0018] 从以上技术方案可以看出,本发明实施例是从文本中提取的某种现象或某个事件产生的原因信息,其方法根据原因种子对对从互联网中采集的语句进行分析,生成原因句抽取模式,并利用依存关系和依存路径表示原因句的抽取模式,再基于该抽取模式来抽取原因信息,抽取过程大大减少了人工成本;且以抽取的原因句和非原因句作为训练样本,训练一个支持向量机分类器在未分类的语句中进一步识别原因句,从而提高了性能。

附图说明

[0019] 图1为本发明实施例提供的一种文本信息抽取方法的流程图;
[0020] 图2为图1所述的一种文本信息抽取方法的第二次裁剪示意图;
[0021] 图3为图1所述的一种文本信息抽取方法的第三次裁剪和生成替换依存树的示意图;
[0022] 图4为图1所述的一种文本信息抽取方法的候选原因依存树的示意图;
[0023] 图5为本发明实施例提供的一种文本信息抽取系统的结构示意图;
[0024] 图6为图5所述的一种文本信息抽取系统中依存模式抽取和归并模块的结构示意图;
[0025] 图7为图5所述的一种文本信息抽取系统中原因信息抽取模块的结构示意图。

具体实施方式

[0026] 本发明实施例提供了一种文本信息抽取方法和系统,用于抽取文本中有关一种现象或事件产生的原因信息。以下实施例用于说明本发明,并不用于限制本发明的范围。
[0027] 以下结合附图对文本信息抽取方法和系统进行详细描述:
[0028] 为了简化说明流程,下面以“失眠”现象及其原因作为种子对来获取原因句模式库和非原因句模式库,然后从互联网上抽取“感冒”现象的原因为例,请参考图1,本发明的方法根据用户输入的“失眠”现象及其原因种子对进行查询扩展、标注、裁剪和人工甄别等步骤生成原因句模式库和非原因句模式库,再以模式库为依据,抽取“感冒”的原因集合。
[0029] S10、设置第一检索条件,检索并选取第一候选网页,从第一候选网页中提取第一候选语句;第一候选网页与第一候选语句满足第一检索条件;
[0030] 以用户提供的原因种子对作为检索条件,并调用搜索引擎进行检索,每次选取检索结果中的前1000个网页文本中满足检索条件的网页作为第一候选网页,从第一候选网页中检索包含原因种子对的句子,生成第一候选语句;
[0031] 以失眠现象为例,原因种子对即为“失眠,压力过大”、“失眠,生物钟未适应新环境”、“失眠,边缘性人格障碍”等;
[0032] 需要说明的是,原因种子对是指用二元组表示的原因和现象的对应关系,如“法航飞机失事,雷击”、“感冒,着凉”、“感冒,感染病毒”等;另外,对每次选取检索结果中的网页的数量不作限定,只要选取的第一候选网页中包含原因种子对即可。
[0033] S20、根据第一候选语句生成第一句法树,并得到第一标注候选语句;
[0034] 调用分词工具将第一候选语句分成词或短语;调用实体识别工具在分词后的第一候选语句中识别出实体;调用句法分析工具和依存关系分析工具对已识别出实体的第一候选语句进行标注,生成第一句法树,并得到第一标注候选语句。如下,S1就是的失眠现象的第一标注候选句:
[0035] S1:((IP(NP(NN专家))(VP(VV指出)(IP(NP(NN失眠))(VP(VC是)(VP(PP(P由)(IP(NP(NN压力))(VP(ADVP(AD过))(VP(VA大)))))(VP(MSP所)(VP(VV导致)))))))(PU。)))
[0036] 在S1中,IP、NP等标记是句法分析工具产生的标准标记信息。标记IP、VP、NP、ADVP、PU、VV、NN、AD、VC、PP、P、VA、MSP分别标识子句、动词性短语、名词性短语、副词性短语、标点符号、一般动词、名词、副词、动词“是”、介词性短语、介词、谓语性形容词和小品词;
[0037] 需要说明的是,此处提到的实体是指一个语义类别中的对象或对象的集合,如人名、交通工具和地名等;另外,此处说到的分词工具,句法分析工具,依存关系分析工具等,是自然语言处理技术中通用的工具,如句法分析工具为Berkeley Parser,依存关系分析工具为Stanford Parser。
[0038] S30、根据第一句法树裁剪第一标注候选语句,生成裁剪依存树;
[0039] S30的具体过程如下:
[0040] S301、根据第一句法树中现象结构和原因结构的根结点,裁剪第一标注候选语句,得到包含原因种子对的第一最小子句;
[0041] 根据原因种子对在第一标注候选语句的第一句法树中找到现象结构和原因结构的根结点,从这两个根结点开始分别向上遍历它的上层结点,直到找到一个相同的结点且该结点带有“IP”或“CP”标记,即查找包含了这两个根结点的最小子树,则执行第一次裁剪,裁剪外层句法结构;接着把查找到的这个结点作为根结点,从第一标注候选语句的第一句法树上裁剪得到包含原因种子对的第一最小子句,如从第一标注候选语句S1的第一句法树根据原因种子对“失眠,压力过大”,则遍历S1得到的第一最小子句S2为:
[0042] S2:(IP(NP(NN失眠))(VP(VC是)(VP(PP(P由)(IP(NP(NN压力))(VP(ADVP(AD过))(VP(VA大)))))(VP(M SP所)(VP(VV导致))))
[0043] 需要说明的是,原因种子对中表示现象/事件的词/短语/子句,简称为现象结构,如现象结构“法航飞机失事”是子句,“感冒”是词,“7.23涌温线特别重大铁路交通事故”是短语;原因种子对中表示原因的词/短语/子句,简称原因结构。
[0044] S302、根据第一最小子句的依存关系,生成第一依存树,抽取所述第一依存树中现象结构到原因结构的依存路径,裁剪第一最小子句,得到初步裁剪依存树;
[0045] 调用依存关系分析工具对第一最小子句进行依存关系分析,输出句子的依存关系并生成依存树,采用深度优先的方法遍历所述依存树,抽取所述依存树中现象结构到原因结构的依存路径,执行第二次裁剪,裁剪无关分支,删除不在所述依存路径中的结点,得到初步裁剪依存树,以失眠现象为例,如图2,为第二次裁剪的示意图;
[0046] 进一步地,依存句法是由法国语言学家L.Tesniere提出,通过分析语言各成分之间的依存关系揭示其句法结构,主张句子中谓语动词是支配其它成分的中心成分,而它本身却不受其他任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。依存关系由支配成分(Government)、受支配成分(Dependent)和它们之间的语法关系(Relation)组成的三元组,如“nsubj(是,伤风)”为形式主语,表示支配成分“伤风”是受支配成分“是”的“nsubj”;
[0047] 更进一步地,依存树是指一个句子的依存关系集合按照支配成分是受支配成分的下位的方法生成的树,依存树由结点和边构成,结点是句子的语法成分,相邻结点和结点间的边由这两个结点的依存关系表示;在依存树上,任意两个个结点之间不包含结点、只包含边(即依存关系)的路径就是依存路径。
[0048] S303、根据初步裁剪依存树上的谓词,裁剪初步裁剪依存树,得到裁剪依存树;
[0049] 把初步裁剪依存树中依存关系为“nn”(名词修饰名词)的支配成分和受支配成分合并成一个成分;再遍历初步裁剪依存树,如果树中有不止1个谓词,则在所述树的右分支上找到离叶子结点最近的谓词,把不包含根结点的左分支直接连接到该谓词(该左分支的根结点和该谓词的依存关系设定为“top”(如果谓词是“是”)或“nsubj”(其它谓词)),执行第三次裁剪,删除所述谓词上层的所有结点,形成裁剪依存树,以失眠现象为例,如图3,为第三次裁剪的示意图。
[0050] S40、把裁剪依存树分类为原因句依存树集合和非原因句依存树集合;
[0051] S40的具体过程如下:
[0052] S401、通过对裁剪依存树的原因结构与现象结构进行替换,生成替换依存树;
[0053] 首先把裁剪依存树的原因结构用“REASON”结点替换,把现象结构用“PHENOMENON”结点替换,生成替换依存树,如图3。
[0054] S402、对替换依存树进行分类,若每两棵替换依存树之间的相似度大于第一预设阀值,则将该两棵替换依存树视为同类别,生成分类依存树;
[0055] 具体地说,把每棵替换依存树归为一类,对于任意两个类Ci和Cj,按照以下方法进行聚类:
[0056] 1)计算任意两棵所述替换依存树DTm和DTn(DTm∈Ci,DTn∈Cj)之间的相似度SimTr(DTm,DTn);相似度计算公式如下:
[0057]
[0058] 其中,R1和R2分别是替换依存树DTm和DTn上的一个由依存分析工具生成的依存关系,其形式为R1(Dep1,Gov1)和R2(Dep2,Gov2)。Gov为支配成分(Government)的简称、Dep为受支配成分(Dependent)的简称,两个依存关系R1和R2的相似度SimDep(R1,R2)的计算方法如下:
[0059]
[0060]
[0061] 其中,Level(Govi)表示词govi在所述替换依存树中的层次。α,β,(1-α-β)为语法关系、支配词和受支配词相似度的权重,SimCi(Dep1,Dep2)和SimG(R1,R2)分别是基于知网和依存关系的词语相似度公式,计算方法如下:
[0062]
[0063]
[0064] 其中,C1,C2表示两个词(义原),Dist(C1,C2)表示它们的路径长度,α是一个调节参数,Depth(Ci)表示Ci距离根节点的层次,PathLength(R1,R2)是R1和R2在语法关系层次树中的最短路径长度,Height是语法关系层次树的高度。
[0065] 2)如果类Ci和Cj存在一个相似度SimTr(DTm,DTn)(DTm∈Ci,DTn∈Cj)大于第一预设阈值,则把这两个类Ci和Cj合并为一个类Ci,删除类Cj;
[0066] 3)不断执行步骤1)和2)操作,直到不存在两个类Ci和Cj可以合并为止;
[0067] 4)把替换依存树的类别添加到对应的所述裁剪依存树上,生成标记了类别的分类依存树;
[0068] S403、判别各类别分类依存树是否表示原因句,若是,则将分类依存树标记为正例,并添加到原因句依存树集合;若否,则将分类依存树标记为负例,并添加到非原因句依存树集合;
[0069] S50、根据第一句法树中的依存路径,合并原因句依存树集合中的裁剪依存树,生成原因句模式库;合并非原因句依存树集合中的依存树生成非原因句模式库;
[0070] S50的具体过程如下:
[0071] 对原因句依存树集合中的类别相同的任意两棵依存树DT1和DT2的依存路径P1和P2进行比较:
[0072] 1)如果P1等于P2,则把这DT1和DT2合并为一棵新的依存树DT3,其中DT3中每个结点为DT1和DT2中相对应结点并集,用“A|B”的模式表示,从原因句依存树集合中删除DT1和DT2,添加DT3;
[0073] 2)如果P1=XMZ,P2=XNZ(X、Z、M、N表示P1或P2中的一段依存路径,均可以为空,但X和Z不能同时为空),则合并D1和D2,它的依存路径P3为X[M|N]Z,D3根据所述路径构造,结点来自DT1和DT2对应结点进行“并”操作,从原因句依存树集合中删除DT1和DT2,添加DT3;
[0074] 3)重复以上步骤1)和2)操作直到不能合并为止,生成原因句模式库;
[0075] 4)对非原因句依存树集合执行类似的步骤1)到3)的操作,生成非原因句模式库。
[0076] S60、读取用户输入的需要抽取原因的现象的关键词,根据关键词与原因句模式库,设置第二检索条件,检索并选取第二候选网页,从第二候选网页中提取第二候选语句;第二候选网页与第二候选语句满足第二检索条件;
[0077] S60的具体过程如下:
[0078] 一个现象的输入界面,提供用户输入关键词“感冒”,把“感冒”关键词和每个原因句模式库中的依存模式的每条路径中出现的结点两两组,构成第二检索条件,如“感冒由导致”、“感冒原因是”、“感冒所致”等,把该第二检索条件输入搜索引擎进行检索,每次选取检索结果中前2000个网页文本中满足第二检索条件的网页作为第二候选网页,从第二候选网页中挑选满足第二检索条件的句子,生成第二候选语句,如“张医生说,感冒又称伤风,是风邪侵入人体导致的”;
[0079] 需要说明的是,对每次选取检索结果中的网页的数量不作限定,只要选取的第二候选网页中满足第二检索条件即可。
[0080] S70、根据第二候选语句,生成第二标注候选语句;
[0081] 调用分词工具将第二候选语句分成词或短语;调用实体识别工具在分词后的第二候选语句中识别出实体;调用句法分析工具和依存关系分析工具对已识别出实体的第二候选语句进行标注,得到第二标注候选语句。如下,S3就是失眠现象的第二标注候选语句:
[0082] S3:((IP(NP(NR张医生))(VP(VV说)(PU,)(IP(IP(NP(NN感冒))(VP(ADVP(AD又))(VP(VV称)(NP(NN伤风)))))(PU,)(VP(VC是)(NP(CP(IP(IP(NP(NR风邪))(VP(VV侵入)(NP(NN人体))))(VP(VV导致)))(DEC的))))(PU。)))))
[0083] 需要说明的是,此处提到的实体是指一个语义类别中的对象或对象的集合,如人名、交通工具和地名等;另外,此处说到的分词工具,句法分析工具,依存关系分析工具等,是自然语言处理技术中通用的工具,如句法分析工具为Berkeley Parser,依存关系分析工具为Stanford Parser。
[0084] S80、裁剪第二标注候选语句,抽取候选原因结点,构造候选原因结点到现象结构的依存路径,并生成候选原因依存子树集合;
[0085] S80的具体步骤如下:
[0086] S801、根据第一句法树中包含第二检索条件的子句的根结点,裁剪第二标注候选语句,生成第二最小子句,并调用句法分析工具和依存关系分析工具,生成该第二最小子句的第二句法树和第二依存树;
[0087] 查找第二句法树中包含第二检索条件的子句的根结点的方法如下:从现象结点开始向前找IP标记,判断该标记是否包含了第二检索条件中的所有结点,如果是,则该IP标记就是所找的根结点;如果不是,则继续向前找,直到找到一个IP标记包含第二检索条件中的所有结点为止;
[0088] 生成第二最小子句,如对于S3,在S3中查找包含了第二检索条件“感冒”和“是......导致”的含IP标记的句子,该IP标记包含了第二检索条件中的所有短语,从而得到第二最小子句S4;
[0089] S4:“感冒又称伤风,是风邪侵入人体导致的”;
[0090] 其后,分别调用句法分析工具和依存关系分析工具对S4进行句法和依存关系的分析,得到了该第二最小子句的第二句法树和第二依存树。
[0091] S802、从第二依存树的根结点下抽取不包含现象结构的分支上的结点集合,从第二句法树中抽取包含了该结点集合的子树,在子树中查找子句和短语标记,把子句和短语标记内的所有词语合并成为一个词语,标记为候选原因结点;
[0092] 具体地说,根据原因结构和现象结构位于根结点下不同分支的这一个特点,抽取第二最小子句的依存树的根结点下不包含现象结构的分支上的结点集合,从第二最小子句的句法树中抽取包含了这些结点集合的子树,在子树中查找子句和短语标记,把子句和短语标记内的所有词语合并成为一个词语,标记为候选原因结点。如S4的候选原因结点有5个:
[0093] cand1:风邪侵入人体导致的
[0094] cand2:风邪侵入人体导致
[0095] cand3:风邪侵入人体
[0096] cand4:风邪
[0097] cand5:人体
[0098] S803、查找每个候选原因结点到现象结构的依存路径,并根据依存路径生成候选依存树,对候选依存树进行裁剪,生成候选原因依存子树和候选原因依存子树集合;
[0099] 具体地说,查找每个候选原因结点到现象结构的依存路径,若一个第二最小子句有5个候选原因结点,则它有5条依存路径;并根据依存路径生成候选依存树,每个候选句子调用依存分析工具生成第二依存树,采用裁剪第一依存树的方法裁剪第二依存树,生成候选原因依存子树和候选原因依存子树集合,其中cand1、cand3、cand5的依存树如图4所示。
[0100] S90、从候选原因依存子树集合中抽取原因信息,添加到原因库中;
[0101] 在进行S90之前时,需要执行以下步骤:
[0102] 1)计算所述候选原因依存子树集合中的候选原因依存子树,和原因句模式库中每个依存模式的相似度;
[0103] 若相似度的最大值大于第二预设阀值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到正例原因句集合,抽取候选原因依存子树的候选原因结点添加到原因库中;
[0104] 若候选原因依存子树集合中存在一候选原因依存子树的候选原因结点,和原因库中任意一个候选原因结点的相似度大于所述第三预设阈值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到正例原因句集合。
[0105] 具体地说,把候选原因依存子树集合中的候选原因依存子树和原因句模式库中每个依存模式计算相似度,需要说明的是,在计算时,统一把候选原因结点用“REASON”表示;
[0106] 进一步地,如果取值最高的相似度大于第二预设阈值,则认为匹配成功;如图4中,cand1、cand3和cand5计算得到的最高相似度分别是0.235、1和0.652,设定阈值为0.85,则cand3匹配成功;并把所述候选原因依存子树从候选原因依存子树集合中删除并添加到正例原因句集合,抽取候选原因依存子树的候选原因结点添加到原因库中;
[0107] 如果候选原因依存子树集合中存在一棵候选原因依存子树的候选原因结点和原因库中任意一个候选原因结点的相似度大于第三预设阈值,则把候选原因依存子树从候选原因依存子树集合中删除并添加到正例原因句集合;
[0108] 2)计算所述候选原因依存子树集合中的未被删除的候选原因依存子树,和非原因句模式库中每个依存模式的相似度;
[0109] 若相似度的最大值大于第四预设阀值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到负例原因句集合;
[0110] 若候选原因依存子树集合中存在一候选原因依存子树的候选原因结点,和所述负例原因句集合中任意一个候选原因结点的相似度大于第五预设阈值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到负例原因句集合。
[0111] 具体地说,把候选原因依存子树集合中,剩余的、未被删除的的候选原因依存子树和和非原因句模式库中每个依存模式计算相似度,同样地,在计算时,统一把候选原因结点用“REASON”表示;
[0112] 更进一步地,如果取值最高的相似度大于第四预设阈值,则认为匹配成功。如cand1计算得到的最高相似度分别是0.989,设定阈值为0.85,则cand1匹配成功;把该候选原因依存子树从候选原因依存子树集合中删除并添加到负例原因句集合;
[0113] 如果所述候选原因依存子树集合中存在一棵候选原因依存子树的候选原因结点和负例原因句集合中任意一个候选原因结点的相似度大于第五预设阈值,则把该候选原因依存子树从候选原因依存子树集合中删除并添加到负例原因句集合。
[0114] S90的具体过程如下:
[0115] S901、对候选原因依存子树集合中的未被删除的候选原因依存子树,以正例原因句集合中的候选原因依存子树和负例原因句集合中的候选原因依存子树作为训练样本,构造一个采用复合核的支持向量机分类器进行分类,把分到正例原因句集合的候选原因依存子树中的候选原因结点添加到原因库中;
[0116] 具体地说,对于候选原因依存子树集合中剩余的候选原因依存子树,以正例原因句集合和负例原因句集合作为两类训练样本,构造一个采用复合核的支持向量机分类器(SVM,Support Vector Machine)进行分类,把所有分到正例原因句集合中的候选原因依存子树中的候选原因结点添加到原因库中,其流程如下:
[0117] 1)把剩余的候选原因依存子树集合、正例原因句集合和负例原因句集合(以下简称三集合)中的除dobj(直接宾语)、prep(介词修饰)、nsubj(形式主语)、amod(形容词修饰)、rcmod(相关从句)、conj(连接关系)、dep(依赖)、top(系动词)、neg(否定修饰)和pobj(介词宾语)外的其他不重要的依存关系删除,重新调用依存关系分析工具构造新的依存树并存入相应的集合;
[0118] 2)词在依存树中的层次越高,代表它在句子中的地位为越重要。根据词在依存树中的层次计算三集合中每棵依存树的所有结点的权重,计算方法如下:
[0119]
[0120] 其中,level(w)是结点w在依存树中的层次,depTreeHeight是依存树的高度,根节点的权重为1,其它节点的权重根据其层次逐渐递减。
[0121] 3)计算三集合中每棵依存树的所有结点的TF*IDF值(Term Frequency-Inverse Document Frequency)值;
[0122] 4)把三集合中每棵依存树的所有结点及其权重和TF*IDF值,按照基于复合核的SVM分类器的输入格式要求进行转换,生成符合所述SVM分类器的训练集合,即正例原因句集合、负例原因句集合和测试集合,测试集合为剩余的候选原因依存子树集合;
[0123] 基于复合核的SVM分类器可以通过SVM提供的基本核去捕捉平面特征(TF*IDF),通过卷积树核有效获取结构化信息(依存树),本发明使用SVM提供的λK1+(1-λ)K2复合核,其中K1表示由结构化信息所得的卷积树核,而K2表示由基本特征所得的基本核,通过复合核把句法结构、依存关系、词结合起来。
[0124] 5)在训练集合的基础上,调用所述SVM分类器对所述测试集合中的所述候选原因依存子树进行分类,对于所述测试集合中的所述候选原因依存子树,如果所述SVM分类器计算得到的值大于一预设阈值,则所述候选原因依存子树属于正例原因句集合,添加到正例原因句集合,把该候选原因依存子树的候选原因结点添加到原因库中。
[0125] 为了对比本发明方法与现有方法的性能,表1给出了本发明的方法和现有方法在“感冒”、“飞机失事”等5个测试集上抽取其原因的实验结果。实验数据表明,本发明的方法比现有的方法具有更高的综合性能(即表中F值)。在准确率方面,本发明的方法比自动化的方法高,这说明本发明自动抽取的模式起了很重要的作用;本发明的方法比人工抽取模式的方法准确率低,这主要是由于人工抽取的模式完全是人来抽取的,肯定比本发明自动抽取的模式更好,但是其成本也更高。在召回率方面,本发明采用了自动化的模式和机器学习相结合的方法,在所有的方法中具有最高的召回率。其中,准确率、召回率和F值业内公认的评测标准,准确率表示抽取原因中准确的比率,召回率也叫查全率,衡量的是抽取原因是否全面,而F值则是准确率和召回率的综合。
[0126] 表1
[0127]方法 准确率(%) 召回率(%) F(%)
UniGram 64.43 65.21 64.82
TF-IDF 67.38 64.12 65.71
信息增益 64.2 60.37 62.23
交叉熵 67.16 65.89 66.52
人工模式抽取 95.12 35.3 51.49
本发明方法 88.5 69.26 77.71
[0128] 本发明实施例还提供了一种文本信息抽取系统,用于抽取文本中某种现象或某个事件产生的原因的信息。
[0129] 一种文本信息抽取系统,包括:原因句子采集模块、句子标注模块、依存模式抽取和归并模块、查询和预处理模块、原因信息抽取模块。
[0130] 其中,原因句子采集模块,用于设置第一检索条件,检索并选取第一候选网页,从所述第一候选网页中提取第一候选语句;第一候选网页与第一候选语句满足第一检索条件;
[0131] 句子标注模块,用于根据第一候选语句生成第一句法树,并得到第一标注候选语句;
[0132] 依存模式抽取和归并模块,用于根据第一句法树裁剪第一标注候选语句,生成裁剪依存树;把裁剪依存树分类为原因句依存树集合和非原因句依存树集合;根据第一句法树中的依存路径,合并原因句依存树集合中的裁剪依存树,生成原因句模式库;合并非原因句依存树集合中的依存树生成非原因句模式库;
[0133] 查询和预处理模块,用于读取用户输入的需要抽取原因的现象的关键词,根据所述关键词与原因句模式库,设置第二检索条件,检索并选取第二候选网页,从该第二候选网页中提取第二候选语句,该第二候选网页与第二候选语句满足第二检索条件;根据第二候选语句,生成第二标注候选语句;
[0134] 原因信息抽取模块,用于裁剪第二标注候选语句,抽取候选原因结点,构造候选原因结点到现象结构的依存路径,并生成候选原因依存子树集合,从候选原因依存子树集合中抽取原因信息,添加到原因库中。
[0135] 进一步地,依存模式抽取和归并模块包括:句法树裁剪单元、依存树初步裁剪单元、依存树谓词裁剪单元、原因句甄别单元、依存模式归并单元。
[0136] 其中,句法树裁剪单元,用于根据第一句法树中现象结构和原因结构的根结点,裁剪第一标注候选语句,得到包含原因种子对的第一最小子句;
[0137] 依存树初步裁剪单元,用于根据第一最小子句的依存关系,生成第一依存树,抽取所述第一依存树中现象结构到原因结构的依存路径,裁剪第一最小子句,得到初步裁剪依存树;
[0138] 依存树谓词裁剪单元,用于根据初步裁剪依存树上的谓词,裁剪初步裁剪依存树,得到裁剪依存树;
[0139] 原因句甄别单元,用于通过对裁剪依存树的原因结构与现象结构进行替换,生成替换依存树;对替换依存树进行分类,若每两棵替换依存树之间的相似度大于第一预设阀值,则将该两棵替换依存树视为同类别,生成分类依存树;判别各类别分类依存树是否表示原因句,若是,则将分类依存树标记为正例,并添加到原因句依存树集合;若否,则将分类依存树标记为负例,并添加到非原因句依存树集合;
[0140] 依存模式归并单元,用于在原因句依存树集合中,对同类别的任意两棵替换依存树的依存路径进行比较,根据比较结果,对原因句依存树集合中的分类依存树进行合并,生成原因句模式库;用于在非原因句依存树集合中,对同类别的任意两棵替换依存树的依存路径进行比较,根据比较结果,对非原因句依存树集合中的分类依存树进行合并,生成非原因句模式库。
[0141] 更进一步地,原因信息抽取模块包括:候选原因子树抽取单元、原因句匹配和原因抽取单元、非原因句匹配和抽取单元、原因句分类抽取单元。
[0142] 其中,候选原因子树抽取单元,用于根据第一句法树中包含第二检索条件的子句的根结点,裁剪第二标注候选语句,生成第二最小子句,并调用句法分析工具和依存关系分析工具,生成所述第二最小子句的第二句法树和第二依存树;从所述第二依存树的根结点下抽取不包含现象结构的分支上的结点集合,从所述第二句法树中抽取包含了所述结点集合的子树,在所述子树中查找子句和短语标记,把所述子句和短语标记内的所有词语合并成为一个词语,标记为候选原因结点;查找每个所述候选原因结点到现象结构的依存路径,并根据所述依存路径生成候选依存树,对所述候选依存树进行裁剪,生成候选原因依存子树和候选原因依存子树集合;
[0143] 原因句匹配和原因抽取单元,用于计算所述候选原因依存子树集合中的候选原因依存子树,和原因句模式库中每个依存模式的相似度;若相似度的最大值大于第二预设阀值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到正例原因句集合,抽取所述候选原因依存子树的候选原因结点添加到原因库中;若候选原因依存子树集合中存在一候选原因依存子树的候选原因结点,和原因库中任意一个候选原因结点的相似度大于所述第三预设阈值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到正例原因句集合;
[0144] 非原因句匹配和抽取单元,用于计算所述候选原因依存子树集合中的未被删除的候选原因依存子树,和非原因句模式库中每个依存模式的相似度;若相似度的最大值大于第四预设阀值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到负例原因句集合;若候选原因依存子树集合中存在一候选原因依存子树的候选原因结点,和所述负例原因句集合中任意一个候选原因结点的相似度大于第五预设阈值,则将候选原因依存子树从候选原因依存子树集合中删除并添加到负例原因句集合;
[0145] 原因句分类抽取单元,用于对候选原因依存子树集合中的未被删除的候选原因依存子树,以正例原因句集合中的候选原因依存子树和负例原因句集合中的候选原因依存子树作为训练样本,构造一个采用复合核的支持向量机分类器进行分类,把分到正例原因句集合的候选原因依存子树中的候选原因结点添加到原因库中。
[0146] 以上对本发明所提供的一种文本信息抽取方法与系统进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。