一种自然语言处理方法及装置转让专利

申请号 : CN201810085253.1

文献号 : CN108182179B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 任宁

申请人 : 北京神州泰岳软件股份有限公司

摘要 :

本发明实施例公开一种自然语言处理方法,包括:获取第一分析序列,第一分析序列包括至少一个命名实体和关联词,并且至少一个命名实体与关联词之间具有第一语序,关联词为表征命名实体之间的关联关系的字词;获取标注序列,标注序列包括至少一个预设命名实体和预设关联词,并且至少一个预设命名实体与预设关联词之间具有第二语序,每个预设命名实体对应一种关联关系的角色,预设关联词为表征预设命名实体之间的关联关系的字词;比较第一语序和第二语序是否匹配,如果是,则设置第一分析序列中命名实体的角色与标注序列中对应的预设命名实体的角色相同。采用上述方法以挖掘出文本中命名实体之间的关联关系、命名实体的角色等有价值的信息。

权利要求 :

1.一种自然语言处理方法,其特征在于,包括:

获取第一分析序列,所述第一分析序列包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第一语序,其中,所述关联词为表征命名实体之间的关联关系的字词;

获取标注序列,所述标注序列包括至少一个预设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二语序,每个所述预设命名实体对应一种关联关系的角色,其中,所述预设关联词为表征预设命名实体之间的关联关系的字词;

比较所述第一语序和所述第二语序是否匹配,如果是,则设置所述第一分析序列中命名实体的角色与所述标注序列中对应的预设命名实体的角色相同。

2.根据权利要求1所述的自然语言处理方法,其特征在于,所述第一分析序列还包括关键词,并且所述至少一个命名实体、所述关联词与所述关键词之间具有第三语序,其中,所述关键词为在所述第一分析序列中影响所述命名实体的角色的字词;

所述标注序列还包括预设关键词,并且所述至少一个预设命名实体、预设关联词与预设关键词之间具有第四语序,其中,所述预设关键词为在标注序列中影响所述预设命名实体的角色的字词;

所述比较所述第一语序和所述第二语序是否匹配的步骤,具体为:

比较所述第三语序和所述第四语序是否匹配。

3.根据权利要求2所述的自然语言处理方法,其特征在于,获取第一分析序列的步骤,包括:获取待分析文本;

提取所述待分析文本中的命名实体;

利用语言模型提取所述待分析文本中的关联词和关键词,所述语言模型包括至少一个关联词以及与所述关联词对应的关键词组,所述关键词组包括至少一个关键词;

将提取到的命名实体、关联词和关键词按照其各自在待分析文本中的语序组合,得到第一分析序列。

4.根据权利要求3所述的自然语言处理方法,其特征在于,所述语言模型还包括与所述关键词对应的至少一个同义词;

利用语言模型提取所述待分析文本中的关联词和关键词的步骤,包括:

如果所述待分析文本包括所述语言模型中的关联词,则提取所述关联词,并将与所述关联词对应的关键词组中的关键词分别与所述待分析文本匹配;

如果所述待分析文本包括任一个关键词或所述关键词对应的同义词,则提取所述关键词。

5.根据权利要求3所述的自然语言处理方法,其特征在于,提取所述待分析文本中的命名实体的步骤,包括:识别所述待分析文本中的预识别命名实体;

如果两个预识别命名实体的位置相邻,则将两个预识别命名实体合并为一个命名实体并提取。

6.根据权利要求3所述的自然语言处理方法,其特征在于,提取所述待分析文本中的命名实体的步骤,包括:识别所述待分析文本中的预识别命名实体;

如果一个句子中的两个预识别命名实体为并列关系,则将两个预识别命名实体和二者之间的并列连接词合并为一个命名实体。

7.根据权利要求1或2所述的自然语言处理方法,其特征在于,获取标注序列的步骤,包括:将所述第一分析序列的关联词与预设数据库中的标注序列的预设关联词进行匹配,所述预设数据库中包括至少两个标注序列,至少两个所述标注序列的预设关联词不相同;

如果所述第一分析序列的关联词与标注序列的预设关联词相同,则获取所述标注序列。

8.一种自然语言处理装置,其特征在于,包括:

获取单元,用于获取第一分析序列以及获取标注序列,其中,所述第一分析序列中包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第一语序,所述关联词为表征命名实体之间的关联关系的字词,所述标注序列包括至少一个预设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二语序,每个所述预设命名实体对应一种关联关系的角色,所述预设关联词为表征预设命名实体之间的关联关系的字词;

处理单元,用于比较所述第一语序和所述第二语序是否匹配,在所述第一语序与所述第二语序匹配的情况下设置所述第一分析序列中命名实体的角色与所述标注序列中对应的预设命名实体的角色相同。

9.根据权利要求8所述的自然语言处理装置,其特征在于,所述获取单元获取的第一分析序列还包括关键词,并且所述至少一个命名实体、所述关联词与所述关键词之间具有第三语序,所述关键词为在所述第一分析序列中影响所述命名实体的角色的字词;所述获取单元获取的标注序列还包括预设关键词,并且所述至少一个预设命名实体、预设关联词与预设关键词之间具有第四语序,所述预设关键词为在标注序列中影响所述预设命名实体的角色的字词;

所述处理单元具体用于比较所述第三语序和所述第四语序是否匹配。

10.根据权利要求9所述的自然语言处理装置,其特征在于,所述获取单元还用于获取待分析文本,提取所述待分析文本中的命名实体,利用语言模型提取所述待分析文本中的关联词和关键词,以及,将提取到的命名实体、关联词和关键词按照其各自在待分析文本中语序组合,得到第一分析序列,其中,所述语言模型包括至少一个关联词以及与所述关联词对应的关键词组,所述关键词组包括至少一个关键词。

说明书 :

一种自然语言处理方法及装置

技术领域

[0001] 本发明涉及自然语言处理技术领域,具体涉及一种自然语言处理方法及装置。

背景技术

[0002] 企业的公告、研报、新闻、裁判文书等文本中有大量涉及命名实体的文字描述,例如企业与企业之间的关系、企业与个人之间的关系、企业的内部组织架构等。对企业决策者或者管理者而言,这些信息有助于了解企业/行业动态、判断企业/行业风险,以及预测企业/行业前景。在信息爆炸的今天,要从海量且篇幅冗长的企业的公告、研报等文本中挖掘出这些有价值的信息,就需要依靠自然语言处理(natural language processing,NLP)技
术。
[0003] 相对于英语等外语来说,汉语没有形态变化,更多地依赖语序来表现语法或者表达不同的语义。也就是说,即使句子中的字词相同或类似,但语序不同,所表达的语义就可能存在较大差异。例如,“A公司收购B公司的股权”、“B公司收购A公司的股权”,这两个句子中的字词相同但语义完全不同,相应地,句子中所包含的企业之间的关系也不相同。在前一个句子中,A公司是收购公司,B公司是被收购公司;在后一个句子中,A公司是被收购公司,B公司是收购公司。
[0004] 现有的自然语言处理的方法主要通过计算文本的相似度来挖掘出文本中的信息,例如采用余弦相似度法、编辑距离算法等。但是,计算文本相似度的方法对于中文语序问题的处理能力比较弱。当面对字词相似度高但语序不同的两个汉语文本时,采用计算文本相
似度的方法所计算得到两个文本的相似度很高,从而认为两个文本的语义相近,因此无法
准确地挖掘出这两个文本的各自实际表达的语义,因此也无法应用于挖掘文本中命名实体
之间的关系等有价值的信息上。

发明内容

[0005] 为解决上述技术问题,本申请提供一种新的自然语言处理方法,以挖掘出文本中命名实体之间的关联关系、命名实体在关联关系中的角色等有价值的信息。
[0006] 第一方面,提供一种自然语言处理方法,包括:
[0007] 获取第一分析序列,所述第一分析序列中包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第一语序,其中,所述关联词为表征命名实
体之间的关联关系的字词;
[0008] 获取标注序列,所述标注序列包括至少一个预设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二语序,每个所述预设命名实体对应一
种关联关系的角色,其中,所述预设关联词为表征预设命名实体之间的关联关系的字词;
[0009] 比较所述第一语序和所述第二语序是否匹配,如果是,则设置所述第一分析序列中命名实体的角色与所述标注序列中对应的预设命名实体的角色相同。
[0010] 结合第一方面,在第一方面第一种可能的实现方式中,所述第一分析序列还包括关键词,并且所述至少一个命名实体、所述关联词与所述关键词之间具有第三语序,其中,所述关键词为在所述第一分析序列中影响所述命名实体的角色的字词;
[0011] 所述标注序列还包括预设关键词,并且所述至少一个预设命名实体、预设关联词与预设关键词之间具有第四语序,其中,所述预设关键词为在标注序列中影响所述预设命
名实体的角色的字词;
[0012] 比较所述第一语序和所述第二语序是否匹配的步骤,具体为:
[0013] 比较所述第三语序和所述第四语序是否匹配。
[0014] 结合第一方面的第一种实现方式,在第一方面第二种可能的实现方式中,获取第一分析序列的步骤,包括:
[0015] 获取待分析文本;
[0016] 提取所述待分析文本中的命名实体;
[0017] 利用语言模型提取所述待分析文本中的关联词和关键词,所述语言模型包括至少一个关联词以及与所述关联词对应的关键词组,所述关键词组包括至少一个关键词;
[0018] 将提取到的命名实体、关联词和关键词按照其各自在待分析文本中语序组合,得到第一分析序列。
[0019] 结合第一方面及上述可能的实现方式,在第一方面第三种可能的实现方式中,所述语言模型还包括与所述关键词对应的至少一个同义词;
[0020] 利用语言模型提取所述待分析文本中的关联词和关键词的步骤,包括:
[0021] 如果所述待分析文本包括所述语言模型中的关联词,则提取所述关联词,并将与所述关联词对应的关键词组中的关键词分别与所述待分析文本匹配;
[0022] 如果所述待分析文本包括任一个关键词或所述关键词对应的同义词,则提取所述关键词。
[0023] 结合第一方面及上述可能的实现方式,在第一方面第四种可能的实现方式中,提取所述待分析文本中的命名实体的步骤,包括:
[0024] 识别所述待分析文本中的预识别命名实体;
[0025] 如果两个预识别命名实体的位置相邻,则将两个预识别命名实体合并为一个命名实体并提取。
[0026] 结合第一方面及上述可能的实现方式,在第一方面第五种可能的实现方式中,提取所述待分析文本中的命名实体的步骤,包括:
[0027] 识别所述待分析文本中的预识别命名实体;
[0028] 如果一个句子中的两个预识别命名实体为并列关系,则将两个预识别命名实体和二者之间的并列连接词合并为一个命名实体。
[0029] 结合第一方面及上述可能的实现方式,在第一方面第六种可能的实现方式中,获取标注序列的步骤,包括:
[0030] 将所述第一分析序列的关联词与预设数据库中的标注序列的预设关联词进行匹配,所述预设数据库中包括至少两个标注序列,至少两个所述标注序列的预设关联词不相
同;
[0031] 如果所述第一分析序列的关联词与标注序列的预设关联词相同,则获取所述标注序列。
[0032] 第二方面,提供一种自然语言处理装置,包括:
[0033] 获取单元,用于获取第一分析序列以及获取标注序列,其中,所述第一分析序列中包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第一语序,所述关联词为表征命名实体之间的关联关系的字词,所述标注序列包括至少一个预
设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二语
序,每个所述预设命名实体对应一种关联关系的角色,所述预设关联词为表征预设命名实
体之间的关联关系的字词;
[0034] 处理单元,用于比较所述第一语序和所述第二语序是否匹配,在所述第一语序与所述第二语序匹配的情况下设置所述第一分析序列中命名实体的角色与所述标注序列中
对应的预设命名实体的角色相同。
[0035] 结合第二方面,在第二方面第一种可能的实现方式中,所述获取单元获取的第一分析序列还包括关键词,并且所述至少一个命名实体、所述关联词与所述关键词之间具有
第三语序,所述关键词为在所述第一分析序列中影响所述命名实体的角色的字词;所述获
取单元获取的标注序列还包括预设关键词,并且所述至少一个预设命名实体、预设关联词
与预设关键词之间具有第四语序,所述预设关键词为在标注序列中影响所述预设命名实体
的角色的字词;
[0036] 所述处理单元具体用于比较所述第三语序和所述第四语序是否匹配。
[0037] 结合第二方面的第一种实现方式,在第二方面第二种可能的实现方式中,所述获取单元还用于获取待分析文本,提取所述待分析文本中的命名实体,利用语言模型提取所
述待分析文本中的关联词和关键词,以及,将提取到的命名实体、关联词和关键词按照其各自在待分析文本中语序组合,得到第一分析序列,其中,所述语言模型包括至少一个关联词以及与所述关联词对应的关键词组,所述关键词组包括至少一个关键词。
[0038] 本申请的自然语言处理方法,首先获取第一分析序列和标注序列,然后比对第一分析序列与标注序列的语序。在二者语序匹配的情况下,将标注序列中预设命名实体的角
色赋予给第一分析序列中对应的命名实体,从而准确地挖掘出了文本中命名实体在关联关
系中的角色,有助于企业决策者或者管理者等人员快速地了解企业/行业动态。同时,该自然语言处理方法不是基于固定句式来挖掘命名实体的角色,而是利用标注序列和第一分析
序列来挖掘。这里的第一分析序列包括了关联词和命名实体,并具有相应的语序,并不完全依赖于固定句式。因此,当面对的文本与此前的文本存在差异时,只需要调整部分标注序列的组成部分或其语序即可,调节方便,适用性广。

附图说明

[0039] 为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0040] 图1为本申请的自然语言处理方法的第一个实施例的流程图;
[0041] 图2为本申请的自然语言处理方法的第一个实施例中,获取第一分析序列的一种实现方式的流程图;
[0042] 图3为本申请的自然语言处理方法的第二个实施例的流程图;
[0043] 图4为本申请的自然语言处理方法的第二个实施例中,获取第一分析序列的另一种实现方式的流程图;
[0044] 图5为本申请的自然语言处理方法的第二个实施例中,获取标注序列的一种实现方式的流程图;
[0045] 图6为本申请的自然语言处理装置的其中一个具体实施方式的结构示意图。

具体实施方式

[0046] 下面对本申请的实施例作详细说明。
[0047] 此前,发明人利用基于固定的句式逻辑的自然语言处理方法来挖掘出文本中的有价值的信息。例如,对于把字句——“A公司把B公司收购了”来说,处于“把”字之前的是主语,表示施事者;处于“把”字之后的是宾语,表示受事者;宾语之后紧接着的是动词,该动词描述了A公司与B公司之间的关联关系。通过预先标记固定句式中句子成分所担任的角色,
挖掘出未知文本中的命名实体之间的关联关系,以及命名实体所对应的关联关系的角色。
[0048] 这种基于固定的句式逻辑的自然语言处理方法,当面临的未知文本都遵循预设的固定句式时能够有效地挖掘出文本中的信息,一旦面对的未知文本中的句式更加多样化
时,就无法有效地挖掘出文本中的信息。
[0049] 为此,发明人经过大量创造性劳动,研发了一种新的自然语言处理方法,以便从海量且冗长的企业的公告、研报等文本中有效地挖掘出有价值的信息,例如命名实体之间的关联关系、命名实体在关联关系中所担任的角色等。
[0050] 请参考图1,在本申请的第一个实施例中,提供一种自然语言处理方法,包括S100至S300的步骤。
[0051] S100:获取第一分析序列,所述第一分析序列中包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第一语序,其中,所述关联词为表征命名实体之间的关联关系的字词。
[0052] 在本申请中,命名实体(Named Entity)是指人名、机构名、地名以及其他所有以名称为标识的实体。关联词为表征命名实体之间的关联关系的字词,例如收购、投资、担保、增资、并购、抵押、出资、转让、入股、控股、质押、增持、互保、一致行动人、实际控制人、子公司、控股股东或投资人等。其中,收购、投资、担保等为动词性关联词,一致行动人、实际控制人、子公司等为名词性关联词。
[0053] 可选地,请参考图2,获取第一分析序列的步骤,可以包括:
[0054] S101:获取待分析文本;
[0055] S102:提取所述待分析文本中的命名实体;
[0056] S103:利用语言模型提取所述待分析文本中的关联词,所述语言模型包括至少一个关联词;
[0057] S104:将提取到的命名实体和关联词按照其各自在待分析文本中的语序组合,得到第一分析序列。
[0058] 步骤S102,在一种实现方式中,可以采用现有的命名实体的识别方法,例如采用条件随机场(CRF)模型等,识别出待分析文本中的命名实体,然后将其提取出来。
[0059] 在步骤S103中,语言模型包括预设的至少一个关联词。将语言模型中的所有关联词逐个与待分析文本进行匹配,若能够匹配到,则从待分析文本中将关联词提取出来。在此步骤中,一个待分析文本中可能仅能提取到一个关联词,也有可能会提取到两个或两个以
上的关联词。
[0060] 在S104的步骤中,将提取到的命名实体和关联词按照其各自在待分析文本中的语序组合,使命名实体与关联词之间具有第一语序。当S103步骤中提取到的关联词≥2个时,将每一个关联词分别与S102步骤中提取出来的命名实体按照二者在待分析文本中的语序
进行组合,从而得到多个第一分析序列。
[0061] 举例来说,假设语言模型中包括4个关联词:收购、担保、出资、转让。
[0062] 首先获取到待分析文本1如下:
[0063] 神奇制药拟出资不超过2.55亿元收购天成药业51%股权。
[0064] 采用条件随机场模型提取出待分析文本1中的命名实体“神奇制药”和“天成药业”。将语言模型中的4个关联词逐一与待分析文本1进行匹配,匹配到“出资”、“收购”两个关联词。则将两个关联词分别和命名实体按照其各自在待分析文本中的语序组合,得到2个第一分析序列:
[0065] 第一分析序列1:[神奇制药][出资][天成药业];
[0066] 第一分析序列2:[神奇制药][收购][天成药业]。
[0067] S200:获取标注序列,所述标注序列包括至少一个预设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二语序,每个所述预设命名实体对应一种关联关系的角色,其中,所述预设关联词为表征预设命名实体之间的关联关系的字
词。
[0068] 在标注序列中,预设命名实体可以不是一个具体的公司名称或一个具体的人名,只要其被标记带有命名实体的属性即可,例如,可以以“nt”来指代所有的预设命名实体中的机构/公司名称,以“nr”来指代所有的预设命名实体中的人名。关联关系的角色,是指一个或多个主体在某个关联关系中所担任的角色。例如,在动词性关联关系“收购”中,角色可以是施事者“收购公司”、受事者“被收购公司”,还可以是“其他公司”等。这里,“其他公司”可以用于表示在一个关联关系中除施事者、受事者之外的其他角色。
[0069] 标注序列中的预设命名实体、预设关联词和关联关系的角色均可以通过人工标注的方式从样本文本中提取得到,然后将预设命名实体和预设关联词按照其在样本文本中的
语序,即第二语序,组合起来,得到标注序列。
[0070] 举例来说,样本文本1为:
[0071] 上海海博出租汽车有限公司拟收购上海金陵出租汽车服务有限公司20%股权。
[0072] 将“上海海博出租汽车有限公司”、“上海金陵出租汽车服务有限公司”标注为预设命名实体,均以nt来表示,在nt之后加上数字以便区分。将“收购”标注为预设关联词;将预设命名实体nt1的关联关系的角色标注为“收购公司”,将预设命名实体nt2的关联关系的角色标注为“被收购公司”。然后将预设命名实体nt1、nt2以及预设关联词按照其在样本文本1中的语序,即第二语序,组合起来,得到标注序列1,表示为:[nt1:收购公司][收购][nt2:被收购公司]。
[0073] S300:比较所述第一语序和所述第二语序是否匹配,如果是,则设置所述第一分析序列中命名实体的角色与所述标注序列中对应的预设命名实体的角色相同。
[0074] 在S300的步骤中,第一语序和第二语序如果匹配,则将标注序列中的预设命名实体的角色赋予第一分析序列中对应的命名实体。
[0075] 举例来说,第一分析序列2:[神奇制药][收购][天成药业]。
[0076] 标注序列1为:[nt1:收购公司][收购][nt2:被收购公司]。
[0077] 第一语序是“命名实体+关联词+命名实体”;第二语序是“预设命名实体+预设关联词+预设命名实体”,二者的语序完全一致,因此,将标注序列1中预设命名实体nt1的角色赋予第一分析序列2中相应的命名实体“神奇制药”,将预设命名实体nt2的角色赋予第一分析序列2中相应的命名实体“天成药业”。通过这样的方式,可以获知在待分析文本1中,“神奇制药”是收购公司,“天成药业”是被收购公司。
[0078] 通过上述的方法,将第一分析序列与标注序列进行比对,从而准确地挖掘出了文本中命名实体在关联关系中的角色,有助于企业决策者或者管理者等人员快速地了解企
业/行业动态。同时,该自然语言处理方法不是基于固定句式来挖掘命名实体的角色,而是利用标注序列和第一分析序列来挖掘。这里的第一分析序列包括了关联词和命名实体,并
具有相应的语序,并不是完全依赖于固定的句式,因此,当面对的文本与此前的文本存在差异时,只需要调整部分标注序列的组成部分或语序即可,调节方便,能够用于处理不同的文本,适用性广。
[0079] 请参考图3,在本申请的第二个实施例中,提供一种自然语言处理方法,包括S400至S600的步骤:
[0080] S400:获取第一分析序列,所述第一分析序列中包括至少一个命名实体、关联词和关键词,并且所述至少一个命名实体、所述关联词与所述关键词之间具有第三语序,其中,所述关联词为表征命名实体之间的关联关系的字词,所述关键词为在所述第一分析序列中
影响所述命名实体的角色的字词。
[0081] 在步骤S400中,命名实体、关联词可以参考第一个实施例中的相关描述。关键词为在所述第一分析序列中影响所述命名实体的角色的字词,即,当第一分析序列中存在关键词或者不存在关键词时,同一个命名实体的角色可能会发生改变。
[0082] 例如,待分析文本2为:A公司于昨日收购了B公司的电动汽车项目。
[0083] 如果直接采用第一个实施例的方法,从待分析文本2中获取到的第一分析序列将是:[A公司][收购][B公司]。在与标注序列比对之后,从待分析文本2中挖掘出的信息
为——A公司为收购公司,B公司为被收购公司。显然,在这种情况下所挖掘出的命名实体的关联关系中,命名实体的角色存在错误。实际上,在待分析文本2中,A公司仅仅收购了B公司的一个项目,并没有收购整个B公司,A公司与B公司之间实际不存在“收购”的关联关系。
[0084] 在这样的文本中,“项目”一词即为关键词,其存在于待分析文本以及第一分析序列中,改变了待分析文本和第一分析序列中命名实体之间的关联关系,和/或,改变了命名实体的角色。将待分析文本中的关键词提取出来,与命名实体和关联词共同组成第一分析序列,三者之间具有第三语序,以便用于后续步骤中与标注序列进行比对。
[0085] 具体地,请参考图4,获取第一分析序列的步骤可以包括:
[0086] S401:获取待分析文本;
[0087] S402:提取所述待分析文本中的命名实体;
[0088] S403:利用语言模型提取所述待分析文本中的关联词和关键词,所述语言模型包括至少一个关联词以及与所述关联词对应的关键词组,所述关键词组包括至少一个关键
词;
[0089] S404:将提取到的命名实体、关联词和关键词按照其各自在待分析文本中语序组合,得到第一分析序列。
[0090] 在S403的步骤中,语言模型包括至少一个关联词以及与关联词对应的关键词组,关键词组包括至少一个关键词。在提取时,首先将语言模型中的所有关联词逐个与待分析
文本进行匹配,若能够匹配到,则从待分析文本中将关联词提取出来。然后将与匹配到的关联词所对应的关键词组中的每一个关键词逐个与待分析文本进行匹配,若能够匹配到,则
将匹配到的关键词也提取出来。
[0091] 在此步骤中,从一个待分析文本中可能仅能提取到一个关联词,也有可能会提取到两个或两个以上的关联词。当仅提取出一个关联词时,将该关联词所对应的关键词组中
的每一个关键词逐个与待分析文本进行匹配,以提取出关键词。当提取出来的关联词≥2个时,则将多个关联词各自对应的关键词组中的关键词分别与待分析文本进行匹配,以提取
出与关联词对应的关键词。
[0092] 进一步地,所述语言模型还包括与所述关键词对应的至少一个同义词。请参考图5,步骤S403利用语言模型提取所述待分析文本中的关联词和关键词的步骤,包括:
[0093] S4031:如果所述待分析文本包括所述语言模型中的关联词,则提取所述关联词,并将与所述关联词对应的关键词组中的关键词分别与所述待分析文本匹配;
[0094] S4032:如果所述待分析文本包括任一个关键词或所述关键词对应的同义词,则提取所述关键词。
[0095] 上述的同义词是指意义相同的一组词语,可以包括等义词和近义词两种。近义词是指意思相近,但不完全相同的词;而等义词的意思完全相同的词。
[0096] 通过上述步骤,将关键词的同义词全部提取为关键词,可以减少需要构建的标注序列的数量。当面对的文本与此前的文本存在差异时,只需要调整部分标注序列的组成部
分或语序,或者调整语言模型中关键词及其同义词即可,调节方便,适用性广。
[0097] 在S404的步骤中,将提取到的命名实体、关联词和关键词按照其各自在待分析文本中语序组合,使三者之间具有第三语序。当S403的步骤中提取到的关联词≥2个时,将每一个关联词分别与提取出来的命名实体,以及提取到的与关联词对应的关键词,按照三者
在待分析文本中的语序进行组合,得到多个第一分析序列。
[0098] 举例来说,假设语言模型中包括4个关联词:转让、收购、出资、担保,语言模型的部分内容如表1所示。
[0099] 表1语言模型示例
[0100]
[0101] 首先获取到待分析文本3如下:
[0102] 三峡水利将旗下的全资子公司重庆三峡水利实业发展有限公司全部股权及债权转让予重庆金科房地产开发有限公司。
[0103] 提取出待分析文本3中的命名实体“三峡水利”、“重庆三峡水利实业发展有限公司”和“重庆金科房地产开发有限公司”。将语言模型中的4个关联词逐一与待分析文本3进行匹配,匹配到“转让”这个关联词,将关联词“转让”提取出来。然后用与“转让”对应的关键词组中的3个关键词及其同义词逐一与待分析文本3进行匹配,匹配到关键词1“将”、关键词
2“旗下的”、关键词3的同义词“予”,从而提取出关键词1“将”、关键词2“旗下的”和关键词3“给”。
[0104] 将3个命名实体、关联词“转让”以及3个关键词按照其在待分析文本3中的语序进行组合,得到第一分析序列3:[三峡水利][将][旗下的][重庆三峡水利实业发展有限公司][转让][给][重庆金科房地产开发有限公司]。
[0105] S500:获取标注序列,所述标注序列包括至少一个预设命名实体、预设关联词和预设关键词,并且所述至少一个预设命名实体、预设关联词与预设关键词之间具有第四语序,每个所述预设命名实体对应一种关联关系的角色,其中,所述预设关联词为表征预设命名
实体之间的关联关系的字词,所述预设关键词为在标注序列中影响所述预设命名实体的角
色的字词。
[0106] 预设命名实体、关联关系的角色可以参考第一个实施例中的相关描述,此处不再赘述。与S400的步骤中关于关键词的描述类似的,预设关键词为在所述标注序列中影响所
述预设命名实体的角色的字词。
[0107] 当标注序列中的预设关联词发生变化时,预设命名实体的角色有可能也会产生变化。例如,在第一个实施例中的标注序列1中,预设关联词为“收购”,该标注序列中预设命名实体的角色可以是“收购公司”、“被收购公司”、“其他公司”等。当预设关联词为“转让”时,则预设命名实体的角色可以是“转让公司”、“被转让公司”、“受让公司”等,此外,也可以是“其他公司”。当一个预设数据库中包括多个标注序列,并且至少包括两个预设关联词不相同的标注序列时,为了避免不同关联关系的角色混淆,进一步地,获取标注序列的步骤,可以包括:
[0108] S501:将所述第一分析序列的关联词与预设数据库中的标注序列的预设关联词进行匹配;
[0109] S502:如果所述第一分析序列的关联词与标注序列的预设关联词相同,则获取所述标注序列。
[0110] 例如,预设数据库中包括4条标注序列:
[0111] 标注序列1:[nt1:收购公司][收购][nt2:被收购公司];
[0112] 标注序列2:[nt3:收购公司][向][nt4:其他公司][收购][nt5:被收购公司];
[0113] 标注序列3:[nt6:转让公司][转让][nt7:被转让公司];
[0114] 标注序列4:[nt8:转让公司][将][旗下的][nt9:被转让公司][转让][给][nt10:受让公司]。
[0115] 沿用前述S400步骤中的例子,第一分析序列3为:[三峡水利][将][旗下的][重庆三峡水利实业发展有限公司][转让][给][重庆金科房地产开发有限公司]。
[0116] 在获取标注序列的过程中,将第一分析序列3中的关联词“转让”分别与预设数据库中4条标注序列中的预设关联词进行匹配。结果标注序列1和标注序列2均无法匹配上,标注序列3与标注序列4的预设关联词与第一分析序列3相同,则获取标注序列3和标注序列4。
[0117] S600:比较所述第三语序和所述第四语序是否匹配,如果是,则设置所述第一分析序列中命名实体的角色与所述标注序列中对应的预设命名实体的角色相同。
[0118] 在S600的步骤中,第三语序和第四语序如果匹配,则将标注序列中的预设命名实体的角色赋予第一分析序列中对应的命名实体。
[0119] 沿用S500步骤中的例子,将第一分析序列3的第三语序分别与标注序列3的第四语序和标注序列4的第四语序进行比对,结果只有标注序列4的第四语序与第一分析序列3的
第三语序匹配。故给第一分析序列3中的3个命名实体分别赋予标注序列4中3个预设命名实
体的角色,也就是,在第一分析序列3中,“三峡水利”的角色为“转让公司”,“重庆三峡水利实业发展有限公司”的角色为“被转让公司”,“重庆金科房地产开发有限公司”的角色为“受让公司”。
[0120] 通过上述实例可见,通过在语言模型中引入与关联词对应的至少一个关键词,从而利用语言模型提取出待分析文本中的关键词,然后再与标注序列进行比对,进而进一步
提高了从文本中挖掘出的企业之间的关联关系信息的准确率,减少错误判断命名实体的关
联关系角色的情况。
[0121] 可选地,在一个具体实施方式中,步骤S402可以包括:
[0122] S4021:识别所述待分析文本中的预识别命名实体;
[0123] S4022:如果两个预识别命名实体的位置相邻,则将两个预识别命名实体合并为一个命名实体并提取。
[0124] 在S4021的步骤中,采用现有的识别文本中命名实体的方法,例如采用条件随机场(CRF)模型等,可以识别得到预识别命名实体。从待分析文本中识别出的预识别命名实体不直接提取出来作为第一分析序列中的命名实体,而是先判断两个预识别命名实体的位置是
否相邻。如果位置相邻,则将这两个预识别命名实体合并成一个命名实体,并提取出来,与其他命名实体和关联词组合得到第一分析序列。如果在一个句子中,两个预识别命名实体
的位置不相邻,也不是以下另一个具体实现方式中所描述的并列关系,则可以将单个预识
别命名实体直接作为一个命名实体提取出来,与从待分析文本中提取出来的其他命名实体
以及关联词组合得到第一分析序列。
[0125] 例如,获取到的待分析文本4为:
[0126] 国家电投上海电力股份有限公司日前与迪拜阿布拉吉集团签署巴基斯坦卡拉奇公司66.4%股权的买卖协议。
[0127] 从待分析文本4中识别出4个预识别命名实体:“国家电投”、“上海电力股份有限公司”、“迪拜阿布拉吉集团”、“卡拉奇公司”。通过预识别命名实体在待分析文本中所处的位置,依次两两判断预识别命名实体之间的位置是否相邻。从判断结果可知“国家电投”、“上海电力股份有限公司”的位置相邻,则将这两个预识别命名实体合并为一个命名实体“国家电投上海电力股份有限公司”,提取出来。
[0128] 在中文表达中,一个大的集团公司旗下的子公司的名称通常会冠以集团公司的名称作为前缀,并且二者之间没有其他作为连接的字符。面对包含这种情况的文本,现有的识别命名实体的方法通常会将其识别为两个命名实体,从而导致挖掘文本中企业之间关联关
系的时候挖掘出的信息出错。为此,在获取第一分析序列的过程中,将位置相邻的预识别命名实体合并,可以避免因命名实体识别错误导致后续挖掘出的关联关系或关联关系的角色
出错的问题。
[0129] 可选地,在另一个具体实施方式中,步骤S402可以包括:
[0130] S4023:识别所述待分析文本中的预识别命名实体;
[0131] S4024:如果一个句子中的两个预识别命名实体为并列关系,则将两个预识别命名实体和二者之间的并列连接词合并为一个命名实体。
[0132] 在S4023的步骤中,如果在一个句子中两个预识别命名实体之间通过并列连接词来连接,则可以判断这两个预识别命名实体之间为并列关系。此处,并列连接词可以是字
词,也可以是连接符号,例如“和”、“与”、“以及”、“同”、“跟”、“联合”或“、”等。一个句子指的是结尾通过逗号、分号、句号、问号、省略号、感叹号或者冒号来分隔的句子。
[0133] 此外,如果在一个句子中两个以上的预识别命名实体之间为并列关系,则将所有并列的预识别命名实体及其之间的并列连接词合并为一个命名实体来提取。具体地,当一
个句子中存在两个以上的预识别命名实体时,可以按照其各自在句子中的位置先后顺序,
先判断第一个预识别命名实体与第二个预识别命名实体之间是否满足并列关系。如果二者
为并列关系,则将二者及其之间的并列连接词合并为一个命名实体。然后再判断该命名实
体与第三个预识别命名实体之间是否满足并列关系。如果满足,则再将该命名实体、第三个预识别命名实体及二者之间的并列连接词合并为一个新的命名实体。重复上述判断和合并
的过程,直到这个句子中所有存在并列关系的预识别命名实体都分别合并为一个新的命名
实体。
[0134] 例如,获取到的待分析文本5为:
[0135] 腾邦国际、TBRJ基金联合贝恩资本全资收购全球最大的水上飞机公司——马尔代夫TMA集团。
[0136] 从待分析文本5中识别出4个预识别命名实体:“腾邦国际”、“TBRJ基金”、“贝恩资本”、“TMA集团”。
[0137] 首先,判断“腾邦国际”和“TBRJ基金”之间是否满足并列关系。二者之间通过并列连接词“、”来连接,满足并列关系,则将二者与并列连接词“、”合并为一个命名实体“腾邦国际、TBRJ基金”。
[0138] 然后,判断“腾邦国际、TBRJ基金”与“贝恩资本”之间是否满足并列关系。二者之间通过并列连接词“联合”来连接,满足并列关系,则将二者与并列连接词“联合”合并为一个新的命名实体“腾邦国际、TBRJ基金联合贝恩资本”。
[0139] 最后,再判断“腾邦国际、TBRJ基金联合贝恩资本”与下一个预识别命名实体“TMA集团”之间是否满足并列关系。判断结果为不满足,故而最终将“腾邦国际、TBRJ基金联合贝恩资本”作为一个命名实体提取出来。预识别命名实体“TMA集团”与其他预识别命名实体都不满足并列关系,故而将其单独作为一个命名实体提取出来。如此,从待分析文本5中最终提取出2个命名实体“腾邦国际、TBRJ基金联合贝恩资本”和“TMA集团”,用于后续与关联词“收购”一起组合。
[0140] 请参考图6,在本申请的第三个实施例中,提供一种自然语言处理装置,包括:
[0141] 获取单元1,用于获取第一分析序列以及获取标注序列,其中,所述第一分析序列中包括至少一个命名实体和关联词,并且所述至少一个命名实体与所述关联词之间具有第
一语序,所述关联词为表征命名实体之间的关联关系的字词,所述标注序列包括至少一个
预设命名实体和预设关联词,并且所述至少一个预设命名实体与预设关联词之间具有第二
语序,每个所述预设命名实体对应一种关联关系的角色,所述预设关联词为表征预设命名
实体之间的关联关系的字词;
[0142] 处理单元2,用于比较所述第一语序和所述第二语序是否匹配,在所述第一语序与所述第二语序匹配的情况下设置所述第一分析序列中命名实体的角色与所述标注序列中
对应的预设命名实体的角色相同。
[0143] 可选地,在一种实现方式中,所述获取单元1获取的第一分析序列还包括关键词,并且所述至少一个命名实体、所述关联词与所述关键词之间具有第三语序,所述关键词为
在所述第一分析序列中影响所述命名实体的角色的字词;所述获取单元获取的标注序列还
包括预设关键词,并且所述至少一个预设命名实体、预设关联词与预设关键词之间具有第
四语序,所述预设关键词为在标注序列中影响所述预设命名实体的角色的字词;
[0144] 所述处理单元2具体用于比较所述第三语序和所述第四语序是否匹配。
[0145] 可选地,所述获取单元1还用于获取待分析文本,提取所述待分析文本中的命名实体,利用语言模型提取所述待分析文本中的关联词和关键词,以及,将提取到的命名实体、关联词和关键词按照其各自在待分析文本中语序组合,得到第一分析序列,其中,所述语言模型包括至少一个关联词以及与所述关联词对应的关键词组,所述关键词组包括至少一个
关键词。
[0146] 可选地,所述获取单元1还用于在所述待分析文本包括所述语言模型中的关联词的情况下提取所述关联词,并将与所述关联词对应的关键词组中的关键词分别与所述待分
析文本匹配;以及,在所述待分析文本包括任一个关键词或所述关键词对应的同义词的情
况下提取所述关键词;其中,所述语言模型还包括与所述关键词对应的至少一个同义词。
[0147] 可选地,所述获取单元1还用于识别所述待分析文本中的预识别命名实体,以及,在两个预识别命名实体的位置相邻的情况下将两个预识别命名实体合并为一个命名实体
并提取。
[0148] 可选地,所述获取单元1还用于识别所述待分析文本中的预识别命名实体,以及,在一个句子中的预识别两个命名实体为并列关系的情况下将两个预识别命名实体和二者
之间的并列连接词合并为一个命名实体。
[0149] 可选地,所述获取单元1还用于将所述第一分析序列的关联词与预设数据库中的标注序列的预设关联词进行匹配;以及,在所述第一分析序列的关联词与标注序列的预设
关联词相同的情况下获取所述标注序列;其中,所述预设数据库中包括至少两个标注序列,至少两个所述标注序列的预设关联词不相同。
[0150] 本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。