实体名的识别方法和装置转让专利

申请号 : CN201410234622.0

文献号 : CN103995885B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈丽欧徐明泉韩锋姜世超周寰王平雷绍泽周丰乐

申请人 : 百度在线网络技术(北京)有限公司

摘要 :

本发明提出一种实体名的识别方法和装置,其中,该实体名的识别方法,包括:获取待识别文本以及待识别文本的来源信息;根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名;根据预先建立的词根表和预设约束规则从待识别文本中非第一实体名的内容中获取第二实体名。本发明的实体名的识别方法,提升了实体名识别的准确率和召回率,可适用于各种语言类型,通用性较强。此外,对于创意文本中的实体名的有效识别,极大的满足创意中个性化需求。

权利要求 :

1.一种实体名的识别方法,其特征在于,包括:获取待识别文本以及所述待识别文本的来源信息;

根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名;

根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名;

其中,所述根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名,具体包括:根据词根识别模型对所述待识别文本的来源信息进行识别,以获取所述待识别文本的来源信息中的词根;

根据所述词根和预先建立的词缀表获取所述待识别文本中的第一实体名;

其中,所述根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名,具体包括:根据所述预先建立的词根表查找所述待识别文本中非第一实体名的内容所包含的词根;

对所述待识别文本中非第一实体名的内容所包含的词根进行筛选;

如果所述待识别文本中非第一实体名的内容所包含的词根为强约束的词根,则直接获取第二实体名,其中,强约束的词根是指在任意情况下都能作为实体名的词根;

如果所述待识别文本中非第一实体名的内容所包含的词根为弱约束的词根,则根据所述预设约束规则获取所述第二实体名,其中,弱约束的词根是指在满足一定的上下文约束条件时才能作为实体名的词根。

2.如权利要求1所述的方法,其特征在于,所述第一实体名为机构名;

所述第二实体名为品牌名。

3.如权利要求1所述的方法,其特征在于,还包括:根据实体识别模型对所述待识别文本进行识别,以获取所述待识别文本中的第一实体名。

4.如权利要求1所述的方法,其特征在于,在所述获取待识别文本以及所述待识别文本的来源信息之前,还包括:收集多个注册实体名;

分别对所述多个注册实体名进行分词,以获取多个分词;

获取所述多个分词的属性特征;

根据所述属性特征从所述多个分词中筛选出所述词根表中的多个词根以及所述词缀表中的多个词缀,以建立所述词根表和所述词缀表。

5.如权利要求1所述的方法,其特征在于,还包括:获取第一训练语料;

根据所述第一训练语料的词语特征构建第一特征模板;

根据所述第一特征模板和条件随机场模型训练所述词根识别模型。

6.如权利要求3所述的方法,其特征在于,还包括:根据所述词根表和所述词缀表获取第二训练语料;

根据所述第二训练语料的词语特征构建第二特征模板;

根据所述第二特征模板和条件随机场模型训练所述实体识别模型。

7.一种实体名的识别装置,其特征在于,包括:获取模块,用于获取待识别文本以及所述待识别文本的来源信息;

第一识别模块,用于根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名;

第二识别模块,用于根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名;

其中,所述第一识别模块具体用于:

根据词根识别模型对所述待识别文本的来源信息进行识别,以获取所述待识别文本的来源信息中的词根;

根据所述词根和预先建立的词缀表获取所述待识别文本中的第一实体名;

其中,所述第二实体模块具体用于:

根据所述预先建立的词根表查找所述待识别文本中非第一实体名的内容所包含的词根;

对所述待识别文本中非第一实体名的内容所包含的词根进行筛选;

如果所述待识别文本中非第一实体名的内容所包含的词根为强约束的词根,则直接获取第二实体名,其中,强约束的词根是指在任意情况下都能作为实体名的词根;

如果所述待识别文本中非第一实体名的内容所包含的词根为弱约束的词根,则根据所述预设约束规则获取所述第二实体名,其中,弱约束的词根是指在满足一定的上下文约束条件时才能作为实体名的词根。

8.如权利要求7所述的装置,其特征在于,所述第一实体名为机构名;

所述第二实体名为品牌名。

9.如权利要求7所述的装置,其特征在于,所述第一识别模块还用于根据实体识别模型对所述待识别文本进行识别,以获取所述待识别文本中的第一实体名。

10.如权利要求7所述的装置,其特征在于,还包括词表建立模块,所述词表建立模块用于:收集多个注册实体名;

分别对所述多个注册实体名进行分词,以获取多个分词;

获取所述多个分词的属性特征;

根据所述属性特征从所述多个分词中筛选出所述词根表中的多个词根以及所述词缀表中的多个词缀,以建立所述词根表和所述词缀表。

11.如权利要求7所述的装置,其特征在于,还包括第一模型训练模块,所述第一模型训练模块用于:获取第一训练语料;

根据所述第一训练语料的词语特征构建第一特征模板;

根据所述第一特征模板和条件随机场模型训练所述词根识别模型。

12.如权利要求9所述的装置,其特征在于,还包括第二模型训练模块,所述第二模型训练模块用于:根据所述词根表和所述词缀表获取第二训练语料;

根据所述第二训练语料的词语特征构建第二特征模板;

根据所述第二特征模板和条件随机场模型训练所述实体识别模型。

说明书 :

实体名的识别方法和装置

技术领域

[0001] 本发明涉及互联网信息处理技术领域,特别涉及一种实体名的识别方法和装置。

背景技术

[0002] 随着计算机的广泛使用和互联网的快速发展,互联网资源逐渐丰富,信息量急剧增大。为了使用户能够在海量的信息源中迅速找到真正需要的信息,需要对信息文档进行处理,以自动识别其中的实体名,以便于用户根据实体名查找需要的信息。目前,对实体名的自动识别是一项技术难题。实体名的类型不同,其识别难度和识别方法也各不相同。实体名的识别主要有统计学习的方法和基于规则的识别方法两种方式。其中:
[0003] 统计学习的方法包括训练阶段和识别阶段,在训练阶段,在标注语料的基础上,通过抽取相关特征并选择合适的机器学习策略来训练专名识别的模型;在识别阶段,使用训练阶段得到的模型来自动识别新语料中的专名。但是,在训练阶段,需要人工标注、校对训练语料,非常耗时耗力,并且实体名不断变化,不时会有一些新的实体名出现,因此训练语料也需要经常更新,这十分耗费人力资源,费时费力,且准确率不高。
[0004] 基于规则的识别方法的思想是将人类用于识别实体名的语言学知识编写成若干条规则,让机器按照这些规则对文本中的实体名进行自动识别。这些规则一般都依赖于具体语言类型,如汉语、英语等。但是用于识别实体名的这些规则过于繁琐复杂,且知识编码的工作目前也没有统一的指导性方法,因此,基于规则的方法,需要针对不同的语言分别编写识别规则,工作量大,且通用性较差。
[0005] 因此,目前,实体名的识别方法普遍应用性较差,且准备工作量大,难以同时实现高准确率且低人力资源耗费。

发明内容

[0006] 本发明旨在至少在一定程度上解决上述技术问题。
[0007] 为此,本发明的第一个目的在于提出一种实体名的识别方法,该方法能够提升实体名识别的准确率以及通用性。
[0008] 本发明的第二个目的在于提出一种实体名的识别装置。
[0009] 为达上述目的,根据本发明第一方面实施例提出了一种实体名的识别方法,包括:获取待识别文本以及所述待识别文本的来源信息;根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名;根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名。
[0010] 本发明实施例的实体名的识别方法,根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名,并根据词根表和预设规则获取待识别文本中的第二实体名,充分结合了统计学习方法和基于规则的识别方法二者的优势,提升了实体名识别的准确率和召回率,可适用于各种语言类型,通用性较强。此外,对于创意文本中的实体名的有效识别,极大的满足创意中个性化需求,且满足了法务风险词汇的识别需求。
[0011] 本发明第二方面实施例提供了一种实体名的识别装置,包括:获取模块,用于获取待识别文本以及所述待识别文本的来源信息;第一识别模块,用于根据所述待识别文本的来源信息和识别模型获取所述待识别文本中的第一实体名;第二识别模块,用于根据预先建立的词根表和预设约束规则从所述待识别文本中非第一实体名的内容中获取第二实体名。
[0012] 本发明实施例的实体名的识别装置,根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名,并根据词根表和预设规则获取待识别文本中的第二实体名,充分结合了统计学习方法和基于规则的识别方法二者的优势,提升了实体名识别的准确率和召回率,可适用于各种语言类型,通用性较强。此外,对于创意文本中的实体名的有效识别,极大的满足创意中个性化需求,且满足了法务风险词汇的识别需求。
[0013] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

[0014] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0015] 图1为根据本发明一个实施例的实体名的识别方法的流程图;
[0016] 图2为根据本发明一个实施例的根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名的方法的流程图;
[0017] 图3为根据本发明一个实施例的根据预先建立的词根表和预设约束规则从待识别文本中非第一实体名的内容中获取第二实体名的流程图;
[0018] 图4为根据本发明一个实施例的建立词根表和词缀表的方法的流程图;
[0019] 图5为根据本发明一个实施例的建立词根识别模型的方法的流程图;
[0020] 图6为根据本发明一个实施例的建立实体识别模型的方法的流程图;
[0021] 图7为根据本发明一个实施例的实体名的识别装置的结构示意图;
[0022] 图8为根据本发明另一个实施例的实体名的识别装置的结构示意图。

具体实施方式

[0023] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0024] 在本发明的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0025] 下面参考附图描述根据本发明实施例的实体名的识别方法和装置。
[0026] 为了能够减少识别实体名的人力资源的耗费,且提高识别准确率,本发明提出了一种实体名的识别方法,包括:获取待识别文本以及待识别文本的来源信息;根据待识别文本的来源信息获取待识别文本中的第一实体名;根据预先建立的词根表和预设约束规则从待识别文本中非第一实体名的内容中获取第二实体名。
[0027] 在本发明的实施例中,实体名为现实世界中任何可区分、可识别的事物的名称。举例来说,例如,机构名、品牌名、地名、人名等。
[0028] 图1为根据本发明一个实施例的实体名的识别方法的流程图。如图1所示,根据本发明实施例的实体名的识别方法,包括:
[0029] S101,获取待识别文本以及待识别文本的来源信息。
[0030] 在本发明的一个实施例中,待识别文本的来源信息为发布待识别文本的公司名称、网站名称等。如“深圳市连讯达电子技术开发有限公司”。
[0031] 在本发明的实施例中,待识别文本为自然语言文本。待识别文本的来源信息可为用户在提供待识别文本时同时提供,也可根据待识别文本发布时的发布信息获取,如发布者的账户信息等。因为发布者的账户信息中大多会包括发布者获取发布者的账户所在或者所代表的机构。
[0032] S102,根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名。
[0033] 在本发明的实施例中,第一实体名为与待识别文本的来源信息相关的实体名。举例来说,在本发明的一个实施例中,第一实体名可为机构名。例如,如果待识别文本的来源信息为“深圳市连讯达电子技术开发有限公司”,则第一实体名可为“连讯达电子技术开发有限公司”。
[0034] 具体地,在本发明的一个实施例中,可通过图2所示的步骤获取待识别文本中的第一实体名。如图2所示,根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名的方法,包括:
[0035] S201,根据词根识别模型对待识别文本的来源信息进行识别,以获取待识别文本的来源信息中的词根。
[0036] 在本发明的实施例中,词根识别模型为预先建立的。更具体地,可在对待识别文本进行识别之前训练词根识别模型,也可从其他存储装置拷贝或下载已训练好的词根识别模型。词根识别模型是根据词根表进行训练得到的,可识别待识别文本的来源信息中的词根的识别模型。举例来说,对于来源信息“深圳市连讯达电子技术开发有限公司”,通过词根识别模型可识别出其中的词根“连迅达”。
[0037] S202,根据词根和预先建立的词缀表获取待识别文本中的第一实体名。
[0038] 在本发明的实施例中,词缀表为包括多个第一实体名的后缀的存储表。举例来说,词缀表中可包括“有限公司”、“机电配件厂”、“有限责任公司”等实体名的后缀。
[0039] 在本发明的一个实施例中,第一实体名可为带后缀的实体名,如“连迅达有限公司”,也可为不带后缀的实体名,如“连迅达”。因此,可首先在待识别文本中查找该词根,如果存在,则该词根即为待识别文本中的一个第一实体名。然后,可根据词根和词缀表在待识别文本中查找词根与词缀表中任意词缀相结合组成的字符串,即为第一实体名。
[0040] 在本发明的另一个实施例中,由于很多实体可能存在别名,因此,根据来源信息的词根可能无法覆盖待识别文本中的实体名例如,“凡客”也可被写为“VANCL”。为了能够全面识别待识别文本中实体名,根据待识别文本的来源信息获取待识别文本中的第一实体名的方法除了包括步骤S201–S202之外,还可包括:
[0041] S203,根据实体识别模型对待识别文本进行识别,以获取待识别文本中的第一实体名。
[0042] 在本发明的实施例中,实体识别模型为预先建立的。更具体地,可在对待识别文本进行识别之前训练实体识别模型,也可从其他存储装置拷贝或下载已训练好的实体识别模型。实体识别模型是根据词根表和词缀表训练得到的,可识别待识别文本中的实体的识别模型。举例来说,对于待识别文本中的“VANCL诚品”,通过实体识别模型即可被识别为第一实体名。
[0043] S103,根据预先建立的词根表和预设约束规则从待识别文本中非第一实体名的内容中获取第二实体名。
[0044] 在本发明的实施例中,第二实体名为与第一实体名的代理、产品、经营相关的实体名。举例来说,如果第一实体名为机构名,则第二实体名可为品牌名。例如,具体地,可通过图3所示的方法识别待识别文本中的第二实体名,如图3所示,根据预先建立的词根表和预设约束规则从待识别文本中非第一实体名的内容中获取第二实体名,包括:
[0045] S301,根据预先建立的词根表查找待识别文本中非第一实体名的内容所包含的词根。
[0046] S302,根据预设约束规则对待识别文本中非第一实体名的内容所包含的词根进行筛选,以获取待识别文本中非第一实体名的内容中获取第二实体名。
[0047] 在本发明的一个实施例中,词根表中的词根,可分为强约束的词根和弱约束的词根。其中,强约束的词根是指在任意情况下都可作为实体名的词根,而弱约束的词根是指在满足一定的上下文约束条件时才可作为实体名的词根。举例来说,“凡客”即为强约束的词根,“七天”仅在与“酒店”或“假日酒店”等词缀结合时,才可作为实体名。其他情况下“七天”仅为数量词。因此,需要针对弱约束的词根建立预设约束规则,预设约束规则是用于对弱约束的词根进行条件限定以使弱约束的词根在该预设约束规则下可作为实体名。由于弱约束的词根类型各不相同,因此,预设约束规则也是根据不同的弱约束的词根相匹配的,本发明对预设约束规则的具体形式不进行限定。
[0048] 本发明实施例的实体名的识别方法,根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名,并根据词根表和预设规则获取待识别文本中的第二实体名,充分结合了统计学习方法和基于规则的识别方法二者的优势,提升了实体名识别的准确率和召回率,可适用于各种语言类型,通用性较强。此外,对于创意文本中的实体名的有效识别,极大的满足创意中个性化需求,且满足了法务风险词汇的识别需求。
[0049] 在本发明的一个实施例中,在识别出实体名后,根据识别出的实体名的类型打上相应的标签。举例来说,机构名的标签为,品牌名的标签为。例如,如果“深圳市连讯达电子技术开发有限公司”为一个公司名,则可其发布的创意中的实体名的标签如下:
[0050] 创意:….耐克森网线—首选深圳连讯达
[0051] 其中,“联讯达”为机构名;而“耐克森”是其经营的产品名,应该被识别为品牌名。
[0052] 图4为根据本发明一个实施例的建立词根表和词缀表的方法的流程图。具体地,如图4所示,建立词根表和词缀表的方法,包括:
[0053] S401,收集多个注册实体名。
[0054] 在本发明的实施例中,注册实体名是指已确定的实体名。如,已注册的公司名、产品名、注册品牌等。
[0055] S402,分别对多个注册实体名进行分词,以获取多个分词。
[0056] 其中,对注册实体名进行分词可使用相关技术中或未来可能出现的任意分词方法,本发明对所使用的分词方法不进行限定。
[0057] S403,获取多个分词的属性特征。
[0058] 在本发明的实施例中,分词的属性特征包括分词的词性、长度、在全部注册实体名中出现的频率、分词在注册实体名中的位置等特征。
[0059] S404,根据属性特征从多个分词中筛选出词根表中的多个词根以及词缀表中的多个词缀,以建立词根表和词缀表。
[0060] 在本发明的实施例中,词根具有出现频度不高、常在地域词和产品词之间等属性特征,而词缀具有频度高、常在公司名尾部等属性特征。因此,可分别通过词根和词缀具有的属性特征从多个分词中筛选出多个词根和多个词缀。
[0061] 举例来说,可通过以下规则从多个分词中筛选出多个词根:
[0062] A、构成词语的词不能被其他词分隔;
[0063] B、词语不是地域词;
[0064] C、词语的频度*位置必须满足一定阈值限制;
[0065] D、词语的总长度必须小于一定长度阈值。
[0066] 可通过以下规则从多个分词中筛选出多个词缀:
[0067] a、词语在公司名的尾部(或在递归结构的尾部);
[0068] b、词语的出现频率必须大于一定频率阈值;
[0069] c、构成词语的词必须满足一定词性限制。
[0070] 应当理解,上述规则仅为示例性的,在本发明的其他实施例中,本领域技术人员也可根据上述描述中未列举出的其他词根和词缀的属性特征设定词根和词缀的筛选规则。
[0071] 在本发明的一个实施例中,由于实体名的种类多样,因此,词根表的数据量非常庞大,为了在使用词根表时提高查询速度,对词根表建立压缩索引,举例来说,对于具有相同前缀的词根,可根据他们相同的前缀建立一个共同的索引,从而可提高查询效率。此外,如前述实施例的,词根分为强约束的词根和弱约束的词根,因此,词根表可分别强词根表和弱词根表。
[0072] 图5为根据本发明一个实施例的建立词根识别模型的方法的流程图。具体地,如图5所示,建立词根识别模型的方法,包括:
[0073] S501,获取第一训练语料。
[0074] 在本发明的实施例中,第一训练语料是用于训练词根识别模型的语料。具体地,可在已确定的实体命中抽取少量的实体名,举例来说,可抽取1000个实体名,然后经过对抽取的1000个实体名进行人工校对得到第一训练语料,即可使训练出的识别模型的识别准确率达到95%以上。由于获取第一训练语料所需要的实体名很少,人工校对的工作量也非常小,仅需几分钟就可以完成,大大节省人力和时间,且准确率较高。
[0075] S502,根据第一训练语料的词语特征构建第一特征模板。
[0076] 在本发明的实施例中,对于第一训练语料中的实体名中的每个词,抽取词本身及其词性两类特征,然后,将第一训练语料中不同词的两类特征进行组合,得到具有第一预设数量的特征项的第一特征模板。
[0077] S503,根据第一特征模板和条件随机场模型训练词根识别模型。
[0078] 其中,条件随机场模型是一种判定性模型,可通过定义标记序列和观察序列的条件概率来预测最可能的标记序列。因此,在本发明的实施例中,可利用条件随机场模型,根据构建的符合词根的特征的第一特征模板得到词根识别模型。
[0079] 图6为根据本发明一个实施例的建立实体识别模型的方法的流程图。具体地,如图6所示,建立实体识别模型的方法,包括:
[0080] S601,根据词根表和词缀表获取第二训练语料。
[0081] 在本发明的实施例中,第二训练语料可利用词根表和词缀表自动构造而成,具体地,首先对大量创意片段进行分词和词性识别之后,使用词根和词缀表进行正则匹配,然后将满足格式要求(如:无停用词、无间隔、长度在阈值内等)的词根+词缀的最长匹配串作为一个带后缀的机构名。其中,匹配结束后得到的结果中,可以分为如下四种情况:
[0082] 1、包含“词根+词缀”的创意片段;如:北京曙光(词根)男科医院(词缀)拥有在线资深专家。
[0083] 2、仅包含“词根”的创意片段,如:北京军都(词根)采用新技术五腔离子肽疗法治疗。
[0084] 3、仅包含“词缀”的创意片段,如:治疗前列腺炎哪家医院(词缀)好?[0085] 4、词根和词缀都不包含的创意片段,如:不打针.不口服.不开刀.无痛苦。
[0086] 上述四种情况中,前两种包含了实体,这被称作“正例”;而后两种不包含实体,被称作“反例”。因为一个创意包含的创意片段即可能有实体,有可能没有实体,因此用于训练实体识别模型的第二训练语料中应该即包括正例也包括反例,否则训练出的模型会有偏差。其中,正反例个数需满足一定比例,在本发明的一个实施例中,根据创意中包含实体和未包含实体的创意片段的分布,可设定第二训练语料中正例与反例的个数比为1:3。
[0087] S602,根据第二训练语料的词语特征构建第二特征模板。
[0088] 在本发明的实施例中,对于第二训练语料中的每个词,抽取词本身及其词性、位置、长度四类特征,然后,将第二训练语料中不同词的四类特征进行组合,得到具有第二预设数量的特征项的第二特征模板。
[0089] S603,根据第二特征模板和条件随机场模型训练实体识别模型。
[0090] 其中,条件随机场模型是一种判定性模型,可通过定义标记序列和观察序列的条件概率来预测最可能的标记序列。因此,在本发明的实施例中,可利用条件随机场模型,根据构建的符合实体名的特征的第二特征模板得到实体识别模型。
[0091] 由图4、图5、图6所示的实施例可知,在本发明实施例的实体名的识别方法中,语料的训练、识别模型的训练、词根表以及词缀表的建立几乎可自动执行,虽然,在获取用于训练词根识别模型的第一训练语料时,需要人工校对,但是所需人力和时间非常少,对人工的依赖性极低,从而大大地减少了人力、物力资源的消耗,节省了时间。
[0092] 为了实现上述实施例,本发明还提出一种实体名的识别装置。
[0093] 一种实体名的识别装置,包括:获取模块,用于获取待识别文本以及待识别文本的来源信息;第一识别模块,用于根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名;第二识别模块,用于根据预先建立的词根表和预设约束规则从待识别文本中非第一实体名的内容中获取第二实体名。
[0094] 图7为根据本发明一个实施例的实体名的识别装置的结构示意图。
[0095] 如图7所示,根据本发明实施例的实体名的识别装置,包括:获取模块10、第一识别模块20和第二识别模块30。
[0096] 具体地,获取模块10用于获取待识别文本以及待识别文本的来源信息。在本发明的一个实施例中,待识别文本的来源信息为发布待识别文本的公司名称、网站名称等。如“深圳市连讯达电子技术开发有限公司”。
[0097] 在本发明的实施例中,待识别文本为自然语言文本。待识别文本的来源信息可为用户在提供待识别文本时同时提供,也可根据待识别文本发布时的发布信息获取,如发布者的账户信息等。因为发布者的账户信息中大多会包括发布者获取发布者的账户所在或者所代表的机构。
[0098] 第一识别模块20用于根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名。在本发明的实施例中,第一实体名为与待识别文本的来源信息相关的实体名。举例来说,在本发明的一个实施例中,第一实体名可为机构名。例如,如果待识别文本的来源信息为“深圳市连讯达电子技术开发有限公司”,则第一实体名可为“连讯达电子技术开发有限公司”。
[0099] 更具体地,在本发明的一个实施例中,第一识别模块20具体用于根据词根识别模型对待识别文本的来源信息进行识别,以获取待识别文本的来源信息中的词根,并根据词根和预先建立的词缀表获取待识别文本中的第一实体名。
[0100] 在本发明的实施例中,词根识别模型为预先建立的。更具体地,可在对待识别文本进行识别之前训练词根识别模型,也可从其他存储装置拷贝或下载已训练好的词根识别模型。词根识别模型是根据词根表进行训练得到的,可识别待识别文本的来源信息中的词根的识别模型。举例来说,对于来源信息“深圳市连讯达电子技术开发有限公司”,通过词根识别模型可识别出其中的词根“连迅达”。在本发明的实施例中,词缀表为包括多个第一实体名的后缀的存储表。举例来说,词缀表中可包括“有限公司”、“机电配件厂”、“有限责任公司”等实体名的后缀。
[0101] 在本发明的一个实施例中,第一实体名可为带后缀的实体名,如“连迅达有限公司”,也可为不带后缀的实体名,如“连迅达”。因此,第一识别模块20可首先在待识别文本中查找该词根,如果存在,则该词根即为待识别文本中的一个第一实体名。然后,第一识别模块20可根据词根和词缀表在待识别文本中查找词根与词缀表中任意词缀相结合组成的字符串,即为第一实体名。
[0102] 在本发明的另一个实施例中,由于很多实体可能存在别名,因此,根据来源信息的词根可能无法覆盖待识别文本中的实体名例如,“凡客”也可被写为“VANCL”。为了能够全面识别待识别文本中实体名,第一识别模块20还可用于根据实体识别模型对待识别文本进行识别,以获取待识别文本中的第一实体名。其中,实体识别模型为预先建立的。更具体地,可在对待识别文本进行识别之前训练实体识别模型,也可从其他存储装置拷贝或下载已训练好的实体识别模型。实体识别模型是根据词根表和词缀表训练得到的,可识别待识别文本中的实体的识别模型。举例来说,对于待识别文本中的“VANCL诚品”,通过实体识别模型即可被识别为第一实体名。
[0103] 第二识别模块30用于根据预先建立的词根表和预设约束规则从待识别文本中非第一实体名的内容中获取第二实体名。在本发明的实施例中,第二实体名为与第一实体名的代理、产品、经营相关的实体名。举例来说,如果第一实体名为机构名,则第二实体名可为品牌名。
[0104] 更具体地,第二识别模块30具体用于根据预先建立的词根表查找待识别文本中非第一实体名的内容所包含的词根,并根据预设约束规则对待识别文本中非第一实体名的内容所包含的词根进行筛选,以获取待识别文本中非第一实体名的内容中获取第二实体名。在本发明的一个实施例中,词根表中的词根,可分为强约束的词根和弱约束的词根。其中,强约束的词根是指在任意情况下都可作为实体名的词根,而弱约束的词根是指在满足一定的上下文约束条件时才可作为实体名的词根。举例来说,“凡客”即为强约束的词根,“七天”仅在与“酒店”或“假日酒店”等词缀结合时,才可作为实体名。其他情况下“七天”仅为数量词。因此,需要针对弱约束的词根建立预设约束规则,预设约束规则是用于对弱约束的词根进行条件限定以使弱约束的词根在该预设约束规则下可作为实体名。由于弱约束的词根类型各不相同,因此,预设约束规则也是根据不同的弱约束的词根相匹配的,本发明对预设约束规则的具体形式不进行限定。
[0105] 本发明实施例的实体名的识别装置,根据待识别文本的来源信息和识别模型获取待识别文本中的第一实体名,并根据词根表和预设规则获取待识别文本中的第二实体名,充分结合了统计学习方法和基于规则的识别方法二者的优势,提升了实体名识别的准确率和召回率,可适用于各种语言类型,通用性较强。此外,对于创意文本中的实体名的有效识别,极大的满足创意中个性化需求,且满足了法务风险词汇的识别需求。
[0106] 在本发明的一个实施例中,在识别出实体名后,根据识别出的实体名的类型打上相应的标签。举例来说,机构名的标签为,品牌名的标签为。例如,如果“深圳市连讯达电子技术开发有限公司”为一个公司名,则可其发布的创意中的实体名的标签如下:
[0107] 创意:….耐克森网线—首选深圳连讯达
[0108] 其中,“联讯达”为机构名;而“耐克森”是其经营的产品名,应该被识别为品牌名。
[0109] 图8为根据本发明另一个实施例的实体名的识别装置的结构示意图。如图8所示,该实体名的识别装置包括:获取模块10、第一识别模块20、第二识别模块30、词表建立模块40、第一模型训练模块50和第二模型训练模块60。
[0110] 具体地,词表建立模块40用于:
[0111] 收集多个注册实体名,其中,注册实体名是指已确定的实体名。如,已注册的公司名、产品名、注册品牌等;
[0112] 分别对多个注册实体名进行分词,以获取多个分词,其中,对注册实体名进行分词可使用相关技术中或未来可能出现的任意分词方法,本发明对所使用的分词方法不进行限定;
[0113] 获取多个分词的属性特征,其中,分词的属性特征包括分词的词性、长度、在全部注册实体名中出现的频率、分词在注册实体名中的位置等特征;
[0114] 根据属性特征从多个分词中筛选出词根表中的多个词根以及词缀表中的多个词缀,以建立词根表和词缀表。
[0115] 在本发明的实施例中,词根具有出现频度不高、常在地域词和产品词之间等属性特征,而词缀具有频度高、常在公司名尾部等属性特征。因此,可分别通过词根和词缀具有的属性特征从多个分词中筛选出多个词根和多个词缀。
[0116] 举例来说,可通过以下规则从多个分词中筛选出多个词根:
[0117] A、构成词语的词不能被其他词分隔;
[0118] B、词语不是地域词;
[0119] C、词语的频度*位置必须满足一定阈值限制;
[0120] D、词语的总长度必须小于一定长度阈值。
[0121] 可通过以下规则从多个分词中筛选出多个词缀:
[0122] a、词语在公司名的尾部(或在递归结构的尾部);
[0123] b、词语的出现频率必须大于一定频率阈值;
[0124] c、构成词语的词必须满足一定词性限制。
[0125] 应当理解,上述规则仅为示例性的,在本发明的其他实施例中,本领域技术人员也可根据上述描述中未列举出的其他词根和词缀的属性特征设定词根和词缀的筛选规则。
[0126] 在本发明的一个实施例中,由于实体名的种类多样,因此,词根表的数据量非常庞大,为了在使用词根表时提高查询速度,对词根表建立压缩索引,举例来说,对于具有相同前缀的词根,可根据他们相同的前缀建立一个共同的索引,从而可提高查询效率。此外,如前述实施例的,词根分为强约束的词根和弱约束的词根,因此,词根表可分别强词根表和弱词根表。
[0127] 第一模型训练模块50用于:
[0128] 获取第一训练语料,其中,第一训练语料是用于训练词根识别模型的语料。具体地,可在已确定的实体命中抽取少量的实体名,举例来说,可抽取1000个实体名,然后经过对抽取的1000个实体名进行人工校对得到第一训练语料,即可使训练出的识别模型的识别准确率达到95%以上。由于获取第一训练语料所需要的实体名很少,因此人工校对的工作量也非常小,仅需几分钟就可以完成,大大节省人力和时间,且准确率较高。;
[0129] 根据第一训练语料的词语特征构建第一特征模板,其中,对于第一训练语料中的实体名中的每个词,抽取词本身及其词性两类特征,然后,将第一训练语料中不同词的两类特征进行组合,得到具有第一预设数量的特征项的第一特征模板;
[0130] 根据第一特征模板和条件随机场模型训练词根识别模型,其中,条件随机场模型是一种判定性模型,可通过定义标记序列和观察序列的条件概率来预测最可能的标记序列。因此,在本发明的实施例中,可利用条件随机场模型,根据构建的符合词根的特征的第一特征模板得到词根识别模型。
[0131] 第二模型训练模块60用于:
[0132] 根据词根表和词缀表获取第二训练语料,其中,匹配结束后得到的结果中,可以分为如下四种情况:
[0133] 1、包含“词根+词缀”的创意片段;如:北京曙光(词根)男科医院(词缀)拥有在线资深专家。
[0134] 2、仅包含“词根”的创意片段,如:北京军都(词根)采用新技术五腔离子肽疗法治疗。
[0135] 3、仅包含“词缀”的创意片段,如:治疗前列腺炎哪家医院(词缀)好?[0136] 4、词根和词缀都不包含的创意片段,如:不打针.不口服.不开刀.无痛苦。
[0137] 上述四种情况中,前两种包含了实体,这被称作“正例”;而后两种不包含实体,被称作“反例”。因为一个创意包含的创意片段即可能有实体,有可能没有实体,因此用于训练实体识别模型的第二训练语料中应该即包括正例也包括反例,否则训练出的模型会有偏差。其中,正反例个数需满足一定比例,在本发明的一个实施例中,根据创意中包含实体和未包含实体的创意片段的分布,可设定第二训练语料中正例与反例的个数比为1:3;
[0138] 根据第二训练语料的词语特征构建第二特征模板,其中,对于第二训练语料中的每个词,抽取词本身及其词性、位置、长度四类特征,然后,将第二训练语料中不同词的四类特征进行组合,得到具有第二预设数量的特征项的第二特征模板;
[0139] 根据第二特征模板和条件随机场模型训练实体识别模型,其中,条件随机场模型是一种判定性模型,可通过定义标记序列和观察序列的条件概率来预测最可能的标记序列。因此,在本发明的实施例中,可利用条件随机场模型,根据构建的符合实体名的特征的第二特征模板得到实体识别模型。
[0140] 本发明实施例的实体名的识别装置,语料的训练、识别模型的训练、词根表以及词缀表的建立几乎可自动执行,虽然,在获取用于训练词根识别模型的第一训练语料时,需要人工校对,但是所需人力和时间非常少,对人工的依赖性极低,从而大大地减少了人力、物力资源的消耗,节省了时间,且准确率较高。
[0141] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0142] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0143] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
[0144] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0145] 此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0146] 上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0147] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0148] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。