一种基于半训练和句子选择的远程监督命名实体识别方法转让专利

申请号 : CN202111644281.0

文献号 : CN114004233B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李劲松辛然田雨周天舒阮彤王凯

申请人 : 之江实验室

摘要 :

本发明公开了一种基于半训练和句子选择的远程监督命名实体识别方法,该方法首先通过半训练策略将双向循环神经网络和条件随机场混合双向循环神经网络和条件随机场混合模型在人工标注数据集上的平衡F分数训练到预设半训练区间;然后采用FNN作为强化学习中的策略网络,来对远程监督数据集中的句子进行选择;接着采用软概率选择出置信度大于阈值的句子;然后将筛选出的句子和人工标注数据集进行合并作为新的训练集;最后利用新的训练集对双向循环神经网络和条件随机场混合双向循环神经网络和条件随机场混合模型进行训练,同时对策略网络进行更新。本发明方法能够有效提高基于远程监督的命名实体识别模型的性能。

权利要求 :

1.一种基于半训练和句子选择的远程监督命名实体识别方法,其特征在于,该方法包括以下步骤:

S1、人工标注少量纯文本构成人工标注数据集 ,利用人工标注数据集 中的实体字段构建一个词典;

S2、利用词典和字符串匹配技术在纯文本中进行标注,生成远程监督数据集 ;

S3、通过半训练策略,利用人工标注数据集 训练双向循环神经网络和条件随机场混合模型,直至双向循环神经网络和条件随机场混合模型在人工标注数据集 上的平衡F分数达到预设半训练区间;

S4、采用前馈神经网络FNN作为强化学习的策略网络,在远程监督数据集 中进行句子选择,将选择出的句子作为数据集 ;

S5、利用双向循环神经网络和条件随机场混合模型的输出计算每一个句子的软概率,基于软概率选择出数据集 中置信度大于置信度阈值 的句子,将选择出的句子与人工标注数据集 进行合并,作为新的训练集 ;

S6、利用新的训练集 对双向循环神经网络和条件随机场混合模型进行训练,同时对策略网络进行更新,具体步骤如下:S61、策略网络的奖励值 表示为:其中 是从新的训练集 中取出的一个批次的句子集合, 是双向循环神经网络和条件随机场混合模型根据第 个句子的向量表示 ,将第 个句子打标成 的概率;

S62、对策略网络 进行参数更新,更新方式表示为:其中 为学习率,是策略网络的参数; 是策略网络对第 个句子生成的动作; 是第个句子的状态;

S7、将训练好的双向循环神经网络和条件随机场混合模型作为命名实体识别模型,对未标注的纯文本数据中的字块token进行标签预测。

2.根据权利要求1所述的一种基于半训练和句子选择的远程监督命名实体识别方法,其特征在于,所述的步骤S1具体包括:S11、以序列标注的形式对少量纯文本进行标注,生成人工标注数据集 ;

S12、提取人工标注数据集 中的所有实体字段,进行去重处理;

S13、将所有非重复的实体字段存入词典中。

3.根据权利要求1所述的一种基于半训练和句子选择的远程监督命名实体识别方法,其特征在于,所述的步骤S2具体包括:S21、基于词典,利用字符串匹配技术对纯文本中的相应字段进行匹配;

S22、将匹配上的实体字段以序列标注的形式进行标注,生成远程监督数据集 。

4.根据权利要求1所述的一种基于半训练和句子选择的远程监督命名实体识别方法,其特征在于,所述的步骤S2中,所述字符串匹配技术采用双向最大匹配算法、正向最大匹配算法或反向最大匹配算法。

5.根据权利要求1所述的一种基于半训练和句子选择的远程监督命名实体识别方法,其特征在于,所述的步骤S3具体包括:S31、利用人工标注数据集 从初始状态开始训练双向循环神经网络和条件随机场混合模型,直至双向循环神经网络和条件随机场混合模型在人工标注数据集 上的平衡F分数达到预设半训练区间时停止训练;

S32、将半训练过的双向循环神经网络和条件随机场混合模型作为初始模型来为强化学习的策略网络提供奖励值 和环境状态 。

6.根据权利要求1所述的一种基于半训练和句子选择的远程监督命名实体识别方法,其特征在于,所述的步骤S3中,所述预设半训练区间为0.85 0.95。

~

7.根据权利要求1所述的一种基于半训练和句子选择的远程监督命名实体识别方法,其特征在于,所述的步骤S4具体包括:S41、采用前馈神经网络FNN作为强化学习的策略网络,策略网络为远程监督数据集 中每个句子生成一个动作 ;

S42、对于第 个句子,策略网络表示为:其中 是sigmoid函数,是策略网络的参数; 是策略网络对第 个句子生成的动作; 是第 个句子的状态; 是参数为 的策略网络对于状态为 的句子做出动作 的概率;

S43、将选择出的句子作为数据集 。

8.根据权利要求7所述的一种基于半训练和句子选择的远程监督命名实体识别方法,其特征在于,所述的步骤S42中,动作空间由选择句子和舍弃句子这两个动作组成,当时选择句子,当 时舍弃句子; 由第 个句子经过双向循环神经网络和条件随机场混合模型后双向循环神经网络层的输出和条件随机场层中隐层的输出相拼接而成。

9.根据权利要求1所述的一种基于半训练和句子选择的远程监督命名实体识别方法,其特征在于,所述的步骤S5具体包括:S51、从双向循环神经网络和条件随机场混合模型的条件随机场层的隐层中获取第个句子第 个字块token属于第 类时所对应的概率值 , ,是标签类别总数, 是第 个句子的向量表示;

S52、计算第 个句子第 个token的软概率 ;

S53、根据软概率计算每个token的置信度 ;

S54、根据木桶原理计算每个句子的置信度 ;

S55、如果第 个句子的置信度大于置信度阈值 ,则将第 个句子与人工标注数据集进行合并,作为新的训练集 。

说明书 :

一种基于半训练和句子选择的远程监督命名实体识别方法

技术领域

[0001] 本发明属于自然语言处理技术领域,具体来说涉及命名实体识别技术领域,更具体地说,涉及一种基于半训练和句子选择的远程监督命名实体识别方法。

背景技术

[0002] 命名实体识别是自然语言处理领域的一个基础任务,它旨在从纯文本中定位命名实体同时在预定义的实体类别中对它们进行分类。它是信息抽取的一个子任务,而信息抽
取有一系列重要的下游应用,比如:问答系统,搜索引擎和知识图谱等。传统的命名实体识
别方法如条件随机场和隐马尔科夫模型要求大量的手工设计的特征。近年来,随着深度神
经网络的发展,手工设计的特征已经变得不再必要。一个标准的深度学习命名实体识别方
法是使用双向循环神经网络(BiRNN)作为特征提取器,同时使用条件随机场(CRF)作为解码
器。
[0003] 虽然不需要手工设计的特征,但是大多数深度学习模型需要大量的标注数据来进行训练。但是,人工的高质量标注数据通常难以大量获取。尤其是在某些特定领域,只有经
验丰富的领域专家才能正确的对纯文本进行标注。但是,少量的高质量标注数据却是较为
容易地获取到的。
[0004] 远程监督方法利用词典或者知识库可以从纯文本中便捷地生成大量标注数据。远程监督方法广泛地应用于关系抽取任务中,而且取得了不错的效果。在远程监督的命名实
体识别任务中,一般使用词典中的实体对纯文本中的相应字段进行匹配来进行数据标注。
由于字典容量的限制,远程监督方法生成的数据集中包含了大量的假阴性数据。同时,使用
字符串匹配技术进行实体标注会引入假阳性数据。这些标注不正确的数据会严重地影响命
名实体识别模型的性能。
[0005] 综上所述,亟需设计一种新的远程监督命名实体识别方法来解决上述问题。

发明内容

[0006] 有鉴于此,本发明公开了一种基于半训练和句子选择的远程监督命名实体识别方法。第一、提出将强化学习策略和高置信度选择算法进行结合来解决远程监督命名实体识
别中的噪音标注问题。第二、提出半训练策略来解决强化学习策略和高置信度选择算法中
的冷启动问题。
[0007] 本发明的目的是通过以下技术方案来实现的:一种基于半训练和句子选择的远程监督命名实体识别方法,该方法包括以下步骤:
[0008] S1、人工标注少量纯文本构成人工标注数据集 ,利用人工标注数据集 中的实体字段来构建一个词典;
[0009] S2、利用词典和字符串匹配技术在纯文本中进行标注,从而生成远程监督数据集;
[0010] S3、通过半训练策略,利用人工标注数据集 训练双向循环神经网络和条件随机场混合模型,直至其在人工标注数据集 上的平衡F分数达到预设半训练区间;
[0011] S4、采用前馈神经网络(FNN)作为强化学习的策略网络,在远程监督数据集 中进行句子选择,将选择出的句子作为数据集 ;
[0012] S5、利用双向循环神经网络和条件随机场混合模型的输出计算每一个句子的软概率,基于软概率选择出数据集 中置信度大于置信度阈值 的句子,将选择出的句子与人
工标注数据集 进行合并,作为新的训练集 ;
[0013] S6、利用新的训练集 对双向循环神经网络和条件随机场混合模型进行训练,同时对策略网络进行更新;
[0014] S7、将训练好的双向循环神经网络和条件随机场混合模型作为命名实体识别模型,对未标注的纯文本数据中的字块token进行标签预测。
[0015] 进一步地,所述的步骤S1具体包括:
[0016] S11、以序列标注的形式对少量纯文本进行标注,生成人工标注数据集 ;
[0017] S12、提取人工标注数据集 中的所有实体字段,同时进行去重处理;
[0018] S13、将所有非重复的实体字段存入词典中。
[0019] 进一步地,所述的步骤S2具体包括:
[0020] S21、基于词典,利用字符串匹配技术对纯文本中的相应字段进行匹配;
[0021] S22、将匹配上的实体字段以序列标注的形式进行标注,生成远程监督数据集 。
[0022] 进一步地,所述的步骤S2中,所述字符串匹配技术采用双向最大匹配算法、正向最大匹配算法或反向最大匹配算法。
[0023] 进一步地,所述的步骤S3具体包括:
[0024] S31、利用人工标注数据集 从初始状态开始训练双向循环神经网络和条件随机场混合模型,直至其在人工标注数据集 上的平衡F分数达到预设半训练区间时停止训练;
[0025] S32、将半训练过的双向循环神经网络和条件随机场混合模型作为初始模型来为强化学习的策略网络提供奖励值 和环境状态 。
[0026] 进一步地,所述的步骤S3中,所述预设半训练区间为0.85 0.95。~
[0027] 进一步地,所述的步骤S4具体包括:
[0028] S41、采用FNN作为强化学习的策略网络,策略网络为远程监督数据集 中每个句子生成一个动作 ;
[0029] S42、对于第 个句子,策略网络形式化地表示为:
[0030]
[0031] 其中 是sigmoid函数,是策略网络的参数; 是策略网络对第 个句子生成的动作; 是第 个句子的状态,即强化学习的环境状态; 是参数为 的策略网
络对于状态为 的句子做出动作 的概率;
[0032] S43、将选择出的句子作为数据集 。
[0033] 进一步地,所述的步骤S42中,动作空间由选择某句子和舍弃某句子这两个动作组成,当 时选择该句子,当 时舍弃该句子; 由第 个句子经过双向
循环神经网络和条件随机场混合模型后双向循环神经网络层的输出和条件随机场层中隐
层的输出相拼接而成。
[0034] 进一步地,所述的步骤S5具体包括:
[0035] S51、从双向循环神经网络和条件随机场混合模型的条件随机场层的隐层中获取第 个句子第 个字块token属于第 类时所对应的概率值 ,其中 是第
个句子的向量表示;
[0036] S52、计算第 个句子第 个token的软概率 :
[0037]
[0038] 其中 , 是数据集 中的句子总数,是每个句子中token的总数,是标签类别总数;
[0039] S53、根据软概率计算每个token的置信度;
[0040] S54、根据木桶原理计算每个句子的置信度 :
[0041]
[0042] S55、如果第 个句子的置信度大于置信度阈值 ,则将其与人工标注数据集 进行合并,作为新的训练集 ,其中 是一个属于区间[0,1]的常数。
[0043] 进一步地,所述的步骤S6中,策略网络的更新步骤如下:
[0044] S61、对于策略网络的奖励值 ,形式化地表示为:
[0045]
[0046] 其中 是从新的训练集 中取出的一个批次的句子集合, 是集合 的句子总数,  是双向循环神经网络和条件随机场混合模型根据第 个句子的向量表示
,将该句子打标成 的概率;
[0047] S62、对策略网络 进行参数更新,更新方式形式化地表示为:
[0048]
[0049] 其中 为学习率。
[0050] 本发明的有益效果是:
[0051] 1. 本发明针对远程监督的命名识别任务,提出了一种截然不同的句子选择方法,首先利用强化学习的策略网络对远程监督的句子进行挑选,然后再基于软概率对句子进行
筛选,提高了句子选择的质量。使用经过句子选择策略选出的数据集,训练出的命名实体识
别模型的预测性能得到了一定幅度的提高。
[0052] 2. 本发明提出的半训练策略有效地解决了强化学习策略网络和软概率筛选算法中的冷启动所引发的问题,提高了最终训练的命名实体识别模型的预测性能。

附图说明

[0053] 读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不
付出创造性劳动的前提之下,还可以根据这些附图获得其他附图。
[0054] 图1为本发明实施例提供的基于半训练和句子选择的远程监督命名实体识别方法的流程示意图。
[0055] 图2为本发明实施例提供的基于半训练和句子选择的远程监督命名实体识别方法的原理框图。
[0056] 图3为本发明一种基于半训练和句子选择的远程监督命名实体识别装置的结构图。

具体实施方式

[0057] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不
用于限定本发明。
[0058] 图1为本发明实施例提供的基于半训练和句子选择的远程监督命名实体识别方法的流程示意图。图2为本发明实施例提供的基于半训练和句子选择的远程监督命名实体识
别方法的原理框图。本发明实施例提供的一种基于半训练和句子选择的远程监督命名实体
识别方法,该方法具体包括以下步骤:
[0059] S1、人工标注少量纯文本构成人工标注数据集 ,利用人工标注数据集 中的实体字段来构建一个词典;该步骤可通过如下子步骤实现:
[0060] S11、以序列标注的形式对少量纯文本进行标注,生成人工标注数据集 ;
[0061] S12、提取人工标注数据集 中的所有实体字段,同时进行去重处理;
[0062] S13、将所有非重复的实体字段存入词典中。
[0063] S2、利用词典和字符串匹配技术在纯文本中进行标注,从而生成远程监督数据集;该步骤可通过如下子步骤实现:
[0064] S21、基于词典,利用字符串匹配技术对纯文本中的相应字段进行匹配;
[0065] 具体的,字符串匹配技术可以使用双向最大匹配算法,也可以使用正向最大匹配、反向最大匹配等匹配算法;
[0066] S22、将匹配上的实体字段以序列标注的形式进行标注,生成远程监督数据集 ,序列标注包括BIO、BIOES等;
[0067] S3、通过半训练策略,利用人工标注数据集 训练双向循环神经网络和条件随机场混合模型(记为BiRNN+CRF模型),直至其在人工标注数据集 上的平衡F分数(又称F1值)达
到预设半训练区间;该步骤可通过如下子步骤实现:
[0068] S31、利用人工标注数据集 从初始状态开始训练双向循环神经网络和条件随机场混合模型,直至其在人工标注数据集 上的平衡F分数达到预设半训练区间时停止训练;预
设半训练区间优选为0.85 0.95;
~
[0069] S32、将半训练过的双向循环神经网络和条件随机场混合模型作为初始模型来为强化学习的策略网络提供奖励值 和环境状态 。
[0070] S4、采用前馈神经网络(FNN)作为强化学习的策略网络,在远程监督数据集 中进行句子选择,将选择出的句子作为数据集 ;该步骤可通过如下子步骤实现:
[0071] S41、采用FNN作为强化学习的策略网络,策略网络为远程监督数据集 中每个句子生成一个动作 ;
[0072] S42、对于第 个句子,策略网络形式化地表示为:
[0073]
[0074] 其中 是sigmoid函数;是策略网络的参数;
[0075] 是策略网络对第 个句子生成的动作,动作空间由选择该句子和舍弃该句子这两个动作组成,在具体的应用中,通常 ,当 时选择该句子,当
时舍弃该句子;
[0076] 是第 个句子的状态,即强化学习的环境状态, 由第 个句子经过双向循环神经网络和条件随机场混合模型后双向循环神经网络层的输出和条件随机场层中隐层的输
出相拼接而成;
[0077] 是参数为 的策略网络对于状态为 的句子做出动作 的概率;
[0078] S43、将选择出的句子作为数据集 。
[0079] S5、利用双向循环神经网络和条件随机场混合模型的输出计算出每一个句子的软概率,基于软概率选择出数据集 中置信度大于置信度阈值 的句子,将选择出的句子与
人工标注数据集 进行合并,作为新的训练集 ;该步骤可通过如下子步骤实现:
[0080] S51、从双向循环神经网络和条件随机场混合模型的条件随机场层的隐层中获取第 个句子第 个字块token属于第 类时所对应的概率值 ,其中 是第
个句子的向量表示;
[0081] S52、计算第 个句子第 个token的软概率 :
[0082]
[0083] 其中 , 是数据集 中的句子总数,是每个句子中token的总数,通常根据“多截断少补零”的原则设定为定值,是标签类别总数;
[0084] S53、根据软概率计算每个token的置信度;
[0085] S54、根据木桶原理计算每个句子的置信度 :
[0086]
[0087] S55、如果第 个句子的置信度大于置信度阈值 ,则将其与人工标注数据集 进行合并,作为新的训练集 ,其中 是一个属于区间[0,1]的常数。
[0088] S6、利用新的训练集 对双向循环神经网络和条件随机场混合模型进行训练,同时对策略网络进行更新,策略网络的更新步骤如下:
[0089] S61、对于策略网络的奖励值 ,形式化地表示为:
[0090]
[0091] 其中 是从新的训练集 中取出的一个批次的句子集合, 是集合 的句子总数,  是双向循环神经网络和条件随机场混合模型根据第 个句子的向量表示
,将该句子打标成 的概率;
[0092] S62、对策略网络 进行参数更新,更新方式形式化地表示为,其中 为学习率。
[0093] S7、将训练好的双向循环神经网络和条件随机场混合模型作为命名实体识别模型,对未标注的纯文本数据中的字块token进行标签预测。
[0094] 以上步骤S4‑S6中的句子选择、模型训练和策略网络更新过程可以进行多次。实施例
[0095] 申请人在开源电子商务文本数据集上进行了实验。该数据集共包含2400个经过人工标注的样本,每个样本由一个句子构成。其中训练集中有1200个样本,验证集中有400个
样本,测试集中有800个样本。从数据集收集了927个实体,获得了2500个经过远程监督方法
标注的样本。使用了100维的词嵌入向量,由word2vec方法从100万条未经标注的句子中训
练得来。在实验中使用了Adam和RMSprop分别作为策略网络和命名实体识别模型的优化器,
两个优化器的学习率均为0.001,最大迭代次数为500。实验结果如下表:
[0096]
[0097] 表中,HATS:本发明基于半训练和句子选择的远程监督命名实体识别方法;HATS w/o RL:没有使用强化学习策略的HATS方法。
[0098] 与前述基于半训练和句子选择的远程监督命名实体识别方法的实施例相对应,本发明还提供了基于半训练和句子选择的远程监督命名实体识别装置的实施例。
[0099] 参见图3,本发明实施例提供的一种基于半训练和句子选择的远程监督命名实体识别装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器
执行所述可执行代码时,用于实现上述实施例中的基于半训练和句子选择的远程监督命名
实体识别方法。
[0100] 本发明基于半训练和句子选择的远程监督命名实体识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等
设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。
以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设
备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件
层面而言,如图3所示,为本发明基于半训练和句子选择的远程监督命名实体识别装置所在
任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、
以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该
任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
[0101] 上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0102] 对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件
说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以
不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的
需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付
出创造性劳动的情况下,即可以理解并实施。
[0103] 本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于半训练和句子选择的远程监督命名实体识别方法。
[0104] 所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数
据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡
(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储
介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所
述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备
所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
[0105] 上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各
种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。