一种基于PRADO的实体识别方法转让专利

申请号 : CN202011334119.4

文献号 : CN112800756B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 尚凤军冉淳夫

申请人 : 重庆邮电大学

摘要 :

本发明涉及计算机网络技术领域,特别涉及一种基于PRADO的实体识别方法,包括获取原始数据,并对原始数据进行分词、标注处理;在PRADO层,基于投影嵌入模型,使用局部敏感哈希构建投影网络,将句子中的每个字转化为低维的Embedding词表;利用BiLSTM神经网络上下文关联的特点提取Embedding向量特征;将BiLSTM层获取的特征向量通过注意力机制的方法分配以不同的注意力权重;利用CRF完成序列标注的任务;本发明采用LSH算法来构建投影网络,以达到减少词嵌入向量参数的目的,同时使用注意力机制来保证该特征向量与全文的联系,来消除LSH算法不能较好的联系上下文的隐患。

权利要求 :

1.一种基于PRADO的实体识别方法,其特征在于,包括以下步骤:获取原始数据,并对原始数据进行分词、标注处理;

在PRADO层,基于投影嵌入模型,使用局部敏感哈希构建投影网络,将句子中的每个字转化为低维的Embedding词表,即包括以下步骤:对第i个词反复进行二进制哈希以得到2B bit的向量利用一个初始随机数生成的投影矩阵P,其中对投影矩阵P进行优化包括根据模型最终输出的结果与实际值相比较,进行反向传播算法,通过梯度检查自适应的更新投影矩阵P;

并利用投影矩阵对 进行投影,得到d维度的向量 包括:其中,Pk为投影函数, 表示向量 与向量 之间的角度; 为 的投影,使用激活函数对 进行激活,得到该词的低维的Embedding词表ei,表示为:p p

其中,W为投影网络的权值参数;B为投影网络的偏置参数;

利用BiLSTM神经网络上下文关联的特点提取Embedding向量特征;

将BiLSTM层获取的特征向量通过注意力机制的方法分配以不同的注意力权重;

利用CRF完成序列标注的任务。

2.根据权利要求1所述的一种基于PRADO的实体识别方法,其特征在于,将投影层获取的特征向量通过注意力机制的方法分配以不同的注意力权重,包括:其中,αi,t′表示生成结果yi时需要放置多少注意力到et′上,即注意力权重因子,et,t′作为辅助参数确保权重之和为1,yi为输出结果,Tx输入序列的长度。

3.根据权利要求1所述的一种基于PRADO的实体识别方法,其特征在于,利用BiLSTM神经网络上下文关联的特点提取Embedding向量特征,即每个时刻,需要删除的数据,加入新增的内容并且更新记忆细胞,输出当前时刻数据,BiLSTM神经网络包括遗忘门、输入门以及输出门,遗忘门用于选择记忆细胞中舍弃和留下的信息,输入门用于更新控制因子,以及更新内容,输出门用于决定最终输出内容,遗忘门表示为:<t‑1> <t> <t‑1>Γf=σ(Wf[a ,x ,c ]+bf);

输入门表示为:

<t‑1> <t> <t‑1>Γu=σ(Wu[a ,x ,c ]+bu);

输出门表示为:

<t‑1> <t> <t‑1>Γo=σ(Wo[a ,x ,c ]+bo);

<t> <t>

a =Γo*c ;

<t‑1>

其中,Γf为遗忘门的因子,Wf为遗忘门的权重,bf为遗忘门的偏置值;a 为激活值;c<t‑1>

为上一时刻记忆细胞的值;Γu为输入门的因子,Wu为输入门的权重,bu为输入门的偏置<t> <t>

值; 为待新增内容;c 为新增内容;x 为第t个输入参数;Γo为输出门的因子,Wo为输出门的权重,bo为输出门的偏置值;bc为待新增内容 对应的偏置值。

4.根据权利要求1所述的一种基于PRADO的实体识别方法,其特征在于,利用CRF完成序列标注的任务包括:

BiLSTM层的输出序列Y={y1,y2,...,yn‑1,yn}为CRF的输入序列X={x1,x2,...,xn‑1,xn};

令训练网络的正确标注序列为Y={y1,y2,...,yn‑1,yn},构建条件概率P=(y∣x),具体包括:

其中 为转移矩阵,代表从标签yi‑1到yi的转移概率, 是预测结果为第yi个标签的分数,Z(x)为归一化因子,tk和si为特征函数,μi和λk为权值参数。

说明书 :

一种基于PRADO的实体识别方法

技术领域

[0001] 本发明涉及计算机网络技术领域,特别涉及一种基于PRADO的实体识别方法。

背景技术

[0002] 近几年,由于互联网技术水平的持续发展,使得网络上出现了大量的各行各业的数据,这些海量的数据拥有很高的价值,如何对这些数据进行高效的采集,存储,分析以及
应用,是大数据时代一个需要探究的问题。在这些数据中,不仅仅有已经整理好的结构化数
据,还存在着大量的未经整理过的半结构化和非结构化的数据,对这些数据的处理与分类
我们可以使用自然语言处理技术。随着互联网信息总量的快速增长,传统的语义网络并不
适用了,而知识图谱的出现则为解决这个问题提供了新的思路。
[0003] 实体关系抽取是构建知识图谱必不可缺的环节,其抽取出来的实体与关系质量的好坏奠定了只是图谱的质量,该技术不仅仅只是用于搜索引擎,在其他行业,包括医疗、教
育、证券投资、金融等等领域,总的来说,基本上每个领域都是有关系存在的,而关系的存在
则为知识图谱提供了构建的基础,同时也可以挖掘出知识图谱的价值。
[0004] 现有的实体关系抽取取模型,例如Skip‑Gram模型,是基于某个选定的目标词向量来预测上下文词向量的方法,首先选择序列中的一个词作为基准点,然后用一个滑动窗口
在基准点附近找到另外一个词作为标签,使用这种方式可以得到多个基准点‑标签对,这些
基准点‑标签对就是作为模型的输入。但是这些常用的词向量技术训练出来的向量维度比
较大,导致输入网络中的参数特别多,模型的训练异常困难。

发明内容

[0005] 为了减少Embedding阶段参数的大小,在保证词向量描述信息全面的前提下还能减少参数的个数,使得模型的训练能更加的简洁以及更好的可移植性,本发明提出一种基
于PRADO的实体识别方法,如图1,具体包括以下步骤:
[0006] 获取原始数据,并对原始数据进行分词、标注处理;
[0007] 在PRADO层,基于投影嵌入模型,使用局部敏感哈希构建投影网络,将句子中的每个字转化为低维的Embedding词表;
[0008] 利用BiLSTM神经网络上下文关联的特点提取Embedding向量特征;
[0009] 将BiLSTM层获取的特征向量通过注意力机制的方法分配以不同的注意力权重;
[0010] 利用CRF完成序列标注的任务。
[0011] 进一步的,将句子中的每个字转化为低维的Embedding词表的过程包括:
[0012] 对第i个词反复进行二进制哈希以得到2B bit的向量
[0013] 利用一个初始随机数生成的投影矩阵P,并利用该矩阵对 进行投影,得到d维度的向量
[0014] 使用激活函数对 进行激活,得到该词的低维的Embedding词表ei。
[0015] 进一步的,对利用一个初始随机数生成的投影矩阵P进行优化的过程包括:
[0016] 根据模型最终输出的结果与实际值相比较,进行反向传播算法,通过梯度检查自适应的更新投影矩阵P。
[0017] 进一步的,利用投影矩阵对 进行投影包括:
[0018]
[0019] 其中,Pk为投影函数, 表示向量 与向量 之间的角度; 为 的投影,
[0020] 进一步的,第i个词低维的Embedding词表ei表示为:
[0021]
[0022] 其中,Wp为投影网络的权重参数;Bp为投影网络的偏置参数。
[0023] 进一步的,将投影层获取的特征向量通过注意力机制的方法分配以不同的注意力权重,包括:
[0024]
[0025]
[0026]
[0027] 其中,αi,t′表示生成结果yi时需要放置多少注意力到et′上,即注意力权重因子,et,t′作为辅助参数确保权重之和为1,yi为输出结果,Tx输入序列的长度。
[0028] 进一步的,利用BiLSTM神经网络上下文关联的特点提取Embedding向量特征,即每个时刻,需要删除的数据,加入新增的内容并且更新记忆细胞,输出当前时刻数据,BiLSTM
神经网络包括遗忘门、输入门以及输出门,遗忘门用于选择记忆细胞中舍弃和留下的信息,
输入门用于更新控制因子,以及更新内容,输出门用于决定最终输出内容,遗忘门表示为:
[0029] Γf=σ(Wf[a,x,c]+bf);
[0030] 输入门表示为:
[0031] Γu=σ(Wu[a,x,c]+bu);
[0032]
[0033]
[0034] 输出门表示为:
[0035] Γo=σ(Wo[a,x,c]+bo);
[0036] a=Γo*c
[0037] 其中,Γf为遗忘门的因子,Wf为遗忘门的权重,bf为遗忘门的偏置值;a为激活
值;c 为上一时刻记忆细胞的值;Γu为输入门的因子,Wu为输入门的权重,bu为输入门的

偏置值; 为待新增内容;c 为新增内容;x 为第t个输入参数;Γo为输出门的因子,Wo为
输出门的权重,bo为输出门的偏置值;bc为 对应的偏置值。
[0038] 进一步的,利用CRF完成序列标注的任务包括:
[0039]
[0040]
[0041]
[0042] 其中, 为转移矩阵,代表从标签yi‑1到yi的转移概率, 是预测结果为第yi个标签的分数,Z(x)为归一化因子,tk和si为特征函数,μi和λk为权重参数。
[0043] 本发明提出的实体识别模型,在词嵌入层借用PRADO算法的思想,采用LSH算法来构建投影网络,以达到减少词嵌入向量参数的目的,同时使用注意力机制来保证该特征向
量与全文的联系,来消除LSH算法不能较好的联系上下文的隐患;然后在BiLSTM层使用了该
网络以局部范围里强关联的的特点,使得训练出来的结果与全文和局部都有较好的关联
性;最后在CRF层完成序列标注的任务,同时整个模型通过反向传播的机制,来不断的调整
各层的权重参数。

附图说明

[0044] 图1本发明一种基于PRADO的实体识别方法流程图;
[0045] 图2本发明采用的PRADO‑BiLSTM‑CRF模型示意图;
[0046] 图3为本发明采用的注意力模型结构示意图;
[0047] 图4为本发明采用的BiLSTM模型结构示意图;
[0048] 图5为本发明中LSTM细胞单元示意图;
[0049] 图6为本发明中CRF结构示意图。

具体实施方式

[0050] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
[0051] 本发明提出一种基于PRADO的实体识别方法,如图1,具体包括以下步骤:
[0052] 获取原始数据,并对原始数据进行分词、标注处理;
[0053] 在PRADO层,基于投影嵌入模型,使用局部敏感哈希构建投影网络,将句子中的每个字转化为低维的Embedding词表;
[0054] 利用BiLSTM神经网络上下文关联的特点提取Embedding向量特征;
[0055] 将BiLSTM层获取的特征向量通过注意力机制的方法分配以不同的注意力权重;
[0056] 利用CRF完成序列标注的任务。
[0057] 如图2所示,首先将原始数据进行分词,标注等操作,然后注入到PRADO层,该层借用投影嵌入模型的思想,使用局部敏感哈希(LSH)构建投影网络,将句子中的每个字转化为
低维的Embedding词表,然后将BiLSTM层获取的特征向量通过注意力机制的方法分配以不
同的注意力权重,借此消除LSH算法无法联系全文的缺点;第二层为BiLSTM层,利用BiLSTM
神经网络上下文关联的特点提取Embedding向量特征,完善一层中LSH不能充分考虑前后文
联系的缺点;第三层为CRF层,利用CRF完成序列标注的任务。接下来本实施例将详细介绍每
一层中模型的使用方式。
[0058] (一)PRADO
[0059] 在传统的嵌入思想中,假设输入的文本具有T个Token或者单词,Wi表示第i个字,其中i∈{0,1...T‑1}。如果V是词汇表中的单词数量,包括代表所有缺失单词的词汇表外
token,则每个单词Wi都映射到δi∈V。在大多数的语言类神经网络中,一般使用具有可训练
参数W∈Rd·V的嵌入层将单词映射到固定长度的d维向量ei=W·δi,其中ei∈Rd是词向量。
由于网络中大部分的参数主要来自于W训练的词向量,而想要获得一个能详细描述W的词向
量矩阵,主要借助于词汇表V的完整度,即V的维度会特别大,只有这样才能使得训练得到的
词向量有一个相对良好的性能。但是这种做法的前提是V的维度较大,同时也会导致W的维
度较大,相应的就会使得整个神经网络的参数数量特别巨大,训练网络的过程特别困难,因
此本专利在Embedding阶段提出使用投影嵌入的方式训练词向量,以达到减少网络参数的
目的,使得网络训练更加快捷。
[0060] 在Embedding阶段,如果训练出来的W维度太大,虽然词向量的表示很全,但是会导致网络训练出来的参数爆炸,维度太小,又会导致词向量描述不准确无法正确训练网络,因
此PRADO所用采用的方式则是折中的办法,使用投影网络的方式,不需要特别准确的表示某
个词,只需要训练出的词向量能够在一定程度上描述词语的属性即可。例如,在实体分类
中,不需要知道“重庆大学”与“重庆邮电大学”之间的具体差异,只需要明白两者都市指代
高校即可,即在某些特定的领域中,不需要完整的知道某些实体指代的意思,只需要知道该
实体所属的大类即可,在这个前提下,可以使用本专利提出的模型,相比传统模型省略了部
分参数,提高训练效率,还能达到相同的效果。
[0061] 本实施例使用局部敏感哈希(LSH)来构建基础的投影模型,传统的word2vec方法训练的词向量大小与精度主要取决于词汇表的维度,而LSH作为一种诸如聚类算法中的降
维技术,则可以更加自主的控制词向量维度与稀疏度,这使得可以将一些需要高纬度表示
的词汇控制在一定范围的维度中,以达到减少参数的目的,生成紧凑的嵌入,从而优化整个
模型的训练效果。主要步骤如下所示:
[0062] 1、对输入文本中的各个Wi反复进行二进制哈希以得到向量 此处假设max(i)=N;
[0063] 2、用一个初始随机数生成的投影矩阵P(P可通过反向传播机制进行优化调整),将转换为 如公式(1)所示,从而得到d维度的向量
[0064]
[0065]
[0066] 这样就得到了一个d维的向量表示,并且每一维对应一个Pk=1,2,...,d投影向量。
[0067] 3、使用激活函数得到 如公式3:
[0068]p p
[0069] 其中W与B分别表示投影网络的权重与偏置函数。通过上述公式可以知道 一共包含N*d个的参数,可以将其映射应为N个d维的词嵌入向量ei,因此最后得到的特征向量
矩阵(e1,e‑2,...,en‑1,en)。
[0070] 通过以上方法,可以得到一个相对传统词嵌入方法压缩过后的特征向量表示,而不需要使用one‑hot向量来非常详细的描述一个token;同时可以分词的粗粒度把N和d的维
度限制在一个相对较小的范围里面,来使得输入神经网络的参数更少,并且使得网络的运
算速度更快。但是,由于使用了LSH算法,会导致该训练得到的特征向量只能在一定范围内
对该词语进行描述,无法更好的联系前后文的关系,因此,在将该阶段得到的特征向量喂入
BiLSTM模型中前,需要借助注意力机制来处理该特征向量,借此来降低LSH算法的缺点,如
图4,具体包括以下步骤:
[0071] 1、用αi,t′表示生成结果yi时需要放置多少注意力到et′上,并满足如下式子:
[0072]
[0073]
[0074] 此时αi,t′则又表示为输出yi的神经单元的注意力权重因子,为了确保权重之和为1,需要使用softmax,并引入辅助参数et,t′,使得:
[0075]
[0076] 2、以上式子需要算出et,t′的值,因此需要建立一个简单的神经网络模型,然后利用梯度下降算法计算得到et,t′。
[0077] 3、将上述步骤中输出的结果Y={y1,y2,...,yn‑1,yn}令设为将特征向量矩阵E={e1,e‑2,...,en‑1,e},即E:=Y,并将其作为BiLSTM的输入,借助于该网络更好的对局部的
前后关联的特性,提高最终输出的准确率。
[0078] (二)BiLSTM层
[0079] 在自然语言处理领域,实体命名识别问题通常被表述为序列模型,如果使用标准神经网络模型存在两个问题:第一点是由于序列的不同,不同的文本序列在输入模型之后
会得到与之匹配的输出,但是换了另一个序列之后模型的输入输出就会与之前的序列有区
别,不对等;第二点由于文本序列的特殊性,序列的前后信息是有所关联的,而普通的模型
无法做到使序列的前后关联起来。普通的神经网络在解决序列问题上有天然的逆势,因此
提出了循环神经网络(RNN)来解决序列模型问题。
[0080] 在命名实体识别的任务中,对比早期的规则匹配与机器学习的方法,使用循环神经网络模型可以明显提高实体识别的精度,但是由于模型较大,通常会有两个缺陷:(1)在
模型的反向传播过程中,由于RNN模型的序列性,隐藏层较多,各层权重数据较多,因此特别
容易出现梯度爆炸或消失问题;(2)对于较长的序列,该模型不善于捕捉序列前后的长期依
赖效应。
[0081] 为了解决上述的问题,在RNN的隐藏单元中添加门控单元的概念,即长短及记忆(LSTM),改变了RNN的隐藏层,使其可以更好的捕捉深层连接,并改善梯度小时问题。这些门
结构的主要作用是控制信息流传输过程的数量,在模型的训练阶段,由于RNN的特性导致中
间数据越来越多,而门结构能够知道这些中间数据哪些比较重要需要保留,哪些相对不重
要可以舍弃。LSTM有拥有三个门结构来控制并且调节信息的传输,分别是遗忘门、输入门和
输出门。但是由于LSTM只是对单一方向的文本序列起到了记忆作用,因此最终选择使用
BiLSTM模型来解决这个问题。
[0082] 在上一层网络得到了数据预处理之后的词向量部分,在投影网络中使用的是局部敏感哈希算法(LSH),由于该算法无法充分联系相对距离较远的两个单词之间的关系,因此
我们需要使用BiLSTM网络将来更好的联系前后文之间的关系。接下来我们将把该词向量输
入搭建好的序列处理模型中。
[0083] 其中LSTM模型的前向传播公式如下:
[0084] (1)遗忘门:遗忘门的作用是决定记忆细胞中舍弃和留下哪些信息,输出值为Γf,其值为0到1之间,当Γf约接近0意味着越应该放弃,Γf越接近1意味着越应该保留,Γf前向
传播的公式为:
[0085] Γf=σ(Wf[a,x,c]+bf)  (7)
[0086] (2)输入门:输入门决定了需要新增的更新内容,主要有两部分分别是更新控制因子与更新内容。首先是更新因子即更新门Γu,取值范围为[0,1],由于更新因此的取值不
同,需要保留的信息也不一样,即信息的重要性,从0到1的取值变化预示着重要性由低到
高。其公式为:
[0087] Γu=σ(Wu[a,x,c]+bu)  (8)
[0088] 其次是待新增内容表示为 其公式如下:
[0089]
[0090] 最后得到t时刻的记忆细胞c,通过结合更新门Γu与新增值 计算得到,公式为:
[0091]
[0092] (3)输出门:决定最终输出的内容,输出门的值域为[0,1],最终的输出内容则为,公式为:
[0093] Γo=σ(Wo[a,x,c]+bo)               (11)
[0094] a=Γo*c                      (12)
[0095] 上述网络的主要原理是在每个时刻首先去掉需要删除的数据,然后加入新增的内容并且更新记忆细胞,最后输出当前时刻数据。在该层中,主要步骤如下所示:
[0096] 1、搭建BiLST模型,将第一步中得到的词向量矩阵E={e1,e‑2,...,en‑1,e}输入BiLSTM模型;
[0097] 2、通过反向传播算法来训练网络权重;
[0098] 3、根据需要使用Dropout和L2等技术优化过拟合的现象;
[0099] 4、输出句子级别的特征向量矩阵(y1,y2,...,yn‑1,yn)。
[0100] (三)CRF层
[0101] 通常来说,可以直接选择softmax模型来直接获取我们想要的结果,但是由于BiLSTM模型中获得的句子级别的特征向量存在标注偏移的可能性,而传统的softmax模型
对这个问题处理存在不足,因此选择使用CRF模型来解决这个问题,以获取面向全局序列的
最优输出结果,其效果相对于单独的BiLSTM模型或者直接使用softmax会更加的优秀。
[0102] 将上一层中的LSTM输出向量Y={y1,y2,...,yn‑1,yn}输入该模型中,通过条件概率分布的约束结合输入输出序列得到最终的结果,减少数据的误差。具体原理如下所示:
[0103] 首先我们设BiLSTM层的输出序列Y={y1,y2,...,yn‑1,yn}为CRF的输入序列X={x1,x2,...,xn‑1,xn},然后令正确标注序列为Y={y1,y2,...,yn‑1,yn},构建条件概率P=(y∣
x),主要公式如下所示:
[0104]
[0105]
[0106]
[0107] 其中 为转移矩阵,代表从标签yi‑1到yi的转移概率, 是预测结果为yi标签的分数,Z(x)为归一化因子,tk和si为特征函数,μi和λk为权重参数。
[0108] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换
和变型,本发明的范围由所附权利要求及其等同物限定。