一种融合实体类型的关系三元组抽取方法转让专利

申请号 : CN202210026447.0

文献号 : CN114444506B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 彭德中陈付旻吕建成彭玺桑永胜胡鹏孙亚楠王旭陈杰王骞

申请人 : 四川大学

摘要 :

本发明公开了一种融合实体类型的关系三元组抽取方法,包括以下步骤:收集文本数据作为训练样本;对收集的训练样本数据进行清洗获得数据集;切分数据集并将其按照一定比例划分为训练集、验证集与测试集;搭建基于BERT预训练模型的深度学习网络并加载预训练参数获得训练样本深度表达;在模型后搭建Fast Gradient Method对抗网络提升模型的鲁棒和泛化性能;搭建多头注意力机制与深度神经网络的关系三元组提取模型;进行模型的训练与测试,对验证集采用K折交叉验证的方法保存K折模型,综合K折模型对测试集进行测试,将平均概率作为模型的测试结果;输出模型AttnFGM‑MARE。

权利要求 :

1.一种融合实体类型的关系三元组抽取方法,其特征在于:具体包括以下步骤:

1)收集文本数据作为训练样本;

2)对步骤1)中收集的训练样本数据进行清洗,形成数据集;

3)切分步骤2)形成的数据集,将数据集按照7:2:1的比例划分为训练集、验证集和测试集;

4)搭建基于BERT预训练模型的深度学习网络,并加载预训练参数获得训练集数据的深度表达;

5)在BERT预训练模型后搭建Fast Gradient Method对抗神经网络模型,用于提升模型的鲁棒性能和泛化性能;

6)利用头实体提取模块DNN进行头实体的预测;

7)将步骤6)预测的头实体中提取头实体特征,并利用多头注意力机制得到深度神经网络的关系三元组提取模型;

8)利用关系、尾实体提取模块DNN进行关系、尾实体的预测;

9)进行模型训练,对步骤3)中的验证集采用K折交叉验证的方法保存K折模型,并利用K折模型对测试集进行测试,将平均概率作为模型的测试结果;

所述步骤6)头实体提取模块连接在Fast Gradient Method对抗神经网络模型,分别对头实体开始全连接层和头实体结束全连接层进行头实体开始位置和头实体结束位置的预测;

其中,xi为文本中第i个字符的深度表示,Ws、We、bs、be代表深度神经网络的可训练参数,σ代表sigmoid激活函数, 代表第i个字符为头实体开始字符的概率, 代表第i个字符为头实体结束字符的概率。

2.如权利要求1所述的一种融合实体类型的关系三元组抽取方法,其特征在于:所述步骤4)中的BERT预训练模型依次设置有位置嵌入层、句法嵌入层和token嵌入层,后连接接有E[cls]层、全连接层和T[cls]层,且深度表达式如下所示:H=BWRT(S)  (1)

其中,S为训练集文本数据,H为经过BERT预训练模型后S的隐状态的深度表达。

3.如权利要求1所述的一种融合实体类型的关系三元组抽取方法,其特征在于:所述步骤5)中搭建的FastGradient Method对抗神经网络模型的表达式如下所示:radv=∈·g/||g||2  (3)

xadv=x+radv  (4)

其中,g代表经过梯度更新后的损失函数,θ代表对抗神经网络的参数,x代表模型的输入,y代表与输入x对应的标签,L代表训练神经网络的损失函数, 代表神经网络的梯度表示,∈代表对抗网络的超参数,xadv代表添加对抗扰动后的模型输入,radv代表添加对抗扰动的程度。

4.如权利要求1所述的一种融合实体类型的关系三元组抽取方法,其特征在于:所述步骤7)利用多头注意力机制获取头实体类型表示特征,并利用特征融合的方式将头实体特征、头实体类型表示特征和上下文表示特征进行融合,得到深度神经网络的关系三元组提取模型;多头注意力机制的表达式如下所示:O

MultiHead(Q,K,V)=Concat(head1,head2,...,headh)W  (9)其中,Q、K、V代表由输入特征经过线性变化得到的向量,dk代表控制方差的参数,headiQ K V 0代表在多头注意力机制模型中第i个注意力机制模块的输出,Wi 、Wi 、Wi 、W代表深度神经网络的可训练参数。

5.如权利要求1所述的一种融合实体类型的关系三元组抽取方法,其特征在于:所述步骤8)中关系、尾实体预测的具体是:根据步骤7)中特征融合后的关系、尾实体开始全连接层和关系、尾实体结束全连接层,进行关系、尾实体开始位置和结束位置预测;

其中, 代表深度神经网络的可训练参数,σ代表sigmoid激活函数,代表第k个头实体的深度表示, 代表第k个头实体的类型深度表示, 代表在给定关系r的条件下,第i个字符为尾实体开始字符的概率, 代表在给定关系r的条件下,第i个字符为尾实体结束字符的概率。

说明书 :

一种融合实体类型的关系三元组抽取方法

技术领域

[0001] 本发明涉及自然语言处理技术领域,特别涉及一种融合实体类型的关系三元组智能抽取方法。

背景技术

[0002] 关系抽取通常以三元组的形式组织和呈现,这些结构化的知识为诸多下游任务赋能,例如:信息抽取、知识图谱、搜索引擎、问答任务,具体而言,关系抽取的任务包括在文本中识别头实体和尾实体并为实体间的关系进行分类。目前关系三元组抽取通常使用神经网络的方法,并且受预训练语言模型技术快速发展的启发,关系抽取使用预训练模型利用大规模无标记数据进行无监督学习来得到文本的深度表达,此类方法较依赖于头实体的深度表示,头实体的深度表达影响到下游任务中尾实体和关系类型的抽取效果,但此类方法对头实体的特征表达能力有限,未考虑到头实体的类型信息对尾实体和关系抽取的提升效果,同时此类模型也存在鲁棒性能低、泛化能力弱等问题。

发明内容

[0003] 本发明要解决的技术问题在于提供一种融合实体类型的关系三元祖抽取方法,该抽取方法使用多头注意力机制融合头实体类型特征,通过深度神经网络(DNN)来获得关系三元组,提升了模型鲁棒性能和泛化性能,
[0004] 为了解决上述技术问题,本发明通过以下方式来实现:
[0005] 一种融合实体类型的关系三元组抽取方法,具体包括以下步骤:
[0006] 1)收集文本数据作为训练样本;
[0007] 2)对步骤1)中收集的训练样本数据进行清洗,形成数据集;
[0008] 3)切分步骤2)形成的数据集,将数据集按照7:2:1的比例划分为训练集、验证集和测试集;
[0009] 4)搭建基于BERT预训练模型的深度学习网络,并加载预训练参数获得训练集数据的深度表达;
[0010] 5)在BERT预训练模型后搭建Fast Gradient Method对抗神经网络模型,用于提升模型的鲁棒性能和泛化性能;
[0011] 6)利用头实体提取模块DNN进行头实体的预测;
[0012] 7)将步骤6)预测的头实体中提取头实体特征,并利用多头注意力机制及深度神经网络的关系三元组提取模型;
[0013] 8)利用关系、尾实体提取模块DNN进行关系、尾实体的预测;
[0014] 9)进行模型训练,对步骤3)中的验证集采用K折交叉验证的方法保存K折模型,并利用K折模型对测试集进行测试,将平均概率作为模型的测试结果;输出模型AttnFGM‑MARE。
[0015] 进一步的,步骤4)中所述的BERT预训练模型依次设置有位置嵌入层、句法嵌入层和token嵌入层,后连接接有E[cls]层、全连接层和T[cls]层,且深度表达式如下所示:
[0016] H=BERT(S)  (1)
[0017] 其中,S为训练集文本数据,H为经过BERT预训练模型后S的隐状态的深度表达。
[0018] 步骤5)中搭建的Fast Gradient Method对抗神经网络模型的表达式如下所示:
[0019]
[0020] radv=∈·g/||g||2  (3)
[0021] xadv=x+radv  (4)
[0022] 其中,g代表经过梯度更新后的损失函数,θ代表对抗神经网络的参数,x代表模型的输入,y代表与输入x对应的标签,L代表训练神经网络的损失函数, 代表神经网络的梯度表示,∈代表对抗网络的超参数,xadv代表添加对抗扰动后的模型输入,radv代表添加对抗扰动的程度。
[0023] 步骤6)头实体提取模块连接在Fast Gradient Method对抗神经网络模型,分别对头实体开始全连接层和头实体结束全连接层进行头实体开始位置和头实体结束位置的预测;
[0024]
[0025]
[0026] 其中,xi为文本中第i个字符的深度表示,Ws、We、bs、be代表深度神经网络的可训练参数,σ代表sigmoid激活函数, 代表第i个字符为头实体开始字符的概率, 代表第i个字符为头实体结束字符的概率。
[0027] 步骤7)利用多头注意力机制获取头实体类型表示特征,并利用特征融合(特征相加)的方式将头实体特征、头实体类型表示特征和上下文表示特征进行融合,得到深度神经网络的关系三元组提取模型;多头注意力机制的表达式如下所示:
[0028]
[0029]
[0030] MultiHead(Q,K,V)=Concat(head1,head2,...,headh)WO  (9)[0031] 其中,Q、K、V代表由输入特征经过线性变化得到的向量,dk代表控制方差的参数,0
headi代表在多头注意力机制模型中第i个注意力机制模块的输出, W代表
深度神经网络的可训练参数。
[0032] 步骤8)中关系、尾实体预测的具体是:根据步骤7)中特征融合后的关系、尾实体开始全连接层和关系、尾实体结束全连接层,进行关系、尾实体开始位置和结束位置预测;
[0033]
[0034]
[0035] 其中, 代表深度神经网络的可训练参数,σ代表sigmoid激活函数, 代表第k个头实体的深度表示, 代表第k个头实体的类型深度表示, 代表在给定关系r的条件下,第i个字符为尾实体开始字符的概率, 代表在给定关系r的条件下,第i个字符为尾实体结束字符的概率。
[0036] 与现有技术相比,本发明具有的有益效果:
[0037] 本发明所申请的三元组抽取方法,通过融合实体类型的神经网络端到端模型(AttnFGM‑MARE),采用预训练模型作为文本上下文的特征提取,智能抽取关系三元组;通过采用Fast Gradient Method对抗网络模型,来提高模型鲁棒性能和泛化性能,并使用多头注意力机制融合头实体类型特征,通过深度神经网络(DNN)来获得并提升关系三元组抽取的效果。

附图说明

[0038] 图1为本发明的关系三元组抽取模型的流程示意图。

具体实施方式

[0039] 下面结合附图和具体实施例对本发明的具体实施方式作进一步详细的说明。应当理解,本文所使用的诸如“具有”“包含”以及“包括”术语并不排除一个或多个其它网络或其组合的存在或添加。
[0040] 如图1所示,一种融合实体类型的关系三元组抽取方法,具体包括以下步骤:
[0041] 1)收集文本数据作为训练样本,batch‑size的大小Nb及学习率α;其中batch‑size的大小Nb是让模型可批量处理数据的大小,即一次训练所抓取的数据样本数量,一次处理一条数据速度慢;学习率α是模型更新参数的步长大小,整个优化过程中都以确定的步长进行更新,更新参数的作用是逐步逼近最优解。
[0042] 2)对步骤1)中收集的训练样本数据进行清洗,形成数据集
[0043] 3)切分步骤2)形成的数据集,将数据集按照7:2:1的比例划分为训练集验证集 和测试集
[0044] 4)搭建基于BERT预训练模型的深度学习网络,并加载预训练参数获得训练集数据的深度表达;
[0045] 5)在BERT预训练模型后搭建Fast Gradient Method对抗神经网络模型,用于提升模型的鲁棒性能和泛化性能;Fast Gradient Method对抗神经网络模型的表达式如下所示:
[0046]
[0047] radv=∈·g/||g||2  (3)
[0048] xadv=x+radv             (4)
[0049] 其中,θ代表对抗神经网络的参数,x代表模型的输入,y代表与输入x对应的标签,L代表训练神经网络的损失函数, 代表神经网络的梯度表示,∈代表对抗网络的超参数,radv代表添加对抗扰动的程度;
[0050] 6)利用头实体提取模块DNN进行头实体的预测;
[0051]
[0052]
[0053] 其中,xi为文本中第i个字符的深度表示,Ws、We、bs、be代表深度神经网络的可训练参数,σ代表sigmoid激活函数, 代表第i个字符为头实体开始字符的概率, 代表第i个字符为头实体结束字符的概率;
[0054] 7)将步骤6)预测的头实体中提取头实体特征,并利用多头注意力机制及深度神经网络的关系三元组提取模型;多头注意力机制的表达式如下所示:
[0055]
[0056]
[0057] MultiHead(Q,K,V)=Concat(head1,head2,...,headh)WO  (9)[0058] 其中,Q、K、V代表由输入特征经过线性变化得到的向量,dk代表控制方差的参数,0
headi代表在多头注意力机制模型中第i个注意力机制模块的输出, W代表
深度神经网络的可训练参数;
[0059] 8)利用关系、尾实体提取模块DNN进行关系、尾实体的预测;
[0060]
[0061]
[0062] 其中, 代表深度神经网络的可训练参数,σ代表sigmoid激活函数, 代表第k个头实体的深度表示, 代表第k个头实体的类型深度表示, 代表在给定关系r的条件下,第i个字符为尾实体开始字符的概率, 代表在给定关系r的条件下,第i个字符为尾实体结束字符的概率;
[0063] 9)进行模型训练,对步骤3)中的验证集采用K折交叉验证的方法保存K折模型,并利用K折模型对测试集进行测试,将平均概率作为模型的测试结果;输出模型AttnFGM‑MARE。此处的K折交叉验证的方法,就是将原始数据均分成K组,将每一个子集数据分别做一次验证集,并与剩余的K—1个子集作为训练集,就得到K折模型。
[0064] 针对本申请的深度表达H,计算batch‑size的深度神经网络(DNN)的网络输出y*=DNN(H)  (12)
[0065] 其中,y*代表神经网络的输出;
[0066] 本申请通过损失函数来计算训练的损失,其损失函数的表达式是:
[0067]
[0068] 其中,xi代表在训练集中第i个样本,Ti代表出现在训练样本xi中的关系三元组集合,s代表出现在关系三元组的头实体,o代表出现在关系三元组中的尾实体,pr代表在指定关系r下的概率值;
[0069] 通过损失函数进行训练计算更新对抗神经网络模型参数θ,参数θ的最小化表达式是:
[0070]
[0071] 以上所述仅是本发明的实施方式,再次声明,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进,这些改进也列入本发明权利要求的保护范围内。