基于方阵标注和双仿射层注意力的实体抽取方法及系统转让专利

申请号 : CN202310565366.2

文献号 : CN116306657B

文献日 : 2023-08-22

相似专利: 请登录后查看

本发明公开一种基于方阵标注和双仿射层注意力的实体抽取方法及系统。本发明由文本数据库模块、文本预处理模块、文本建模模块、输出模块四个部分组成。该系统是首次将图像语义分割的思想融入文本实体抽取的任务中，将传统的序列标注任务转变成方阵标注任务，并使用双仿射层注意力机制将序列表示的语义向量转化为长宽均为文本序列长度的方阵，缓解了中文文本实体识别任务中实体边缘检测难，检测精度低的问题。

1.一种基于方阵标注和双仿射层注意力的实体抽取方法，其特征在于，包括如下步骤：

(1)获取大量文本语料并存储至文本数据库中；

(2)清洗文本数据库中的文本语料，并根据文本的标签进行方阵标注得到标签方阵；所述清洗文本数据库中的文本语料为依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作；所述根据文本的标签进行方阵标注的具体包括如下子步骤：(2.1)将语料库中的文本语料按照字符进行切分，形成每个文本的字符序列表示Ti＝[ti1,ti2,ti3,...]和每个文本的字符序列表示长度Leni；并统计每个文本标签中的实体在文本中对应的起始和结束位置En2SEi＝{eni1:[si1,ei1],eni2:[si2,ei2],eni3:[si3,ei3],...enij:[sij,eij],...}；

(2.2)将文本语料里的实体类型数字化，并建立每个标签中的实体与对应实体类型的数值的字典En2numi＝{eni1:2,eni2:1,eni3:2,...enij:7,...}，其中{eni1:2}表示实体eni1的类别为地点名，而地点名的实体类型用数字2表示；

(2.3)建立一个长和宽均为Leni的空标签方阵Matrixi，将方阵中第sij到eij行且位于第sij到eij列的子方阵中的值设为En2numi中键值为enij对应的值，即使用En2numi[enij]的值填充Matrixi[sij:eij,sij:eij]，标签方阵Matrixi中其他位置使用0值填充；

(3)构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练，并根据训练好的模型去抽取文本中存在的实体；所述训练具体包括如下子步骤：(4.1)将文本数据库中的有标签语料划分为训练集Strain和评估集Sdev；

(4.2)将Strain＝[T1，T2，T3，...Ti，...]中的语料按批次Ti输入构建的实体抽取模型Model，Ti表示Strain＝[T1,T2,T3,...Ti,...]里面的一个语料，得到文本i的方阵得分矩阵scorei＝Model(Ti)；将文本i的方阵得分矩阵scorei和标签方阵Matrixi打平，即将方阵得分矩阵scorei的维度从三维Leni×Leni×(c+1)变换为二维Leni×(Leni×c+Leni)，将二维标签方阵Matrixi打平成一维向量；

(4.3)将打平后方阵得分矩阵scorei和标签方阵Matrixi输入交叉熵损失函数

Crossentropy计算模型的损失值并进行反馈优化，即lossi＝CrossentropyLoss(scorei,Matrixi)；

(4.4)当训练集每一轮训练结束后，将评估集Sdev中的语料按批次输入实体抽取模型Model，并统计每一轮训练结束后评估集在当前模型上的F1值，所述F1值的标准计算公式为F1＝(2×Precision×Recall)/(Precision+Recall),Precision为精确率，表示预测为正确的样本中，真正对的样本所占的比例，Recall为召回率，表示真正正确的样本中，预测对的样本所占的比例；若F1值在连续五轮的训练中未超过设定的最大值F1max，则停止训练；若超过设定的最大值F1max，则将当前的F1值赋予设定的最大值F1max；

(4)最终输出识别的实体。

2.根据权利要求1所述的一种基于方阵标注和双仿射层注意力的实体抽取方法，其特征在于，所述构建基于预训练模型和双仿射层注意力机制的实体抽取模型具体包括如下子步骤：(3.1)将输入文本的字符序列表示Ti＝[ti1,ti2,ti3,...]进行文本向量化得到Xi＝[xi1,xi2,xi3,...]；使用预训练模型构建文本的语义编码器，即Xi,embed＝encoder(Xi)；

(3.2)使用双仿射层注意力机制模型去交互不同层面的文本语义信息，具体是使用两个全连接层构建双仿射层，即h1i＝W1(Xi,embed)+b1、h2i＝W2(Xi,embed)+b2，使用注意力机制交互双仿射层拟合的信息得到文本的方阵得分矩阵scorei，即式中h1i，h2i和Xi,embed的维度为Leni×d，W1和W2的维度为d×d，Um的维度是d×c×d，scorei的维度是Leni×Leni×(c+1)，b1、b2和bm是偏置，d表示文本的词嵌入维度，c是实体类别的数量加1。

3.根据权利要求2所述的一种基于方阵标注和双仿射层注意力的实体抽取方法，其特征在于，所述使用预训练模型构建文本的语义编码器，其预训练模型采用RoBERTa‑Base模型，并以RoBERTa‑Large模型和RoBERTa‑Base模型的蒸馏模型rbt3为备用。

4.根据权利要求1所述的一种基于方阵标注和双仿射层注意力的实体抽取方法，其特征在于，所述将评估集Sdev中的语料按批次输入实体抽取模型Model，并统计每一轮训练结束后评估集在当前模型上的F1值，具体包括如下步骤：(5.1)将将评估集Sdev中的语料Tm∈Sdev按批次输入实体抽取模型Model，所述Tm的下标m表示评估集中的第m条语料，得到语料Tm的方阵得分矩阵scorem，即scorem＝Model(Tm)；

(5.2)由语料Tm的得分矩阵scorem查询语料Tm中每个实体的起始位置smn和结束位置emn，所述smn下标n表示语料Tm的第n个实体；从位置0到位置Lenm‑1遍历实体的起始位置smn，从位置Lenm到位置1遍历实体的结束位置emn，若同时存在位置smn和位置emn，使得方阵得分矩阵scorem中的第smn行的第smn列到第emn列与第smn列中的第smn行到第emn行中所有向量和预测的结果为实体enmn，即max_cound(scorem[smn，smn；emn]，scorem[smn：emn，Smn])→enmn，式中max_count表述出现次数最多的值；且方阵得分矩阵scorem中的第emn行的第smn列到第emn列与第emn列中的第smn行到第emn行中所有向量和预测的结果也为实体enmn，即max_cound(scorem[smn，smn；emn]，scorem[smn：emn，emn])→enmn；

(5.3)通过起始位置smn和结束位置emn预测中语料m中的实体enmn；循环查找，直至遍历出文本中所有实体的起始位置和结束位置，并预测出起始位置和结束位置对应的实体；并计算预测实体与实际实体的F1值。

5.根据权利要求1所述的一种基于方阵标注和双仿射层注意力的实体抽取方法，其特征在于，所述根据训练好的模型去抽取文本中存在的实体即为预测评估集语料中实体的流程。

6.一种基于方阵标注和双仿射层注意力的实体抽取系统，其特征在于，包括文本数据库模块、文本预处理模块、文本建模模块、输出模块；

文本数据库模块：获取大量文本语料并存储至文本数据库中；

文本预处理模块：清洗文本数据库中的文本语料，并根据文本的标签进行方阵标注；所述清洗文本数据库中的文本语料为依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作；所述根据文本的标签进行方阵标注的具体包括如下子步骤：(2.1)将语料库中的文本语料按照字符进行切分，形成每个文本的字符序列表示Ti＝[ti1,ti2,ti3,...]和每个文本的字符序列表示长度Leni；并统计每个文本标签中的实体在文本中对应的起始和结束位置En2SEi＝{eni1:[si1,ei1],eni2:[si2,ei2],eni3:[si3,ei3],...enij:[sij,eij],...}；

文本建模模块：构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练，

并根据训练好的模型去抽取文本中存在的实体；所述训练具体包括如下子步骤：

(4.1)将文本数据库中的有标签语料划分为训练集Strain和评估集Sdev；

(4.3)将打平后方阵得分矩阵scorei和标签方阵Matrixi输入交叉熵损失函数

Crossentropy计算模型的损失值并进行反馈优化，即lossi＝CrossentropyLoss(scorei,Matrixi)；

输出模块：输出识别的实体。

7.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的一种基于方阵标注和双仿射层注意力的实体抽取方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的一种基于方阵标注和双仿射层注意力的实体抽取方法。

基于方阵标注和双仿射层注意力的实体抽取方法及系统

技术领域

[0001] 本发明涉及自然语言处理领域，尤其涉及一种基于方阵标注和双仿射层注意力的实体抽取系统。

背景技术

[0002] 命名实体识别是自然语言处理中的一项重要任务，它是对无结构化的文本数据进行结构化分析的基础手段，目的是识别出文本中存在的人名、地名、机构名、时间、日期、货币等，各类实体是许多自然语言处理下游任务的基础，例如关系抽取、实体链接、知识图谱等。

[0003] 当前，实体抽取主要采用序列标注的方法，使得某个字符的错误预测被放大，直接导致某个实体的错误预测，例如文本“尼M尔河流经尼M尔和尼M尼亚”中“尼M尔河”的某个字符预测错误，则会使得整个实体被预测错误。且中文文本中实体常常不带有明显的边界信息，文本“尼M尔河流经尼M尔和尼M尼亚”中“尼M尔河”就存在被预测成“尼M尔河流”的可能性。

[0004] 因此，关于实体边缘的准确检测及模型对预测字符的自我纠正能力的技术问题是亟需解决的。

发明内容

[0005] 针对现有技术的不足，本发明公开一种基于方阵标注和双仿射层注意力的实体抽取系统。本发明由文本数据库模块、文本预处理模块、文本建模模块、输出模块四个部分组成。本发明的方法首次将图像语义分割的思想融入文本实体抽取的任务中，将传统的序列标注任务转变成方阵标注任务，并使用双仿射层注意力机制将序列表示的语义向量转化为长宽均为文本序列长度的方阵，缓解了中文文本实体识别任务中实体边缘检测难，检测精度低的问题。

[0006] 本发明的目的是通过以下技术方案来实现的：本发明地第一方面提供一种基于方阵标注和双仿射层注意力的实体抽取方法，包括如下步骤：

[0007] （1）获取大量文本语料并存储至文本数据库中；

[0008] （2）清洗文本数据库中的文本语料，并根据文本的标签进行方阵标注；所述清洗文本数

[0009] 据库中的文本语料为依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作；

[0010] （3）构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练，[0011] 并根据训练好的模型去抽取文本中存在的实体；

[0012] （4）最终输出识别的实体。

[0013] 进一步地，所述根据文本的标签进行方阵标注的具体包括如下子步骤：

[0014] （2.1）将语料库中的文本语料按照字符进行切分，形成每个文本的字符序列表示和每个文本的字符序列表示长度；并统计每个文本标签中的实体在文本中对应的起始和结束位置
；

[0015] （2.2）将文本语料里的实体类型数字化，并建立每个标签中的实体与对应实体类型的数值的字典，例如表示实体的类别为地点名，而地点名的实体类型用数字2表示；

[0016] （2.3）建立一个长和宽均为的空标签方阵，将方阵中第到行且位于第到列的子方阵中的值设为中键值为对应的值，即使用
的值填充，标签方阵中其他位置使用0值填充。

[0017] 进一步地，所述文本建模模块构建基于预训练模型和双仿射层注意力机制的实体抽取模型的具体包括如下子步骤：

[0018] （3.1）将输入文本的字符序列表示进行文本向量化得到；使用预训练模型构建文本的语义编码器，即；

[0019] （3.2）使用双仿射层注意力机制模型去交互不同层面的文本语义信息，具体是使用两个全连接层构建双仿射层，即、，使用注意力机制交互双仿射层拟合的信息得到文本的方阵得分矩阵，即；式中
，和的维度为，和的维度为，的维度是，的维
度是，、和是偏置，表示文本的词嵌入维度，是实体类别的数量
加1。

[0020] 所述使用预训练模型构建文本的语义编码器，其预训练模型采用RoBERTa‑Base模型，并以RoBERTa‑Large模型和RoBERTa‑Base模型的蒸馏模型rbt3为备用。

[0021] 进一步地，所述文本建模模块进行训练的具体包括如下子步骤：

[0022] （4.1）将文本数据库中的有标签语料划分为训练集和评估集；

[0023] （4.2）将中的语料按批次输入构建的实体抽取模型，得到文本的方阵得分矩阵；将文本的方阵得分矩阵和标签方阵
打平，即将方阵得分矩阵的维度从三维变换为二维
，将二维标签方阵打平成一维向量；

[0024] （4.3）将打平后方阵得分矩阵和标签方阵输入交叉熵损失函数计算模型的损失值并进行反馈优化，即
；

[0025] （4.4）当训练集每一轮训练结束后，将评估集中的语料按批次输入实体抽取模型，并统计每一轮训练结束后评估集在当前模型上的F1值，所述F1值的标准计算公式为F1=(2×Precision×Recall)/(Precision+Recall), Precision为精确率，表示预测为正确的样本中，真正对的样本所占的比例，Recall为召回率，表示真正正确的样本中，预测对的样本所占的比例；若F1值在连续五轮的训练中未超过设定的最大值，则停止训练；若超过设定的最大值，则将当前的F1值赋予设定的最大值。

[0026] 进一步地，所述将评估集中的语料按批次输入实体抽取模型，并统计每一轮训练结束后评估集在当前模型上的F1值，具体包括如下步骤：

[0027] （5.1）将将评估集中的语料按批次输入实体抽取模型，所述的下标m表示评估集中的第m条语料，得到语料的方阵得分矩阵，即
；

[0028] （5.2）由语料的得分矩阵查询语料中每个实体的起始位置和结束位置，所述下标n表示语料的第n个实体；从位置0到位置遍历实体的起始
位置，从位置到位置1遍历实体的结束位置，若同时存在位置和位置，使
得方阵得分矩阵中的第行的第列到第列与第列中的第行第行中
所有向量和预测的结果为实体，即
，式中表述出现次数
最多的值；且方阵得分矩阵中的第行的第列到第列与第列中的第行
第行中所有向量和预测的结果也为实体n，即
；

[0029] （5.3）通过起始位置和结束位置预测中语料m中的实体；循环查找，直至遍历出文本中所有实体的起始位置和结束位置，并预测出起始位置和结束位置对应的实体；并计算预测实体与实际实体的F1值。

[0030] 具体地，所述根据训练好的模型去抽取文本中存在的实体即为预测评估清洗后的文本语料中实体的流程。

[0031] 本发明第二方面：一种基于方阵标注和双仿射层注意力的实体抽取系统，包括文本数据库模块、文本预处理模块、文本建模模块、输出模块；

[0032] 文本数据库模块：获取大量文本语料并存储至文本数据库中；

[0033] 文本预处理模块：清洗文本数据库中的文本语料，并根据文本的标签进行方阵标注；所

[0034] 述清洗文本数据库中的文本语料为依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作；

[0035] 文本建模模块：构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练，

[0036] 并根据训练好的模型去抽取文本中存在的实体；

[0037] 输出模块：输出识别的实体。

[0038] 第三方面本发明提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现所述的基于预训练模型和双仿射层注意力机制的实体抽取方法的步骤。

[0039] 第四方面本发明提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现所述的基于预训练模型和双仿射层注意力机制的实体抽取方法的步骤。

[0040] 本发明的有益效果如下：

[0041] 1、本发明提出的方法创新性的将图像语义分割的思想融入到实体识别的任务中，有效缓解了中文文本中实体的边界常常难以被准确预测的难题，提高了实体识别的精度；

[0042] 2、本发明提出的方法能够使用预测字符周围字符的预测结果验证该字符是否预测正确，提高了实体检测的精度。

附图说明

[0043] 图1为本发明的功能模块图；

[0044] 图2为本发明的文本数据标签编码后的标签矩阵示意图；

[0045] 图3为本发明中模型的构建和训练方式示意图；

[0046] 图4为本发明根据得分矩阵抽取文本中实体的示意图。

具体实施方式

[0047] 下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

[0048] 下面根据附图进一步对本发明进行说明：

[0049] 参考图1，一种基于方阵标注和双仿射层注意力的实体抽取系统，其为基于方阵标注和双仿射层注意力机制的实体抽取系统的功能模块图，文本数据库模块、文本预处理模块、文本建模模块以及输出模块依次相连；

[0050] 所述文本数据库模块获取大量的财经、行业、时政等相关的文本语料并存储；

[0051] 所述文本预处理模块清洗文本数据库中的文本语料，具体是依次进行英文字母大小写统一、中英文标点符号统一、繁体中文转简体中文、删除乱码及无法打印字符的操作；并根据文本的标签进行方阵标注；

[0052] 所述文本建模模块构建基于预训练模型和双仿射层注意力机制的实体抽取模型并进行训练，并根据训练好的模型去抽取文本中存在的实体；

[0053] 所述输出模块输出识别的实体；

[0054] 参考图2，基于方阵标注和双仿射层注意力机制的实体抽取系统中文本数据标签的编码格式，以短文本“3月初，三A股份被罚”为例，具体包含以下内容：

[0055] 将语料库中的文本语料按照字符进行切分，形成每个文本的字符序列表示和每个文本的字符序列表示长度，示例文本切分后形成的字符序列表
示：，示例文本的文本
长度为10；

[0056] 统计每个文本标签中的实体在文本中对应的起始和结束位置，示例文本中每个实体在文
本中对应的起始和结束位置字典为：{‘一月’: [0,1], ‘三A股份’:[4,7]}；将文本语料里的实体类型数字化，并建立每个标签中的实体与对应实体类型的数值的字典
，例如表示实体的类别为地点名，而
地点名的实体类型用数字2表示，示例文本中实体与对应实体类型的数值的字典为：{‘一月’: 3, ‘三A股份’:6}；建立一个长和宽均为的空标签方阵，将方阵中第到
行且位于第到列的子方阵中的值设为中键值为对应的值，即使用
的值填充，标签方阵中其他位置使用0值填充，示
例文本的标签方阵如图2所示，字符“三”、“月”的字符均属于“三月”这个时间实体，且“三”、“月”分别位于文本序列表示的第一个、第二个位置，则标签矩阵中位于0 1行且0 1列位置~ ~
使用时间实体的类别3进行标注，即图三中颜色较深的浅灰色部分。字符“三”、“A”、“股”、“份”属于公司名实体“三A股份”，且字符“三”、“A”、“股”、“份”位于文本序列表示的第4 7的~
位置，则标签矩阵中位于4 7行且4 7列位置使用公司名实体的类别6进行标注，即图2中深~ ~
灰色部分。其他位置使用字符0标记，即标签矩阵的浅灰色部分。

[0057] 参考图3，基于方阵标注和双仿射层注意力机制的实体抽取系统中模型的构建和训练方式示意图，具体包含以下内容：

[0058] 将输入文本的字符序列表示进行文本向量化得到；使用预训练模型构建文本语义编码器，即；所述使
用预训练模型构建文本的语义编码器中的预训练模型采用RoBERTa‑Base模型，并以RoBERTa‑Large模型为备用，以面对更高准确率、低推断速度的应用需求，以rbt3模型（RoBERTa‑Base模型的蒸馏模型）为备用，以面对较低准确率，高推断速度的应用需求。

[0059] 使用双仿射层注意力机制模型去交互不同层面的文本语义信息，具体是使用两个全连接层构建双仿射层，即、，使用注意力机制交互双仿射层拟合的信息得到文本的方阵得分矩阵，即；式中，
和的维度为，和的维度为，的维度是，的维度是
，、和是偏置，表示文本的词嵌入维度，是实体类别的数量加1。

[0060] 所述文本建模模块进行训练的具体步骤包括：将文本数据库中的有标签语料划分为训练集和评估集；将中的语料按批次输入所构建的实体抽取模型，得到文本的方阵得分矩阵；将文本的方阵得分矩阵
和标签方阵打平，即将方阵得分矩阵的维度从三维变
换为二维，将二维标签方阵打平成一维向量；将打平后方阵得
分矩阵和标签方阵输入交叉熵损失函数计算模型的损失值并进行
反馈优化，即；当训练集每一轮训练结束后，将评估集
中的语料按批次输入实体抽取模型，并统计每一轮训练结束后评估集在当前模型
上的F1值，若F1值在连续五轮的训练中没有超过设定的最大值，则停止训练，若超过设定的最大值，则将当前的F1值赋予设定的最大值。

[0061] 参考图4，基于方阵标注和双仿射层注意力机制的实体抽取系统中根据得分矩阵抽取文本中实体的示意图，具体包含以下内容：

[0062] 将所述评估集中的语料按批次输入实体抽取模型，并统计每一轮训练结束后评估集在当前模型上的F1值，具体步骤包括：将将评估集中的语料按批
次输入实体抽取模型（下标m表示评估集中的第m条语料），得到语料的方阵得分矩阵，即；并由语料的得分矩阵查询语料中每个实体的
起始位置和结束位置（下表n表示语料的第n个实体）；从位置0到位置遍历
实体的起始位置，从位置到位置1遍历实体的结束位置，若同时存在位置和位
置，使得方阵得分矩阵中的第行的第列到第列与第列中的第行第
行中所有向量和预测的结果为实体，即
，式中表述出现次数
最多的值；且方阵得分矩阵中的第行的第列到第列与第列中的第行
第行中所有向量和预测的结果也为实体n，即
；则通过起始位置和结束位置
预测中语料m中的实体；循环查找，直至遍历出文本中所有实体的起始位置和结束位置，预测出起始位置和结束位置对应的实体；并计算预测实体与实际实体的F1值；

[0063] 示例文本的预测方阵得分矩阵如图4所示，第1行第7列位置处的结果被错误预测为3完全不影响该位置处字符的预测结果，因为方阵中实体的结果应预测在左上到右下的对角线上，而第4行第5列的值被错误的预测成0，因，该位置的预测结果被纠正为6，则完全不影响
实体“三A股份”最终的预测结果。同理第6行第8列的值被错误的预测成6，因
，该位置的预测结果被纠正为0，也完全不影响
实体“三圣股份”最终的预测结果；

[0064] 在Resume数据集上进行试验，基于方阵标注和双仿射层注意力机制的实体抽取系统的方法能达到F1=0.9596，已超过使用序列标注方法的F1=0.9376。

[0065] 以上所述实施例表达了本发明的具体实施方式，其描述较为具体和详细，旨在用于帮助理解本发明的方法及其核心思想，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

基于方阵标注和双仿射层注意力的实体抽取方法及系统转让专利

申请号 : CN202310565366.2

文献号 : CN116306657B

文献日 : 2023-08-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李栓 , 金雨青 , 丁锴 , 王艺涵 , 胡汉一 , 那崇宁

申请人 : 之江实验室

摘要 :

权利要求 :

说明书 :