基于短语交互的隐式篇章关系识别方法和系统转让专利

申请号 : CN202311139099.9

文献号 : CN116882398B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 邬昌兴姚浩刘胤波熊锦晖余鹰

申请人 : 华东交通大学

摘要 :

本发明提供了一种基于短语交互的隐式篇章关系识别方法和系统,包括:对隐式篇章关系样本进行词编码得到全局向量表示、词向量矩阵;对词向量矩阵进行短语编码得到短语向量矩阵,在短语向量矩阵中融入位置信息得到增强向量矩阵;根据增强向量矩阵和掩码矩阵进行短语交互得到交互信息矩阵,根据交互信息矩阵确定交互信息向量表示;根据交互信息向量表示和全局向量表示进行分类预测得到预测类别概率分布,根据预测类别概率分布确定模型损失,根据模型损失对隐式篇章关系识别模型进行训练;将待识别样本输入训练后的隐式篇章关系识别模型进行关系识别得到篇章关系识别结果。本发明能自动学习论元中短语的语义向量表示并建模(56)对比文件Jiali Zeng等.Meta-learning basedinstance manipulation for implicitdiscourse relation recognition.《Knowledge-Based Systems》.2023,全文.

权利要求 :

1.一种基于短语交互的隐式篇章关系识别方法,其特征在于,所述方法包括:根据隐式篇章关系识别模型对隐式篇章关系样本中的第一样本论元和第二样本论元进行词编码,得到所述隐式篇章关系样本的全局向量表示、第一词向量矩阵和第二词向量矩阵,所述第一词向量矩阵由所述第一样本论元中的词向量构成,所述第二词向量矩阵由所述第二样本论元中的词向量构成;

对所述第一词向量矩阵和所述第二词向量矩阵进行短语编码,得到短语向量矩阵,并在所述短语向量矩阵中融入位置信息,得到增强向量矩阵;

根据所述增强向量矩阵和掩码矩阵进行短语交互,得到交互信息矩阵,并根据所述交互信息矩阵确定交互信息向量表示;

根据所述交互信息向量表示和所述全局向量表示进行分类预测,得到预测类别概率分布,根据所述预测类别概率分布确定模型损失,并根据所述模型损失对所述隐式篇章关系识别模型进行训练;

将待识别样本输入训练后的所述隐式篇章关系识别模型进行关系识别,得到篇章关系识别结果;

根据隐式篇章关系识别模型对隐式篇章关系样本中的第一样本论元和第二样本论元进行词编码采用的公式包括:隐式篇章关系样本 ;

其中, 为所述第一样本论元, 为所述第二样本论元,PLM为预训练语言模型, 为所述全局向量表示, 为所述第一词向量矩阵, 为所述第二词向量矩阵;

对所述第一词向量矩阵和所述第二词向量矩阵进行短语编码采用的公式包括: ;

其中,CNN为卷积神经网络, 为所述第一样本论元中长度为 的短语的向量表示构成的矩阵, , 为所述第二样本论元中长度为 的短语的向量表示构成的矩阵,N为预设的最大短语长度;

 ;

其中, 为所述短语向量矩阵, 为所述第一样本论元中所有短语的向量表示构成的矩阵, 为所述第二样本论元中所有短语的向量表示构成的矩阵;

在所述短语向量矩阵中融入位置信息采用的公式包括:

 ;

其中, 为所述增强向量矩阵, 为短语次序信息矩阵, 由可学习的位置向量拼接而成, ,K为样本论元中短语的最大次序, 为短语所属论元的指示矩阵, 由可学习的向量 和 拼接而成, 和 分别为短语属于所述第一样本论元和所述第二样本论元的指示向量;

根据所述增强向量矩阵和掩码矩阵进行短语交互采用的公式包括: ;

其中, 为所述交互信息矩阵, 和 分别为第 个注意力机制中的查询和键, 和 为需要学习的参数矩阵,Softmax为归一化函数,T为矩阵的转置操作,M为所述掩码矩阵,I为注意力机制的数量, 为给定掩码后的权重矩阵的Transformer层, 为掩码后的权重矩阵;

根据所述交互信息矩阵确定交互信息向量表示采用的公式包括:

其中, 为所述交互信息向量表示, 为点积型注意力机制, 为需要学习的上下文参数向量。

2.如权利要求1所述的基于短语交互的隐式篇章关系识别方法,其特征在于,根据所述交互信息向量表示和所述全局向量表示进行分类预测采用的公式包括: ;

其中,MLP1、MLP2和MLP3分别为第一分类层、第二分类层和第三分类层,每个分类层由多个前馈非线性层叠加一个Softmax层构成, 表示向量或矩阵的拼接操作, 、 和 分别为第一预测类别概率分布、第二预测类别概率分布和第三预测类别概率分布, 为所述预测类别概率分布, 为所述全局向量表示, 为所述交互信息向量表示, 的第 个值为所述隐式篇章关系样本属于第 个类别的概率,所述预测类别概率分布包括第一预测类别概率分布、第二预测类别概率分布和第三预测类别概率分布。

3.如权利要求2所述的基于短语交互的隐式篇章关系识别方法,其特征在于,根据所述预测类别概率分布确定模型损失采用的公式包括: ;

其中, 为所述隐式篇章关系样本, 为所述隐式篇章关系样本的真实类别的独热编码表示, 为 的第 个值, 、 和 分别为所述隐式篇章关系样本的预测结果 、和 中的第 个值, 为隐式篇章关系类别的总数量,D是由多个隐式篇章关系样本及其真实类别的独热编码表示组成的训练数据集, 为所述训练数据集中的样本数量,、 和 分别为对应于第一预测类别概率分布、第二预测类别概率分布和第三预测类别概率分布的交叉熵代价函数, 、 和 为相应代价对应的权重系数, 为多任务学习代价函数, 的输出值为所述模型损失。

4.一种基于短语交互的隐式篇章关系识别系统,其特征在于,应用如权利要求1至3任一项所述的基于短语交互的隐式篇章关系识别方法,所述系统包括:词编码模块,用于根据隐式篇章关系识别模型对隐式篇章关系样本中的第一样本论元和第二样本论元进行词编码,得到所述隐式篇章关系样本的全局向量表示、第一词向量矩阵和第二词向量矩阵,所述第一词向量矩阵由所述第一样本论元中的词向量构成,所述第二词向量矩阵由所述第二样本论元中的词向量构成;

短语编码模块,用于对所述第一词向量矩阵和所述第二词向量矩阵进行短语编码,得到短语向量矩阵,并在所述短语向量矩阵中融入位置信息,得到增强向量矩阵;

短语交互模块,用于根据所述增强向量矩阵和掩码矩阵进行短语交互,得到交互信息矩阵,并根据所述交互信息矩阵确定交互信息向量表示;

联合预测模块,用于根据所述交互信息向量表示和所述全局向量表示进行分类预测,得到预测类别概率分布;

多任务学习代价函数模块,用于根据所述预测类别概率分布确定模型损失,并根据所述模型损失对所述隐式篇章关系识别模型进行训练;

关系识别模块,用于将待识别样本输入训练后的所述隐式篇章关系识别模型进行关系识别,得到篇章关系识别结果。

说明书 :

基于短语交互的隐式篇章关系识别方法和系统

技术领域

[0001] 本发明涉及自然语言处理技术领域,尤其涉及一种基于短语交互的隐式篇章关系识别方法和系统。

背景技术

[0002] 篇章关系识别旨在自动识别两个论元(子句、句子或文本块)之间的语义关系,例如,因果关系和转折关系等。一方面,篇章关系识别是篇章结构分析中的一项重要子任务,也是其性能瓶颈所在;另一方面,篇章关系识别的结果也可以直接用于提升机器翻译、情感分析和对话系统等众多上层自然语言处理应用的性能。根据两个论元间是否存在篇章连接词,篇章关系识别可进一步分为显式篇章关系识别(Explicit Discourse Relation Recognition,EDRR)和隐式篇章关系识别(Implicit Discourse Relation Recognition,IDRR)。大多数篇章连接词都具有较强的语义关系指示作用(例如,“但是”),因此显式篇章关系识别的准确率非常高,已经达到可以实用的程度。例如,在汉语和英语中,仅使用篇章连接词作为特征的识别模型,都可以取得90%左右的准确率。然而,当论元间缺少篇章连接词时,隐式篇章关系识别需要根据两个论元的语义推断它们之间的关系,目前的准确率还不理想,尚不能满足实际应用的需要。因此,隐式篇章关系识别依然是当前学术界和工业界的热点研究问题之一。
[0003] 现有基于短语交互的隐式篇章关系识别方法通常采用句法分析器抽取论元中的短语,但多数情况下句法分析器的准确率不高,导致隐式篇章关系识别的准确率不理想;此外,对句法分析器的依赖,也导致现有基于短语交互的隐式篇章关系识别方法的适用性不强且时间消耗比较大。

发明内容

[0004] 本发明实施例的目的在于提供一种基于短语交互的隐式篇章关系识别方法和系统,旨在解决现有隐式篇章关系识别方法的准确率不高的问题。
[0005] 本发明实施例是这样实现的,一种基于短语交互的隐式篇章关系识别方法,所述方法包括:
[0006] 根据隐式篇章关系识别模型对隐式篇章关系样本中的第一样本论元和第二样本论元进行词编码,得到所述隐式篇章关系样本的全局向量表示、第一词向量矩阵和第二词向量矩阵,所述第一词向量矩阵由所述第一样本论元中的词向量构成,所述第二词向量矩阵由所述第二样本论元中的词向量构成;
[0007] 对所述第一词向量矩阵和所述第二词向量矩阵进行短语编码,得到短语向量矩阵,并在所述短语向量矩阵中融入位置信息,得到增强向量矩阵;
[0008] 根据所述增强向量矩阵和掩码矩阵进行短语交互,得到交互信息矩阵,并根据所述交互信息矩阵确定交互信息向量表示;
[0009] 根据所述交互信息向量表示和所述全局向量表示进行分类预测,得到预测类别概率分布,根据所述预测类别概率分布确定模型损失,并根据所述模型损失对所述隐式篇章关系识别模型进行训练;
[0010] 将待识别样本输入训练后的所述隐式篇章关系识别模型进行关系识别,得到篇章关系识别结果。
[0011] 本发明实施例的另一目的在于提供一种基于短语交互的隐式篇章关系识别系统,所述系统包括:
[0012] 词编码模块,用于根据隐式篇章关系识别模型对隐式篇章关系样本中的第一样本论元和第二样本论元进行词编码,得到所述隐式篇章关系样本的全局向量表示、第一词向量矩阵和第二词向量矩阵,所述第一词向量矩阵由所述第一样本论元中的词向量构成,所述第二词向量矩阵由所述第二样本论元中的词向量构成;
[0013] 短语编码模块,用于对所述第一词向量矩阵和所述第二词向量矩阵进行短语编码,得到短语向量矩阵,并在所述短语向量矩阵中融入位置信息,得到增强向量矩阵;
[0014] 短语交互模块,用于根据所述增强向量矩阵和掩码矩阵进行短语交互,得到交互信息矩阵,并根据所述交互信息矩阵确定交互信息向量表示;
[0015] 联合预测模块,用于根据所述交互信息向量表示和所述全局向量表示进行分类预测,得到预测类别概率分布;
[0016] 多任务学习代价函数模块,用于根据所述预测类别概率分布确定模型损失,并根据所述模型损失对所述隐式篇章关系识别模型进行训练;
[0017] 关系识别模块,用于将待识别样本输入训练后的所述隐式篇章关系识别模型进行关系识别,得到篇章关系识别结果。
[0018] 本发明实施例,通过对第一样本论元和第二样本论元进行词编码,能有效地学习到隐式篇章关系样本中的全局向量表示和论元中的词在上下文中的向量表示,通过对第一词向量矩阵和第二词向量矩阵进行短语编码,能有效地学习到论元中不同长度的短语的向量表示,通过增强向量矩阵和掩码矩阵进行短语交互,能有效地建模不同论元包含的短语之间的交互,通过交互信息向量表示和全局向量表示进行分类预测,能有效地对隐式篇章关系样本进行类别预测,本实施例能够自动学习论元中短语的语义向量表示并建模语义之间的关系,无需依赖句法分析器进行隐式篇章关系识别,提高了隐式篇章关系识别的准确率,并且拓宽了方法的适用性。

附图说明

[0019] 图1是本发明第一实施例提供的基于短语交互的隐式篇章关系识别方法的流程图;
[0020] 图2是本发明第二实施例提供的基于短语交互的隐式篇章关系识别系统的结构示意图;
[0021] 图3是本发明第二实施例提供的基于短语交互的隐式篇章关系识别系统的模型训练示意图;
[0022] 图4是本发明第三实施例提供的终端设备的结构示意图。

具体实施方式

[0023] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0024] 为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。实施例一
[0025] 请参阅图1,是本发明第一实施例提供的基于短语交互的隐式篇章关系识别方法的流程图,该基于短语交互的隐式篇章关系识别方法可以应用于任一终端设备或系统,该基于短语交互的隐式篇章关系识别方法包括步骤:
[0026] 步骤S10,根据隐式篇章关系识别模型对隐式篇章关系样本中的第一样本论元和第二样本论元进行词编码,得到所述隐式篇章关系样本的全局向量表示、第一词向量矩阵和第二词向量矩阵;
[0027] 其中,第一词向量矩阵由第一样本论元中的词向量构成,第二词向量矩阵由第二样本论元中的词向量构成,隐式篇章关系识别模型中设置有基于预训练语言模型的词编码模块,该词编码模块以隐式篇章关系样本中的两个样本论元为输入,学习该隐式篇章关系样本的全局向量表示以及样本论元中的词在上下文中的向量表示,该预训练语言模型可以根据需求进行设置,例如,BERT、RoBERTa和XLNet等模型。
[0028] 可选的,该步骤中,根据隐式篇章关系识别模型对隐式篇章关系样本中的第一样本论元和第二样本论元进行词编码采用的公式包括:
[0029] 隐式篇章关系样本  ;
[0030]  ;
[0031] 其中, 为所述第一样本论元, 为所述第二样本论元,PLM为预训练语言模型, 为所述全局向量表示, 为所述第一词向量矩阵, 为所述第二词向量矩阵。两个论元按照“[CLS]+arga+[SEP]+argb+[SEP]”的形式进行格式化并用作词编码模块的输入,[CLS]和[SEP]分别为全局占位符和分割占位符,PLM通常由多个层叠的Transformer层组成。
[0032] 步骤S20,对所述第一词向量矩阵和所述第二词向量矩阵进行短语编码,得到短语向量矩阵,并在所述短语向量矩阵中融入位置信息,得到增强向量矩阵;
[0033] 其中,隐式篇章关系识别模型中还设置有基于多层CNN的短语编码模块,该短语编码模块以样本论元中的词在上下文中的向量表示为输入,学习论元中不同长度的短语的向量表示。
[0034] 本实施例中,把样本论元中相邻的 个词看作长度为 的短语,并基于多层CNN依次学习这些短语的向量表示。换句话说,以词在上下文中的向量表示为基础,首先通过一个窗口为2的CNN学习长度为2的短语的向量表示,继而学习长度为3的短语的向量表示,以此类推得到全部所需的短语的向量表示。
[0035] 可选的,该步骤中,对所述第一词向量矩阵和所述第二词向量矩阵进行短语编码采用的公式包括:
[0036]  ;
[0037] 其中,CNN为卷积神经网络, 为所述第一样本论元中长度为 的短语的向量表示构成的矩阵, , 为所述第二样本论元中长度为 的短语的向量表示构成的矩阵,N为预设的最大短语长度,一般取4或5即可达到较好的效果;
[0038]  ;
[0039] 其中, 为所述短语向量矩阵, 为所述第一样本论元中所有短语的向量表示构成的矩阵, 为所述第二样本论元中所有短语的向量表示构成的矩阵。
[0040] 进一步地,在所述短语向量矩阵中融入位置信息采用的公式包括:
[0041]  ;
[0042] 其中, 为所述增强向量矩阵, 为短语次序信息矩阵, 由可学习的位置向量 拼接而成, ,K为样本论元中短语的最大次序, 为短语所属论元的指示矩阵, 由可学习的向量 和 拼接而成, 和 分别为短语属于所述第一样本论元和所述第二样本论元的指示向量。
[0043] 需要说明的是,把样本论元中相邻的 个词看作长度为 的短语可能会引入大量的非法短语,即相邻的多个词并不能构成语言学意义上的短语。对于引入的非法短语,下述基于掩码Transformer层的短语交互模块能够自动降低它们对应的权重,因此不会对隐式篇章关系识别的性能造成实质性的影响。这样做能够消除对句法分析器的依赖,从而提高方法的适用性。
[0044] 步骤S30,根据所述增强向量矩阵和掩码矩阵进行短语交互,得到交互信息矩阵,并根据所述交互信息矩阵确定交互信息向量表示;
[0045] 其中,该隐式篇章关系识别模型中还设置有基于掩码Transformer层的短语交互模块,该短语交互模块用于显式地建模隐式篇章关系样本中不同论元包含的短语之间的交互,其以论元中所有短语的向量表示构成的矩阵为输入,输出隐式篇章关系样本的交互信息向量表示。
[0046] Transformer层可以非常方便地建模任意距离的两个输入单元之间的交互,掩码Transformer层在计算过程中额外添加一个掩码矩阵,达到只建模特定输入单元之间的交互的目的。本实施例中,使用掩码Transformer层建模不同论元中的短语之间的交互,而忽略同一论元中的短语之间的交互。
[0047] 可选的,该步骤中,根据所述增强向量矩阵和掩码矩阵进行短语交互采用的公式包括:
[0048]  ;
[0049] 其中, 为所述交互信息矩阵, 和 分别为第 个注意力机制中的查询和键, 和 为需要学习的参数矩阵,Softmax为归一化函数,T为矩阵的转置操作,M为所述掩码矩阵,其每个位置上的元素值为0或者1,0表示相应的两个短语来自同一个论元,1表示相应的两个短语来自不同的论元,为注意力机制的数量, 为给
定掩码后的权重矩阵的Transformer层, 主要包括多头注意力机制和前
向变换操作,其具体计算过程与自然语言处理中常用的Transformer层类似,唯一不同之处是使用掩码后的权重矩阵代替常规的权重矩, 为掩码后的权重矩阵。
[0050] 进一步地,根据所述交互信息矩阵确定交互信息向量表示采用的公式包括:
[0051]  ;
[0052] 其中, 为所述交互信息向量表示, 为点积型注意力机制,c为需要学习的上下文参数向量。 首先分别计算上下文参数向量c和短语交互后的交
互信息矩阵 中每一行的点积,然后对得到的点积进行归一化操作得到权重向量,最后对中每一行进行加权求和。
[0053] 步骤S40,根据所述交互信息向量表示和所述全局向量表示进行分类预测,得到预测类别概率分布,根据所述预测类别概率分布确定模型损失,并根据所述模型损失对所述隐式篇章关系识别模型进行训练;
[0054] 其中,该隐式篇章关系识别模型中还设置有基于多分类层的预测模块,该预测模块包括第一分类层、第二分类层和第三分类层,以隐式篇章关系样本的全局向量表示(基于预训练语言模型的词编码模块的输出)和交互信息向量表示(基于掩码Transformer层的短语交互模块的输出)两种信息为输入,计算得到最终预测结果(预测类别概率分布)。
[0055] 一方面,预训练语言模型中占位符[CLS]对应的向量中编码了输入的隐式篇章关系样本的全局语义信息,用作分类层的输入通常能取得较好的效果;另一方面,隐式篇章关系样本的交互信息向量表示显式地编码了不同论元中的短语对信息,非常有利于篇章关系的预测。
[0056] 可选的,该步骤中,根据所述交互信息向量表示和所述全局向量表示进行分类预测采用的公式包括:
[0057]  ;
[0058] 其中,MLP1、MLP2和MLP3分别为第一分类层、第二分类层和第三分类层,每个分类层由多个前馈非线性层叠加一个Softmax层构成, 表示向量或矩阵的拼接操作, 、 和分别为第一预测类别概率分布、第二预测类别概率分布和第三预测类别概率分布,为所述预测类别概率分布, 可以解释为输入隐式篇章关系样本关于所有类别的概率分布, 为所述全局向量表示, 为所述交互信息向量表示, 的第 个值为所述隐式篇章关系样本属于第 个类别的概率,所述预测类别概率分布包括第一预测类别概率分布、第二预测类别概率分布和第三预测类别概率分布。
[0059] 进一步地,根据所述预测类别概率分布确定模型损失采用的公式包括:
[0060]  ;
[0061] 其中, 为所述隐式篇章关系样本, 为所述隐式篇章关系样本的真实类别的独热编码表示, 为 的第 个值, 、 和 分别为所述隐式篇章关系样本的预测结果、 和 中的第 个值, 为隐式篇章关系类别的总数量,D是由多个隐式篇章关系样本及其真实类别的独热编码表示组成的训练数据集, 为所述训练数据集中的样本数量,L1、L2和L3分别为对应于第一预测类别概率分布、第二预测类别概率分布和第三预测类别概率分布的交叉熵代价函数,α、β和γ为相应代价对应的权重系数, 为多任务学习代价函数, 的输出值为所述模型损失。
[0062] 本实施例中,多任务学习代价函数用于计算隐式篇章关系识别模型的训练代价(模型损失)。训练时,通过梯度下降算法最小化训练代价,以更新隐式篇章关系识别模型的参数直止收敛,最终得到训练好的隐式篇章关系识别模型。多任务学习是一种常用的训练方法,其联合训练多个相关的任务,通过共享模型参数在不同的任务之间共享信息,以达到相互促进、共同提高的目的。在多任务学习中,多个任务的模型通常共享底层编码部分,用于学习这些任务的共同特征;同时,每个任务都拥有特定的神经网络层,用于学习与该任务相关的特征。在本发明中,把隐式篇章关系识别任务的三个不同视角看作不同但相关的任务:1)把隐式篇章关系样本的全局向量表示作为特征,使用第一分类层进行预测;2)把隐式篇章关系样本的交互信息向量表示作为特征,使用第二分类层进行预测;3)联合隐式篇章关系样本的全局向量表示和交互信息向量表示作为特征,使用第三分类层进行预测。
[0063] 步骤S50,将待识别样本输入训练后的所述隐式篇章关系识别模型进行关系识别,得到篇章关系识别结果。
[0064] 本实施例中,通过对第一样本论元和第二样本论元进行词编码,能有效地学习到隐式篇章关系样本中的全局向量表示和论元中的词在上下文中的向量表示,通过对第一词向量矩阵和第二词向量矩阵进行短语编码,能有效地学习到论元中不同长度的短语的向量表示,通过增强向量矩阵和掩码矩阵进行短语交互,能有效地建模不同论元包含的短语之间的交互,通过交互信息向量表示和全局向量表示进行分类预测,能有效地对隐式篇章关系样本进行类别预测,本实施例能够自动学习论元中短语的语义向量表示并建模语义之间的关系,无需依赖句法分析器进行隐式篇章关系识别,提高了隐式篇章关系识别的准确率,并且拓宽了方法的适用性。实施例二
[0065] 请参阅图2,是本发明第二实施例提供的基于短语交互的隐式篇章关系识别系统100的结构示意图,包括:
[0066] 词编码模块10,用于根据隐式篇章关系识别模型对隐式篇章关系样本中的第一样本论元和第二样本论元进行词编码,得到所述隐式篇章关系样本的全局向量表示、第一词向量矩阵和第二词向量矩阵,所述第一词向量矩阵由所述第一样本论元中的词向量构成,所述第二词向量矩阵由所述第二样本论元中的词向量构成。本实施例中,该词编码模块10采用基于预训练语言模型的词编码模块。
[0067] 短语编码模块11,用于对所述第一词向量矩阵和所述第二词向量矩阵进行短语编码,得到短语向量矩阵,并在所述短语向量矩阵中融入位置信息,得到增强向量矩阵。本实施例中,该短语编码模块11采用基于多层CNN的短语编码模块。
[0068] 短语交互模块12,用于根据所述增强向量矩阵和掩码矩阵进行短语交互,得到交互信息矩阵,并根据所述交互信息矩阵确定交互信息向量表示。本实施例中,该短语交互模块12采用基于掩码Transformer层的短语交互模块。
[0069] 联合预测模块13,用于根据所述交互信息向量表示和所述全局向量表示进行分类预测,得到预测类别概率分布。该联合预测模块13采用基于多分类层的联合预测模块。
[0070] 多任务学习代价函数模块14,用于根据所述预测类别概率分布确定模型损失,并根据所述模型损失对所述隐式篇章关系识别模型进行训练。
[0071] 关系识别模块15,用于将待识别样本输入训练后的所述隐式篇章关系识别模型进行关系识别,得到篇章关系识别结果。
[0072] 请参阅图3,为基于短语交互的隐式篇章关系识别系统100的模型训练示意图:
[0073] 基于预训练语言模型的词编码模块以隐式篇章关系样本中的两个论元为输入,学习该实例的全局向量表示以及论元中的词在上下文中的向量表示。
[0074] 可选的,根据隐式篇章关系识别模型对隐式篇章关系样本中的第一样本论元和第二样本论元进行词编码采用的公式包括:
[0075] 隐式篇章关系样本  ;
[0076]  ;
[0077] 其中, 为所述第一样本论元, 为所述第二样本论元,PLM为预训练语言模型, 为所述全局向量表示, 为所述第一词向量矩阵, 为所述第二词向量矩阵。两个论元按照“[CLS]+arga+[SEP]+argb+[SEP]”的形式进行格式化并用作词编码模块的输入,[CLS]和[SEP]分别为全局占位符和分割占位符,PLM通常由多个层叠的Transformer层组成。
[0078] 基于多层CNN的短语编码模块以论元中的词在上下文中的向量表示为输入,学习论元中不同长度的短语的向量表示。
[0079] 可选的,对所述第一词向量矩阵和所述第二词向量矩阵进行短语编码采用的公式包括:
[0080]  ;
[0081] 其中,CNN为卷积神经网络, 为所述第一样本论元中长度为 的短语的向量表示构成的矩阵, , 为所述第二样本论元中长度为 的短语的向量表示构成的矩阵,N为预设的最大短语长度,一般取4或5即可达到较好的效果;
[0082]  ;
[0083] 其中, 为所述短语向量矩阵, 为所述第一样本论元中所有短语的向量表示构成的矩阵, 为所述第二样本论元中所有短语的向量表示构成的矩阵。
[0084] 进一步地,在所述短语向量矩阵中融入位置信息采用的公式包括:
[0085]  ;
[0086] 其中, 为所述增强向量矩阵, 为短语次序信息矩阵, 由可学习的位置向量 拼接而成, ,K为样本论元中短语的最大次序, 为短语所属论元的指示矩阵, 由可学习的向量 和 拼接而成, 和 分别为短语属于所述第一样本论元和所述第二样本论元的指示向量。
[0087] 基于掩码Transformer层的短语交互模块用于显式地建模隐式篇章关系样本中不同论元包含的短语之间的交互,其以论元中所有短语的向量表示构成的矩阵为输入,输出隐式篇章关系样本的交互信息向量表示。
[0088] 可选的,根据所述增强向量矩阵和掩码矩阵进行短语交互采用的公式包括:
[0089]  ;
[0090] 其中, 为所述交互信息矩阵, 和 分别为第 个注意力机制中的查询和键, 和 为需要学习的参数矩阵,Softmax为归一化函数,T为矩阵的转置操作,M为所述掩码矩阵,其每个位置上的元素值为0或者1,0表示相应的两个短语来自同一个论元,1表示相应的两个短语来自不同的论元,为注意力机制的数量, 为给
定掩码后的权重矩阵的Transformer层, 主要包括多头注意力机制和前
向变换操作,其具体计算过程与自然语言处理中常用的Transformer层类似,唯一不同之处是使用掩码后的权重矩阵代替常规的权重矩, 为掩码后的权重矩阵。
[0091] 进一步地,根据所述交互信息矩阵确定交互信息向量表示采用的公式包括:
[0092]  ;
[0093] 其中, 为所述交互信息向量表示, 为点积型注意力机制,c为需要学习的上下文参数向量。 首先分别计算上下文参数向量c和短语交互后的交
互信息矩阵 中每一行的点积,然后对得到的点积进行归一化操作得到权重向量,最后对中每一行进行加权求和。
[0094] 基于多分类层的预测模块包括第一分类层、第二分类层和第三分类层,以隐式篇章关系样本的全局向量表示(基于预训练语言模型的词编码模块的输出)和交互信息向量表示(基于掩码Transformer层的短语交互模块的输出)两种信息为输入,计算得到最终预测结果。
[0095] 可选的,根据所述交互信息向量表示和所述全局向量表示进行分类预测采用的公式包括:
[0096]  ;
[0097] 其中,MLP1、MLP2和MLP3分别为第一分类层、第二分类层和第三分类层,每个分类层由多个前馈非线性层叠加一个Softmax层构成, 表示向量或矩阵的拼接操作, 、 和分别为第一预测类别概率分布、第二预测类别概率分布和第三预测类别概率分布, 为所述预测类别概率分布, 可以解释为输入隐式篇章关系样本关于所有类别的概率分布,为所述全局向量表示, 为所述交互信息向量表示, 的第 个值为所述隐式篇章关系样本属于第 个类别的概率,所述预测类别概率分布包括第一预测类别概率分布、第二预测类别概率分布和第三预测类别概率分布。
[0098] 多任务学习代价函数用于计算模型的训练代价。训练时,通过梯度下降算法最小化训练代价,以更新模型的参数直止收敛,最终得到训练好的隐式篇章关系识别模型。
[0099] 可选的,根据所述预测类别概率分布确定模型损失采用的公式包括:
[0100]  ;
[0101] 其中, 为所述隐式篇章关系样本, 为所述隐式篇章关系样本的真实类别的独热编码表示, 为 的第 个值, 、 和 分别为所述隐式篇章关系样本的预测结果 、 和 中的第 个值, 为隐式篇章关系类别的总数量,D是由多个隐式篇章关系样本及其真实类别的独热编码表示组成的训练数据集, 为所述训练数据集中的样本数量,L1、L2和L3分别为对应于第一预测类别概率分布、第二预测类别概率分布和第三预测类别概率分布的交叉熵代价函数,α、β和γ为相应代价对应的权重系数, 为多任务学习代价函数, 的输出值为所述模型损失。
[0102] 本实施例中,通过对第一样本论元和第二样本论元进行词编码,能有效地学习到隐式篇章关系样本中的全局向量表示和论元中的词在上下文中的向量表示,通过对第一词向量矩阵和第二词向量矩阵进行短语编码,能有效地学习到论元中不同长度的短语的向量表示,通过增强向量矩阵和掩码矩阵进行短语交互,能有效地建模不同论元包含的短语之间的交互,通过交互信息向量表示和全局向量表示进行分类预测,能有效地对隐式篇章关系样本进行类别预测,本实施例能够自动学习论元中短语的语义向量表示并建模语义之间的关系,无需依赖句法分析器进行隐式篇章关系识别,提高了隐式篇章关系识别的准确率,并且拓宽了方法的适用性。实施例三
[0103] 图4是本申请第三实施例提供的一种终端设备2的结构框图。如图4所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如基于短语交互的隐式篇章关系识别方法的程序。处理器20执行所述计算机程序22时实现上述各个基于短语交互的隐式篇章关系识别方法各实施例中的步骤。
[0104] 示例性的,所述计算机程序22可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。所述终端设备可包括,但不仅限于,处理器20、存储器21。
[0105] 所称处理器20可以是中央处理单元(Central Processing Unit,CPU)+图形处理器(Graphic Processing Unit,GPU)的处理单元,还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field‑Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0106] 所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
[0107] 另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0108] 集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。其中,计算机可读存储介质可以是非易失性的,也可以是易失性的。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
[0109] 以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。