基于情感分析的文本语句处理方法、装置以及设备转让专利

申请号 : CN202210595568.7

文献号 : CN114676695B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 熊浩良薛云燕泽昊庞士冠卢国钧

申请人 : 华南师范大学

摘要 :

本发明涉及情感分析领域,特别涉及一种基于情感分析的文本语句处理方法、装置、设备以及存储介质,基于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息,构建词嵌入模型的损失函数,并进行训练,提高了词嵌入模型进行四元组表示抽取任务的准确率以及适用率,从而更加精确地对文本语句的情感进行分析。

权利要求 :

1.一种基于情感分析的文本语句处理方法,其特征在于,包括以下步骤:

获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息;

获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列;

将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值;

基于所述样本语句的四元组标签序列,构建与所述样本语句对应的若干组正例查询语句序列以及对应的若干组负例查询语句序列;

将所述若干组正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,获取所述若干组正例查询语句序列对应的样本查询语句序列,根据所述样本正例查询语句序列,获取所述词嵌入模型输出的第二损失值;

将所述样本语句对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述若干组四元组表示对应的真实标签值,将所述若干组四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值;

根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型;

获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。

2.根据权利要求1所述的基于情感分析的文本语句处理方法,其特征在于:所述样本语句包括若干个单词,所述单词包括方面词以及观点词,所述四元组标签信息包括与所述样本语句相关联的特定词以及标记词,所述特定词包括特定方面词以及特定观点词,标记词包括方面词种类以及情感极性。

3.根据权利要求2所述的基于情感分析的文本语句处理方法,其特征在于,所述根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列,包括步骤:对于每一组四元组标签信息,根据所述特定词在所述样本语句的初始句子序列上的位置索引,获取特定词索引向量,其中,所述特定词索引信息包括方面词索引向量以及观点词索引向量;

根据所述标记词在预设的映射表上的相应列表的索引,获取标记词索引向量,其中,所述标记词索引向量包括方面词种类索引向量以及情感极性索引向量;

将所述特定词索引向量以及标记词索引向量进行组合,获取各组四元组标签信息对应的四元组标签表示,将所述各组四元组标签表示进行组合,构建所述样本语句的四元组标签序列。

4.根据权利要求3所述的基于情感分析的文本语句处理方法,其特征在于,所述将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值,包括步骤:获取所述样本语句的初始句子序列对应的词嵌入表示,将所述词嵌入表示进行编码处理,获取所述样本语句的多维句子序列;

确定所述四元组标签序列的各个四元组标签表示的对应的目标词,获取所述各个四元组标签表示对应的目标词的索引向量,进行组合,构建所述四元组标签序列对应的目标标签序列,并获取所述目标标签序列对应的词嵌入表示,其中,所述目标标签序列对应的词嵌入表示包括目标词为方面词种类对应的词嵌入表示以及目标词为情感极性对应的词嵌入表示;

根据所述样本语句的多维句子序列以及四元组标签序列对应的目标标签序列,获取所述样本语句的状态表示;

根据所述样本语句的词嵌入表示、多维句子序列、多维状态表示、所述目标标签序列对应的词嵌入表示以及预设的第一损失值计算算法,获取所述第一损失值,其中,所述第一损失值计算算法为:式中, 为所述样本语句的多维句子序列; 为 经所述词嵌入模型的线性层的输出; 为所述样本语句的词嵌入表示; 为所述线性层的权重矩阵; 为概率分布; 为所述目标词为方面词种类对应的词嵌入表示; 为所述目标词为情感极性对应的词嵌入表示; 为所述样本语句的状态表示; 为所述第一损失值;m为所述目标标签序列的长度, 为所述四元组标签序列的索引向量,X为所述样本语句的初始句子序列,t为时间步进, 为归一化函数。

5.根据权利要求4所述的基于情感分析的文本语句处理方法,其特征在于,所述构建与所述样本语句对应的若干组正例查询语句序列以及对应的若干组负例查询语句序列,包括步骤:结合预设的上下文信息,以及所述四元组标签序列中的各个四元组标签表示对应的目标词的索引向量,构建所述样本语句的若干个正例语句表示;

获取任意一个所述样本语句的单词对应的索引向量,对所述正例语句表示中的目标词的索引向量进行替换,构建对应的若干组负例语句表示;

将所述样本语句的初始句子序列分别与每个正例语句表示、负例语句表示进行组合,获取若干组正例查询语句序列以及负例查询语句序列。

6.根据权利要求5所述的基于情感分析的文本语句处理方法,其特征在于,所述根据所述样本正例查询语句序列,获取所述词嵌入模型输出的第二损失值,包括步骤:根据预设的训练批次,将所述样本正例查询语句序列划分为若干个样本正例查询语句序列训练集,其中,所述样本正例查询语句序列训练集包括若干组样本正例查询语句序列;

根据所述若干个样本正例查询语句序列训练集以及预设的第二损失值计算算法,获取各个样本正例查询语句序列训练集对应的第二损失值,将所述各个样本正例查询语句序列训练集对应的第二损失值进行累加,作为所述词嵌入模型输出的第二损失值,其中,所述第二损失值计算算法为:式中, 为当前样本正例查询语句序列训练集中索引为j的样本正例查询语句序列和索引为c的样本正例查询语句序列之间的第二损失值,h为样本正例查询语句序列,j、k、c为所述样本正例查询语句序列的第一索引参数、第二索引参数以及第三索引参数, 为与属于同种类型的样本正例查询语句序列, 为全部样本正例查询语句序列;若 ,,反之 ;为温度参数; 为内积函数;N为 与 相同类型的样本正例查询语句序列的数目, 表示 与 的类型相同的样本正例查询语句序列的数目,B为训练批次。

7.根据权利要求6所述的基于情感分析的文本语句处理方法,其特征在于,所述将所述若干组四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值,包括步骤:根据所述四元组表示以及预设的预测标签值计算算法,获取各个四元组表示对应的预测标签值,其中,所述预测标签值计算算法为:式中,为所述预测标签值,W为所述全连接网络的权重参数, 为所述四元组表示,,其中, 为所述正例查询语句序列, 为所述负例查询语句序列,b为所述全连接网络的偏置参数;

根据所述训练批次,将所述四元组表示划分为若干个四元组表示训练集,其中,所述四元组表示训练集包括若干组四元组表示;

根据所述若干个四元组表示训练集中各个四元组表示对应的预测标签值、真实标签值以及预设的第三损失值计算算法,获取各个四元组表示训练集对应的第三损失值,将所述各个四元组表示训练集对应的第三损失值进行累加,作为所述全连接网络输出的第三损失值,其中,所述第三损失值计算算法为:式中, 为当前四元组表示训练集的第三损失值, 为当前四元组表示训练集中第q个四元组表示对应的属于p类别的真实标签值,其中,p类别包括正例类别以及负例类别,用于区分所述四元组表示属于正例表示还是负例表示; 为当前四元组表示训练集中第q个四元组表示对应的属于p类别的预测标签值。

8.一种基于情感分析的文本语句处理装置,其特征在于,包括:

第一获取模块,用于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息;

第二获取模块,用于获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列;

第一损失值计算模块,用于将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值;

查询语句构建模块,用于基于所述样本语句的四元组标签序列,构建所述样本语句的若干组正例查询语句序列以及对应的若干组负例查询语句序列;

第二损失值计算模块,用于将所述若干组正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,获取所述若干组正例查询语句序列对应的样本查询语句序列,根据所述样本正例查询语句序列,获取所述词嵌入模型输出的第二损失值;

第三损失值计算模块,用于将所述样本语句对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述若干组四元组表示对应的真实标签值,将所述若干组四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值;

训练模块,用于根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型;

分析模块,用于获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。

9.一种计算机设备,其特征在于,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如权利要求

1至7中任一项所述的基于情感分析的文本语句处理方法的步骤。

10.一种存储介质,其特征在于:所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于情感分析的文本语句处理方法的步骤。

说明书 :

基于情感分析的文本语句处理方法、装置以及设备

技术领域

[0001] 本发明涉及情感分析领域,特别涉及是一种基于情感分析的文本语句处理方法、装置、设备以及存储介质。

背景技术

[0002] 作为一项细粒度的情感分析任务,基于方面级的情感分析目前已受到广泛的关注。任务的核心主要是给定包含方面词的句子,抽取其中的方面词、观点词以及相应的情感极性,以精确识别其中的情绪信息。
[0003] 然而,现有的技术方案是单独获取每一个候选词对的方面词类别以及情感极性进行分析,获取相应的分析数据,若其中任意一种分析数据出现误差时,在识别情绪信息时会便会放大其误差,导致识别情绪信息结果不准确,效率低下。

发明内容

[0004] 基于此,本发明的目的在于,提供一种基于情感分析的文本语句处理方法、装置、设备以及存储介质,基于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息,构建词嵌入模型的损失函数,并进行训练,提高了词嵌入模型进行四元组表示抽取任务的准确率以及适用率,从而更加精确地对文本语句的情感进行分析。
[0005] 第一方面,本申请实施例提供了一种基于情感分析的文本语句处理方法,包括以下步骤:
[0006] 获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息;
[0007] 获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列;
[0008] 将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值;
[0009] 基于所述样本语句的四元组标签序列,构建所述样本语句的若干组正例查询语句序列以及对应的若干组负例查询语句序列;
[0010] 将所述若干组正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,获取所述若干组正例查询语句序列对应的样本查询语句序列,根据所述样本正例查询语句序列,获取所述词嵌入模型输出的第二损失值;
[0011] 将所述样本语句对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述若干组四元组表示对应的真实标签值,将所述若干组四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值;
[0012] 根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型;
[0013] 获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。
[0014] 第二方面,本申请实施例提供了一种基于情感分析的文本语句处理装置,包括:
[0015] 第一获取模块,用于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息;
[0016] 第二获取模块,用于获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列;
[0017] 第一损失值计算模块,用于将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值;
[0018] 查询语句构建模块,用于基于所述样本语句的四元组标签序列,构建所述样本语句的若干组正例查询语句序列以及对应的若干组负例查询语句序列;
[0019] 第二损失值计算模块,用于将所述若干组正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,获取所述若干组正例查询语句序列对应的样本查询语句序列,根据所述样本正例查询语句序列,获取所述词嵌入模型输出的第二损失值;
[0020] 第三损失值计算模块,用于将所述样本语句对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述若干组四元组表示对应的真实标签值,将所述若干组四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值;
[0021] 训练模块,用于根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型;
[0022] 分析模块,用于获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。
[0023] 第三方面,本申请实施例提供了一种计算机设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如第一方面所述基于情感分析的文本语句处理方法的步骤。
[0024] 第四方面,本申请实施例提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于情感分析的文本语句处理方法的步骤。
[0025] 在本申请实施例中,提供一种基于情感分析的文本语句处理方法、装置、设备以及存储介质,基于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息,构建词嵌入模型的损失函数,并进行训练,提高了词嵌入模型进行四元组表示抽取任务的准确率以及适用率,从而更加精确地对文本语句的情感进行分析。
[0026] 为了更好地理解和实施,下面结合附图详细说明本发明。

附图说明

[0027] 图1为本申请一个实施例提供的基于情感分析的文本语句处理方法的流程示意图;
[0028] 图2为本申请一个实施例提供的基于情感分析的文本语句处理方法中S2的流程示意图;
[0029] 图3为本申请一个实施例提供的基于情感分析的文本语句处理方法中S3的流程示意图;
[0030] 图4为本申请一个实施例提供的基于情感分析的文本语句处理方法中S4的流程示意图;
[0031] 图5为本申请一个实施例提供的基于情感分析的文本语句处理方法中S5的流程示意图;
[0032] 图6为本申请一个实施例提供的基于情感分析的文本语句处理方法中S6的流程示意图;
[0033] 图7为本申请一个实施例提供的基于情感分析的文本语句处理装置的结构示意图;
[0034] 图8为本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

[0035] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是本申请的一些方面相一致的装置和方法的例子。
[0036] 在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0037] 应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
[0038] 请参阅图1,图1为本申请一个实施例提供的基于情感分析的文本语句处理方法的流程示意图,所述方法包括如下步骤:
[0039] S1:获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息。
[0040] 所述基于情感分析的文本语句处理方法的执行主体为基于情感分析的文本语句处理方法的分析设备(以下简称分析设备),在一个可选的实施例中,所述分析设备可以是一台计算机设备可以是服务器,或是多台计算机设备联合而成的服务器机群。
[0041] 所述样本语句包括若干个单词,所述单词为句子中所描述的某一实体,可以是名词、形容词等等,所述单词包括方面词以及观点词;
[0042] 所述四元组标签信息包括与所述样本语句相关联的特定词以及标记词,所述特定词包括特定方面词以及特定观点词,标记词包括方面词种类以及情感极性;
[0043] 在本实施例中,分析设备可以获取用户输入的样本语句以及与所述样本语句的相关联的若干组四元组标签信息,也可以在预设的数据库中,获取与所述样本语句的相关联的若干组四元组标签信息。
[0044] S2:获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列。
[0045] 所述样本语句的初始句子序列为:
[0046]
[0047] 式中,X为所述样本语句的初始句子序列, 为所述样本语句中的词对应的初始向量;
[0048] 在本实施例中,分析设备获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列。
[0049] 请参阅图2,图2为本申请一个实施例提供的基于情感分析的文本语句处理方法中S2的流程示意图,包括步骤S201 S203,具体如下:~
[0050] S201:对于每一组四元组标签信息,根据所述特定词在所述样本语句的初始句子序列上的位置索引,获取特定词索引向量。
[0051] 所述特定词索引信息包括方面词索引向量以及观点词索引向量,其中,所述方面词索引向量以及观点词索引向量均包括相应的起点索引向量以及终点索引向量;
[0052] 在本实施例中,对于每一组四元组标签信息,分析设备根据所述四元组标签信息中的特定方面词,获取所述样本语句的初始句子序列中与所述特定方面词相同的方面词的位置,从而获取所述特定方面词在所述样本语句的初始句子序列上的位置索引,即获取所述方面词索引向量;
[0053] 根据所述四元组标签信息中的特定观点词,获取所述样本语句的初始句子序列中与所述特定观点词相同的观点词的位置,从而获取所述特定观点词在所述样本语句的初始句子序列上的位置索引,即获取所述观点词索引向量。
[0054] S202:根据所述标记词在预设的映射表上的相应列表的索引,获取标记词索引向量。
[0055] 所述标记词索引向量包括方面词种类索引向量以及情感极性索引向量;
[0056] 所述映射表如下所示:
[0057]
[0058] 其中,T为所述映射表,n为所述初始句子序列X的长度。 为所述标记词在相应列表的索引,其中,所述列表包括长度为o的特定方面词类别列表 以及预设长度为l的情感极性列表 ,特定方面词类别列表C中每一个元素代表一种特定方面词类别,情感极性列表S中每一个元素代表一种情感极性,如消极、中性、积极;
[0059] 在本实施例中,对于每一组四元组标签信息,分析设备根据所述四元组标签信息中的方面词种类,获取在所述映射表的特定方面词类别列表C中,与所述方面词种类相同的元素的位置,从而获取所述方面词种类在所述映射表的特定方面词类别列表C上的位置索引,即获取所述方面词种类索引向量;
[0060] 根据所述四元组标签信息中的情感极性,获取在所述映射表的情感极性列表S中,与所述情感极性相同的元素的位置,从而获取所述情感极性在所述映射表的情感极性列表S上的位置索引,即获取所述情感极性索引向量。
[0061] S203:将所述特定词索引向量以及标记词索引向量进行组合,获取各组四元组标签信息对应的四元组标签表示,将所述各组四元组标签表示进行组合,构建所述样本语句的四元组标签序列。
[0062] 在本实施例中,分析设备同一组四元组标签信息对应的特定词索引向量以及标记词索引向量进行组合,获取各组四元组标签信息对应的四元组标签表示,将所述各组四元组标签表示进行编码组合,构建所述样本语句的四元组标签序列,实现了对四元组标签信息的初始化,其中,所述四元组标签表示为:
[0063]
[0064] 式中, 为所述第i个四元组标签表示, 为所述方面词索引向量的起点索引向量, 为所述方面词索引向量的终点索引向量, 为所述观点词索引向量的起点索引向量, 为所述观点词索引向量的终点索引向量, 为所述方面词种类索引向量, 为所述情感极性索引向量;
[0065] 所述四元组标签序列为:
[0066]
[0067] 式中,Y为所述四元组标签序列。
[0068] S3:将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值。
[0069] 所述词嵌入模型可以采用BART(Bidirectional and Auto‑Regressive Transformers)模型,所述BART模型包括嵌入层以及隐藏层,所述嵌入层用于进行词表示转换,所述BART模型还包括分类模块以及监督对比模块,所述分类模块以及监督对比模块均包括编码器以及解码器,所述分类模块以及监督对比模块共享权重;
[0070] 在本实施例中,分析设备将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型的分类模块输出的第一损失值。
[0071] 请参阅图3,图3为本申请一个实施例提供的基于情感分析的文本语句处理方法中S3的流程示意图,包括步骤S301 S304,具体如下:~
[0072] S301:获取所述样本语句的初始句子序列对应的词嵌入表示,将所述词嵌入表示进行编码处理,获取所述样本语句的多维句子序列。
[0073] 在本实施例中,分析设备将所述样本语句的初始句子序列输入至所述词嵌入模型的嵌入层中进行词表示的转换,获取所述词嵌入表示 ,将所述词嵌入表示 送入至所述分类模块的编码器中进行编码,获取d维的所述样本语句的多维句子序列,具体如下:
[0074]
[0075] 式中, 为所述样本语句的多维句子序列, 为所述样本语句的词对应的多维向量。
[0076] S302:确定所述四元组标签序列的各个四元组标签表示的对应的目标词,获取所述各个四元组标签表示对应的目标词的索引向量,进行组合,构建所述四元组标签序列对应的目标标签序列,并获取所述目标标签序列对应的词嵌入表示。
[0077] 在本实施例中,分析设备需要对编码后的四元组标签序列进行解码和输出。具体的,对解码过程的第t个时间步,需要将所述四元组标签序列Y中第t个位置的特定词或标记词作为输入,因此需要将所述四元组标签序列Y中的每一组四元组标签 逆转换为其对应的特定词或标记词,具体如下:
[0078] 获取所述四元组标签序列的索引向量 ,即所述四元组标签表示 在所述四元组标签序列上的位置索引;
[0079] 若 小于或者等于所述样本语句的初始句子序列的长度n,则将所述四元组标签表示对应的目标词设置为特定词,获取所述四元组标签表示对应的特定词的位置索引,即特定词索引向量;若 大于所述样本语句的初始句子序列的长度n,则将所述四元组标签表示对应的目标词设置为标记词,获取所述四元组标签表示对应的标记词的位置索引,即标记词索引向量;
[0080] 获取所述各个四元组标签表示对应的目标词的索引向量,进行组合,构建所述四元组标签序列对应的目标标签序列,其中,所述目标标签序列为:
[0081]
[0082] 式中,所述 为目标标签序列, 为前t‑1个时刻的目标词的索引向量;
[0083] 并获取所述目标标签序列对应的词嵌入表示,其中,所述目标标签序列对应的词嵌入表示包括目标词为方面词种类对应的词嵌入表示 以及目标词为情感极性对应的词嵌入表示 。
[0084] S303:根据所述样本语句的多维句子序列以及四元组标签序列对应的目标标签序列,获取所述样本语句的状态表示。
[0085] 在本实施例中,分析设备将所述样本语句的多维句子序列及四元组标签序列对应的目标标签序列输入至所述分类模块的解码器中,获取所述分类模块的解码器的隐藏层输出的,在t时间步的d维的样本语句的状态表示 。
[0086] S304:根据所述样本语句的词嵌入表示、多维句子序列、多维状态表示、所述目标标签序列对应的词嵌入表示以及预设的第一损失值计算算法,获取所述第一损失值。
[0087] 所述第一损失值计算算法包括以下公式,具体为:
[0088]
[0089] 式中, 为所述样本语句的多维句子序列; 为 经所述词嵌入模型的线性层的输出; 为所述样本语句的词嵌入表示; 为所述线性层的权重矩阵; 为概率分布;为所述目标词为方面词种类对应的词嵌入表示; 为所述目标词为情感极性对应的词嵌入表示; 为所述样本语句的状态表示; 为所述第一损失值;m为所述目标标签序列的长度, 为所述四元组标签序列的索引向量,X为所述样本语句的初始句子序列,t为时间步进, 为归一化函数。
[0090] 在本实施例中,分析设备将所述样本语句的词嵌入表示以及多维句子序列输入至所述词嵌入模型的线性层中,获取所述线性层输出的参数 ,将所述 、目标词为方面词种类对应的词嵌入表示 、目标词为情感极性对应的词嵌入表示 、状态表示 输入至所述归一化函数 中,获取与所述样本语句、方面词类别以及情感极性的索引相关联的概率分布,根据所述第一损失值计算算法中相应的公式,获取所述第一损失值。
[0091] S4:基于所述样本语句的四元组标签序列,构建与所述样本语句对应的若干组正例查询语句序列以及对应的若干组负例查询语句序列。
[0092] 所述正例查询语句序列为基于所述样本语句的四元组标签序列转换得到的包含正确四元组标签的语句序列;
[0093] 所述负例查询语句序列为基于所述正确四元组标签转换得到的包含错误四元组标签的语句序列。
[0094] 在本实施例中,分析设备基于所述样本语句的四元组标签序列,构建与所述样本语句对应的若干组正例查询语句序列以及对应的若干组负例查询语句序列。
[0095] 请参阅图4,图4为本申请一个实施例提供的基于情感分析的文本语句处理方法中S4的流程示意图,包括步骤S401 S403,具体如下:~
[0096] S401:结合预设的上下文信息,以及所述四元组标签序列中的各个四元组标签表示对应的目标词的索引向量,构建所述样本语句的若干个正例语句表示。
[0097] 在本实施例中,分析设备将获取到的所述四元组标签序列中的各个四元组标签表示对应的目标词的索引向量,与预设的上下文信息进行组合,构建所述样本语句的若干个正例语句表示 ,如下所示:
[0098]
[0099] 式中, 表示所述上下文信息, 代表所述四元组标签表示对应的目标词的索引,可以是 、 、 、 、 以及 。
[0100] S402:获取任意一个所述样本语句的单词对应的索引向量,对所述正例语句表示中的目标词的索引向量进行替换,构建对应的若干组负例语句表示。
[0101] 在本实施例中,分析设备将获取到的任意一个所述样本语句的单词对应的索引向量,对所述正例语句表示中的目标词的索引向量进行替换,构建对应的若干组负例语句表示 ,如下所示:
[0102]
[0103] 式中, 为所述样本语句的一个单词对应的索引向量。
[0104] S403:将所述样本语句的初始句子序列分别与每个正例语句表示、负例语句表示进行组合,获取若干组正例查询语句序列以及负例查询语句序列。
[0105] 在本实施例中,分析设备将所述样本语句的初始句子序列分别与每个正例语句、负例语句表示进行组合,获取若干组正例查询语句序列以及负例查询语句序列。
[0106] 具体的,本发明将初始句子序列X分别与每个正例语句表示 或负例语句表示连接为相应的查询语句序列:" ",其中 和 分别代表解码器的分割标记。
[0107] 然后将所述查询语句序列经所述词嵌入模型的嵌入层转换成相应的词表示后,送入所述词嵌入模型的监督对比模块中的编码器和解码器中,获取若干组正例查询语句序列以及负例查询语句序列 。
[0108] S5:将所述若干组正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,获取所述若干组正例查询语句序列对应的样本查询语句序列,根据所述样本正例查询语句序列,获取所述词嵌入模型输出的第二损失值。
[0109] 在所述样本语句中,方面词与观点词之间的组合可能包括不同的显式或隐式情感,因此,在本实施例中,分析设备将所述若干组正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,其中,所述类型包括显式方面词&显式观点词、隐式方面词&显式观点词、显式方面词&隐式观点词和隐式方面词&隐式观点词。
[0110] 在本实施例中,分析设备将所述正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,获取所述若干组正例查询语句序列对应的样本查询语句序列,将所述样本正例查询语句序列输入至所述词嵌入模型的监督对比模块中,获取所述词嵌入模型的监督对比模块输出的第二损失值。
[0111] 请参阅图5,图5为本申请一个实施例提供的基于情感分析的文本语句处理方法中S5的流程示意图,还包括步骤S501 S502,具体如下:~
[0112] S501:根据预设的训练批次,将所述样本正例查询语句序列划分为若干个样本正例查询语句序列训练集。
[0113] 在本实施例中,为了提高运算效率,分析设备根据预设的训练批次,将所述样本正例查询语句序列划分为若干个样本正例查询语句序列训练集,其中,所述样本正例查询语句序列训练集包括若干组样本正例查询语句序列。
[0114] S502:根据所述若干个样本正例查询语句序列训练集以及预设的第二损失值计算算法,获取所述各个样本正例查询语句序列训练集对应的第二损失值,将所述各个样本正例查询语句序列训练集对应的第二损失值进行累加,作为所述词嵌入模型输出的第二损失值。
[0115] 所述第二损失值计算算法为:
[0116]
[0117] 式中, 为当前样本正例查询语句序列训练集中索引为j的样本正例查询语句序列和索引为c的样本正例查询语句序列之间的第二损失值,h为样本正例查询语句序列,j、k、c为所述样本正例查询语句序列的第一索引参数、第二索引参数以及第三索引参数, 为与 属于同种类型的样本正例查询语句序列, 为全部样本正例查询语句序列;若, ,反之 ;为温度参数; 为内积函数;N为 与 相同类型的样本正例查询语句序列的数目, 表示 与 的类型相同的样本正例查询语句序列的数目,B为训练批次。
[0118] 在本实施例中,分析设备根据所述若干个样本正例查询语句序列训练集,将所述样本正例查询语句序列训练集对应的样本正例查询语句序列输入至所述词嵌入模型的监督对比模块中,根据所述第二损失值计算算法,通过拉近所述正例查询语句序列之间的距离,从而拉远负例查询语句序列之间的距离,强化所述方面词及观点词显式存在或者隐式存在的特征表示,计算对比损失,获取所述各个样本正例查询语句序列训练集对应的第二损失值,将所述各个样本正例查询语句序列训练集对应的第二损失值进行累加,作为所述词嵌入模型输出的第二损失值。
[0119] S6:将所述样本语句对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述若干组四元组表示对应的真实标签值,将所述若干组四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值。
[0120] 由于所述正例查询语句序列以及负例查询语句序列可能与所述上下文信息不相关,在本实施例中,分析设备将所述样本语句对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示 , ;
[0121] 获取标签训练集,其中,所述标签训练集包括所述若干组四元组表示对应的真实标签值,并将所述若干组四元组表示以及标签训练集输入至预设的全连接网络中,进行二分类任务的判别,实现判断相应的表示属于正例查询语句还是属于负例查询语句,最终得到二分类任务的结果,计算回顾学习损失,作为所述全连接网络输出的第三损失值。
[0122] 请参阅图6,图6为本申请一个实施例提供的基于情感分析的文本语句处理方法中S6的流程示意图,包括步骤S601 S603,具体如下:~
[0123] S601:根据所述四元组表示以及预设的预测标签值计算算法,获取所述各个四元组表示对应的预测标签值。
[0124] 所述预测标签值计算算法为:
[0125]
[0126] 式中,为所述预测标签值,W为所述全连接网络的权重参数, 为所述四元组表示, ,其中, 为所述正例查询语句序列, 为所述负例查询语句序列,b为所述全连接网络的偏置参数;
[0127] 在本实施例中,分析设备根据所述四元组表示以及预设的预测标签值计算算法,获取所述各个四元组表示对应的预测标签值。
[0128] S602:根据所述训练批次,将所述四元组表示划分为若干个四元组表示训练集。
[0129] 所述四元组表示训练集包括若干组四元组表示。
[0130] 为了提高训练效率,在本实施例中,分析设备根据所述训练批次,将所述四元组表示划分为若干个四元组表示训练集。
[0131] S603:根据所述若干个四元组表示训练集中各个四元组表示对应的预测标签值、真实标签值以及预设的第三损失值计算算法,获取所述各个四元组表示训练集对应的第三损失值,将所述各个四元组表示训练集对应的第三损失值进行累加,作为所述全连接网络输出的第三损失值。
[0132] 所述第三损失值计算算法为:
[0133]
[0134] 式中, 为当前四元组表示训练集的第三损失值, 为当前四元组表示训练集中第q个四元组表示对应的属于p类别的真实标签值,其中,p类别包括正例类别以及负例类别,用于区分所述四元组表示属于正例表示还是负例表示; 为当前四元组表示训练集中第q个四元组表示对应的属于p类别的预测标签值。
[0135] 在本实施例中,分析设备根据所述若干个四元组表示训练集中各个四元组表示对应的预测标签值、真实标签值以及预设的第三损失值计算算法,将所述四元组表示的预测标签值分别与正例类别以及负例类别对应的四元组表示的真实标签值进行对比,实现判断相应的四元组表示属于正例还是属于负例,最终得到二分类任务的结果并计算回顾学习损失,作为所述各个四元组表示训练集对应的第三损失值,将所述各个四元组表示训练集对应的第三损失值进行累加,作为所述全连接网络输出的第三损失值。
[0136] S7:根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型。
[0137] 在本实施例中,分析设备根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,具体如下:
[0138]
[0139] 式中, 为所述损失函数, 以及 分别为第一超参数以及第二超参数,代表相应损失的权重值。
[0140] 重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型。
[0141] S8:获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。
[0142] 在本实施例中,分析设备获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句对应的概率分布 ,根据所述概率分布 以及预设的情感分析阈值,获取所述待测样本语句的情感分析结果,其中,所述情感分析结果包括积极结果、中性结果以及消极结果。
[0143] 请参考图7,图7为本申请一个实施例提供的基于情感分析的文本语句处理装置的结构示意图,该装置可以通过软件、硬件或两者的结合实现基于情感分析的文本语句处理装置的全部或一部分,该装置7包括:
[0144] 第一获取模块71,用于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息;
[0145] 第二获取模块72,用于获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列;
[0146] 第一损失值计算模块73,用于将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值;
[0147] 查询语句构建模块74,用于基于所述样本语句的四元组标签序列,构建与所述样本语句对应的若干组正例查询语句序列以及对应的若干组负例查询语句序列;
[0148] 第二损失值计算模块75,用于将所述若干组正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,获取所述若干组正例查询语句序列对应的样本查询语句序列,根据所述样本正例查询语句序列,获取所述词嵌入模型输出的第二损失值;
[0149] 第三损失值计算模块76,用于将所述样本语句对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述若干组四元组表示对应的真实标签值,将所述若干组四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值;
[0150] 训练模块77,用于根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型;
[0151] 分析模块78,用于获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。
[0152] 在本实施例中,通过第一获取模块,获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息;通过第二获取模块,获取样本语句的初始句子序列,根据所述样本语句的初始句子序列以及四元组标签信息,构建所述样本语句的四元组标签序列;通过第一损失值计算模块,将所述样本语句的初始句子序列以及四元组标签序列输入至预设的词嵌入模型,获取所述词嵌入模型输出的第一损失值;通过查询语句构建模块,用于基于所述样本语句的四元组标签序列,构建与所述样本语句对应的若干组正例查询语句序列以及对应的若干组负例查询语句序列;通过第二损失值计算模块,用于将所述若干组正例查询语句序列划分为若干个类型对应的样本正例查询语句序列,获取所述若干组正例查询语句序列对应的样本查询语句序列,根据所述样本正例查询语句序列,获取所述词嵌入模型输出的第二损失值;通过第三损失值计算模块,将所述样本语句对应的正例查询语句序列以及负例查询语句序列进行拼接,获取若干组四元组表示,获取标签训练集,所述标签训练集包括所述若干组四元组表示对应的真实标签值,将所述若干组四元组表示以及标签训练集输入至预设的全连接网络中,获取所述全连接网络输出的第三损失值;通过训练模块,根据所述第一损失值、第二损失值以及第三损失值,构建所述词嵌入模型的损失函数,重复将所述样本语句的初始句子序列以及四元组标签序列输入至所述词嵌入模型的词嵌入模型中,进行迭代训练,直到满足训练停止条件,获取训练好的词嵌入模型;通过分析模块,获取待测样本语句,将所述待测样本语句输入至所述训练好的词嵌入模型,获取所述训练好的词嵌入模型输出的所述待测样本语句的情感分析结果。基于获取样本语句以及与所述样本语句的相关联的若干组四元组标签信息,构建词嵌入模型的损失函数,并进行训练,提高了词嵌入模型进行四元组表示抽取任务的准确率以及适用率,从而更加精确地对文本语句的情感进行分析。
[0153] 请参考图8,图8为本申请一个实施例提供的计算机设备的结构示意图,计算机设备7包括:处理器81、存储器82以及存储在存储器82上并可在处理器81上运行的计算机程序83;计算机设备可以存储有多条指令,指令适用于由处理器81加载并执行上述实施例一至实施例四的方法步骤,具体执行过程可以参见实施例一至实施例四的具体说明,在此不进行赘述。
[0154] 其中,处理器81可以包括一个或多个处理核心。处理器81利用各种接口和线路连接服务器内的各个部分,通过运行或执行存储在存储器82内的指令、程序、代码集或指令集,以及调用存储器82内的数据,执行基于情感分析的文本语句处理装置7的各种功能和处理数据,可选的,处理器81可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field‑Programmable Gate Array,FPGA)、可编程逻辑阵列(Programble Logic Array,PLA)中的至少一个硬件形式来实现。处理器81可集成中央处理器81(Central Processing Unit,CPU)、图像处理器81(Graphics Processing Unit,GPU)和调制解调器等中的一个或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器81中,单独通过一块芯片进行实现。
[0155] 其中,存储器82可以包括随机存储器82(Random Access Memory,RAM),也可以包括只读存储器82(Read‑Only Memory)。可选的,该存储器82包括非瞬时性计算机可读介质(non‑transitory computer‑readable storage medium)。存储器82可用于存储指令、程序、代码、代码集或指令集。存储器82可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器82可选的还可以是至少一个位于远离前述处理器81的存储装置。
[0156] 本申请实施例还提供了一种存储介质,所述存储介质可以存储有多条指令,所述指令适用于由处理器加载并执行上述实施例一至实施例四的方法步骤,具体执行过程可以参见实施例一至实施例四的具体说明,在此不进行赘述。
[0157] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0158] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0159] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束算法。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0160] 在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0161] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0162] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0163] 所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
[0164] 本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。