一种基于多模态对话内容联合建模的情感分析方法及系统转让专利

申请号 : CN202310000559.3

文献号 : CN115690553B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 帖千枫徐向民邢晓芬陈艺荣韩文静

申请人 : 华南理工大学

摘要 :

本发明公开了一种基于多模态对话内容联合建模的情感分析方法及系统,涉及机器智能技术。由于传统的情感分析方法不能较为完整地从多模态对话中捕捉到各模态之间的依赖以及对话中上下文和说话人之间的依赖关系进行情感分析,为此提出这种基于多模态对话内容联合建模的说话人连续情感分析方法,该方法以基于对话的多模态预训练模型为基础,经过情感分类模块,在相应数据集上进行微调训练,得到可以在语音、视频、文本模态上使用的情感分析方法。为此同时提出预训练模型的方法,比起传统的预训练方法,该方法具有说话人嵌入以及对话轮数嵌入模块,使得整个预训练模型学习到更加适应对话场景任务的语言模型。

权利要求 :

1.一种基于多模态对话内容联合建模的情感分析方法,其特征在于,包括以下步骤:S1、对多模态对话数据集进行模型预训练;

S2、分别对一段对话的语音、文本及视频进行语音嵌入、词嵌入及图像嵌入;再分别经过说话人嵌入及对话轮数嵌入后分别输入音频编码器、文本编码器和视觉编码器;得到每个模态对应的向量特征序列;

S3、将三个单模态的向量特征序列输入一个跨模态编码器;

S4、从跨模态编码器提取最后一层隐藏层后依次经过全连接层、激活函数、dropout层以及全连接层后得到情感分析结果。

2.根据权利要求1所述一种基于多模态对话内容联合建模的情感分析方法,其特征在于,所述步骤S1包括以下步骤:S101、在输入时对三个模态分别使用[MASK]进行掩膜处理,再预测对应[MASK]的部分;

S102、在进行说话人嵌入时,随机对一些说话人使用[MASK]进行掩膜处理,再预测对应[MASK]的说话人嵌入;

S103、对于文本‑视频‑音频的样本对,随机对其中的1到2个模态用其他样本对的样本进行替换;使用[CLS]作为输出,经过全连接层和激活函数来预测最终的匹配类型,最终的输出分数。

3.根据权利要求1所述一种基于多模态对话内容联合建模的情感分析方法,其特征在于,所述步骤S2包括以下步骤:S201、输入一段对话的语音、文本、视频,通过相应的单模态编码器,得到对应模态的嵌入,对于文本模态,使用预训练的BERT类模型预训练的分词器对文本进行分词处理再得到对应的词嵌入;对于语音模态,使用wav2vec预训练模型提取对应的音频特征;对于视频模态,则使用了预训练的Faster R‑CNN来提取视觉嵌入;

S202、以对话进行说话人信息嵌入,以及对话轮数嵌入,得到三个单模态编码器的输出。

4.根据权利要求1所述一种基于多模态对话内容联合建模的情感分析方法,其特征在于,所述步骤S3包括以下步骤:S301、三个单模态编码器得到的三个模态的向量特征序列,通过沿着序列方向连接,得到模态融合后的向量特征序列;

S302、将该向量特征序列输入跨模态编码器中,对该序列进行编码。

5.根据权利要求1所述一种基于多模态对话内容联合建模的情感分析方法,其特征在于,所述步骤S4包括以下步骤:S401、提取跨模态编码器最后一层隐藏层输出序列H,依次经过神经网络;

S402、对整个神经网络进行训练,根据每个样本对中标注好的最后一个样本的真实情感标签以及神经网络输出的情感预测值,设置如下损失函数:其中 是真实情感标签的独热编码,N是训练数据样本的数量,C则是情感分类的数量,λ是 正则化率, 则是模型的权重;在训练过程中,训练样本被分成一个个小批量数据,并使用随机梯度下降进行训练。

6.一种基于多模态对话内容联合建模的情感分析系统,其特征在于,利用如权利要求

1‑5任一所述方法进行情感分析。

说明书 :

一种基于多模态对话内容联合建模的情感分析方法及系统

技术领域

[0001] 本发明涉及机器智能领域,尤其涉及一种基于多模态对话内容联合建模的情感分析方法及系统。

背景技术

[0002] 情感分析或情绪识别是当前计算机领域的重要研究领域,一般指使用计算机对人类在特定时刻表达出的情绪进行识别,这种技术不仅在人机互动中有着广泛应用,在其他方向比如破案刑侦以及心理诊疗方面也有着很大的潜力。对话中的情感识别作为情感计算领域一个新的研究方向,近年来越来越受到关注。在实际应用中,可以用于在社交网站上分析情感把握舆情,对客服对话等进行抽样分析,保障服务质量,作为心理治疗领域的辅助工具,对用户的心理状况,心理压力等进行分析等。
[0003] 对话情感分析方法需要建模上下文敏感和说话人敏感的依赖关系,现今有许多方法融合多模态并建模对话中的关系,但如DialogueRNN、DialogueGCN模型的每个部分只负责提取自己的特征,靠前的模块不一定能为后方的模块提取到合适的特征,EmoBERTa等模型虽然用BERT统一建模了整个过程,但只是对文本进行了利用,没有更好地运用到多模态特征。现今,缺少一个统一三个模态,并能同时在一个模型中提取说话人关系,多模态关系,以及上下文和对话轮数依赖关系的模型,为此有必要发明一种基于多模态对话内容联合建模的说话人连续情感分析方法。

发明内容

[0004] 本发明目的在于提供一种基于多模态对话内容联合建模的情感分析方法及系统,以解决上述现有技术存在的问题。
[0005] 本发明中所述一种基于多模态对话内容联合建模的情感分析方法包括以下步骤:
[0006] S1、对多模态对话数据集进行模型预训练;
[0007] S2、分别对一段对话的语音、文本及视频进行语音嵌入、词嵌入及图像嵌入;再分别经过说话人嵌入及对话轮数嵌入后分别输入音频编码器、文本编码器和视觉编码器;得到每个模态对应的向量特征序列;
[0008] S3、将三个单模态的向量特征序列输入一个跨模态编码器;
[0009] S4、从跨模态编码器提取最后一层隐藏层后依次经过全连接层、激活函数、dropout层以及全连接层后得到情感分析结果。
[0010] 所述步骤S1包括以下步骤:
[0011] S101、在输入时对三个模态分别使用[MASK]进行掩膜处理,再预测对应[MASK]的部分;
[0012] S102、在进行说话人嵌入时,随机对一些说话人使用[MASK]进行掩膜处理,再预测对应[MASK]的说话人嵌入;
[0013] S103、对于文本‑视频‑音频的样本对,随机对其中的1到2个模态用其他样本对的样本进行替换;使用[CLS]作为输出,经过全连接层和激活函数来预测最终的匹配类型,最终的输出分数。
[0014] 所述步骤S2包括以下步骤:
[0015] S201、输入一段对话的语音、文本、视频,通过相应的单模态编码器,得到对应模态的嵌入,对于文本模态,使用预训练的BERT类模型预训练的分词器对文本进行分词处理再得到对应的词嵌入;对于语音模态,使用wav2vec预训练模型提取对应的音频特征;对于视频模态,则使用了预训练的Faster R‑CNN来提取视觉嵌入;
[0016] S202、以对话进行说话人信息嵌入,以及对话轮数嵌入,得到三个单模态编码器的输出。
[0017] 所述步骤S3包括以下步骤:
[0018] S301、三个单模态编码器得到的三个模态的向量特征序列,通过沿着序列方向连接,得到模态融合后的向量特征序列;
[0019] S302、将该向量特征序列输入跨模态编码器中,对该序列进行编码。
[0020] 所述步骤S4包括以下步骤:
[0021] S401、提取跨模态编码器最后一层隐藏层输出序列H,依次经过神经网络;
[0022] S402、对整个神经网络进行训练,根据每个样本对中标注好的最后一个样本的真实情感标签以及神经网络输出的情感预测值,设置如下损失函数:
[0023]
[0024] 其中 是真实情感标签的独热编码,N是训练数据样本的数量,C则是情感分类的数量,λ是 正则化率, 则是模型的权重;在训练过程中,训练样本被分成一个个小批量数据,并使用随机梯度下降进行训练。
[0025] 本发明中所述一种基于多模态对话内容联合建模的情感分析系统,利用所述方法进行情感分析。
[0026] 本发明中所述一种基于多模态对话内容联合建模的情感分析方法及系统,其优点在于,基于对话的多模态预训练模型为基础,经过情感分类模块,在相应数据集上进行微调训练,得到可以在语音、视频、文本模态上使用的情感分析方法。为此同时提出预训练模型的方法,比起传统的预训练方法,该方法具有说话人嵌入以及对话轮数嵌入模块,使得整个预训练模型学习到更加适应对话场景任务的语言模型。

附图说明

[0027] 图1是本发明中所述一种基于多模态对话内容联合建模的情感分析方法流程示意图。
[0028] 图2是本发明中所述预训练的流程示意图。

具体实施方式

[0029] 本发明中所述一种基于多模态对话内容联合建模的情感分析系统应用以下方法进行情感预测。本发明中所述一种基于多模态对话内容联合建模的情感分析方法如图1和图2所示,包括以下步骤:
[0030] S1、基于多模态对话数据集进行模型预训练。
[0031] S2、输入一段对话的语音、文本、视频模态的原始信息,得到相应的语音嵌入、词嵌入及图像嵌入。结合对话轮数嵌入,说话人嵌入等信息,得到输入的Token序列。
[0032] S3、经过三个单模态编码器,得到每个模态对应的向量特征序列,经过一个基于Transformer的跨模态编码器; 。
[0033] S4、从跨模态编码器提取最后一层隐藏层,依次经过全连接层,激活函数,dropout层以及全连接层得到最后的情感分析结果。
[0034] 进一步地,所述步骤S1包括以下步骤:
[0035] S101、在输入时对三个模态分别使用[MASK]进行掩膜处理,再预测对应[MASK]的部分。以文本模态为例,对随机15%的文本使用[MASK]进行掩膜处理,模型的目标即通过最小化以下负对数似然函数,使用该[MASK]周围的词,视频以及音频来预测被掩膜的文本:,其中θ是可训练的参数集合,三个模态的样本 来
自同一个样本对D。
[0036] S102、在进行说话人嵌入时,随机对一些说话人使用[MASK]进行掩膜处理,再预测对应[MASK]的说话人嵌入。
[0037] S103、对于文本‑视频‑音频的样本对,随机对其中的1到2个模态用其他样本对的样本进行替换。该模型需要判断哪些输入是匹配的,即需要判断如图2所示五种情况:情况(1)所有三个输入都匹配;情况(2)图像和音频匹配;情况(3)只有文本和图像匹配;情况(4)只有文本和音频匹配;以及情况(5)没有匹配的样本。为此我们使用[CLS]作为输出,经过全连接层和激活函数来预测最终的匹配类型,最终的输出分数为 。这个任务的损失函数定义为:
[0038]
[0039] 其中 是真实标签值的独热向量,BCE损失函数为:
[0040]
[0041] 进一步地,所述步骤S2包括以下步骤:
[0042] S201、输入一段对话的语音、文本、视频,通过相应的单模态编码器,得到对应模态的嵌入:对于文本模态,使用预训练的BERT类模型预训练的分词器对文本进行分词处理再得到对应的词嵌入。对于语音模态,使用第二版wav2vec预训练模型提取对应的音频特征。对于视频模态,则使用了预训练的FasterR‑CNN来提取了视觉嵌入。
[0043] S202、为了对整个对话建模并且提取对话中的说话人以及说话次序的依赖关系,模型以对话进行了说话人信息嵌入,以及对话轮数嵌入等,得到三个单模态编码器的输出。
[0044] 进一步地,所述步骤S3包括以下步骤:
[0045] S301、三个单模态编码器得到的三个模态的向量特征序列,通过沿着序列方向连接,得到模态融合后的向量特征序列。
[0046] S302、将该向量特征序列输入基于Transformer的跨模态编码器中,对该序列进行编码。
[0047] 进一步地,所述步骤S4包括以下步骤:
[0048] S401、提取跨模态编码器最后一层隐藏层输出序列H,依次经过如下的神经网络:
[0049]
[0050]
[0051] 其中,隐藏层输出序列H通过一个全连接层和激活函数得到一个768维的全局特征向量 ,训练过程中会使用随即丢弃法防止模型过拟合,最后通过一个全连接层得到情感分类向量表示 。
[0052] S402、为了得到最终的情感分析神经网络,需要对整个神经网络进行训练,根据每个样本对中标注好的最后一个样本的真实情感标签以及神经网络输出的情感预测值,设置了如下的损失函数:
[0053]
[0054] 其中 是真实情感标签的独热编码,N是训练数据样本的数量,C则是情感分类的数量,λ是 正则化率,则是模型的权重。在训练过程中,训练样本被分成一个个小批量数据,并使用随机梯度下降进行训练。
[0055] 对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。