一种以文本为核心的多模态情感分类方法转让专利
申请号 : CN202110652703.2
文献号 : CN113312530B
文献日 : 2022-02-15
发明人 : 秦兵 , 吴洋 , 赵妍妍 , 胡晓毓
申请人 : 哈尔滨工业大学
摘要 :
权利要求 :
1.一种以文本为核心的多模态情感分类方法,其特征在于包括以下步骤:步骤一:提取数据中的文本特征序列、视觉特征序列和声学特征序列,然后利用文本特征序列与视觉特征序列训练跨模态预测模型一,之后利用文本特征序列与声学特征序列训练跨模态预测模型二,当跨模态预测模型一和跨模态预测模型二损失函数值不再下降,则模型训练完毕;
步骤二:将待测文本特征序列输入跨模态预测模型一中,得到输出的视觉特征序列,然后根据输出的视觉特征序列得到视觉共享特征及视觉私有特征,将待测文本特征序列输入跨模态预测模型二中,得到输出的声学特征序列,然后根据输出的声学特征序列得到声学共享特征及声学私有特征;
步骤三:将待测文本特征序列与视觉共享特征和声学共享特征进行融合,然后将融合结果再与视觉私有特征和声学私有特征进行融合,得到最终融合结果;
步骤四:将最终融合结果输入分类器中进行分类;
所述视觉共享特征和声学共享特征为相对于文本特征没有包含额外信息的特征,所述视觉私有特征和声学私有特征为包含了文本特征中不具有的信息的特征;
所述步骤二中视觉共享特征和声学共享特征通过以下步骤得到:将待测文本特征序列输入跨模态预测模型一中,得到输出的视觉特征序列,进而得到输出的视觉特征序列中每个特征对应的N个注意力权重最大的文本特征,则视觉特征序列中该特征即为N个文本特征中每个文本特征对应的共享特征,最后对视觉特征序列中每一个特征执行上述步骤,直至得到每个文本特征对应的全部共享特征,即视觉共享特征;
将待测文本特征序列输入跨模态预测模型二中,得到输出的声学特征序列,进而得到输出的声学特征序列中每个特征对应的N个注意力权重最大的文本特征,则声学特征序列中该特征即为N个文本特征中每个文本特征对应的共享特征,最后对声学特征序列中每一个特征执行上述步骤,直至得到每个文本特征对应的全部共享特征,即声学共享特征;
N为3、4或5;
所述步骤二中私有特征通过以下步骤得到:将待测文本特征序列输入跨模态预测模型一中,得到输出的视觉特征序列,然后得到输出的视觉特征序列中每个特征的损失函数值,然后取其中最大的五个损失函数值对应的特征作为私有特征,即视觉私有特征;
将待测文本特征序列输入跨模态预测模型一中,得到输出的声学特征序列,然后得到输出的声学特征序列中每个特征的损失函数值,然后取其中最大的五个损失函数值对应的特征作为私有特征,即声学私有特征。
2.根据权利要求1所述的一种以文本为核心的多模态情感分类方法,其特征在于所述N为5。
3.根据权利要求1所述的一种以文本为核心的多模态情感分类方法,其特征在于所述步骤二中视觉共享特征和声学共享特征通过以下步骤得到:将待测文本特征序列输入跨模态预测模型一中,得到输出的视觉特征序列,然后得到输出的视觉特征序列中每个特征中注意力权重大于0.05的文本特征,则视觉特征序列中该特征即为注意力权重大于0.05的文本特征中每个文本特征对应的共享特征,最后对视觉特征序列中每一个特征执行上述步骤,直至得到每个文本特征对应的全部共享特征,即视觉共享特征;
将待测文本特征序列输入跨模态预测模型二中,得到输出的声学特征序列,然后得到输出的声学特征序列中每个特征中注意力权重大于0.05的文本特征,则声学特征序列中该特征即为注意力权重大于0.05的文本特征中每个文本特征对应的共享特征,最后对声学特征序列中每一个特征执行上述步骤,直至得到每个文本特征对应的全部共享特征,即声学共享特征。
4.根据权利要求2或3所述的一种以文本为核心的多模态情感分类方法,其特征在于所述步骤二中私有特征通过以下步骤得到:将待测文本特征序列输入跨模态预测模型一中,得到输出的视觉特征序列,然后得到输出的视觉特征序列中每个特征的损失函数值,然后取其中损失函数值大于0.02的特征作为私有特征,即视觉私有特征;
将待测文本特征序列输入跨模态预测模型一中,得到输出的声学特征序列,然后得到输出的声学特征序列中每个特征的损失函数值,然后取其中损失函数值大于0.02的特征作为私有特征,即声学私有特征。
5.根据权利要求1所述的一种以文本为核心的多模态情感分类方法,其特征在于所述跨模态预测模型一和跨模态预测模型二包括编码器和解码器。
6.根据权利要求5所述的一种以文本为核心的多模态情感分类方法,其特征在于所述编码器和解码器由LSTM或Transformer实现。
7.根据权利要求6所述的一种以文本为核心的多模态情感分类方法,其特征在于所述步骤三中融合的具体步骤为:
步骤三一:将视觉特征序列输入第一LSTM中获取视觉特征表示序列,将文本特征输入第二LSTM中获取文本特征表示序列,将声学特征序列输入第三LSTM中获取声学特征表示序列;
步骤三二:使用跨模态注意力机制融合文本特征表示序列及视觉共享特征对应的视觉特征表示序列获得视觉共享表示序列;使用跨模态注意力机制融合文本特征表示序列及声学共享特征对应的声学特征表示序列获得声学共享表示序列;
步骤三三:将得到的视觉共享表示序列、声学共享表示序列与文本特征表示序列进行拼接,送入第四LSTM中得到共享融合表示,再使用自注意力机制对共享融合表示进行变换得到共享表征;
步骤三四:使用注意力机制融合视觉私有特征对应的视觉特征表示序列获得视觉私有表征,使用注意力机制融合声学私有特征对应的声学特征表示序列获得声学私有表征;
步骤三五:将共享表征、视觉私有表征以及声学私有表征进行拼接后得到最终融合结果。
8.根据权利要求7所述的一种以文本为核心的多模态情感分类方法,其特征在于所述步骤四中分类器为softmax、Logistic或SVM。
说明书 :
一种以文本为核心的多模态情感分类方法
技术领域
背景技术
意识到,非文本线索对于检测情感和识别视频中的意见与情感有所帮助。
平均化以获得最终的语篇级特征。语篇级的文本特征可以通过应用RNNs来获得。获得的语
篇级特征被送入融合模型以获得多模态表示。目前已提出一些有效的多模态特征融合模型
(Zadeh等人,2017;Liu等人,2018;Mai等人,2020)。语篇级的特征主要包含全局信息,可能
无法捕捉到局部信息。因此,最近的工作主要集中在词级别的多模态特征上。为了提取词级
别特征,第一步是获得每个词在视频中出现的时间戳,包括开始时间和结束时间。然后根据
时间戳,将语料分割成一些视频片段。最后,通过对视频片段的帧级别特征进行平均化来获
得词级别的视觉或声学特征。研究人员提出了很多方法来进行词级别的多模态特征融合
(Zadeh等人,2018;Wang等人,2019;Tsai等人,2019;Vaswani等人,2017)。此外,还有一项相
关的工作(Pham等人,2019)需要注意,该工作认为可以从源模态到目标模态的翻译中学习
联合表征,并提出了多模态循环翻译网络(MCTN)来学习联合多模态表征。
一个原因是,三种模态可以传达一些共同的语义。在这种情况下,这些非文本的共同语义并
不提供文本数据以外的额外信息,但其中的重复信息可以加强最终的性能,称之为共享语
义。另一个原因是,三种模态都有与其他模态不同的自己特有的语义信息。这些语义信息是
模态特有的,仅靠文本数据很难预测到,称之为私有语义。结合私有语义信息可以更准确地
检测出最终的情感。
发明内容
态情感分析方法。
列训练跨模态预测模型二,当跨模态预测模型一和跨模态预测模型二损失函数值不再下
降,则模型训练完毕;
序列中该特征即为N个文本特征中每个文本特征对应的共享特征,最后对视觉特征序列中
每一个特征执行上述步骤,直至得到每个文本特征对应的全部共享特征,即视觉共享特征;
序列中该特征即为N个文本特征中每个文本特征对应的共享特征,最后对声学特征序列中
每一个特征执行上述步骤,直至得到每个文本特征对应的全部共享特征,即声学共享特征;
中该特征即为注意力权重大于0.05的文本特征中每个文本特征对应的共享特征,最后对视
觉特征序列中每一个特征执行上述步骤,直至得到每个文本特征对应的全部共享特征,即
视觉共享特征;
中该特征即为注意力权重大于0.05的文本特征中每个文本特征对应的共享特征,最后对声
学特征序列中每一个特征执行上述步骤,直至得到每个文本特征对应的全部共享特征,即
声学共享特征。
应的特征作为私有特征,即视觉私有特征;
应的特征作为私有特征,即声学私有特征。
征作为私有特征,即视觉私有特征;
征作为私有特征,即声学私有特征。
示序列;
及声学共享特征对应的声学特征表示序列获得声学共享表示序列;
变换得到共享表征;
征;
解释的线索。因此,这些非文本的共享‑私有特征可以共同与文本特征进行融合,以改善多
模态情感分析。本申请中共享掩码可以使情感回归模型获得模态共享的特征,从而形成一
个更稳健的回归模型。私有掩码使回归模型专注于模态特有的特征,这为情感预测提供了
额外的信息。在共享和私有掩码的帮助下,共享‑私有框架中的回归模型可以将文本特征与
两类非文本特征单独融合,更为有效。
附图说明
具体实施方式
列训练跨模态预测模型二,当跨模态预测模型一和跨模态预测模型二损失函数值不再下
降,则模型训练完毕;
模态预测任务,用于区分文本模态和非文本(视觉、声学)模态之间的共享和私有语义,然后
提出一个包含了共享和私有模块的情感回归模型,将文本特征与两类非文本特征进行融
合,用于情感分析。
序列中该特征即为N个文本特征中每个文本特征对应的共享特征,最后对视觉特征序列中
每一个特征执行上述步骤,直至得到每个文本特征对应的全部共享特征,即视觉共享特征;
序列中该特征即为N个文本特征中每个文本特征对应的共享特征,最后对声学特征序列中
每一个特征执行上述步骤,直至得到每个文本特征对应的全部共享特征,即声学共享特征;
中该特征即为注意力权重大于0.05的文本特征中每个文本特征对应的共享特征,最后对视
觉特征序列中每一个特征执行上述步骤,直至得到每个文本特征对应的全部共享特征,即
视觉共享特征;
中该特征即为注意力权重大于0.05的文本特征中每个文本特征对应的共享特征,最后对声
学特征序列中每一个特征执行上述步骤,直至得到每个文本特征对应的全部共享特征,即
声学共享特征。
应的特征作为私有特征,即视觉私有特征;
应的特征作为私有特征,即声学私有特征。
征作为私有特征,即视觉私有特征;
征作为私有特征,即声学私有特征。
器。
示序列;
及声学共享特征对应的声学特征表示序列获得声学共享表示序列;
变换得到共享表征;
征;
像模态特征。利用该模型本申请设计了共享特征与私有特征的判定规则,进而利用规则分
辨出共享和私有特征。另一部分是情感预测模型,该模型利用跨模态注意力机制将文本模
态特征与语音/图像的共享和私有特征进行融合,最后得到多模态融合特征进行情感分类。
特征中的信息。解码器的输入为编码器输出的文本表示,每个时间步输出一个目标模态的
特征,每一步的输出依赖于之前时间步的输出以及编码器的输入。跨模态预测模型的训练
目标是预测出输入文本特征对应的图像/音频特征。
可以使得模型预测更加鲁棒。该类特征的判定规则如下。首先从跨模态预测模型中获取生
成目标特征时对输入文本特征序列的注意力权重,然后保留每一个生成的目标特征对应的
注意力权重最大的5个文本特征,这样每个文本特征对应的目标特征则被称为文本特征对
应的共享特征。私有特征则包含了文本特征中不具有的信息,该类特征很难通过文本特征
进行预测出来。该类特征的判定规则是如果某一目标特征的预测损失很高则认为该特征是
私有特征。通过这两类规则,可以通过跨模态预测模型将两类信息进行分辨出来,然后送入
情感预测模型中进行情感预测。
文信息的特征表示。共享特征编码模块利用了跨模态注意力模型,每个经过特征输入编码
模块的文本表示对与其共享的语音/图像特征表示进行跨模态交互,获取非文本特征的共
享表示。文本表示之后再与语音表示和图像表示进行拼接,拼接后的表示经过LSTM进行融
合编码,为了更深层次的进行特征交互,后续又使用一层自注意力模块进行编码,最终取第
一个位置的输出作为多模态共享特征表示。私有特征编码模块的输入是语音和图像的私有
特征表示,该模块使用注意力机制进行给予更重要的特征更高的权重,最终得到模态私有
特征表示。模态共享特征表示与模态私有特征表示拼接起来,送入到分类层中预测最终的
特征表示。最后在实现过程中,私有特征与共享特征的选择均由掩蔽机制实现,即将未选择
的位置的权重置0。分类结果包括正性、负性和中性(共享特征和私有特征如图2和图3所
示)。
一步在情感预测模型中,将文本特征与共享特征和私有特征进行融合,最终对情感标签进
行预测。
模态预测任务的帮助下,本申请的以文本为中心的共享私有框架(TCSP)取得了最好的性
能,且在两个数据集上都优于所有基线方法。这可以证明,本申请提出的共享私有框架对多
模态情感分析是有效的。此外,可以看到,从跨模态预测任务中获得的非文本模态的共享和
私有特征可以为不同模态之间的交互提供更多可解释的线索。因此,这些非文本的共享‑私
有特征可以共同与文本特征进行融合,以改善多模态情感分析。在MOSI数据集上,本申请的
完整模型的性能和我们的基础模型之间有较大的差距。本申请将其归因于MOSI数据集的小
数据量不够用于训练基础模型,但在完整模型中则模型还受益于共享和私有信息。
可以使情感回归模型获得模态共享的特征,从而形成一个更稳健的回归模型。私有掩码使
回归模型专注于模态特有的特征,这为情感预测提供了额外的信息。在共享和私有掩码的
帮助下,共享‑私有框架中的回归模型可以将文本特征与两类非文本特征单独融合,更为有
效。
入本发明的保护范围内。