一种基于对偶转换网络的多模态情感分类方法转让专利

申请号 : CN202011581373.4

文献号 : CN112612936B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 孔万增唐佳佳李康金宣妤张建海

申请人 : 杭州电子科技大学

摘要 :

本发明公开一种基于对偶转换网络的多模态情感分类方法。本发明结合对偶学习机制以及自注意力机制,在将一个模态转换为另一个模态的过程中,挖掘模态对之间具有方向性的长时交互的跨模态融合信息。同时,对偶学习技术能够增强模型的鲁棒性,因此能很好地应对多模态学习中存在的固有问题——模态数据缺失问题。其次,在此基础上构建的分层融合框架,将所有具有同一个源模态的跨模态融合信息拼接在一块,从而采用一维卷积层进行融合操作,能够进一步挖掘多模态信息之间的高层次互补信息,是对当前情感识别领域的多模态融合框架的有效补充。

权利要求 :

1.一种基于对偶转换网络的多模态情感分类方法,其特征在于包括以下步骤:步骤1、获取多模态数据;

步骤2、多模态信息数据预处理:抽取多模态信息线性变换初级表征为了多模态数据是在特征层面上进行多模态融合操作,采用线性网络抽取每一个模态数据的初级特征表示;

Xm=f(Zm)=Wm*Zm+bm  公式(1)其中 为第m个模态的初级表征,Zm为第m个模态的原始数据,Wm为第m个模态的线性网络的权重矩阵,bm为线性网络的偏置向量,Tm为时域维度的尺寸,dm为每一个时刻的特征向量的长度;

步骤3、基于对偶转换网络,对任意两模态信息构建闭环交互:每个闭环包括基于Ai和Aj模态的两个对偶学习任务;

基于Ai模态的对偶学习过程,包含主任务和对偶任务;其中主任务是利用主转换器将Ai模态初级表征Xi转换为Xj′的过程,对偶任务是利用对偶转换器 基于Xj′生成Xi′的过程;

基于Aj模态的对偶学习过程,包含主任务和对偶任务,其中主任务是利用主转换器将Aj模态初级表征Xj转换为Xi′,对偶任务是利用对偶转换器 基于Xi′生成Xj′的过程;

步骤4、多模态信息的卷积融合操作;

根据步骤3可得到任意模态Ai和模态Aj的对偶转换网络输出为:其中L为编码器的总层数;

将所有对应同一个源模态的融合信息按照时域维度拼接:其中M为模态的总个数, 为拼接操作;

再将以上信息分别通过一维卷积层,进一步进行多模态高层融合信息抽取:其中Conv1D为一维卷积函数,K为卷积核;

最终将以上信息拼接得到最终的融合信息:将最终的融合信息输入线性分类层,将输出信息与情绪类别标签进行对比,得到最终的分类结果。

2.根据权利要求1所述的一种基于对偶转换网络的多模态情感分类方法,其特征在于主转换器 以步骤2得到的模态Ai和Aj的初级表征Xi以及Xj作为输入数据,即Xi为源模态表征,Xj为目标模态表征;将Xi分别输入三个线性转换网络,得到对应的查询矩阵关键矩阵 以及实值矩阵 表示如下:其中 以及 是分别对应于 以及 的线性网络的权重矩阵; 为模态Ai的时域维度尺寸, 为线性转换网络的输出向量尺寸;

基于查询矩阵 以及关键矩阵 可以计算得到源模态Ai中的注意力因子矩阵再根据注意力因子矩阵和实值矩阵 相作用,得到模态Ai内部元素在时域上的长时相关性;由于模态Aj为转换器的目标模态,则模态Ai内部的长时相关性对应于模态Aj的生成信息Xj′,即伪Xj:所述对偶转换器 以Xj′作为输入数据,Xi为目标模态表征,得到对应于模态Ai的生成信息 即伪Xi。

3.据权利要求1所述的一种基于对偶转换网络的多模态情感分类方法,其特征在于基于Ai模态的对偶学习过程具体是先将Xi作为主转换器 的源输入数据,得到伪Xj,即Xj′,并计算判别误差||Xj‑Xj′||;再将主转换器 的输出Xj′作为对偶转换器的源输入数据,得到伪Xi,即Xi′,并计算重构误差

4.根据权利要求3所述的一种基于对偶转换网络的多模态情感分类方法,其特征在于基于Aj模态的对偶学习过程具体是先将Xj作为对偶转换器 的源输入数据,得到伪Xi(Xi′),并计算判别误差||Xi‑Xi′||;再将对偶转换器的输出数据‑‑Xi′作为主转换器的源输入数据,得到伪Xj(Xj′),并计算重构误差

5.根据权利要求4所述的一种基于对偶转换网络的多模态情感分类方法,其特征在于闭环的损失函数为

6.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1‑5任一项所述的方法。

7.一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求1‑

5任一项所述的方法。

说明书 :

一种基于对偶转换网络的多模态情感分类方法

技术领域

[0001] 本发明属于自然语言处理、视觉、语音交叉领域内的多模态情感识别领域,具体涉及一种基于对偶转换网络的多模态情感分类方法,具体是一种基于对偶学习以及注意力机
制的对偶转换融合网络技术,对多模态信息进行双向长时分层融合,从而判断被试情感状
态的方法。

背景技术

[0002] 情感分析领域通常包含文本数据,视频数据以及语音数据。在以往的研究中,验证了这些单模态数据中包含着与情感状态相关的判别信息。同时,研究发现,这些单模态数据
之间存在的一致性和互补性能够有效解释多模态数据内部的关联表征,并且能够进一步增
强模型表达能力及稳定性,提升情感任务分析性能。
[0003] 现有的基于转换网络的多模态融合模型,由于所包含的自注意力机制能够一定程度上减轻多模态数据之间的不对齐问题带来的影响,因此引起了广泛关注。具体操作为,在
一个模态转换为另一个模态的过程中,提取转换过程中的中间表示作为多模态融合信息。
但是当某一种模态数据缺失时,中间融合数据将会缺少来自于这种模态数据的贡献,极大
影响模型表现。此外,现有转换融合模型的核心模块通常采用标准的转换模型,导致模型过
于笨重(即模型包含大量的参数)。另一方面,现有转换模型通常只把文本数据作为源模态,
即只考虑文本到音频的转换以及文本到视频的单向转换,而并没有考虑到更复杂多样的模
态转换例子,例如从音频到文本的反向转换以及视频‑音频数据之间的双向转换,将会缺少
更高层次的多模态融合信息,从而影响最终的任务表现。

发明内容

[0004] 本发明的一个目的是针对现有技术的不足,提出一种基于对偶转换网络的多模态情感分类方法。首先,构建对偶转换融合网络模块,该模块包含相互耦合的两个转换器,在
将一个模态转换为另一个模态的过程中,挖掘模态对之间具有方向性的长时交互的跨模态
融合信息(融合信息对应于转换器中间层的输出数据)。其中,对偶学习技术能够增强模型
的鲁棒性,因此能很好地应对多模态学习中存在的固有问题——模态数据缺失问题。紧接
着,在此基础上构建了一个分层融合框架,将所有具有同一个源模态的跨模态融合信息拼
接在一块,进一步采用一维卷积层进行高层次的多模态融合,从而进行情感状态判别。
[0005] 本发明所采用的技术方案是:
[0006] 一种基于对偶转换网络的多模态分层融合方法,包括以下步骤:
[0007] 步骤1、获取多模态数据
[0008] 多模态数据表示多种类型模态数据:例如音频模态、视频模态、文本模态等;
[0009] 多模态融合的目的是为了获得同一个任务下多种模态数据之间的互补性和一致性信息,从而增强任务表现;
[0010] 步骤2、多模态信息数据预处理:抽取多模态信息线性变换初级表征
[0011] 为了多模态数据是在特征层面上进行多模态融合操作,采用线性网络抽取每一个模态数据的初级特征表示;
[0012] Xm=f(Zm)=Wm*Zm+bm  公式(1)
[0013] 其中 为第m个模态的初级表征,Zm为第m个模态的原始数据,Wm为第m个模态的线性网络的权重矩阵,bm为线性网络的偏置向量,Tm为时域维度的尺寸,dm为每一
个时刻的特征向量的长度;
[0014] 步骤3、基于对偶转换网络,对任意两模态信息构建闭环交互:
[0015] 多模态分层融合框架中包含的核心处理模块之一为对偶转换网络模块,而对偶转换网络模块中包含若干个对偶转换网络;每个对偶转换网络用于获得第i个模态Ai与第j个
模态Aj之间的跨模态交互融合信息;
[0016] 对偶转换网络包含两个转换器,分别是主转换器 以及对偶转换器其中 用于将源模态Ai转换为目标模态Aj, 用于将源模态Aj
转换为目标模态Ai;上述转换器采用Transformer所包含的编码器(encoder),其中的核心
思想为注意力机制,即通过特定运算获取信息中与任务更相关的部分,具体是通过查询矩
阵Q,关键矩阵K以及实值矩阵V,可以计算得到对应的注意力因子以及重要部分信息;
[0017] 所述主转换器 以步骤2得到的模态Ai和Aj的初级表征Xi以及Xj作为输入数据,即Xi为源模态表征,Xj为目标模态表征;将Xi分别输入三个线性转换网络,得到对应的
查询矩阵 关键矩阵 以及实值矩阵 (即对应
于Xi在三个不同空间内的高维表征),表示如下:
[0018]
[0019]
[0020]
[0021] 其中 以及 是分别对应于 以及 的线性网络的权重矩阵;为模态Ai的时域维度尺寸, 为线性转换网络的输出向量尺寸;
[0022] 基于查询矩阵 以及关键矩阵 可以计算得到源模态Ai中的注意力因子矩阵再根据注意力因子矩阵和实值矩阵 相作用,得到模态Ai内部元素在时
域上的长时相关性;由于模态Aj为转换器的目标模态,则模态Ai内部的长时相关性对应于模
态Aj的生成信息Xj’,即伪Xj:
[0023]
[0024] 所述对偶转换器 以Xj’作为输入数据,Xi为目标模态表征,得到对应于模态Ai的生成信息 即伪Xi;
[0025] 以上的过程对应于基于Ai的对偶学习过程,包含主任务和对偶任务,其中将Xi转换为Xj’的过程为主任务,而基于Xj’生成Xi’的过程为对偶任务;首先将Xi作为主转换器
的源输入数据(source input),得到伪Xj(Xj’),此处需计算判别误差||Xj‑Xj’|
|;再将主转换器的输出数据——Xj’作为对偶转换器 的源输入数据,得到伪Xi
(Xi’),此处需计算重构误差 因此基于Ai的主任务和对偶任务构成
了半个闭环;
[0026] 而基于Aj的对偶学习过程,主任务是将Xj转换为Xi’,而基于Xi’生成Xj’的过程为对偶任务;首先将Xj作为对偶转换器 的源输入数据,得到伪Xi(Xi’),此处需计算判
别误差||Xi‑Xi’||;再将对偶转换器的输出数据——Xi’作为主转换器 的源输入
数据,得到伪Xj(Xj’),此处需计算重构误差 基于Aj的主任务和对偶
任务同样构成了半个闭环;
[0027] 以上训练过程需要计算两个判别误差以及两个重构误差,即对应的损失函数为min 当损失
函数达到阈值δ时,则结束训练;
[0028] 因此,当联合基于Ai和Aj的对偶学习过程时,这两个对偶学习任务就构成了完整的闭环,能够进一步增强模型的鲁棒性,同时能确保主转换器 以及对偶转换器
中间层的输出信息同时包含了模态Ai以及模态Aj的信息,实现了跨模态之间的双
向、长时交互性信息的整合;当主转换器 以及对偶转换器 训练完毕后,
若目标模态Aj信息缺失时,我们也可以有效地依据模态Ai的信息实现模态Ai以及模态Aj之
间的跨模态融合操作,即能有效地应对多模态学习中存在的固有问题——模态缺失问题;
[0029] 步骤4、多模态信息的卷积融合操作;
[0030] 根据步骤3可得到任意模态Ai和模态Aj的对偶转换网络输出为:
[0031]
[0032]
[0033] 其中L为编码器的总层数;
[0034] 将所有对应同一个源模态的融合信息按照时域维度拼接:
[0035]
[0036] 其中M为模态的总个数, 为拼接操作;
[0037] 再将以上信息分别通过一维卷积层,进一步进行多模态高层融合信息抽取:
[0038]
[0039] 其中Conv1D为一维卷积函数,K为卷积核;
[0040] 最终将以上信息拼接得到最终的融合信息:
[0041]
[0042] 将最终的融合信息输入线性分类层,将输出信息与情绪类别标签进行对比,得到最终的分类结果。
[0043] 本发明的有益效果是:本发明结合对偶学习机制以及自注意力机制,在将一个模态转换为另一个模态的过程中,挖掘模态对之间具有方向性的长时交互的跨模态融合信
息。同时,对偶学习技术能够增强模型的鲁棒性,因此能很好地应对多模态学习中存在的固
有问题——模态数据缺失问题。紧接着,在此基础上构建了一个分层融合框架,将所有具有
同一个源模态的跨模态融合信息拼接在一块,进一步采用一维卷积层进行高层次的多模态
融合,是对当前情感识别领域的多模态融合框架的有效补充。

附图说明

[0044] 图1为本发明方法流程图;
[0045] 图2为对偶转换网络示意图;
[0046] 图3为同一个模态A对目标模态T、V的融合、一维卷积操作流程图;
[0047] 图4为三模态融合示意图。

具体实施方式

[0048] 下面结合附图,对本发明方法做详细描述。
[0049] 图1为本发明多模态情感分析方法流程图。
[0050] 本发明方法基于对偶转换网络的多模态情感分析方法,如图1所示。
[0051] 步骤1、获取多模态信息数据
[0052] 在备试执行特定情感任务下,记录备试的文本模态数据、语音模态数据以及视频模态数据。
[0053] 步骤2、多模态信息数据预处理
[0054] 为了多模态数据是在特征层面上进行多模态融合操作,采用线性网络抽取每一个模态数据的初级特征表示;
[0055] Xm=f(Zm)=Wm*Zm+bm  公式(1)
[0056] 其中 为第m个模态的初级表征,Zm为第m个模态的原始数据,Wm为第m个模态的线性网络的权重矩阵,bm为线性网络的偏置向量,Tm为时域维度的尺寸,dm为每一
个时刻的特征向量的长度;
[0057] 步骤3、基于对偶转换网络,对任意两模态信息构建3个闭环交互,得到音频模态‑视频模态闭环交互,音频模态‑文本模态闭环交互,文本模态‑视频模态闭环交互。
[0058] 音频模态‑视频模态闭环交互为例:
[0059] 音频模态(以A表示)和视频模态(以V表示)作为对偶转换网络模块的输入数据。对偶转换网络总共包含两个转换器,分别是主转换器TranA→V以及对偶转换器TranV→A,TranA→V
对应的任务是将源模态A转换为目标模态V,对应的,TranV→A的任务是将源模态V转换为目标
模态A。这里的转换器采用Transformer所包含的encoder。
[0060] 对于主转换器TranA→V而言,根据步骤1得到的模态A和V的初级表征XA以及XV作为TranA→V的输入数据,其中XA为源模态表征,XV为目标模态表征。首先将XA分别输入三个线性
转换网络,得到对应的查询矩阵QA、关键矩阵KA以及实值矩阵VA,表示如下:
[0061]
[0062]
[0063]
[0064] 基于查询矩阵QA以及关键矩阵KA可以计算得到源模态A中的注意力因子矩阵,则将该注意力因子矩阵和实值矩阵相作用,可以得到模态A内部的长时相关性,我们先假定其为
对应于模态V的虚假生成信息XV’,如下所示:
[0065]
[0066] 类似的,将XV’作为对偶转换器TranV→A的源模态数据,则XA为目标模态表征,得到对应于模态A的虚假生成信息XA’=TranV→A(XV’,XA)。以上的过程对应于主任务,而对偶任务
相对于主任务而言,是将XV作为源模态表征,而XA作为目标模态表征。因此,对偶任务和主任
务构成了封闭的环状结构,能够有效增强模型的鲁棒性,同时能确保主转换器TranA→V以及
对偶转换器TranV→A中间层的输出信息同时包含了模态A以及模态V的信息,实现了跨模态之
间的双向、长时交互性信息的整合。当主转换器TranA→V以及对偶转换器TranV→A训练完毕
后,若目标模态V信息缺失时,我们也可以有效地依据模态A的信息实现模态A以及模态V之
间的跨模态融合操作,即能有效地应对多模态学习中存在的固有问题——模态缺失问题。
[0067] 步骤4、多模态信息的卷积融合操作;
[0068] 基于步骤3,模态A和模态V的对偶转换网络输出为:
[0069] [TranA→VL/2,V’]=TranA→V(A,V)
[0070] [TranV→AL/2,A’]=TranV→A(V,A)  公式(4)
[0071] 模态A和模态T(文本数据)的对偶转换网络输出为:
[0072] [TranA→TL/2,T’]=TranA→T(A,T)
[0073] [TranT→AL/2,A’]=TranT→A(T,A)  公式(5)
[0074] 模态V和模态T的对偶转换网络输出为:
[0075] [TranV→TL/2,T’]=TranV→T(V,T)
[0076] [TranT→VL/2,V’]=TranT→V(T,V)  公式(6)
[0077] 将所有对应同一个源模态的融合信息按照时域维度拼接:
[0078]
[0079]
[0080]
[0081] 再将以上信息分别通过一维卷积层,进一步进行多模态高层融合信息抽取:
[0082]
[0083]
[0084]
[0085] 最终将以上信息拼接得到最终的融合信息:
[0086]
[0087] 将最终的融合信息输入线性分类层,将输出信息与情绪类别标签进行对比,得到最终的分类结果。图3为同一个模态A对目标模态T、V的融合、一维卷积操作流程图。在此基
础上,图4为三个模态A、V以及T的多模态融合流程图。
[0088] 如表1所示,本发明与八种基础多模态融合方法同时在两个多模态情感数据库CMU‑MOSI、MELD上进行情感状态判别任务,t为文本数据(text),v为视频数据(video),a为
语音数据(audio),表中结果为情感二分类任务对应的精确度。比较衡量多个现有多模态融
合方法可知,本发明的结果都优于现有融合模型,证明了本发明所提出方法的有效性。
[0089] 表1.结果对比表
[0090]