基于相似模态补全的多模态情感分析方法、系统和设备转让专利

申请号 : CN202410008075.8

文献号 : CN117540007B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘志中孙宇航初佃辉郭强孙鸿翔

申请人 : 烟台大学

摘要 :

本发明涉及多模态情感数据识别技术领域,具体为基于相似模态补全的多模态情感分析方法、系统和设备,该分析方法首先将标记好的缺失模态的标记多模态样本,进行全局特征提取、多线性处理和概率映射处理,得到准确的标记多模态样本的预测标签;接着,基于缺失模态的属性,以及标记多模态样本的预测标签,与相似全模态样本的真实标签和预测标签的相同性,确定最合适的相似全模态样本,对缺失模态进行数据补全,得到补全标记多模态样本;最后,将待检多模态样本、或标记多模态样本、或补全标记多模态样本中的模态,进行多模态融合,得到的融合模态经分类处理,得到准确率更高的情感分析结果。

权利要求 :

1.一种基于相似模态补全的多模态情感分析方法,其特征在于,包括如下操作:

S1、获取待检多模态样本,判断所述待检多模态样本是否含有缺失模态;若不含有缺失模态,执行S6;若含有缺失模态,标记出所述待检多模态样本中的缺失模态,得到标记多模态样本,所述标记多模态样本用于执行S2;

S2、所述标记多模态样本经全局特征提取,得到标记多模态序列样本;所述标记多模态序列样本经多线性处理,得到低维多模态序列样本;所述低维多模态序列样本经概率映射处理,得到标签概率分布数据;将所述标签概率分布数据中概率值最大值对应的标签,作为所述标记多模态样本的预测标签;

S3、若所述标记多模态样本中,缺失模态不为文本模态,执行S4;

若所述标记多模态样本中,缺失模态为文本模态,执行S5;

S4、获取全模态样本集中所有标准低维文本模态,与所述低维多模态序列样本中待测低维文本模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第一数量的标准低维文本模态对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;

判断所述标记多模态样本的预测标签,是否与所述相似全模态样本集中任意一个相似全模态样本的真实标签相同;

若相同,基于所述相似全模态样本集,对所述标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;

若不相同,不对所述标记多模态样本进行任何处理;

S5、获取全模态样本集中所有标准低维音频模态或标准低维视频模态,分别与所述低维多模态序列样本中待测低维音频模态或待测低维视频模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第二数量的标准低维音频模态或标准低维视频模态,对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;

判断所述标记多模态样本的预测标签,是否与所述相似全模态样本集中任意一个相似全模态样本的预测标签相同;

若相同,基于所述相似全模态样本集,对所述标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;

若不相同,不对所述标记多模态样本进行任何处理;

S6、所述待检多模态样本、或标记多模态样本、或补全标记多模态样本中的,文本模态与音频模态、视频模态经多模态融合处理,得到融合模态;所述融合模态经分类处理,得到情感分析结果。

2.根据权利要求1所述的基于相似模态补全的多模态情感分析方法,其特征在于,所述S2中全局特征提取的操作为:所述标记多模态样本中的文本模态、音频模态、视频模态,分别经词向量化处理,得到文本模态向量、音频模态向量、视频模态向量;

所述文本模态向量、音频模态向量、视频模态向量,分别与文本模态、音频模态、视频模态对应的位置编码经拼接处理,得到文本模态数据、音频模态数据、视频模态数据;

所述文本模态数据、音频模态数据、视频模态数据,分别经多头注意力处理和拼接处理,得到注意力文本模态、注意力音频模态、注意力视频模态;

所述注意力文本模态、注意力音频模态、注意力视频模态,分别与文本模态数据、音频模态数据、视频模态数据经拼接处理和归一化处理,得到特征文本模态、特征音频模态、特征视频模态;

所述特征文本模态、特征音频模态、特征视频模态,分别经全连接处理,得到全连接文本模态、全连接音频模态、全连接视频模态;

所述全连接文本模态、全连接音频模态、全连接视频模态,分别与特征文本模态、特征音频模态、特征视频模态经拼接处理,得到文本模态序列、音频模态序列、视频模态序列;

所述文本模态序列、音频模态序列、视频模态序列,形成了所述标记多模态序列样本。

3.根据权利要求1所述的一种基于相似模态补全的多模态情感分析方法,其特征在于,所述S2中多线性处理的操作为:所述标记多模态序列样本的文本模态序列、音频模态序列、视频模态序列,分别依次经归一化处理、第一线性处理、第一非线性处理、参数丢失处理、第二线性处理、第二非线性处理,得到待测低维文本模态、待测低维音频模态、待测低维视频模态;

所述待测低维文本模态、待测低维音频模态、待测低维视频模态,形成了所述低维多模态序列样本。

4.根据权利要求1所述的一种基于相似模态补全的多模态情感分析方法,其特征在于,所述S4中获取相似度的操作为:分别获取待测低维文本模态和标准低维文本模态在不同维度的文本数据,得到不同维度的待测文本数据和不同维度的标准文本数据;

将不同维度的待测文本数据和不同维度的标准文本数据,进行对应维度的数据相乘后,进行求和处理,得到总维度数据;

基于所述总维度数据,得到所述相似度。

5.根据权利要求1所述的基于相似模态补全的多模态情感分析方法,其特征在于,相似全模态样本的预测标签,是基于全模态样本经全局特征提取、多线性处理和概率映射处理得到的。

6.根据权利要求1所述的基于相似模态补全的多模态情感分析方法,其特征在于,所述S6中多模态融合的操作具体为:将所述待检多模态样本、或标记多模态样本、或补全标记多模态样本,进行全局特征提取处理,得到待分类模态序列样本;

将所述待分类多模态序列样本中的,待分类文本模态序列分别与待分类音频模态序列、待分类视频模态序列进行多头注意力处理,得到第一多模态序列和第二多模态序列;

所述第一多模态序列、第二多模态序列,分别经非线性处理后进行多线性处理,得到更新第一多模态序列、更新第二多模态序列;

所述更新第一多模态序列、更新第二多模态序列和文本模态序列,分别与对应权重值相乘后,进行求和处理,得到所述融合模态。

7.根据权利要求6所述的基于相似模态补全的多模态情感分析方法,其特征在于,所述S4或S5中,对所述标记多模态样本中的缺失模态进行模态数据补充处理的操作具体为:将所述相似全模态样本集中,与所述缺失模态为同属性的模态的数据信息,替换掉所述缺失模态的原数据信息,得到所述补全标记多模态样本。

8.一种基于相似模态补全的多模态情感分析系统,其特征在于,包括:

缺失模态初步判断和标记模块,用于获取待检多模态样本,判断所述待检多模态样本是否含有缺失模态;若不含有缺失模态,执行融合和分类模块;若含有缺失模态,标记出所述待检多模态样本中的缺失模态,得到标记多模态样本,所述标记多模态样本用于执行标记多模态样本的预测标签生成模块;

标记多模态样本的预测标签生成模块,用于所述标记多模态样本经全局特征提取,得到标记多模态序列样本;所述标记多模态序列样本经多线性处理,得到低维多模态序列样本;所述低维多模态序列样本经概率映射处理,得到标签概率分布数据;将所述标签概率分布数据中概率值最大值对应的标签,作为所述标记多模态样本的预测标签;

缺失模态属性判断模块,用于若所述标记多模态样本中,缺失模态不为文本模态,执行第一缺失模态补全模块;若所述标记多模态样本中,缺失模态为文本模态,执行第二缺失模态补全模块;

第一缺失模态补全模块,用于获取全模态样本集中所有标准低维文本模态,与所述低维多模态序列样本中待测低维文本模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第一数量的标准低维文本模态对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;判断所述标记多模态样本的预测标签,是否与所述相似全模态样本集中任意一个相似全模态样本的真实标签相同;若相同,基于所述相似全模态样本集,对所述标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;若不相同,不对所述标记多模态样本进行任何处理;

第二缺失模态补全模块,用于获取全模态样本集中所有标准低维音频模态或标准低维视频模态,分别与所述低维多模态序列样本中待测低维音频模态或待测低维视频模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第二数量的标准低维音频模态或标准低维视频模态,对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;判断所述标记多模态样本的预测标签,是否与所述相似全模态样本集中任意一个相似全模态样本的预测标签相同;若相同,基于所述相似全模态样本集,对所述标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;若不相同,不对所述标记多模态样本进行任何处理;

融合和分类模块,用于将所述待检多模态样本、或标记多模态样本、或补全标记多模态样本中的,文本模态与音频模态、视频模态进行多模态融合处理,得到融合模态;所述融合模态经分类处理,得到情感分析结果。

9.一种基于相似模态补全的多模态情感分析设备,其特征在于,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1‑7任一项所述的基于相似模态补全的多模态情感分析方法。

10.一种计算机可读存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1‑7中任一项所述的基于相似模态补全的多模态情感分析方法。

说明书 :

基于相似模态补全的多模态情感分析方法、系统和设备

技术领域

[0001] 本发明涉及多模态情感数据识别技术领域,具体为基于相似模态补全的多模态情感分析方法、系统和设备。

背景技术

[0002] 近年来,随着互联网视频平台(如YouTube、Twitch和Tiktok)的盛行以及社交媒体(如Facebook、Twitter和微博)的迅猛发展,越来越多的用户愿意通过发布视频、图文等形式来表达个人的情感和观点,由此产生了大量的视频、音频和文本模态信息。为了更有效地识别和理解这些模态信息中的情感和观点,获得更全面和准确的情感分析结果,多模态情感分析逐渐成为研究和应用的热点。
[0003] 与单模态数据不同,多模态数据包含了情感表达的互补信息,因此,通过利用多模态特征进行互补学习可以显著提升情感分析的准确性。同时,采用有效的多模态融合方法也能够增强情感识别的性能。近年来,一些基于循环神经网络、Transformer以及图卷积神经网络等技术的多模态情感分析模型取得了令人满意的成果,在情感识别技术的快速发展中发挥了重要作用,推动了情感识别技术的不断进步。
[0004] 然而,大多数多模态情感分析模型都是在所有模态(文本、音频、视频)始终可用(不缺失)的假设下提出。但在实际应用中,由于一些不可控因素,经常会发生不确定模态缺失的情况。例如,出于隐私考虑,可能无法获取文本模态信息;摄像机设备可能会被障碍物遮挡,导致无法采集图像等视频模态;或者由于环境噪声过大,音频模态信号可能无法使用。因此,在许多实际应用场景中,无法确保所有模态是否缺失,是否可用,这会对数据的完整性产生威胁,导致现有的大多数多模态情感分析模型的情感分析结果的准确率较低。

发明内容

[0005] 本发明提供基于相似模态补全的多模态情感分析方法、系统和设备。
[0006] 本发明技术方案如下:
[0007] 一种基于相似模态补全的多模态情感分析方法,包括如下操作:
[0008] S1、获取待检多模态样本,判断所述待检多模态样本是否含有缺失模态;若不含有缺失模态,执行S6;若含有缺失模态,标记出所述待检多模态样本中的缺失模态,得到标记多模态样本,所述标记多模态样本用于执行S2;
[0009] S2、所述标记多模态样本经全局特征提取,得到标记多模态序列样本;所述标记多模态序列样本经多线性处理,得到低维多模态序列样本;所述低维多模态序列样本经概率映射处理,得到标签概率分布数据;将所述标签概率分布数据中概率值最大值对应的标签,作为所述标记多模态样本的预测标签;
[0010] S3、若所述标记多模态样本中,缺失模态不为文本模态,执行S4;
[0011] 若所述标记多模态样本中,缺失模态为文本模态,执行S5;
[0012] S4、获取全模态样本集中所有标准低维文本模态,与所述低维多模态序列样本中待测低维文本模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第一数量的标准低维文本模态对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;
[0013] 判断所述标记多模态样本的预测标签,是否与所述相似全模态样本集中任意一个相似全模态样本的真实标签相同;
[0014] 若相同,基于所述相似全模态样本集,对所述标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;
[0015] 若不相同,不对所述标记多模态样本进行任何处理;
[0016] S5、获取全模态样本集中所有标准低维音频模态或标准低维视频模态,分别与所述低维多模态序列样本中待测低维音频模态或待测低维视频模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第二数量的标准低维音频模态或标准低维视频模态,对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;
[0017] 判断所述标记多模态样本的预测标签,是否与所述相似全模态样本集中任意一个相似全模态样本的预测标签相同;
[0018] 若相同,基于所述相似全模态样本集,对所述标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;
[0019] 若不相同,不对所述标记多模态样本进行任何处理;
[0020] S6、所述待检多模态样本、或标记多模态样本、或补全标记多模态样本中的,文本模态与音频模态、视频模态经多模态融合处理,得到融合模态;所述融合模态经分类处理,得到情感分析结果。
[0021] 所述S2中全局特征提取的操作为:所述标记多模态样本中的文本模态、音频模态、视频模态,分别经词向量化处理,得到文本模态向量、音频模态向量、视频模态向量;所述文本模态向量、音频模态向量、视频模态向量,分别与文本模态、音频模态、视频模态对应的位置编码经拼接处理,得到文本模态数据、音频模态数据、视频模态数据;所述文本模态数据、音频模态数据、视频模态数据,分别经多头注意力处理和拼接处理,得到注意力文本模态、注意力音频模态、注意力视频模态;所述注意力文本模态、注意力音频模态、注意力视频模态,分别与文本模态数据、音频模态数据、视频模态数据经拼接处理和归一化处理,得到特征文本模态、特征音频模态、特征视频模态;所述特征文本模态、特征音频模态、特征视频模态,分别经全连接处理,得到全连接文本模态、全连接音频模态、全连接视频模态;所述全连接文本模态、全连接音频模态、全连接视频模态,分别与特征文本模态、特征音频模态、特征视频模态经拼接处理,得到文本模态序列、音频模态序列、视频模态序列;所述文本模态序列、音频模态序列、视频模态序列,形成了所述标记多模态序列样本。
[0022] 所述S2中多线性处理的操作为:所述标记多模态序列样本的文本模态序列、音频模态序列、视频模态序列,分别依次经归一化处理、第一线性处理、第一非线性处理、参数丢失处理、第二线性处理、第二非线性处理,得到待测低维文本模态、待测低维音频模态、待测低维视频模态;所述待测低维文本模态、待测低维音频模态、待测低维视频模态,形成了所述低维多模态序列样本。
[0023] 所述S4中获取相似度的操作为:分别获取待测低维文本模态和标准低维文本模态在不同维度的文本数据,得到不同维度的待测文本数据和不同维度的标准文本数据;将不同维度的待测文本数据和不同维度的标准文本数据,进行对应维度的数据相乘后,进行求和处理,得到总维度数据;基于所述总维度数据,得到所述相似度。
[0024] 相似全模态样本的预测标签,是基于全模态样本经全局特征提取、多线性处理和概率映射处理得到的。
[0025] 所述S6中多模态融合的操作具体为:将所述待检多模态样本、或标记多模态样本、或补全标记多模态样本,进行全局特征提取处理,得到待分类模态序列样本;将所述待分类多模态序列样本中的,待分类文本模态序列分别与待分类音频模态序列、待分类视频模态序列进行多头注意力处理,得到第一多模态序列和第二多模态序列;所述第一多模态序列、第二多模态序列,分别经非线性处理后进行多线性处理,得到更新第一多模态序列、更新第二多模态序列;所述更新第一多模态序列、更新第二多模态序列和文本模态序列,分别与对应权重值相乘后,进行求和处理,得到所述融合模态。
[0026] 所述S4或S5中,对所述标记多模态样本中的缺失模态进行模态数据补充处理的操作具体为:将所述相似全模态样本集中,与所述缺失模态为同属性的模态的数据信息,替换掉所述缺失模态的原数据信息,得到所述补全标记多模态样本。
[0027] 一种基于相似模态补全的多模态情感分析系统,包括:
[0028] 缺失模态初步判断和标记模块,用于获取待检多模态样本,判断所述待检多模态样本是否含有缺失模态;若不含有缺失模态,执行融合和分类模块;若含有缺失模态,标记出所述待检多模态样本中的缺失模态,得到标记多模态样本,所述标记多模态样本用于执行标记多模态样本的预测标签生成模块;
[0029] 标记多模态样本的预测标签生成模块,用于所述标记多模态样本经全局特征提取,得到标记多模态序列样本;所述标记多模态序列样本经多线性处理,得到低维多模态序列样本;所述低维多模态序列样本经概率映射处理,得到标签概率分布数据;将所述标签概率分布数据中概率值最大值对应的标签,作为所述标记多模态样本的预测标签;
[0030] 缺失模态属性判断模块,用于若所述标记多模态样本中,缺失模态不为文本模态,执行第一缺失模态补全模块;若所述标记多模态样本中,缺失模态为文本模态,执行第二缺失模态补全模块;
[0031] 第一缺失模态补全模块,用于获取全模态样本集中所有标准低维文本模态,与所述低维多模态序列样本中待测低维文本模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第一数量的标准低维文本模态对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;判断所述标记多模态样本的预测标签,是否与所述相似全模态样本集中任意一个相似全模态样本的真实标签相同;若相同,基于所述相似全模态样本集,对所述标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;若不相同,不对所述标记多模态样本进行任何处理;
[0032] 第二缺失模态补全模块,用于获取全模态样本集中所有标准低维音频模态或标准低维视频模态,分别与所述低维多模态序列样本中待测低维音频模态或待测低维视频模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第二数量的标准低维音频模态或标准低维视频模态,对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;判断所述标记多模态样本的预测标签,是否与所述相似全模态样本集中任意一个相似全模态样本的预测标签相同;若相同,基于所述相似全模态样本集,对所述标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;若不相同,不对所述标记多模态样本进行任何处理;
[0033] 融合和分类模块,用于将所述待检多模态样本、或标记多模态样本、或补全标记多模态样本中的,文本模态与音频模态、视频模态进行多模态融合处理,得到融合模态;所述融合模态经分类处理,得到情感分析结果。
[0034] 一种基于相似模态补全的多模态情感分析设备,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现上述的基于相似模态补全的多模态情感分析方法。
[0035] 一种计算机可读存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现上述的基于相似模态补全的多模态情感分析方法。
[0036] 本发明的有益效果在于:
[0037] 本发明提供的一种基于相似模态补全的多模态情感分析方法,首先将标记好的缺失模态的标记多模态样本,进行全局特征提取、多线性处理和概率映射处理,得到准确的标记多模态样本预测标签;接着,基于缺失模态的属性,选择合适的单模态去获取全模态样本集中相似度靠前的相似全模态样本,作为模态补全的备选依据;然后,根据标记多模态样本的预测标签,与相似全模态样本的真实标签和预测标签的相同性,确定最合适的相似全模态样本,对缺失模态进行数据补全,得到补全标记多模态样本;最后,将待检多模态样本、或标记多模态样本、或补全标记多模态样本中的模态,进行多模态融合,得到的融合模态经分类处理,得到准确率更高的情感分析结果。

附图说明

[0038] 通过阅读下文优选实施方式的详细描述,本申请的方案和优点对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
[0039] 在附图中:
[0040] 图1为实施例中,分析方法的简要流程图;
[0041] 图2为实施例中,本实施例方法与现有方法中方案五、方案六、方案八、方案九、方案十,在4分类实验上的宏平均F1值结果对比图;
[0042] 图3为实施例中,本实施例方法与现有方法中方案五、方案六、方案八、方案九、方案十,在4分类实验上的准确率结果对比图;
[0043] 图4为实施例中,本实施例方法与现有方法中方案五、方案六、方案八、方案九、方案十,在7分类实验上的宏平均F1值结果对比图;
[0044] 图5为实施例中,本实施例方法与现有方法中方案五、方案六、方案八、方案九、方案十,在7分类实验上的准确率结果对比图。

具体实施方式

[0045] 下面将结合附图更详细地描述本公开的示例性实施方式。
[0046] 本实施例提供了一种基于相似模态补全的多模态情感分析方法,参见图1,包括如下操作:
[0047] S1、获取待检多模态样本,判断所述待检多模态样本是否含有缺失模态;若不含有缺失模态,执行S6;若含有缺失模态,标记出所述待检多模态样本中的缺失模态,得到标记多模态样本,所述标记多模态样本用于执行S2;
[0048] S2、所述标记多模态样本经全局特征提取,得到标记多模态序列样本;所述标记多模态序列样本经多线性处理,得到低维多模态序列样本;所述低维多模态序列样本经概率映射处理,得到标签概率分布数据;将所述标签概率分布数据中概率值最大值对应的标签,作为所述标记多模态样本的预测标签;
[0049] S3、若所述标记多模态样本中,缺失模态不为文本模态,执行S4;
[0050] 若所述标记多模态样本中,缺失模态为文本模态,执行S5;
[0051] S4、获取全模态样本集中所有标准低维文本模态,与所述低维多模态序列样本中待测低维文本模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第一数量的标准低维文本模态对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;
[0052] 判断所述标记多模态样本的预测标签,是否与所述相似全模态样本集中任意一个相似全模态样本的真实标签相同;
[0053] 若相同,基于所述相似全模态样本集,对所述标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;
[0054] 若不相同,不对所述标记多模态样本进行任何处理;
[0055] S5、获取全模态样本集中所有标准低维音频模态或标准低维视频模态,分别与所述低维多模态序列样本中待测低维音频模态或待测低维视频模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第二数量的标准低维音频模态或标准低维视频模态,对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;
[0056] 判断所述标记多模态样本的预测标签,是否与所述相似全模态样本集中任意一个相似全模态样本的预测标签相同;
[0057] 若相同,基于所述相似全模态样本集,对所述标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;
[0058] 若不相同,不对所述标记多模态样本进行任何处理;
[0059] S6、所述待检多模态样本、或标记多模态样本、或补全标记多模态样本中的,文本模态与音频模态、视频模态经多模态融合处理,得到融合模态;所述融合模态经分类处理,得到情感分析结果。
[0060] S1、获取待检多模态样本,判断待检多模态样本是否含有缺失模态;若不含有缺失模态,执行S6;若含有缺失模态,标记出待检多模态样本中的缺失模态,得到标记多模态样本,所述标记多模态样本用于执行S2。
[0061] 获取待检多模态样本,具体为获取待检用户的视频模态、音频模态和文本模态,形成待检多模态样本。根据单模态数据中数据是否为空,或数据是否显示为0,来判断待检多模态样本是否含有缺失模态;若单模态数据(视频模态、音频模态或文本模态)中数据显示为0(单模态数据缺失时,其数据输出的形式为0,0的数量根据单模态数据的长度决定),则待检多模态样本含有缺失模态,将该缺失模态标记出来,得到标记多模态样本,用于执行后续的缺失模态补全处理;若单模态数据(视频模态、音频模态或文本模态)中数据不显示为0,则待检多模态样本不含有缺失模态,可直接进行后续的多模态融合和分类处理。
[0062] S2、标记多模态样本经全局特征提取,得到标记多模态序列样本;标记多模态序列样本经多线性处理,得到低维多模态序列样本;低维多模态序列样本经概率映射处理,得到标签概率分布数据;将标签概率分布数据中概率值最大值对应的标签,作为标记多模态样本的预测标签。
[0063] 通过全局特征提取处理将标记多模态样本编码成具有原数据全部语义信息的标记多模态序列样本,接着通过多线性处理,将标记多模态序列样本转为便于计算的低维数据,最后利用低维多模态序列样本的概率映射处理结果,得到标记多模态样本的预测标签。
[0064] 全局特征提取的操作为:标记多模态样本中的文本模态、音频模态、视频模态,分别经词向量化处理(可通过Embedding层实现),得到文本模态向量、音频模态向量、视频模态向量;文本模态向量、音频模态向量、视频模态向量,分别与文本模态、音频模态、视频模态对应的位置编码经拼接处理,得到文本模态数据、音频模态数据、视频模态数据;文本模态数据、音频模态数据、视频模态数据,分别经多头注意力处理和拼接处理,得到注意力文本模态、注意力音频模态、注意力视频模态;注意力文本模态、注意力音频模态、注意力视频模态,分别与文本模态数据、音频模态数据、视频模态数据经拼接处理和归一化处理,得到特征文本模态、特征音频模态、特征视频模态;特征文本模态、特征音频模态、特征视频模态,分别经全连接处理,得到全连接文本模态、全连接音频模态、全连接视频模态;全连接文本模态、全连接音频模态、全连接视频模态,分别与特征文本模态、特征音频模态、特征视频模态经拼接处理,得到文本模态序列、音频模态序列、视频模态序列;文本模态序列、音频模态序列、视频模态序列,形成了所述标记多模态序列样本。
[0065] 多头注意力处理可通过将音频模态、或视频模态、或文本模态进行不同尺度的注意力机制处理,得到不同的注意力机制模态,拼接处理(加权处理)所有的注意力机制模态,得到注意力音频模态、或注意力视频模态、或注意力文本模态。
[0066] 注意力机制处理可通过如下公式实现:
[0067] ,
[0068] ,
[0069] headi为音频模态、或视频模态、或文本模态的注意力机制模态,Q为音频模态、或视频模态、或文本模态的查询向量,K为音频模态、或视频模态、或文本模态的键向量,V为音频模态、或视频模态、或文本模态的值向量,WQ、WK、WV分别为查询向量、键向量、值向量的权重矩阵,d为输入维度。
[0070] 多线性处理的操作为:标记多模态序列样本标记多模态序列样本的文本模态序列、音频模态序列、视频模态序列,分别依次经归一化处理、第一线性处理(可通过神经网络中的线性层实现)、第一非线性处理(可通过神经网络中的ReLU激活层实现)、参数丢失处理(可通过神经网络中的Dropout层实现)、第二线性处理(可通过神经网络中的线性层实现)、第二非线性处理(可通过神经网络中的ReLU激活层实现),得到待测低维文本模态、待测低维音频模态、待测低维视频模态;待测低维文本模态、待测低维音频模态、待测低维视频模态,形成了所述低维多模态序列样本。
[0071] 将低维多模态序列样本待测低维文本模态、待测低维音频模态、待测低维视频模态,进行softmax函数处理,实现概率映射,得到一个标签概率分布数据,标签概率分布数据中概率最大值对应的标签,为综合预测标签,作为标记多模态样本的预测标签。
[0072] 或是将低维多模态序列样本中的待测低维文本模态、待测低维音频模态、待测低维视频模态,分别进行softmax函数处理,实现概率映射,得到低维文本模态标签概率分布数据、低维音频模态标签概率分布数据、低维视频模态标签概率分布数据;分别获取低维文本模态标签概率分布数据、低维音频模态标签概率分布数据、低维视频模态标签概率分布数据中概率最大值对应的标签,得到低维文本模态预测标签、低维音频模态预测标签、低维视频模态预测标签;低维文本模态预测标签、低维音频模态预测标签、低维视频模态预测标签形成了标记多模态样本的预测标签;概率映射的可操作可通过如下公式实现:
[0073] ,
[0074] y'为预测标签概率值,WM、bM分别为映射权重、映射偏置,DimXM为低维多模态序列样本中的待测低维文本模态、或待测低维音频模态、或待测低维视频模态。
[0075] 概率映射过程中的损失函数为:
[0076] ,
[0077] Lclspre为标准交叉熵损失值,N为样本总数,yn为第n个样本的真实标签, 为第n个样本的预测标签。
[0078] S3、若标记多模态样本中,缺失模态不为文本模态,执行S4;若标记多模态样本中,缺失模态为文本模态,执行S5。
[0079] 文本模态缺失相比音频模态和视频模态具有较强的情感分析代表性,因此,若标记多模态样本中缺失模态不为文本模态时,应选用综合预测标签或低维文本模态预测标签,与标准的全模态样本集的真实标签进行对比,从而找出全模态样本集中最合适的完整标准模态,用于将标记多模态样本中的缺失模态进行数据补齐。
[0080] 若标记多模态样本中缺失模态为文本模态时,音频模态和视频模态的准确率较低,直接将标记多模态样本的预测标签,与全模态样本集的真实标签作比较,会产生较大的误差,为减小误差,选用综合预测标签或低维音频模态预测标签或低维视频模态预测标签,与全模态样本集的预测标签进行对比,从而找出全模态样本集中最合适的完整标准模态,用于将标记多模态样本中的缺失模态进行数据补齐。
[0081] S4、获取全模态样本集中所有标准低维文本模态,与低维多模态序列样本中待测低维文本模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第一数量的标准低维文本模态对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;判断标记多模态样本的预测标签,是否与相似全模态样本集中任意一个相似全模态样本的真实标签相同;若相同,基于相似全模态样本集,对标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;若不相同,不对标记多模态样本进行任何处理。
[0082] 若标记多模态样本中缺失模态不为文本模态时,文本模态较高的情感分析准确率,首先将文本模态的低维向量,即低维多模态序列样本中的待测低维文本模态,与含有标准全模态信息的全模态样本集中每个标准低维文本模态,进行相似度计算,将相似度从大到小排名为前三的标准低维文本模态,对应的全模态样本,作为与标记多模态样本特征相似的全模态样本,这三个全模态样本,构成了相似全模态样本集。
[0083] 获取相似度的操作为:分别获取待测低维文本模态和标准低维文本模态在不同维度的文本数据,得到不同维度的待测文本数据和不同维度的标准文本数据;将不同维度的待测文本数据和不同维度的标准文本数据,进行对应维度的数据相乘后,进行求和处理,得到总维度数据;基于总维度数据,得到相似度。
[0084] 获取相似度的操作可通过如下公式实现:
[0085] ,
[0086] I为待测低维文本模态a和标准低维文本模态b的相似度, 为总维度数据,ai为维度为i的待测文本数据,bi为维度为i的标准文本数据,D为维度总数。
[0087] 接着,判断标记多模态样本的预测标签,是否与相似全模态样本集中任意一个相似全模态样本的真实标签相同,具体为:按照相似度从大到小的顺序,将为综合预测标签的标记多模态样本的预测标签,与相似全模态样本集中的每个相似全模态样本的真实标签(相似全模态样本的综合真实标签),依次进行对比;若当前相似全模态样本的真实标签,与标记多模态样本的预测标签相同,则基于当前相似全模态样本,对标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;若标记多模态样本的预测标签,与相似全模态样本集中的每个相似全模态样本的真实标签均不相同,则不对标记多模态样本进行任何处理。
[0088] 或按照相似度从大到小的顺序,将标记多模态样本的预测标签中的低维文本模态预测标签,与相似全模态样本集中的每个相似全模态样本中的标准低维文本模态真实标签,依次进行对比,若当前相似全模态样本中的标准低维文本模态真实标签,与低维文本模态预测标签相同,则基于当前相似全模态样本,对标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;若低维文本模态预测标签,与相似全模态样本集中,每个相似全模态样本中的标准低维文本模态真实标签均不相同,则不对标记多模态样本进行任何处理。
[0089] 对标记多模态样本中的缺失模态进行模态数据补充处理的操作为:将相似全模态样本集中,与缺失模态为同属性的模态的数据信息,替换掉缺失模态的原数据信息,得到补全标记多模态样本。具体为,将相似全模态样本集中,真实标签与标记多模态样本的预测标签相同,且相似度为相似全模态样本集中最大值的相似全模态样本中的,与缺失模态为同属性的模态的数据信息,复制后粘贴至缺失模态中,得到补全标记多模态样本。即,将相似全模态样本集中,真实标签与标记多模态样本的预测标签相同,且相似度为相似全模态样本集中最大值的相似全模态样本中的标准音频模态或标准视频模态的数据信息,复制后粘贴至标记多模态样本中的音频模态或视频模态,得到补全标记多模态样本。
[0090] 或者,将相似全模态样本集中,真实标签与标记多模态样本的预测标签相同的任意一个相似全模态样本中的,与缺失模态为同属性的模态的数据信息,复制后粘贴至缺失模态中,得到补全标记多模态样本。
[0091] S5、获取全模态样本集中所有标准低维音频模态或标准低维视频模态,分别与低维多模态序列样本中待测低维音频模态或待测低维视频模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第一数量的标准低维音频模态或标准低维视频模态,对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;判断标记多模态样本的预测标签,是否与相似全模态样本集中任意一个相似全模态样本的预测标签相同;若相同,基于相似全模态样本集,对标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;若不相同,不对标记多模态样本进行任何处理。
[0092] 若标记多模态样本中缺失模态为文本模态时,由于音频模态和视频模态的情感分析准确率较低,直接将标记多模态样本预测标签,与全模态样本集的真实标签作比较会产生较大的误差,因此,首先将不为缺失模态的音频模态或视频模态的低维向量,即低维多模态序列样本中的待测低维音频模态或待测低维视频模态,与含有标准全模态信息的全模态样本集中每个标准低维音频模态或标准低维视频模态,进行相似度计算,将相似度从大到小排名为前三的标准低维音频模态或标准低维视频模态,对应的全模态样本,作为与标记多模态样本特征相似的全模态样本,这三个全模态样本,构成了相似全模态样本集。
[0093] 接着,判断标记多模态样本的预测标签,是否与相似全模态样本集中任意一个相似全模态样本的预测标签相同,具体为:按照相似度从大到小的顺序,将为综合预测标签的标记多模态样本的预测标签,与相似全模态样本集中的每个相似全模态样本的预测标签(相似全模态样本的综合预测标签),依次进行对比,若当前相似全模态样本的预测标签,与标记多模态样本的预测标签相同,则基于当前相似全模态样本,对标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;若标记多模态样本的预测标签,与相似全模态样本集中的每个相似全模态样本的真实标签均不相同,则不对标记多模态样本进行任何处理。
[0094] 或按照相似度从大到小的顺序,将标记多模态样本的预测标签中的低维音频模态预测标签或低维视频模态预测标签,与相似全模态样本集中的每个相似全模态样本中的标准低维音频模态真实标签或标准低维视频模态真实标签,依次进行对比,若当前相似全模态样本中的标准低维音频模态真实标签或标准低维视频模态真实标签,与低维音频模态预测标签或低维视频模态预测标签,则基于当前相似全模态样本,对标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;若低维音频模态预测标签或低维视频模态预测标签,与相似全模态样本集中,每个相似全模态样本中的标准低维音频模态真实标签或标准低维视频模态真实标签均不相同,则不对标记多模态样本进行任何处理。
[0095] 相似全模态样本的预测标签,是基于全模态样本经全局特征提取、多线性处理和概率映射处理得到的。也就是相似全模态样本的预测标签,是可通过上述S2中的步骤得到。
[0096] 对标记多模态样本中的缺失模态进行模态数据补充处理的操作为:将相似全模态样本集中,与缺失模态为同属性的模态的数据信息,替换掉缺失模态的原数据信息,得到补全标记多模态样本。具体为,将全模态样本集中,预测标签与标记多模态样本的预测标签相同,且相似度为相似全模态样本集中最大值的相似全模态样本中的标准文本模态的数据信息,复制后粘贴至标记多模态样本中的文本模态,得到补全标记多模态样本。
[0097] 或者,将相似全模态样本集中,预测标签与标记多模态样本的预测标签相同的任意一个相似全模态样本中的标准文本模态的数据信息,复制后粘贴至标记多模态样本中的文本模态,得到补全标记多模态样本。
[0098] S6、将待检多模态样本、或标记多模态样本、或补全标记多模态样本中的,文本模态与音频模态、视频模态经多模态融合处理,得到融合模态;融合模态经分类处理,得到情感分析结果。
[0099] 首先,将待检多模态样本、或标记多模态样本、或补全标记多模态样本,进行全局特征提取处理,得到待分类多模态序列样本;将待分类多模态序列样本中的,待分类文本模态序列分别与待分类音频模态序列、待分类视频模态序列进行多头注意力处理,得到第一多模态序列和第二多模态序列。
[0100] 多头注意力处理可通过如下公式实现:
[0101] ,
[0102] ,
[0103] Evt、Eat分别为第一多模态序列和第二多模态序列,Ev、Ea、Et分别为待分类视频模态序列、待分类音频模态序列、待分类文本模态序列。
[0104] 接着,第一多模态序列、第二多模态序列分别经非线性处理后进行多线性处理,分别得到更新第一多模态序列、更新第二多模态序列。可通过如下公式实现:
[0105] ,
[0106] ,
[0107] , 分别为更新第一多模态序列、更新第二多模态序列,MLP( )为多线性处理,Relu( )为Relu激活函数,为非线性处理, , 分别为第一多模态序列、第二多模态序列的权重矩阵, , 分别为第一多模态序列、第二多模态序列的第一可学习偏执,, 分别为第一多模态序列、第二多模态序列的第二可学习偏执。
[0108] 然后,更新第一多模态序列、更新第二多模态序列和文本模态序列,分别与各自权重值相乘后,进行求和处理,得到融合模态。
[0109] 得到融合模态的操作可通过如下公式实现:
[0110] ,
[0111] R为融合模态,wv、wa、wt分别为更新第一多模态序列、更新第二多模态序列、文本模态序列的可学习权重。
[0112] 得到融合模态的过程中的损失函数为:
[0113] ,
[0114] Lpre_train为融合模态损失熵,DKL( )为KL散度函数,Epre为融合模态,Call为文本模态序列与第一多模态序列、第二多模态序列的拼接结果,当融合模态损失熵小于阈值时,输出当前的融合结果,作为融合模态。
[0115] 另外,为使全局特征提取后得到的文本模态序列信息更丰富,便于分析。当文本模态序列,与文本模态序列经多头注意力处理后得到的优化文本模态序列之间的文本损失熵小于阈值时,输出当前融合模态,作为融合模态。
[0116] 文本损失熵可由如下公式得到:
[0117] ,
[0118] ,
[0119] Lde为文本损失熵,DKL( )为KL散度函数,Et为文本模态序列,Dt为优化文本模态序列,当融合模态损失熵小于阈值时,输出当前的融合结果,作为融合模态。
[0120] 最后,将融合模态进行分类处理,分类的操作可以为:融合模态经概率映射处理,得到融合标签概率分布数据;将融合标签概率分布数据中概率值最大值对应的标签,作为情感分析结果。概率映射处理可通过softmax函数实现。分类的操作还可以为:将预先标注好真实标签的全模态样本集训练神经网络,得到训练神经网络;利用训练神经网络处理融合模态,得到情感分析结果。
[0121] 为验证本实施例分析方法(以下简称本实施例方法)的效果,做了如下实验:
[0122] 基准数据集。实验在两个多模态情感分析公开数据集CMU‑MOSI和IEMOCAP上进行。CMU‑MOSI是一个包含2199个YouTube视频片段的多模态情感分析数据集,每个样本的情感值在[‑3, 3]范围内,实验在CMU‑MOSI进行了三分类实验,因此将情感值映射为消极、中性和积极。具体而言,范围在[‑3, 0]内的情感值被标记为消极,情感值为0的样本被标记为中性,而范围在(0, 3]内的情感值则被标记为积极。IEMOCAP是一个录制视频数据集,包含5个二元对话会话,每个会话约有30段视频并且至少包含24个话语。该数据集中的每个样本被标注了中性、沮丧、愤怒、悲伤、快乐、兴奋、惊讶、恐惧和失望等情感标签。实验在IEMOCAP进行了二分类实验,将情感标签映射为积极和消极。具体而言,消极情绪标签包括沮丧、愤怒、悲伤、恐惧和失望,而积极情绪标签包括快乐和兴奋。
[0123]  模态的预处理。具体预处理方法可参见Jiandian Zeng, Tianyi Liu, and Jiantao Zhou. 2022. Tag‑assisted multimodal sentiment analysis under uncer‑tain missing modalities. In Proc. Int. ACM SIGIRConf. Res. Develop. Inf. Ret., pages 1–10。其中,在视频特征中,实验主要依靠一系列人脸图片来提取特征,使用了OpenFace2.0工具包来提取人脸特征,并获取了帧号、人脸ID、时间戳、置信度、识别成功标识、眼动、头部姿势和面部动作这些信息。同时,实验还去除了帧号、人脸ID和时间戳等与本实验不相关信息,只保留眼动、头部姿势和面部动作这三种信息,得到了一个709维的视频特征表示。音频特征由Librosa方法提取,对于CMU‑MOSI和IEMOCAP数据集,每个音频都被混合为单声道,并重新以16000Hz采样。每帧由512个样本分隔,分别选择过零率(the zero crossing rate)、梅尔频率倒谱系数(the Mel‑Frequency Cepstral Coefficients ‑ MFCC)和恒Q变换(the Constant‑Q Transform ‑ CQT)特征来表示音频片段,最后,将这三种特征拼接起来,得到一个33维的音频特征表示。采用预训练的BERT模型[45]来提取文本模态特征,具体而言,使用的是一个不区分大小写的BERT模型(the pre‑trained uncased BERT‑base model),它由12个Transformer编码器层组成,隐藏单元数为768,注意力头数为12,在这个模型中,所有的文本输入都会被转换为小写形式,不考虑原始文本中的大小写区别,通过这个BERT模型可以得到一个768维的文本特征表示。
[0124] 实验设置。所有实验都在一台配置为Intel(R) Core(TM) i9‑10900K CPU、Nvidia 3090 GPU和96G RAM的计算机上进行,使用TensorFlow 1.14.0实现了提出的模型,并使用Python 3.6作为编程语言;在实验中,设置学习率为0.001,批大小为32,隐藏大小为300,训练的总轮数为20,损失权重为0.1。为了减少总体损失,采用了Adam优化器。
[0125] 模型参数设置如表1所示:
[0126] 表1 本实施例方法参数设置
[0127] 。
[0128] 另外,实验中采用Accuracy (Acc,准确率)和Macro‑F1 (M‑F1,宏平均F1)指标评估本实施例方法与现有方法之间性能的差距。
[0129] Acc和M‑F1的公式定义如下:
[0130] ,
[0131] ,
[0132] Tture为正确预测的样本个数,N为样本总数,C为类别数,Pi为第i类的正预测值,Ri为第i类的召回值。
[0133] 现有方法。AE(可称为方案一)是一个研究线性和非线性自编码器的通用框架,旨在使神经网络的输出尽可能地与输入保持一致。CRA(可称为方案二)是一种基于自动编码器的级联残差结构的模态缺失重构框架,通过采用残差连接机制来近似输入数据。MCTN(可称为方案三)利用模态翻译实现模态间的交互,有助于学习鲁棒的联合关系。TransM(可称为方案四)是一种基于端到端翻译的多模态融合方法,通过在模态之间进行循环翻译,实现模态间的交互。ICDN(可称为方案五)是一种集成一致性和差异网络的方法,通过跨模态Transformer将其他模态的信息映射到目标模态,从而实现模态之间的交互。MRAN(可称为方案六)利用多模态嵌入和缺失索引嵌入的方法来引导缺失模态特征的重建,并将视频和音频特征映射到文本特征空间中,实现视频和音频特征与文本特征的对齐,从而解决缺失模态问题。MMIN(可称为方案七)是一个用于处理缺失模态的想象模型,利用级联残差自动编码器以及前向和反向想象模块,实现从可用模态到缺失模态和从缺失模态到可用模态的转换。TATE_C(可称为方案八)使用标签辅助Transformer编码器,以覆盖所有不确定缺失模态的情况,并利用预训练模型来指导联合表示的学习过程。MTMSA(可称为方案九)是一个模态翻译网络,它将视觉和听觉模态翻译成文本模态,并通过模态翻译模块捕获不同模态之间的深层交互并利用文本模态。TATE_J(可称为方案十)在之前的研究的基础上为不同的模态增加了不同的权重,以充分发挥各个模态的优势。
[0134] 性能比较。为了验证本实施例方法的性能,实验在CMU‑MOSI数据集上进行了3分类测试,在IEMOCAP数据集上进行了2分类测试,并使用M‑F1和ACC作为评价指标。测试分为两个部分,第一部分考虑了单模态缺失的情况,第二部分考虑了多个模态缺失的情况,并为每个情况设置模态的缺失率为0 0.5,最佳结果用粗体表示。~
[0135] 单缺失模态实验:实验中将缺失率设置为0   0.5,实验结果详见表2。~
[0136] 表2 单模态不确定缺失的实验结果(粗体表示最优值)
[0137] 。
[0138] 实验结果显示,在CMU‑MOSI数据集上的实验结果表明,本实施例方法始终优于现有方法,当缺失率设置为0.2、0.3、0.4和0.5时,在ACC和M‑F1方面取得了更高的分数。然而,当缺失率为零时,本实施例方法的M‑F1得分比MMIN略低0.67%,其ACC值比TATE_J低0.6%。在缺失率为0.1时,本实施例方法的M‑F1值比TATE_J低0.41%,其ACC值比TATE_J低0.43%。此外,对于IEMOCAP数据集,就ACC和M‑F1指标而言,本实施例方法在所有缺失率(0、0.1、0.2、0.3、0.4和0.5)上始终优于其他基线。
[0139] 缺失多模态实验:实验中将缺失率设为0   0.5,实验结果详见表3。~
[0140] 表3 多模态不确定缺失实验结果(粗体表示最优值)
[0141] 。
[0142] 在CMU‑MOSI数据集上的实验结果表明,本实施例方法始终优于现有方法,当缺失率设置为0.1,0.2,0.3和0.5时,在ACC和M‑F1方面取得了更高的分数。然而,与TATE_J相比,缺失率设置为0.4时,本实施例方法的结果显示M‑F1减少0.27%,ACC减少0.38%。当缺失率增加到0.5时,本实施例方法的ACC比TATE_J下降1.6%。就IEMOCAP数据集而言,当模态缺失率设置为0、0.1、0.2和0.5时,本实施例方法在ACC和MF1中始终优于现有方法。然而,与TATE_J相比,在缺失率为0.3时,本实施例方法的M‑F1下降0.7%,ACC下降1.71%。缺失率为0.4时,本实施例方法的M‑F1和ACC分别比TATE_J低3.97%和2.26%。
[0143] 因此,本实施例方法在CMU‑MOSI和IEMOCAP数据集上的缺失模态实验综合性能优于现有方法。
[0144] 多分类实验。
[0145] 为了利用IEMOCAP数据集评估本实施例方法在多类情感分类中的性能,实验中对4类和7类进行了实验。IEMOCAP中多类标签的分布如表4所示。该实验中选择了ICDN(方案五)、MRAN(方案六)、TATE_C(方案八)、MTMSA(方案九)和TATE_J(方案十)和作为对比的现有方法。实验结果如图2、图3、图4、图5所示。在如图2、图3、图4、图5中,随着模态缺失率的增加,4类和7类分类中的6种方法的性能不断降低。值得注意的是,本实施例方法在这两个分类中始终优于现有方法。实验结果证实了本实施例方法在多类情感分类中的有效性。
[0146] 表4 IEMOCAP中多类标签的分布结果(粗体表示最优值)
[0147] 。
[0148] 在图2和图3的4类分类任务中,当缺失率为0时,本实施例方法在M‑F1上比ICDN(方案五)提高4.26%,在ACC上比ICDN(方案五)提高3.12%;当缺失率为0.1时,本实施例方法在M‑F1上比TATE_J(方案十)高19.85%,在ACC上比TATE_J(方案十)高12.00%。与MTMSA(方案九)相比,当缺失率为0.5时,本实施例方法的M‑F1提高了3.52%,Acc提高了1.37%。
[0149] 在图4和图5的7类分类任务中,当缺失率为0时,本实施例方法在M‑F1上比ICDN(方案五)提高13.18%,在ACC上比ICDN(方案五)提高7.24%;当缺失率为0.2时,本实施例方法在M‑F1上比MRAN(方案六)高21.82%,在ACC上比MRAN(方案六)高16.24%。与MTMSA(方案九)相比,当缺失率为0时,本实施例方法的M‑F1和Acc分别提高了12.61%和6.71%。根据前面的实验结果,可以推断本实施例方法在多类情感分类中表现出更优越的性能。
[0150] 消融实验。
[0151] 为了验证本实施例方法对应的模型(以下简称SMCMSA)在各种模态上的性能并评估单个模块的有效性,实验中使用CMU‑MOSI数据集进行了模态和模块消融实验。在这种情况下,实验中分别将“T”、“A”和“V”表示为文本、音频和视频模式。
[0152] 模态消融实验。实验考虑以下三种场景:A.该场景与预训练的单模态情感分析模型相同,只使用单个模态进行情感分析;B.此场景与表4中的三个单模态缺失案例相同,将缺失率设置为0、0.1、0.2、0.3、0.4和0.5。由于在没有文本模态的情况下无法进行有效的多模态融合,因此在该场景中放弃了多模态融合模块,进行特征级融合以获得最终的分类结果。C.该场景与表4中的三种多模态缺失情况相同,在该场景中,缺失率设置为0、0.1、0.2、0.3、0.4和0.5。
[0153] 模态消融实验结果详见表5,最优结果以粗体显示。
[0154] 表5 模态消融实验结果(粗体表示最优值)
[0155] 。
[0156] 从表5中可以看出,文本模式的效果最好,SMCMSA的ACC值比使用视频或音频模式的ACC值分别高出29.17%和28.13%。这些发现证实了语篇情态在多情态情感分析中的重要性。对于情况B,与没有文本模态的组合相比,包含文本模态的双模态组合表现出更好的性能。有文本模态的双模态组合与视频音频组合的差距较大,在ACC上的最大提升为25.52%。此外,可以发现基于两种模态的结果优于基于单一模态的结果。在场景C中获得了最好的结果。此外,实验结果验证了多模态学习可以提高模型的性能。
[0157] 模块消融实验:本实验通过从SMCMSA中去除每个模块,生成一些新的模型,验证SMCMSA中不同模块的有效性。实验通过以下方式生成模型变体:1)从缺失模态补全模块中移除预测标签‑预测标签一致性策略,生成模型变体SMCMSA‑PreL,即去除S5对应的模块。2)去掉SMCMSA中缺失的模态补全模块,生成模型变体SMCMSA‑SMC,即去除S4和S5对应的模块。3)从SMCMSA中去除多模态特征融合模块,生成模型变体SMCMSA‑MFF,即去除S6中融合对应的模块。4)从SMCMSA中移除预训练模块,生成模型变体SMCMSA‑ Pre,即不训练由S2中全局特征提取、多线性处理和概率映射处理组合后对应的神经网络模块。模块消融实验结果如表6所示。
[0158] 表6 模块消融实验结果(粗体表示最优值)
[0159] 。
[0160] 实验中,没有匹配三个最高相似度样本的情感预测标签,而是使用最高相似度模态来完成SMCMSA‑PreL模型中的缺失模态,当缺失率设置为0.4时,与MSCMSA相比,M‑F1和ACC的缺失模态分别减少了1.02%和2.6%。当缺失率为0.1时,SMCMSA‑PreL在M‑F1中性能下降0.19%,在ACC中性能下降2.09%。实验结果表明,情感标签一致性策略是有效的。与SMCMSA相比,当缺失率为0.5时,SMCMSA‑SMC的M‑F1降低幅度最大,为2.8%。当缺失率为0.4时,SMCMSA‑SMC的ACC值下降幅度最大,为3.12%。这些发现验证了缺失模态完成模块有能力提高SMCMSA的性能。
[0161] 在SMCMSA‑MFF模型中,当缺失率为0时,其性能在M‑F1中下降约4.74%,在ACC中下降约4.69%。缺失率设置为0.5时下降最为显著,SMCMSA‑MFF的MF1降低了4.63%。当缺失率为0.4时,SMCMSA‑MFF的ACC值下降最为显著,为4.17%。这些结果验证了多模态特征融合模块可以提高多模态特征的质量,提高多模态情感分析的效果。
[0162] 当缺失率设置为0.4时,SMCMSA‑Pre的MF1值降低了4.7%。此外,当缺失率设置为0.5时,SMCMSA‑Pre表现出最显著的下降,ACC减少5.23%。这些结果提供了令人信服的证据,证明预训练模块在提高SMCMSA的性能方面起着至关重要的作用。
[0163] 本实施例还提供了一种基于相似模态补全的多模态情感分析系统,包括:
[0164] 缺失模态初步判断和标记模块,用于获取待检多模态样本,判断待检多模态样本是否含有缺失模态;若不含有缺失模态,执行融合和分类模块;若含有缺失模态,标记出待检多模态样本中的缺失模态,得到标记多模态样本,标记多模态样本用于执行标记多模态样本的预测标签生成模块;
[0165] 标记多模态样本的预测标签生成模块,用于标记多模态样本经全局特征提取,得到标记多模态序列样本;标记多模态序列样本经多线性处理,得到低维多模态序列样本;低维多模态序列样本经概率映射处理,得到标签概率分布数据;将标签概率分布数据中概率值最大值对应的标签,作为标记多模态样本的预测标签;
[0166] 缺失模态属性判断模块,用于若标记多模态样本中,缺失模态不为文本模态,执行第一缺失模态补全模块;若标记多模态样本中,缺失模态为文本模态,执行第二缺失模态补全模块;
[0167] 第一缺失模态补全模块,用于获取全模态样本集中所有标准低维文本模态,与低维多模态序列样本中待测低维文本模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第一数量的标准低维文本模态对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;判断标记多模态样本的预测标签,是否与相似全模态样本集中任意一个相似全模态样本的真实标签相同;若相同,基于相似全模态样本集,对标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;若不相同,不对标记多模态样本进行任何处理;
[0168] 第二缺失模态补全模块,用于获取全模态样本集中所有标准低维音频模态或标准低维视频模态,分别与低维多模态序列样本中待测低维音频模态或待测低维视频模态的相似度,所有相似度按照从小到大进行排序,将相似度为前第二数量的标准低维音频模态或标准低维视频模态,对应的全模态样本,作为相似全模态样本,所有相似全模态样本,形成了相似全模态样本集;判断标记多模态样本的预测标签,是否与相似全模态样本集中任意一个相似全模态样本的预测标签相同;若相同,基于相似全模态样本集,对标记多模态样本中的缺失模态进行模态数据补充处理,得到补全标记多模态样本;若不相同,不对标记多模态样本进行任何处理;
[0169] 融合和分类模块,用于将待检多模态样本、或标记多模态样本、或补全标记多模态样本中的,文本模态与音频模态、视频模态进行多模态融合处理,得到融合模态;融合模态经分类处理,得到情感分析结果。
[0170] 本实施例还提供了一种基于相似模态补全的多模态情感分析设备,包括处理器和存储器,其中,处理器执行存储器中保存的计算机程序时实现上述的基于相似模态补全的多模态情感分析方法。
[0171] 本实施例还提供了一种计算机可读存储介质,用于存储计算机程序,其中,计算机程序被处理器执行时实现上述的基于相似模态补全的多模态情感分析方法。
[0172] 本实施例提供的一种基于相似模态补全的多模态情感分析方法,首先将标记好的缺失模态的标记多模态样本,进行全局特征提取、多线性处理和概率映射处理,得到准确的标记多模态样本预测标签;接着,基于缺失模态的属性,选择合适的单模态去获取全模态样本集中相似度靠前的相似全模态样本,作为模态补全的备选依据;然后,根据标记多模态样本的预测标签,与相似全模态样本的真实标签和预测标签的相同性,确定最合适的相似全模态样本,对缺失模态进行数据补全,得到补全标记多模态样本;最后,将待检多模态样本、或标记多模态样本、或补全标记多模态样本中的模态,进行多模态融合,得到的融合模态经分类处理,得到准确率更高的情感分析结果。