基于多角度分析的多模态精神状态评估方法转让专利
申请号 : CN202110732115.X
文献号 : CN113274023B
文献日 : 2021-12-14
发明人 : 陶建华 , 蔡聪 , 刘斌 , 柳雪飞
申请人 : 中国科学院自动化研究所
摘要 :
权利要求 :
1.基于多角度分析的多模态精神状态评估的方法,其特征在于,所述方法包括:S1:从原始视频中采集音频文件和视频文件,并对所述音频文件和视频文件进行数据预处理:
从音频文件中提取时域波形点和梅尔频率倒谱系数,将所述时域波形点和梅尔频率倒谱系数作为音频特征;
将所述视频文件按一定频率采样得到图片序列,再将所述图片序列输入到预训练网络,得到视频编码向量;
用openface工具提取所述图片序列的人脸运动单元;
将所述视频编码向量和人脸运动单元作为视频特征;
S2:将所述音频特征和视频特征分别输入抑郁分析模块、焦虑分析模块和压力分析模块进行多角度分析,得到抑郁特征、焦虑特征和压力特征;
S3:将所述抑郁特征、焦虑特征和压力特征输入到融合分析模块进行注意力特征融合,得到融合特征;
S4:将所述融合特征输入支持向量回归,评估所述音频文件和视频文件中个体的精神状态。
2.根据权利要求1所述的基于多角度分析的多模态精神状态评估的方法,其特征在于,所述从音频文件中提取时域波形点的具体方法为:从原始MP4长视频文件中提取音频文件,并将所述音频文件以wav文件格式保存;提取wav文件格式的音频文件的原始波形点,以mat格式保存;
从音频文件中提取时域波形点和梅尔频率倒谱系数的具体方法为:对所述wav文件格式的音频文件进行预加重、分帧和加窗处理,然后再进行快速傅里叶变换得到傅里叶谱;
将所述傅里叶谱通过梅尔滤波器组,再进行对数运算,最后进行离散余弦变换,得到梅尔频率倒谱系数;
将所述梅尔频率倒谱系数以mat格式进行保存。
3.根据权利要求1所述的基于多角度分析的多模态精神状态评估的方法,其特征在于,所述抑郁分析模块的网络包括:门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合;所述视频特征和音频特征分别输入到抑郁分析模块的门控循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络;再对所述抑郁分析模块的门控循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出进行一次激活函数激活和数据标准化,再将数据标准化后的抑郁分析模块的门控循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出输入到所述抑郁分析模块的多模态特征融合,得到所述抑郁特征。
4.根据权利要求3所述的基于多角度分析的多模态精神状态评估的方法,其特征在于,所述抑郁分析模块训练过程应用的损失函数为:抑郁程度的预测值与真实值之间的均方误差根,公式如下:
其中,
RMSED:抑郁程度的预测值与真实值之间的均方误差根;
:抑郁程度的预测值;
:抑郁程度的真实值;
n:样本数量。
5.根据权利要求1所述的基于多角度分析的多模态精神状态评估的方法,其特征在于,所述焦虑分析模块的网络包括:门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合;所述视频特征和音频特征分别输入到焦虑分析模块的门控循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络;再对所述焦虑分析模块的门控循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出进行一次激活函数激活和数据标准化,再将数据标准化后的焦虑分析模块的门控循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出输入到所述焦虑分析模块的多模态特征融合,得到所述焦虑特征。
6.根据权利要求5所述的基于多角度分析的多模态精神状态评估的方法,其特征在于,所述焦虑分析模块训练过程应用的损失函数为:焦虑程度的预测值与真实值之间的均方误差根,公式如下:
其中,
RMSEA:焦虑程度的预测值与真实值之间的均方误差根;
:焦虑程度的预测值;
:焦虑程度的真实值;
n:样本数量。
7.根据权利要求1所述的基于多角度分析的多模态精神状态评估的方法,其特征在于,所述压力分析模块的网络包括:门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合;所述视频特征和音频特征分别输入到压力分析模块的门控循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络;再对所述压力分析模块的门控循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出进行一次激活函数激活和数据标准化,再将数据标准化后的压力分析模块的门控循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出输入到所述压力分析模块的多模态特征融合,得到所述压力特征。
8.根据权利要求7所述的基于多角度分析的多模态精神状态评估的方法,其特征在于,所述压力分析模块训练过程应用的损失函数为:压力程度的预测值与真实值之间的均方误差根,公式如下:
其中,
RMSES:压力程度的预测值与真实值之间的均方误差根;:压力程度的预测值;
:压力程度的真实值;
n:样本数量。
9.根据权利要求1所述的基于多角度分析的多模态精神状态评估的方法,其特征在于,所述融合分析模块采用注意力机制进行特征融合。
10.根据权利要求1所述的基于多角度分析的多模态精神状态评估的方法,其特征在于,所述支持向量回归公式如下:其中,
w和b是待学习的模型参数,C是正则化常数,m是样本数目,lɛ是不敏感损失函数;f(xi)是支持向量回归预测值,yi是所述音频文件和视频文件中个体样本的精神状态真实值。
说明书 :
基于多角度分析的多模态精神状态评估方法
技术领域
背景技术
义。比如,对病人进行精神状态分析可以针对不同的精神状态对病人进行不同的治疗方案,
而且病人产生剧烈的心理或者生理反应,会对内分泌系统等产生影响,从而影响治疗效果。
视频数据;提取音频数据和视频数据中待评估人员的多模态生理特征,多模态生理特征包
括:面部瞳孔数据特征、语音数据特征以及心率和心率变异性数据特征;根据多模态生理特
征和预设的关联模型,输出待评估人员的精神状态评估结果,所述关联模型为基于神经网
络或SVM支持向量机对不同精神状态下的个体数据进行分类的训练模型。
集系统,被配置为采集现场的音频数据和视频数据并通过传输设备传输至中心控制平台;
中心控制平台,被配置为通过梅尔频率倒谱系数的支持向量机识别算法对音频数据进行降
噪处理及声音分类,分段提取用户所需的音频数据,并将用户所需的音频数据和对应的视
频数据发送至显示记录设备;和通过对特定声音的选择,定向捕捉放大相应的视频画面;显
示记录设备,被配置为同步实时播放监控系统的监控数据,并可实时调取任一时段的监控
数据,及播放对特定的声音定向捕捉及放大的相对应的视频画面。
型来进行预测,不仅各个模板的目标函数跟最终的预测目标有偏差,而且容易累积误差,造
成预测结果的不准确。
发明内容
块的多头注意力机制和抑郁分析模块的卷积神经网络;再对抑郁分析模块的门控循环单
元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出进行一次激活
函数激活和数据标准化,再将数据标准化后的抑郁分析模块的门控循环单元、抑郁分析模
块的多头注意力机制和抑郁分析模块的卷积神经网络的输出输入到抑郁分析模块的多模
态特征融合,得到抑郁特征。
块的多头注意力机制和焦虑分析模块的卷积神经网络;再对焦虑分析模块的门控循环单
元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出进行一次激活
函数激活和数据标准化,再将数据标准化后的焦虑分析模块的门控循环单元、焦虑分析模
块的多头注意力机制和焦虑分析模块的卷积神经网络的输出输入到所述焦虑分析模块的
多模态特征融合,得到所述焦虑特征。
块的多头注意力机制和压力分析模块的卷积神经网络;再对压力分析模块的门控循环单
元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出进行一次激活
函数激活和数据标准化,再将数据标准化后的压力分析模块的门控循环单元、压力分析模
块的多头注意力机制和压力分析模块的卷积神经网络的输出输入到所述压力分析模块的
多模态特征融合,得到压力特征。
的准确性;
析的全面性;
利用神经网络的优势,具有更好的性能。
附图说明
具体实施方式
中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附
权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
的原始波形点,以mat格式保存;
析模块的多头注意力机制和抑郁分析模块的卷积神经网络;再对所述抑郁分析模块的门控
循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出进行一
次激活函数激活和数据标准化,再将数据标准化后的抑郁分析模块的门控循环单元、抑郁
分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出输入到所述抑郁分析
模块的多模态特征融合,得到所述抑郁特征;
析模块的多头注意力机制和焦虑分析模块的卷积神经网络;再对所述焦虑分析模块的门控
循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出进行一
次激活函数激活和数据标准化,再将数据标准化后的焦虑分析模块的门控循环单元、焦虑
分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出输入到所述焦虑分析
模块的多模态特征融合,得到所述焦虑特征;
析模块的多头注意力机制和压力分析模块的卷积神经网络;再对所述压力分析模块的门控
循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出进行一
次激活函数激活和数据标准化,再将数据标准化后的压力分析模块的门控循环单元、压力
分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出输入到所述压力分析
模块的多模态特征融合,得到所述压力特征;
简单,效果也更好;再经过多头注意力机制,这里注意力头数设置为8,表示从8个不同的角
度计算特征表示;再经过卷积神经网络提取特征,这里卷积核的个数是512,大小是3×3,卷
积神经网络在提取局部特征方面具有优秀的性能;上述三个操作后都进行一次激活函数激
活和数据标准化,激活函数是参数整流线性单元PReLU可以增加非线性,数据标准化是批标
准化,不仅解决了数据偏移的影响,而且可以加快训练速度;最后将音频特征和视频特征拼
接起来通过全连接神经网络融合,形成抑郁特征、焦虑特征和压力特征的多角度特征,这里
神经元的个数是1024。损失函数为预测值与实际值之间的均方误差根,经过若干次迭代训
练后,抑郁分析模块、焦虑分析模块和压力分析模块可以分别分析被试者的抑郁程度、焦虑
程度和压力程度;将训练好的三个模块放入模型中进行最后的训练;
的隐含层状态有多大程度更新到当前候选隐含层状态;是更新门,用于控制前一时刻的
隐含层状态有多大程度更新到当前隐含层状态;
、 都是可训练参数矩阵, 是可训练的参数向量, 是焦虑特征、抑郁特征和压
力特征的注意力权重, 是经过注意力计算得到的融合特征;
重,强调贡献大的特征并抑制无用的特征;
形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包
含一个或多个相关联的列出项目的任何或所有可能组合。
本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第
一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……
时”或“响应于确定”。
说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以
不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的
需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付
出创造性劳动的情况下,即可以理解并实施。
件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或
多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处
理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以
被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信
息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可
读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组
合。
述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集
成电路)来执行,并且装置也可以实现为专用逻辑电路。
令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令
和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容
量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接
以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样
的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音
频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存
驱动器的便携式存储设备,仅举几例。
磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD‑ROM盘。处理器和存储器可由专
用逻辑电路补充或并入专用逻辑电路中。
多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施
例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此
外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所
要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护
的组合可以指向子组合或子组合的变型。
果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块
和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的
程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实
现中,多任务和并行处理可能是有利的。