基于多角度分析的多模态精神状态评估方法转让专利

申请号 : CN202110732115.X

文献号 : CN113274023B

文献日 : 2021-12-14

本发明提供基于多角度分析的多模态精神状态评估的方法，包括：从原始视频中采集音频文件和视频文件，并对所述音频文件和视频文件进行数据预处理：从音频文件中提取时域波形点和梅尔频率倒谱系数作为音频特征；将图片序列输入到预训练网络，得到视频编码向量；提取图片序列的人脸运动单元；将视频编码向量和人脸运动单元作为视频特征；将音频特征和视频特征分别输入抑郁分析模块、焦虑分析模块和压力分析模块进行多角度分析，得到抑郁特征、焦虑特征和压力特征；将所述抑郁特征、焦虑特征和压力特征输入到融合分析模块进行注意力特征融合，得到融合特征；将融合特征输入支持向量回归，评估音频文件和视频文件中个体的精神状态。

1.基于多角度分析的多模态精神状态评估的方法，其特征在于，所述方法包括：S1：从原始视频中采集音频文件和视频文件，并对所述音频文件和视频文件进行数据预处理：

从音频文件中提取时域波形点和梅尔频率倒谱系数，将所述时域波形点和梅尔频率倒谱系数作为音频特征；

将所述视频文件按一定频率采样得到图片序列，再将所述图片序列输入到预训练网络，得到视频编码向量；

用openface工具提取所述图片序列的人脸运动单元；

将所述视频编码向量和人脸运动单元作为视频特征；

S2：将所述音频特征和视频特征分别输入抑郁分析模块、焦虑分析模块和压力分析模块进行多角度分析，得到抑郁特征、焦虑特征和压力特征；

S3：将所述抑郁特征、焦虑特征和压力特征输入到融合分析模块进行注意力特征融合，得到融合特征；

S4：将所述融合特征输入支持向量回归，评估所述音频文件和视频文件中个体的精神状态。

2.根据权利要求1所述的基于多角度分析的多模态精神状态评估的方法，其特征在于，所述从音频文件中提取时域波形点的具体方法为：从原始MP4长视频文件中提取音频文件，并将所述音频文件以wav文件格式保存；提取wav文件格式的音频文件的原始波形点，以mat格式保存；

从音频文件中提取时域波形点和梅尔频率倒谱系数的具体方法为：对所述wav文件格式的音频文件进行预加重、分帧和加窗处理，然后再进行快速傅里叶变换得到傅里叶谱；

将所述傅里叶谱通过梅尔滤波器组，再进行对数运算，最后进行离散余弦变换，得到梅尔频率倒谱系数；

将所述梅尔频率倒谱系数以mat格式进行保存。

3.根据权利要求1所述的基于多角度分析的多模态精神状态评估的方法，其特征在于，所述抑郁分析模块的网络包括：门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；所述视频特征和音频特征分别输入到抑郁分析模块的门控循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络；再对所述抑郁分析模块的门控循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出进行一次激活函数激活和数据标准化，再将数据标准化后的抑郁分析模块的门控循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出输入到所述抑郁分析模块的多模态特征融合，得到所述抑郁特征。

4.根据权利要求3所述的基于多角度分析的多模态精神状态评估的方法，其特征在于，所述抑郁分析模块训练过程应用的损失函数为：抑郁程度的预测值与真实值之间的均方误差根，公式如下：

其中，

RMSED：抑郁程度的预测值与真实值之间的均方误差根；

：抑郁程度的预测值；

：抑郁程度的真实值；

n：样本数量。

5.根据权利要求1所述的基于多角度分析的多模态精神状态评估的方法，其特征在于，所述焦虑分析模块的网络包括：门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；所述视频特征和音频特征分别输入到焦虑分析模块的门控循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络；再对所述焦虑分析模块的门控循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出进行一次激活函数激活和数据标准化，再将数据标准化后的焦虑分析模块的门控循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出输入到所述焦虑分析模块的多模态特征融合，得到所述焦虑特征。

6.根据权利要求5所述的基于多角度分析的多模态精神状态评估的方法，其特征在于，所述焦虑分析模块训练过程应用的损失函数为：焦虑程度的预测值与真实值之间的均方误差根，公式如下：

其中，

RMSEA：焦虑程度的预测值与真实值之间的均方误差根；

：焦虑程度的预测值；

：焦虑程度的真实值；

n：样本数量。

7.根据权利要求1所述的基于多角度分析的多模态精神状态评估的方法，其特征在于，所述压力分析模块的网络包括：门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；所述视频特征和音频特征分别输入到压力分析模块的门控循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络；再对所述压力分析模块的门控循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出进行一次激活函数激活和数据标准化，再将数据标准化后的压力分析模块的门控循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出输入到所述压力分析模块的多模态特征融合，得到所述压力特征。

8.根据权利要求7所述的基于多角度分析的多模态精神状态评估的方法，其特征在于，所述压力分析模块训练过程应用的损失函数为：压力程度的预测值与真实值之间的均方误差根，公式如下：

其中，

RMSES:压力程度的预测值与真实值之间的均方误差根;：压力程度的预测值；

：压力程度的真实值；

n：样本数量。

9.根据权利要求1所述的基于多角度分析的多模态精神状态评估的方法，其特征在于，所述融合分析模块采用注意力机制进行特征融合。

10.根据权利要求1所述的基于多角度分析的多模态精神状态评估的方法，其特征在于，所述支持向量回归公式如下：其中，

w和b是待学习的模型参数，C是正则化常数，m是样本数目，lɛ是不敏感损失函数；f(xi)是支持向量回归预测值，yi是所述音频文件和视频文件中个体样本的精神状态真实值。

基于多角度分析的多模态精神状态评估方法

技术领域

[0001] 本发明涉及语音处理和图像处理领域，具体涉及基于多角度分析的多模态精神状态评估方法。

背景技术

[0002] 精神状态分析不仅描述心理现象还还致力于探究人的心理动机，不止于揭示表层心理规律而且还致力于探究人的深层无意识心理机制，对探究人的自我意识有重要的意
义。比如，对病人进行精神状态分析可以针对不同的精神状态对病人进行不同的治疗方案，
而且病人产生剧烈的心理或者生理反应，会对内分泌系统等产生影响，从而影响治疗效果。

[0003] 申请公布号CN108888281A提供一种精神状态评估方法、设备及系统，涉及精神状态评估技术领域。该精神状态评估方法包括：在预设时间内采集待评估人员的音频数据和
视频数据；提取音频数据和视频数据中待评估人员的多模态生理特征，多模态生理特征包
括：面部瞳孔数据特征、语音数据特征以及心率和心率变异性数据特征；根据多模态生理特
征和预设的关联模型，输出待评估人员的精神状态评估结果，所述关联模型为基于神经网
络或SVM支持向量机对不同精神状态下的个体数据进行分类的训练模型。

[0004] 申请公布号CN109547695A提供了一种基于声音分类算法定向捕捉画面的全息视频监控系统及方法，包括前端采集系统、传输设备、中心控制平台和显示记录设备；前端采
集系统，被配置为采集现场的音频数据和视频数据并通过传输设备传输至中心控制平台；
中心控制平台，被配置为通过梅尔频率倒谱系数的支持向量机识别算法对音频数据进行降
噪处理及声音分类，分段提取用户所需的音频数据，并将用户所需的音频数据和对应的视
频数据发送至显示记录设备；和通过对特定声音的选择，定向捕捉放大相应的视频画面；显
示记录设备，被配置为同步实时播放监控系统的监控数据，并可实时调取任一时段的监控
数据，及播放对特定的声音定向捕捉及放大的相对应的视频画面。

[0005] 现有技术中存在的问题是大多数使用单一的精神状态进行评估，没有考虑到受试者的各个精神方面，比如抑郁情况、焦虑情况等。而且以往的方法大多数使用多步骤、多模
型来进行预测，不仅各个模板的目标函数跟最终的预测目标有偏差，而且容易累积误差，造
成预测结果的不准确。

发明内容

[0006] 有鉴于此，本发明提供一种基于多角度分析的多模态精神状态评估的方法，具体地，本发明是通过如下技术方案实现的：

[0007] S1：从原始视频中采集音频文件和视频文件，并对音频文件和视频文件进行数据预处理：

[0008] 从音频文件中提取时域波形点和梅尔频率倒谱系数，将时域波形点和梅尔频率倒谱系数作为音频特征；

[0009] 将视频文件按一定频率采样得到图片序列，再将图片序列输入到预训练网络，得到视频编码向量；

[0010] 用openface工具提取图片序列的人脸运动单元；

[0011] 将视频编码向量和人脸运动单元作为视频特征；

[0012] S2：将音频特征和视频特征分别输入抑郁分析模块、焦虑分析模块和压力分析模块进行多角度分析，得到抑郁特征、焦虑特征和压力特征；

[0013] S3：将抑郁特征、焦虑特征和压力特征输入到融合分析模块进行注意力特征融合，得到融合特征；

[0014] S4：将融合特征输入支持向量回归，评估所述音频文件和视频文件中个体的精神状态。

[0015] 优选的，从音频文件中提取时域波形点的具体方法为：

[0016] 从原始MP4长视频文件中提取音频文件，并将音频文件以wav文件格式保存；提取wav文件格式的音频文件的原始波形点，以mat格式保存；

[0017] 从音频文件中提取时域波形点和梅尔频率倒谱系数的具体方法为：

[0018] 对wav文件格式的音频文件进行预加重、分帧和加窗处理，然后再进行快速傅里叶变换得到傅里叶谱；

[0019] 将傅里叶谱通过梅尔滤波器组，再进行对数运算，最后进行离散余弦变换，得到梅尔频率倒谱系数；

[0020] 将梅尔频率倒谱系数以mat格式进行保存。

[0021] 优选的，抑郁分析模块的网络包括：

[0022] 门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；视频特征和音频特征分别输入到抑郁分析模块的门控循环单元、抑郁分析模
块的多头注意力机制和抑郁分析模块的卷积神经网络；再对抑郁分析模块的门控循环单
元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出进行一次激活
函数激活和数据标准化，再将数据标准化后的抑郁分析模块的门控循环单元、抑郁分析模
块的多头注意力机制和抑郁分析模块的卷积神经网络的输出输入到抑郁分析模块的多模
态特征融合，得到抑郁特征。

[0023] 优选的，抑郁分析模块训练过程应用的损失函数为：抑郁程度的预测值与真实值之间的均方误差根，公式如下：

[0024]

[0025] 其中，

[0026] RMSED：抑郁程度的预测值与真实值之间的均方误差根；

[0027] ：抑郁程度的预测值；

[0028] ：抑郁程度的真实值；

[0029] n：样本数量。

[0030] 优选的，焦虑分析模块的网络包括：

[0031] 门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；视频特征和音频特征分别输入到焦虑分析模块的门控循环单元、焦虑分析模
块的多头注意力机制和焦虑分析模块的卷积神经网络；再对焦虑分析模块的门控循环单
元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出进行一次激活
函数激活和数据标准化，再将数据标准化后的焦虑分析模块的门控循环单元、焦虑分析模
块的多头注意力机制和焦虑分析模块的卷积神经网络的输出输入到所述焦虑分析模块的
多模态特征融合，得到所述焦虑特征。

[0032] 优选的，焦虑分析模块训练过程应用的损失函数为：焦虑程度的预测值与真实值之间的均方误差根，公式如下：

[0033]

[0034] 其中，

[0035] RMSEA：焦虑程度的预测值与真实值之间的均方误差根；

[0036] ：焦虑程度的预测值；

[0037] ：焦虑程度的真实值；

[0038] n:样本数量。

[0039] 优选的，压力分析模块的网络包括：

[0040] 门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；视频特征和音频特征分别输入到压力分析模块的门控循环单元、压力分析模
块的多头注意力机制和压力分析模块的卷积神经网络；再对压力分析模块的门控循环单
元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出进行一次激活
函数激活和数据标准化，再将数据标准化后的压力分析模块的门控循环单元、压力分析模
块的多头注意力机制和压力分析模块的卷积神经网络的输出输入到所述压力分析模块的
多模态特征融合，得到压力特征。

[0041] 优选的，压力分析模块训练过程应用的损失函数为：压力程度的预测值与真实值之间的均方误差根，公式如下：

[0042]

[0043] 其中，

[0044] RMSES:压力程度的预测值与真实值之间的均方误差根;

[0045] ：压力程度的预测值；

[0046] ：压力程度的真实值；

[0047] n：样本数量；

[0048] 压力程度的评判标准为：0‑14分为正常、15‑18分为轻度压力、19‑25分为中度压力，26‑33分为重度压力，大于33分为非常严重。

[0049] 优选的，融合分析模块采用注意力机制进行特征融合。

[0050] 优选的，支持向量回归公式如下：

[0051]

[0052] 其中，

[0053] w和b是待学习的模型参数，C是正则化常数，m是样本数目，lɛ是不敏感损失函数；f(xi)是支持向量回归预测值，yi是音频文件和视频文件中个体样本的精神状态真实值。

[0054] 本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

[0055] （1）通过多头注意力机制和多模态融合，不仅考虑了各个模态内精神状态的信息，还包含了模态之间的依赖关系，融合了音频和视频两种模态的信息，提高了精神状态分析
的准确性；

[0056] （2）综合考虑了个体的抑郁特征、焦虑特征和压力特征，从多个角度进行多任务建模，相比于传统精神状态分析，更全面的考虑了个体的各个方面的信息，增强了精神状态分
析的全面性；

[0057] （3）使用注意力机制将个体的抑郁特征、焦虑特征和压力特征进行融合，相比于传统的直接拼接融合，注意力融合考虑了每个特征不同的重要程度，赋予不同的权重，更好的
利用神经网络的优势，具有更好的性能。

附图说明

[0058] 图1为本发明实施例提供的基于多角度分析的多模态精神状态评估方法的结构图；

[0059] 图2为本发明实施例提供的基于多角度分析的多模态精神状态评估方法的焦虑/抑郁/压力分析模块的数据流图。

具体实施方式

[0060] 这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例
中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附
权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

[0061] 如图1所示本申请实施例提供的基于多角度分析的多模态精神状态评估的方法，包括：

[0062] S1：从原始视频中采集音频文件和视频文件，并对所述音频文件和视频文件进行数据预处理：

[0063] 从音频文件中提取时域波形点和梅尔频率倒谱系数，将所述时域波形点和梅尔频率倒谱系数作为音频特征；

[0064] 用FFMPEG工具从受试者原始MP4长视频文件中提取音频文件，并将所述音频文件以wav文件格式保存；将音频文件以16K HZ采样率进行采样，提取wav文件格式的音频文件
的原始波形点，以mat格式保存；

[0065] 从音频文件中提取时域波形点和梅尔频率倒谱系数的具体方法为：

[0066] 对所述wav文件格式的音频文件通过一个一阶有限激励响应高通滤波器，使信号的频谱变得平坦的方式进行预加重；

[0067] 以512个采样点集合为一个观测单位，即每一帧是32ms，相邻两帧之间的重叠区域是50%的方式进行分帧；

[0068] 加窗处理，采用哈明窗对一帧语音加窗，以减小吉布斯效应的影响；

[0069] 然后再进行快速傅里叶变换得到傅里叶谱；

[0070] 将所述傅里叶谱通过梅尔滤波器组，再进行对数运算，最后进行离散预先变换，再求其一阶差分和二阶差分，再加一位能量，得到梅尔频率倒谱系数；

[0071] 将所述梅尔频率倒谱系数以mat格式进行保存；

[0072] 将所述视频文件按6次/s频率采样得到图片序列，再将所述图片序列输入到ResNet‑50预训练网络，得到视频编码向量，以mat格式进行保存；

[0073] 用openface工具提取所述图片序列的人脸运动单元，以 csv格式保存；

[0074] 将所述视频编码向量和人脸运动单元作为视频特征；

[0075] S2：将所述音频特征和视频特征分别输入抑郁分析模块、焦虑分析模块和压力分析模块进行多角度分析，得到抑郁特征、焦虑特征和压力特征；

[0076] 如图2所示，所述抑郁分析模块的网络包括：

[0077] 门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；所述视频特征和音频特征分别输入到抑郁分析模块的门控循环单元、抑郁分
析模块的多头注意力机制和抑郁分析模块的卷积神经网络；再对所述抑郁分析模块的门控
循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出进行一
次激活函数激活和数据标准化，再将数据标准化后的抑郁分析模块的门控循环单元、抑郁
分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出输入到所述抑郁分析
模块的多模态特征融合，得到所述抑郁特征；

[0078] 所述抑郁分析模块训练过程应用的损失函数为：抑郁程度的预测值与真实值之间的均方误差根，公式如下：

[0079]

[0080] 其中，

[0081] RMSED：抑郁程度的预测值与真实值之间的均方误差根；

[0082] ：抑郁程度的预测值；

[0083] ：抑郁程度的真实值；

[0084] n：样本数量。

[0085] 如图2所示，所述焦虑分析模块的网络包括：

[0086] 门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；所述视频特征和音频特征分别输入到焦虑分析模块的门控循环单元、焦虑分
析模块的多头注意力机制和焦虑分析模块的卷积神经网络；再对所述焦虑分析模块的门控
循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出进行一
次激活函数激活和数据标准化，再将数据标准化后的焦虑分析模块的门控循环单元、焦虑
分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出输入到所述焦虑分析
模块的多模态特征融合，得到所述焦虑特征；

[0087] 所述焦虑分析模块训练过程应用的损失函数为：焦虑程度的预测值与真实值之间的均方误差根，公式如下：

[0088]

[0089] 其中，

[0090] RMSEA：焦虑程度的预测值与真实值之间的均方误差根；

[0091] ：焦虑程度的预测值；

[0092] ：焦虑程度的真实值；

[0093] n:样本数量。

[0094] 如图2所示，所述压力分析模块的网络包括：

[0095] 门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；所述视频特征和音频特征分别输入到压力分析模块的门控循环单元、压力分
析模块的多头注意力机制和压力分析模块的卷积神经网络；再对所述压力分析模块的门控
循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出进行一
次激活函数激活和数据标准化，再将数据标准化后的压力分析模块的门控循环单元、压力
分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出输入到所述压力分析
模块的多模态特征融合，得到所述压力特征；

[0096] 所述压力分析模块训练过程应用的损失函数为：压力程度的预测值与真实值之间的均方误差根，公式如下：

[0097]

[0098] 其中，

[0099] RMSES:压力程度的预测值与真实值之间的均方误差根;

[0100] ：压力程度的预测值；

[0101] ：压力程度的真实值；

[0102] n：样本数量。

[0103] 每个模块的具体参数设置如下：

[0104] 分析模块首先将音频特征和视频特征输入到门控循环单元，门控循环单元是长短期记忆网络的变体，可以捕捉上下文依赖关系，也解决了长依赖和梯度消失的问题，其结构
简单，效果也更好；再经过多头注意力机制，这里注意力头数设置为8，表示从8个不同的角
度计算特征表示；再经过卷积神经网络提取特征，这里卷积核的个数是512，大小是3×3，卷
积神经网络在提取局部特征方面具有优秀的性能；上述三个操作后都进行一次激活函数激
活和数据标准化，激活函数是参数整流线性单元PReLU可以增加非线性，数据标准化是批标
准化，不仅解决了数据偏移的影响，而且可以加快训练速度；最后将音频特征和视频特征拼
接起来通过全连接神经网络融合，形成抑郁特征、焦虑特征和压力特征的多角度特征，这里
神经元的个数是1024。损失函数为预测值与实际值之间的均方误差根，经过若干次迭代训
练后，抑郁分析模块、焦虑分析模块和压力分析模块可以分别分析被试者的抑郁程度、焦虑
程度和压力程度；将训练好的三个模块放入模型中进行最后的训练；

[0105] 具体模型结构如下：

[0106] 门控循环单元公式如下：

[0107]

[0108]

[0109]

[0110]

[0111] 其中是输入特征，是上一时刻的隐层输出，是本时刻的隐层输出，W和U都是权重矩阵，b是偏置，门控循环单元有两个门函数，其中是重置门，用于控制前一时刻
的隐含层状态有多大程度更新到当前候选隐含层状态；是更新门，用于控制前一时刻的
隐含层状态有多大程度更新到当前隐含层状态；

[0112] 多头注意力机制公式如下：

[0113]

[0114] 其中，Q、K、V分别表示输入的查询、键和值的集合，公式如下：

[0115]

[0116] 使用多头注意力机制对输入进行自注意力计算，可以从多角度分析特征，以及增强有用的特征和抑制无用的特征；

[0117] 激活函数使用参数整流线性单元，公式如下：

[0118]

[0119] 其中x是输入，a是可训练参数；

[0120] 数据标准化采用批标准化，公式如下：

[0121]

[0122]

[0123]

[0124] 其中是输入的样本数据，是样本的平均数，是样本的方差，是标准化后的样本数据，批标准化可以有效解决内部协变量偏移的问题；

[0125] S3：将所述抑郁特征、焦虑特征和压力特征输入到融合分析模块进行注意力特征融合，得到融合特征；所述融合分析模块采用注意力机制进行特征融合；

[0126] 融合分析模块采用注意力机制进行特征融合，公式如下：

[0127]

[0128]

[0129]

[0130]

[0131] 其中是经过线性变换拼接得到的融合中间特征，用于后续计算各个特征的注意力权重，、、分别是第i 个序列的焦虑特征、抑郁特征和压力特征，、、
、都是可训练参数矩阵，是可训练的参数向量，是焦虑特征、抑郁特征和压
力特征的注意力权重，是经过注意力计算得到的融合特征；

[0132] 因为被试者的焦虑状态，抑郁状态和压力状态对精神状态评估的贡献是不同的，用注意力机制将焦虑特征、抑郁特征和压力特征进行融合，可以使模型自动学习特征的权
重，强调贡献大的特征并抑制无用的特征；

[0133] S4：将所述融合特征输入支持向量回归，评估所述音频文件和视频文件中个体的精神状态；

[0134] 所述支持向量回归公式如下：

[0135]

[0136] 其中，

[0137] w和b是待学习的模型参数，C是正则化常数，m是样本数目，lɛ是不敏感损失函数；f(xi)是支持向量回归预测值，yi是所述音频文件和视频文件中个体样本的精神状态真实值。

[0138] 在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数
形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包
含一个或多个相关联的列出项目的任何或所有可能组合。

[0139] 应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离
本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第
一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……
时”或“响应于确定”。

[0140] 对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件
说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以
不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的
需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付
出创造性劳动的情况下，即可以理解并实施。

[0141] 本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬
件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或
多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处
理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以
被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信
息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可
读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组
合。

[0142] 本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所
述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集
成电路）来执行，并且装置也可以实现为专用逻辑电路。

[0143] 适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指
令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令
和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容
量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接
以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样
的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音
频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存
驱动器的便携式存储设备，仅举几例。

[0144] 适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、
磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD‑ROM盘。处理器和存储器可由专
用逻辑电路补充或并入专用逻辑电路中。

[0145] 虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在
多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施
例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此
外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所
要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护
的组合可以指向子组合或子组合的变型。

[0146] 类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结
果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块
和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的
程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

[0147] 由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此
外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实
现中，多任务和并行处理可能是有利的。

[0148] 以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

基于多角度分析的多模态精神状态评估方法转让专利

申请号 : CN202110732115.X

文献号 : CN113274023B

文献日 : 2021-12-14

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 陶建华 , 蔡聪 , 刘斌 , 柳雪飞

申请人 : 中国科学院自动化研究所

摘要 :

权利要求 :

说明书 :

基于多角度分析的多模态精神状态评估方法

技术领域

背景技术

发明内容

附图说明

具体实施方式