会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学 / 基于时频特征分离式transformer交叉融合架构的语音情感识别方法

基于时频特征分离式transformer交叉融合架构的语音情感识别方法

申请号 CN202311672258.1 申请日 2023-12-07 公开(公告)号 CN117746908A 公开(公告)日 2024-03-22
申请人 南京邮电大学; 发明人 闫静杰; 汪雨果; 周晓阳; 包岩;
摘要 本 发明 提供一种基于时频特征分离式transformer交叉融合架构的语音 情感识别 方法,包括以下步骤S1、对原始语音 信号 进行预处理,将所述原始 语音信号 转换为相应的特征表示,包括语谱图和音频梅尔 频率 倒谱 系数;S2、从所述特征表示中进行特征提取,使用两条支路提取特征,其中一条支路通过时频分离式transformer交叉融合架构提取特征,另一条支路通过扩张因果卷积网络提取特征;S3、进行特征融合,使用transformer的多头自注意 力 机制来动态地融合时频分离式transformer交叉融合架构和扩张因果卷积输出特征;S4、输出结果,使用 输出层 来对时频分离式transformer交叉融合架构的输出进行分类或回归,以使时频分离式transformer交叉融合架构适应 训练数据 ,并对任务进行预测或分类。
权利要求

1.一种基于时频特征分离式transformer交叉融合架构的语音情感识别方法,其特征在于,包括如下步骤:
S1、对原始语音信号进行预处理,将所述原始语音信号转换为相应的特征表示,包括语谱图和音频梅尔频率倒谱系数;
S2、从所述特征表示中进行特征提取,使用两条支路提取特征,其中一条支路通过时频分离式transformer交叉融合架构提取特征,另一条支路通过扩张因果卷积网络提取特征;
S3、进行特征融合,使用transformer的多头自注意机制来动态地融合时频分离式transformer交叉融合架构和扩张因果卷积输出特征;
S4、输出结果,使用输出层来对所述时频分离式transformer交叉融合架构的输出进行分类或回归,以使所述时频分离式transformer交叉融合架构适应训练数据,并对任务进行预测或分类。
2.根据权利要求1所述的基于时频特征分离式transformer交叉融合架构的语音情感识别方法,其特征在于,所述步骤S2中的一条支路使用所述时频分离式transformer交叉融合架构提取特征具体包括以下步骤:
S21、使用平方向的transformer和垂直方向的transformer来分别提取时域和频域的特征,之后再将两个transformer的Query矩阵交换,与原先的两路输出形成共四路不同的自注意力输出,并进行concat拼接;
k
S22、将时域上的投影标记分离为数据子样本,其可表示为T:,j=[T1,j,T2,j,…,Tk,j]∈R×d
,从而得到一批n个数据样本,其中每个数据样本由k个token组成;同时,将类令牌T[CLS]∈k×d
R 复制n次,并对每个数据样本T:,j添加一个副本,每个标记都添加一个可学习的位置嵌入;
S23 、将频 域上的 投影标 记分离 为数据 子样本 ,其可 表示为
从而得到一批n个数据样本,其中每个数据样本由i个token
组成;同时,对于垂直transformer,复制类令牌 k次,并为每个数据样本 添加一个副本。
3.根据权利要求2所述的基于时频特征分离式transformer交叉融合架构的语音情感识别方法,其特征在于,所述步骤S2还包括以下步骤:
S24、分离式交叉融合transformer模,在水平方向的transformer和垂直方向的m×d
transformer内部执行的操作包括:设为X∈R ,表示m个令牌的序列,即T:,j或 其中m∈{k,n},d是每个令牌的嵌入维数,设f为多头注意层,g为多层感知器,范数为归一化层,P,Rm×d
∈R 为辅助张量;
所述transformer模块的表达形式如下:
P=f(norm(X))+X;
R=g(norm(P))+P;
所述transformer模块配置为根据全局上下文信息对每个实体进行编码来捕获所有m个实体之间的交互,通过多头注意力层f实现该目的;所述多头注意力层f用于从输入序列X中推导出Q,K,V的值,所述多头注意力层f包括三个可学习的权重矩阵
其中dq=dqk;输入序列X首先投射到所述
权重矩阵后分别得到:
Q K V
Q=X·W,K=X·W,V=X·W;
自注意力的输出 表达为以下公式:
`
其中K是K的转置,则通过水平transformer得到的三个可学习的权重矩阵分别记为Q1,K1,V1,通过垂直transformer得到的三个可学习的权重矩阵分别记为Q2,K2,V2;此时,由于Query矩阵是用于计算当前位置语音与其他非当前位置语音的关联度,可以交换两个transformer得到Query矩阵,即得到Q2,K1,V1和Q1,K2,V2;即可得到四个自注意力的输出:
Z1,Z2,Z3,Z4,分别为:
将四个所述自注意力的输出Z1,Z2,Z3,Z4使用concat拼接特征,得到总的输出Z=concat(Z1,Z2,Z3,Z4)。
4.根据权利要求1所述的基于时频特征分离式transformer交叉融合架构的语音情感识别方法,其特征在于,所述步骤S2中一条支路使用分离式transformer架构并加入随机掩码模块,具体包括:
S25、在语音频谱transformer的预训练中,使用固定长度的10s音频,并将其转换为大小为1024×128的频谱图,所述语音频谱transformer将频谱图分成512个16×16patch,其中8个在频率维度,64个在时间维度;所述语音频谱transformer配置为在预训练期间对单个的频谱图patch添加掩码,以使所述时频分离式transformer交叉融合架构学习输入数据的时间和频率结构;其中,在水平方向的transformer中随机添加垂直方向的条状掩码,以增强所述时频分离式transformer交叉融合架构学习频率特征,在垂直方向的transformer中随机添加水平方向的条状掩码,以增强所述时频分离式transformer交叉融合架构学习时间特征。
5.根据权利要求1所述的基于时频特征分离式transformer交叉融合架构的语音情感识别方法,其特征在于,所述步骤S2中的一条支路使用扩张因果卷积网络与LSTM网络并联来提取有用的特征,具体包括:将输入的语音片段提取出所述音频梅尔频率倒谱系数的特征后,送入一个由扩张因果卷积网络与LSTM网络并联形成的网络;所述扩张因果卷积网络属于CNN网络,其中,因果卷积用以保留从前往后的神经元链接,以使网络满足时间上的前后依赖原则;扩张卷积用以扩大感受;使用所述因果卷积,将对序列问题抽象为:根据x1,x2…,xt和y1,y2…,yt‑1去预测yt,使得yt接近于实际值,其公式为:
6.根据权利要求5所述的基于时频特征分离式transformer交叉融合架构的语音情感识别方法,其特征在于,所述LSTM网络是一种特殊的循环神经网络,所述LSTM网络中包括输入、遗忘门和输出门,LSTM网络配置为处理长序列,以避免训练过程中的梯度消失和梯度爆炸问题,实现对长序列的建模;所述LSTM网络中的每个神经元都有一个状态向量和一个输出向量,状态向量用于存储过去的信息,输出向量用于输出当前的信息,在每个时间步,LSTM网络会根据当前的输入和前一个时间步的状态向量,计算出所述输入门、遗忘门和输出门的输出,并根据所述输入门、遗忘门和输出门的输出来更新状态向量和输出向量,其中,所述输入门用于控制当前输入的重要性,所述遗忘门用于控制过去状态的重要性,所述输出门用于控制当前输出的重要性。

说明书全文

基于时频特征分离式transformer交叉融合架构的语音情感

识别方法

技术领域

[0001] 本发明涉及一种基于时频特征分离式transformer交叉融合架构的语音情感识别方法,属于情感计算技术领域。

背景技术

[0002] 语音情感识别是指从语音信号中自动分析和识别出说话人的情感状态。它是语音识别自然语言处理、情感计算等领域交叉的研究方向。随着社交媒体、智能语音助手、人机交互等领域的快速发展,语音情感识别越来越受到关注。
[0003] 传统的语音情感识别方法主要是基于信号处理和分类器的结合,使用手工提取的音频特征,如MFCC、LPC等,并使用分类器,如支持向量机(SVM)、高斯混合模型(GMM)等来识别情感状态。但是,这些方法依赖于手工特征提取和分类器选择,需要专业知识和经验,效果不稳定。
[0004] 近年来,深度学习技术的发展使得语音情感识别取得了更好的效果。常用的深度学习模型包括卷积神经网络(CNN)、长短时记忆网络(LSTM)、自编码器(AE)等。此外,注意机制和transformer等模型也在语音情感识别中被广泛应用。
[0005] 现有的语音情感识别研究主要面临以下问题:(1)数据不足和样本不平衡问题;(2)情感状态的定义和分类问题;(3)情感状态的多样性问题;(4)实时性和效率问题。这些问题需要进一步研究和解决。
[0006] transformer模型是一种深度神经网络,最初用于自然语言处理领域中的翻译任务。它的核心是self‑attention机制,即在输入序列的所有位置上计算注意力向量,使得每个位置都能够获得输入序列中其他位置的信息,从而更好地理解整个序列的语义。这使得transformer模型在处理长序列时表现优秀,并成为自然语言处理领域中的重要模型。
[0007] 近年来,transformer模型被引入到语音识别领域。其中,基于transformer模型的语音情感识别方法利用其在序列建模和长距离依赖建模方面的优势,从而在语音情感识别任务上取得了不错的效果。该方法通常首先利用声学特征提取器将语音信号转换为特征序列,然后使用transformer模型进行情感分类。在transformer模型中,每个时间步的输入特征向量通过self‑attention机制进行编码,并利用位置编码加入时间步的信息。然后通过多层feed‑forward网络进行分类预测。
[0008] 扩张因果卷积属于CNN网络,因果卷积可以保留那些从前往后的神经元链接,这样就使得网络满足了时间上的前后依赖原则;扩张卷积可以扩大感受野,让每个卷积输出都包含较大范围的信息。由于因果卷积每一层的输出都是由前一层对应未知的输入及其前一个位置的输入共同得到,并且如果输出层输入层之前有很多的隐藏层,那么一个输出对应的所有输入就越多,且输入和输出离得越远,就需要考虑越早之前的输入变量参与运算,这样会增加卷积的层数,而卷积层数的增加就带来:梯度消失,训练复杂,拟合效果不好的问题,因此扩张卷积就解决了这个问题:扩张卷积是通过跳过部分输入来使filter可以应用于大于filter本身长度的区域。等同于通过增加零来从原始filter中生成更大的filter。使用扩展卷积,就可以解决因果卷积带来的问题,扩张卷积可以使模型在层数不大的情况下有非常大的感受野。
[0009] 该方法的优点在于,它将基于时频特征分离式transformer交叉融合架构和扩张因果卷积的建模方法引入语音情感识别,并能够对长序列进行有效建模,从而在语音情感识别任务上取得了不错的效果。然而,该方法的缺点在于需要大量的计算资源和数据进行训练,并且需要进行超参数调优。
[0010] 有鉴于此,确有必要提出一种基于时频特征分离式transformer交叉融合架构的语音情感识别方法,以解决上述问题。

发明内容

[0011] 本发明目的在于提出一种基于时频特征分离式transformer交叉融合架构的语音情感识别方法,对现有深度神经网络进行部分改造和结合,提高计算机识别人类语音情感的正确率。
[0012] 为实现上述目的,本发明提供了一种基于时频特征分离式transformer交叉融合架构的语音情感识别方法,包括如下步骤:
[0013] S1、对原始语音信号进行预处理,将所述原始语音信号转换为相应的特征表示,包括语谱图和音频梅尔频率倒谱系数;
[0014] S2、从所述特征表示中进行特征提取,使用两条支路提取特征,其中一条支路通过时频分离式transformer交叉融合架构提取特征,另一条支路通过扩张因果卷积网络提取特征;
[0015] S3、进行特征融合,使用transformer的多头自注意力机制来动态地融合时频分离式transformer交叉融合架构和扩张因果卷积输出特征;
[0016] S4、输出结果,使用输出层来对时频分离式transformer交叉融合架构的输出进行分类或回归,以使时频分离式transformer交叉融合架构适应训练数据,并对任务进行预测或分类。
[0017] 作为本发明的进一步改进,所述步骤S2中的一条支路使用所述时频分离式transformer交叉融合架构来提取特征具体包括以下步骤:
[0018] S21、使用平方向的transformer和垂直方向的transformer来分别提取时域和频域的特征,之后再将两个transformer的Query矩阵交换,与原先的两路输出形成共四路不同的自注意力输出,并进行concat拼接;
[0019] S22、将时域上的投影标记分离为数据子样本,其可表示为T:,j=[T1,j,T2,j,…,k×dTk,j]∈R ,从而得到一批n个数据样本,其中每个数据样本由k个token组成;同时,将类令k×d
牌T[CLS]∈R 复制n次,并对每个数据样本T:,j添加一个副本,每个标记都添加一个可学习的位置嵌入;
[0020] S23、将频域上的投影标记分离为数据子样本,其可表示为从而得到一批n个数据样本,其中每个数据样本由i个token
组成;同时,对于垂直transformer,复制类令牌 k次,并为每个数据样本 添加一个副本。
[0021] 作为本发明的进一步改进,所述步骤S2还包括以下步骤:
[0022] S24、分离式交叉融合transformer模,在水平方向的transformer和垂直方向的m×dtransformer内部执行的操作包括:设为X∈R ,表示m个令牌的序列,即T:,j或 其中m∈{k,n},d是每个令牌的嵌入维数,设f为多头注意层,g为多层感知器,范数为归一化层,P,Rm×d
∈R 为辅助张量;
[0023] 所述transformer模块的表达形式如下:
[0024] P=f(norm(X))+X;
[0025] R=g(norm(P))+P;
[0026] 所述transformer模块配置为根据全局上下文信息对每个实体进行编码来捕获所有m个实体之间的交互,通过多头注意力层f实现该目的;所述多头注意力层f用于从输入序列X中推导出Q,K,V的值,所述多头注意力层f包括三个可学习的权重矩阵其中dq=dqk;输入序列X首先投射到所述权重矩阵后可以分别得到:
[0027] Q=X·WQ,K=X·WK,V=X·WV;
[0028] 自注意力的输出 表达为以下公式:
[0029]
[0030] 其中K`是K的转置,则通过水平transformer得到的三个可学习的权重矩阵分别记为Q1,K1,V1,通过垂直transformer得到的三个可学习的权重矩阵分别记为Q2,K2,V2;此时,由于Query矩阵是用于计算当前位置语音与其他非当前位置语音的关联度,可以交换两个transformer得到Query矩阵,即得到Q2,K1,V1和Q1,K2,V2;即可得到四个自注意力的输出:Z1,Z2,Z3,Z4,分别为:
[0031]
[0032]
[0033]
[0034]
[0035] 将四个所述自注意力的输出Z1,Z2,Z3,Z4使用concat拼接特征,得到总的输出Z=concat(Z1,Z2,Z3,Z4)。
[0036] 作为本发明的进一步改进,所述步骤S2中一条支路使用分离式transformer架构并加入随机掩码模块,具体包括:
[0037] S25、在语音频谱transformer的预训练中,使用固定长度的10s音频,并将其转换为大小为1024×128的频谱图,所述语音频谱transformer将频谱图分成512个16×16patch,其中8个在频率维度,64个在时间维度;所述语音频谱transformer配置为在预训练期间对单个的频谱图patch添加掩码,以使所述时频分离式transformer交叉融合架构学习输入数据的时间和频率结构;其中,在水平方向的transformer中随机添加垂直方向的条状掩码,以增强所述时频分离式transformer交叉融合架构学习频率特征,在垂直方向的transformer中随机添加水平方向的条状掩码,以增强所述时频分离式transformer交叉融合架构学习时间特征。
[0038] 作为本发明的进一步改进,所述步骤S2中的一条支路使用扩张因果卷积网络与LSTM网络并联来提取有用的特征,具体包括:将输入的语音片段提取出所述音频梅尔频率倒谱系数的特征后,送入一个由扩张因果卷积网络与LSTM网络并联形成的网络;所述扩张因果卷积网络属于CNN网络,其中,因果卷积用以保留从前往后的神经元链接,以使网络满足时间上的前后依赖原则;扩张卷积用以扩大感受;使用所述因果卷积,将对序列问题抽象为:根据x1,x2…,xt和y1,y2…,yt‑1去预测yt,使得yt接近于实际值,其公式为:
[0039]
[0040] 作为本发明的进一步改进,所述LSTM网络是一种特殊的循环神经网络,所述LSTM网络中包括输入、遗忘门和输出门,LSTM网络配置为处理长序列,以避免训练过程中的梯度消失和梯度爆炸问题,实现对长序列的建模;所述LSTM网络中的每个神经元都有一个状态向量和一个输出向量,状态向量用于存储过去的信息,输出向量用于输出当前的信息,在每个时间步,LSTM网络会根据当前的输入和前一个时间步的状态向量,计算出所述输入门、遗忘门和输出门的输出,并根据所述输入门、遗忘门和输出门的输出来更新状态向量和输出向量,其中,所述输入门用于控制当前输入的重要性,所述遗忘门用于控制过去状态的重要性,所述输出门用于控制当前输出的重要性。
[0041] 本发明的有益效果是包括:分离式transformer中,利用水平和垂直两个方向的transformer分别提取时域和频域的特征,再交换Query矩阵获得交叉融合特征,获得比基于传统特征学习的方法更好的情感识别效果,显著降低了计算量。同时,因果卷积可以保留那些从前往后的神经元链接,这样就使得网络满足了时间上的前后依赖原则;扩张卷积可以扩大感受野,让每个卷积输出都包含较大范围的信息。附图说明
[0042] 图1本发明的基于时频特征分离式transformer交叉融合架构的语音情感识别方法;
[0043] 图2本发明中的网络结构框架图;
[0044] 图3是本发明中时频分离式transformer交叉融合单元结构框图
[0045] 图4是本发明中的扩张因果卷积单元结构框图。

具体实施方式

[0046] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0047] 需要强调的是,在描述本发明过程中,各种公式和约束条件分别使用前后一致的标号进行区分,但也不排除使用不同的标号标志相同的公式和/或约束条件,这样设置的目的是为了更清楚的说明本发明特征所在。
[0048] 如图1所示,本发明提供了一种基于时频特征分离式transformer交叉融合架构的语音情感识别方法,包括以下步骤:
[0049] (1)截取数据库中语音的主要部分,满足相同长度并对其分
[0050] (2)对每一段相同的语音,分别将其提取MFCC特征和转换为语谱图。将MFCC特征送入扩张因果卷积支路,将语谱图送入分离式交叉融合transformer模块进行处理;
[0051] (3)构建基于分离式交叉融合transformer和扩张因果卷积的结合网络;
[0052] (4)通过上述步骤处理的语音片段提取特征,将获得的两路语音特征融合并输入softmax层,输出得到分类结果。
[0053] 步骤(2)中数据库语音预处理将IEMOCAP数据库中的语音分为七类,分别为anger,anxiety,boredom,disgust,fear,happiness以及uncertainty,将语音的主体部分截取出来至相同长度并进行分帧。
[0054] 预处理:1、对语音信号进行预处理,包括去除静音段、分帧、加窗等操作。2、傅里叶变换:对每一帧语音信号进行傅里叶变换,得到其频谱。3、梅尔滤波器组:将频谱通过一组梅尔滤波器组,将频率轴上的频率转换为梅尔频率,得到每个滤波器的输出。4、对数运算:对每个滤波器的输出取对数,得到对数谱。5、DCT变换:对每个帧的对数谱进行DCT变换,得到MFCC系数。6、去除能量项:通常将第一项MFCC系数去除,因为它主要反映的是能量信息。
7、归一化:对每个MFCC系数进行归一化,使其均值为0,方差为1。
[0055] 如图2所示,构建出基于分离式交叉融合transformer模块和扩张因果卷积的结合网络,各部分的功能如下:
[0056] (1)一条支路使用时频分离式transformer交叉融合架构来进一步提取有用的特征。分别使用水平方向的transformer和垂直方向的transformer来分别提取时域和频域的特征。之后再将两个transformer的Query矩阵交换,与原先的两路输出形成共四路不同的自注意力输出,再进行concat拼接。
[0057] 将时域上的投影标记分离为数据子样本,其可表示为T:,j=[T1,j,T2,j,…,Tk,j]∈k×dR ,从而得到一批n个数据样本(每个时隙j一个样本),其中每个数据样本由k个token组k×d
成。此外,我们将类令牌T[CLS]∈R 复制n次,并对每个数据样本T:,j添加一个副本。每个标记都添加一个可学习的位置嵌入。
[0058] 同样的,将频域上的 投影标记分离为数据子样本,其可表 示为从而得到一批n个数据样本(每个时隙j一个样本),其
中每个数据样本由i个token组成。此外,对于垂直transformer,我们复制类令牌 k次,并为每个数据样本 添加一个副本。
[0059] transformer模块:在垂直和水平transformer内部执行的操作是相同的,唯一的m×d区别是输入数据样本的格式。因此,描述一般情况下的内部操作。设为X∈R ,表示m个令牌的序列(T:,j或 ),其中m∈{k,n},d是每个令牌的嵌入维数。设f为多头注意层,g为多层感m×d
知器,范数为归一化层,P,R∈R 为辅助张量。
[0060] transformer模块的形式描述如下:
[0061] P=f(norm(X))+X
[0062] R=g(norm(P))+P
[0063] transformer模块的目标是通过根据全局上下文信息对每个实体进行编码来捕获所有m个实体之间的交互。这是通过多头注意力层f实现的。这一层由三个可学习的权重矩阵( 其中dq=dqk)用于从输入序列X中推导出Q,K,V的值。输入序列X首先投射到这些权重矩阵后可以分别得到:
[0064] Q=X·WQ,K=X·WK,V=X•WV
[0065] 自注意力的输出 由式给出:
[0066]
[0067] 其中K`是K的转置。则通过水平transformer得到的三个可学习的权重矩阵分别记为Q1,K1,V1,通过垂直transformer得到的三个可学习的权重矩阵分别记为Q2,K2,V2。此时,由于Query矩阵(Q矩阵)是用于计算当前位置语音与其他非当前位置语音的关联度,可以交换两个transformer得到的Query矩阵(Q矩阵),即得到Q2,K1,V1和Q1,K2,V2。此时可得到四个自注意力的输出:Z1,Z2,Z3,Z4,分别为:
[0068]
[0069]
[0070]
[0071]
[0072] 再将这四个自注意力的输出Z1,Z2,Z3,Z4使用concat拼接特征,得到总的输出Z=concat(Z1,Z2,Z3,Z4)。
[0073] 与此同时,transformer模块还加入了随机掩码。在语音频谱transformer的预训练中,使用固定长度的10s音频,并将其转换为大小为1024×128的频谱图。语音频谱transformer将频谱图分成512个16×16patch(8个在频率维度,64个在时间维度)。由于语音频谱transformer的这种特殊设计,能够在预训练期间对于单个的频谱图patch添加掩码而不是整个时间帧,这允许模型来学习输入数据的时间和频率结构。
[0074] (2)扩张因果卷积和LSTM并联网络单元:将输入的语音片段提取出MFCC特征后,送入一个由扩张因果卷积网络(DC conv)与LSTM网络并联形成的网络。扩张因果卷积属于CNN网络,因果卷积可以保留那些从前往后的神经元链接,这样就使得网络满足了时间上的前后依赖原则;扩张卷积可以扩大感受野,让每个卷积输出都包含较大范围的信息。传统的CNN模型是无法直接处理序列模型问题,使用因果卷积,其作用就是对序列问题抽象为:根据x1,x2…,xt和y1,y2…,yt‑1去预测yt,使得yt接近于实际值,其公式为:
[0075]
[0076] 由于因果卷积每一层的输出都是由前一层对应未知的输入及其前一个位置的输入共同得到,并且如果输出层和输入层之前有很多的隐藏层,那么一个输出对应的所有输入就越多,且输入和输出离得越远,就需要考虑越早之前的输入变量参与运算,这样会增加卷积的层数,而卷积层数的增加就带来:梯度消失,训练复杂,拟合效果不好的问题,因此扩张卷积就解决了这个问题:扩张卷积是通过跳过部分输入来使filter可以应用于大于filter本身长度的区域。等同于通过增加零来从原始filter中生成更大的filter。使用扩展卷积,就可以解决因果卷积带来的问题,扩张卷积可以使模型在层数不大的情况下有非常大的感受野。
[0077] 扩张因果卷积层在时间序列数据中可以捕获不同时间尺度上的特征,而LSTM层在序列数据中能够捕获长期的依赖关系。通过将它们组合在一起,模型可以更好地学习时间序列中的复杂模式,包括短期和长期依赖。
[0078] 多头自注意力融合层。多头自注意力(Multi‑Head  Self‑Attention)是transformer模型中的一个关键机制,用于捕捉输入序列中不同位置之间的关系。在多头自注意力中,模型学习多个不同的注意力权重,从而更全面地捕获序列中的不同依赖关系。对于输入的两路特征,每个注意力头计算各自的注意力权重。注意力权重表示了每个位置对其他位置的关注程度。
[0079] (4)通过上述步骤处理的语音信号提取出特征,将这些样本输入构建出的网络中进行训练,更新网络参数,训练结束后保存下验证效果最佳的网络模型。送入两个不同支路后融合并输入softmax层,输出得到分类结果。
[0080] 综上所述,本发明的方法利用水平和垂直两个方向的transformer分别提取时域和频域的特征,再交换Query矩阵获得交叉融合特征,获得比基于传统特征学习的方法更好的情感识别效果。同时,因果卷积可以保留那些从前往后的神经元链接,这样就使得网络满足了时间上的前后依赖原则;扩张卷积可以扩大感受野,让每个卷积输出都包含较大范围的信息。
[0081] 以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。