一种基于卷积自注意力编码结构的语音增强方法转让专利

申请号 : CN202211294392.8

文献号 : CN115700882A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 曹焱翔闫桐嘉周琳庄程浩王启瑞邓宇汐程云苓

申请人 : 东南大学

摘要 :

本发明公布了一种基于卷积自注意力编码结构的语音增强方法。在训练阶段将训练集纯净语音信号、含噪语音信号分别进行短时傅里叶变换,计算理想比例掩蔽矩阵作为训练标签,将含噪语音的幅度谱图作为卷积自注意力编码结构的输入特征进行训练。卷积自注意力编码结构由编码器、解码器、残差密集块和自注意力编码模块组成。在测试阶段,卷积自注意力编码结构将测试含噪语音的幅度谱图映射为掩蔽值矩阵,根据掩蔽值重构纯净语音的幅度谱图,结合原始含噪语音的相位谱,得到增强语音信号。在不同声学环境下的仿真测试表明,基于不同的语音质量客观评估方法,本发明显著提高含噪语音的客观评价指标,并且对于未知声学环境具有较强的泛化能力。

权利要求 :

1.一种基于卷积自注意力编码结构的语音增强方法,其特征在于,包括以下步骤:

步骤1,将待训练的单通道语音信号与各种加性噪声按0、5、10dB的信噪比混合,生成含噪语音,并与纯净语音一起构成训练数据集;

步骤2,将步骤1所得训练数据集中的含噪语音、纯净语音,分别通过分帧、加窗、短时傅里叶变换,得到含噪语音、纯净语音的幅度谱图,并且根据含噪语音和对应纯净语音的幅度谱计算理想比例掩蔽矩阵;

步骤3,将步骤2得到的含噪语音的幅度谱图和理想比例掩蔽矩阵,分别作为卷积自注意力编码结构的输入特征和标签,基于前向传播和反向传播算法,训练卷积自注意力编码结构;

步骤4,将待测试的单通道纯净语音信号与各种加性噪声按任意不同信噪比混合,得到测试数据集,并通过分帧、加窗、短时傅里叶变换,得到含噪测试语音的幅度谱图和相位谱;

步骤5,将步骤4得到的测试语音幅度谱图作为卷积自注意力编码结构的输入特征输出理想比例掩蔽矩阵的估计值,并将其与步骤4含噪测试语音的幅度谱图逐元素相乘得到增强语音的幅度谱图,并利用步骤4所得含噪测试语音的相位谱,得到增强语音信号的频谱,通过短时傅里叶逆变换和重叠相加得到时域波形,实现语音增强。

2.根据权利要求1所述的一种基于卷积自注意力编码结构的语音增强方法,其特征在于:所述卷积自注意力编码结构是基于卷积神经网络的编解码器结构,在卷积层和反卷积层之间加入自注意力编码模块,并在卷积层和反卷积层之间的特征拼接通路使用残差密集块。

3.根据权利要求1所述的一种基于卷积自注意力编码结构的语音增强方法,其特征在于:所述卷积自注意力编码结构在卷积层和反卷积层之间使用自注意力编码模块捕获特征内部的依赖性,使用两个自注意力编码器,每个编码器含有8个多头自注意力。

4.根据权利要求1所述的一种基于卷积自注意力编码结构的语音增强方法,其特征在于:所述卷积自注意力编码结构使用残差密集块进一步处理特征拼接通路中卷积层的输出特征,每个残差密集块包含2个级联的卷积块,残差密集块的输入和2个卷积块之间采用无反馈密集连接,第二个卷积块后接卷积核大小为1×1的卷积层以保持与残差密集块输入特征尺寸相同,最后采用残差连接实现与残差密集块输入特征进行特征连接,得到残差密集块的输出特征。

5.根据权利要求1所述的一种基于卷积自注意力编码结构的语音增强方法,其特征在于:所述卷积自注意力编码结构使用理想比例掩蔽的均方误差损失函数,其公式为:其中,loss表示卷积自注意力编码结构的损失函数,(f,k)为语音信号第k帧经傅里叶变换后的第f个频点值, 为含噪语音幅度谱图经卷积自注意力编码结构映射得到的理想比例掩蔽矩阵估计值,IRM(f,k)为理想比例掩蔽值,f(f,k)、N(f,k)分别为纯净语音信号和噪声信号对应的频谱。

说明书 :

一种基于卷积自注意力编码结构的语音增强方法

技术领域

[0001] 本发明涉及语音信号降噪领域,尤其涉及一种基于卷积自注意力编码结构的语音增强方法。

背景技术

[0002] 语音是最便捷、最广泛的交互方式,在日常生活中有广泛应用,人们对于获取高质量的语音信号具有迫切需求,语音增强技术的目的就是从被噪声干扰的语音信号中提取出有用语音信号,并抑制、降低噪声干扰。近年来基于学习的方法获得了远超传统方法的语音增强性能,根据训练目标的不同,其可以分为三类算法:基于掩膜的时频域算法、基于映射的时频域算法、基于时域波形的端到端算法。
[0003] 近年来,神经网络倍受研究者关注,并且基于神经网络的算法实现了十分优异的性能,大量的神经网络结构,如深度神经网络DNN(Deep Neural Network)、卷积神经网络CNN(Convolutional Neural Network)、循环神经网络RNN(Recurrent Neural Network)、注意力(Attention)网络等已经应用于语音增强领域。但这一研究领域依然需要开展大量深入的研究工作,从而满足日益增长的高质量语音应用需求。
[0004] 语音信号的谱图在时间维度具有相关性,RNN理论上可以建立时序的远距离相关性,但由于信息传递的容量以及梯度消失问题,实际上也只能建立短距离相关性,而基于多头自注意力机制的自注意力编码结构相对于RNN具有一定优势,自注意力机制是注意力机制的一种变体,可以有效捕捉数据内部的相关性,可以根据全部输入信息动态地生成权重,可以充分建模语音信号的时序远距离相关性。本发明结合自注意力编码器构建卷积‑自注意力编码结构,在语音增强任务上实现了客观评价指标的显著提高,并且具有较强的泛化能力。

发明内容

[0005] 技术问题:本发明针对现有语音增强技术存在的问题,基于神经网络的强大拟合能力和注意力机制的优越性能,提出了一种基于卷积自注意力编码结构的语音增强方法。在不同声学环境下的仿真测试表明,本发明算法能够显著提高含噪语音的客观评价指标,并且对于未知声学环境具有较强的泛化能力。
[0006] 技术方案:本发明所述的一种基于卷积自注意力编码结构的语音增强方法包括以下步骤:
[0007] 步骤1,将待训练的单通道语音信号与各种加性噪声按0、5、10dB的信噪比混合,生成含噪语音,并与纯净语音一起构成训练数据集;
[0008] 步骤2,将步骤1所得训练数据集中的含噪语音、纯净语音,分别通过分帧、加窗、短时傅里叶变换,得到含噪语音、纯净语音的幅度谱图,并且根据含噪语音和对应纯净语音的幅度谱计算理想比例掩蔽矩阵;
[0009] 步骤3,将步骤2得到的含噪语音的幅度谱图和理想比例掩蔽矩阵,分别作为卷积自注意力编码结构的输入特征和标签,基于前向传播和反向传播算法,训练卷积自注意力编码结构;
[0010] 步骤4,将待测试的单通道纯净语音信号与各种加性噪声按任意不同信噪比混合,得到测试数据集,并通过分帧、加窗、短时傅里叶变换,得到含噪测试语音的幅度谱图和相位谱;
[0011] 步骤5,将步骤4得到的测试语音幅度谱图作为卷积自注意力编码结构的输入特征输出理想比例掩蔽矩阵的估计值,并将其与步骤4含噪测试语音的幅度谱图逐元素相乘得到增强语音的幅度谱图,并利用步骤4所得含噪测试语音的相位谱,得到增强语音信号的频谱,通过短时傅里叶逆变换和重叠相加得到时域波形,实现语音增强。
[0012] 其中:
[0013] 所述卷积自注意力编码结构是基于卷积神经网络的编解码器结构,在卷积层和反卷积层之间加入自注意力编码模块,并在卷积层和反卷积层之间的特征拼接通路使用残差密集块。
[0014] 所述卷积自注意力编码结构在卷积层和反卷积层之间使用自注意力编码模块捕获特征内部的依赖性,使用两个自注意力编码器,每个编码器含有8个多头自注意力。
[0015] 所述卷积自注意力编码结构使用残差密集块进一步处理特征拼接通路中卷积层的输出特征,每个残差密集块包含2个级联的卷积块,残差密集块的输入和2个卷积块之间采用无反馈密集连接,第二个卷积块后接卷积核大小为1×1的卷积层以保持与残差密集块输入特征尺寸相同,最后采用残差连接实现与残差密集块输入特征进行特征连接,得到残差密集块的输出特征。
[0016] 所述卷积自注意力编码结构使用理想比例掩蔽的均方误差损失函数,其公式为:
[0017]
[0018]
[0019] 其中,loss表示卷积自注意力编码结构的损失函数,(f,k)为语音信号第k帧经傅里叶变换后的第f个频点值, 为含噪语音幅度谱图经卷积自注意力编码结构映射得到的理想比例掩蔽矩阵估计值,IRM(f,k)为理想比例掩蔽值,S(f,k)、N(f,k)分别为纯净语音信号和噪声信号对应的频谱。
[0020] 有益效果:本发明与现有技术相比,其显著优点是:本发明提取含噪语音信号的幅度谱图作为输入特征,利用合适的损失函数,对卷积自注意力编码结构进行训练,得到基于掩蔽的语音增强算法。利用该网络对含噪测试语音进行增强,在不同声学环境下的实验结果表明,本发明提出的基于卷积自注意力编码结构的语音增强方法,能够显著提升含噪语音的可懂度和语音质量,对于未知的声学环境(未知的信噪比和噪声类型)具有很好的鲁棒性。

附图说明

[0021] 图1为本发明语音增强系统流程图;
[0022] 图2为本发明卷积神经网络的整体结构图;
[0023] 图3为本发明神经网络中残差密集块的结构图;
[0024] 图4为本发明神经网络中自注意力编码模块的结构图。

具体实施方式

[0025] 如图1所示,本实施例提供的基于卷积自注意力编码结构的语音增强方法包括以下步骤:
[0026] 步骤一、将待训练的单通道纯净语音信号与各种加性噪声按0、5、10dB的信噪比混合,生成含噪语音。本发明全部使用开源的语音数据库训练网络,其中纯净语音来源于NOIZEUS数据集,数据集包含30个从IEEE语句数据集中精心挑选的句子,语句的朗读者由三名男性和三名女性组成;噪声信号来自于AURORA噪声数据库,选用的训练噪声类型包括人群谈话噪声、汽车噪声、餐厅噪声、街道噪声和列车噪声。
[0027] 步骤二、将步骤一所得训练数据集中的含噪语音与对应的纯净语音分别进行分帧、加窗、短时傅里叶变换,得到含噪语音、纯净语音的幅度谱图,并根据含噪语音和对应纯净语音的幅度谱计算理想比例掩蔽矩阵。其中,语音采样频率为8kHz,帧长为32ms,这样一帧长度为256个样本点,帧移为8ms,FFT点数为256(与帧长有相同样本点数),窗函数选用汉宁窗,窗函数为
[0028]
[0029] 分帧、加窗操作用公式表达为
[0030] x(k,n)=x(n+kL)wH(n)
[0031] y(k,n)=y(n+kL)wH(n)
[0032] 其中,x(n)、y(n)分别表示纯净、含噪语音,wH(n)表示窗长为N的汉宁窗(这里N取256),L是帧移的样本点数(这里取64);x(k,n)、y(k,n)是经分帧、加窗操作后的第k帧纯净语音、含噪语音。
[0033] 短时傅里叶变换表达式为:
[0034]
[0035]
[0036] 其中,X(f,k)、Y(f,k)分别为第k帧纯净语音、含噪语音在频点f处的频谱。
[0037] 将含噪语音、纯净语音的幅度谱|X(f,k)|、|Y(f,k)|按照帧顺序、频点顺序进行排列,分别分割成若干段有固定帧长的幅度谱矩阵,即为对应的幅度谱图,本发明中,将含噪语音、纯净语音的幅度谱图分别分割为129×129大小的矩阵,其维度分别表示时间帧和频点,分割成的矩阵即为幅度谱图。并根据含噪语音和对应纯净语音的频谱图计算理想比例掩蔽矩阵,与上述对幅度谱图的处理相同,将所得理想比例掩蔽矩阵分割为129×129大小的矩阵,与幅度谱图一一对应。
[0038] 理想比例掩蔽表达式为:
[0039]
[0040] 其中IRM(f,k)为第k帧、第f个频点处的理想比例掩蔽值,S(f,k)、N(f,k)分别为纯净语音信号和噪声信号对应的频谱。
[0041] 步骤三、将步骤二得到的含噪语音幅度谱图作为卷积自注意力编码结构的输入特征,使用对应的理想比例掩蔽矩阵作为训练目标,训练卷积自注意力编码结构。
[0042] 本发明提出卷积自注意力编码结构,下面给出结构。实际上,本发明提出的卷积自注意力编码结构的结构不限制于此实施例的网络结构,细微之处的改动也属于卷积自注意力编码结构的覆盖范围。
[0043] 卷积自注意力编码结构是基于U‑Net的编码器‑解码器结构。
[0044] 编码器包含3个级联的卷积块,卷积块通过1、2的卷积步长、递增的输出通道数,实现4倍下采样,降低特征图的尺寸并增加特征图的通道。每个卷积块包含以下操作:输入卷积层,批量归一化,丢弃50%的神经元,ReLU激活函数。其中三个卷积层的输出通道数分别为16、32、64,卷积核大小分别为7×7、5×5、3×3,后两个卷积层采用步长为2的卷积操作以实现下采样。
[0045] 解码器由3个反卷积块和2个卷积块级联构成。其中3个反卷积块采用与编码器卷积块对称的步长、递减的输出通道数,实现4倍上采样,从而将低分辨率、高通道数的特征图映射为高分辨率、低通道数的特征图。每个反卷积块包含以下操作:输入反卷积层,批量归一化,丢弃50%的神经元,ReLU激活函数。其中3个反卷积层的输出通道数分别为32、16、8,并且使用与解码器卷积层对称的卷积核大小及步长。2个卷积块使用3×3的卷积核进一步将通道数降低为1,保证卷积自注意力编码结构的输出与输入特征尺寸相同。
[0046] 编码器的第1、2个卷积块与解码器的第2、3个反卷积块之间存在特征拼接通路,通路中使用残差密集块进一步处理编码器卷积块的输出特征。残差密集块包含2个级联的卷积块,残差密集块的输入和两个卷积块之间采用无反馈密集连接,第二个卷积块后接卷积核大小为1×1的卷积层以保持与残差密集块输入特征尺寸相同,最后采用残差连接与残差密集块输入特征进行特征连接,得到残差密集块输出特征。
[0047] 编码器和解码器之间是自注意力编码模块,用于建立编码器输出特征内部的长距离依赖关系,模块使用两个自注意力编码器。每个自注意力编码器拥有8个多头自注意力,自注意力输出与输入通过残差连接相加并进行归一化得到注意力输出,之后注意力输出与其经过前馈层的输出采用残差连接相加并进行归一化得到自注意力编码模块输出。
[0048] 损失函数为理想比例掩蔽的均方误差:
[0049]
[0050] 其中,loss表示卷积自注意力编码结构的损失函数,(f,k)为语音信号第k帧经傅里叶变换后的第f个频点值, 为含噪语音幅度谱图经卷积自注意力编码结构映射得到的掩蔽值,IRM(f,k)为理想比例掩蔽值,S(f,k)、N(f,k)分别为纯净语音信号和噪声信号对应的频谱。
[0051] 步骤四、在测试阶段,对于测试含噪语音,按照步骤二的方法,经过分帧、加窗、短时傅里叶变换,得到测试含噪语音的幅度谱图、相位谱。
[0052] 步骤五、将步骤四的测试含噪语音幅度谱图作为已训练卷积自注意力编码结构的输入特征,映射得到理想比例掩蔽矩阵的估计值,将其与输入的测试含噪语音幅度谱图逐元素相乘得到增强语音的幅度谱图,并利用步骤四的测试含噪语音相位谱,得到增强语音信号的频谱,经过短时傅里叶逆变换与重叠相加得到时域波形,实现语音增强。
[0053] 使用各种评判语音质量、可懂度的客观评价指标来评价增强语音的效果,本发明使用语音质量感知评估PESQ(Perceptual Evaluation of Speech Quality),短时客观可懂度STOI(Short‑Time Objective Intelligibility)两个指标。PESQ得分基于ITU‑TP.862标准,是一种客观语音质量评估方法,使用原始信号作为参考,衡量劣化信号的好坏,返回区间为‑0.5~4.5的得分。STOI得分是衡量人类听觉感知系统对语音可懂程度的客观评价方法,得分介于0~1之间,使用原始信号作为参考衡量劣化信号的可懂度。
[0054] 对以上方法进行仿真验证,最终的性能评估如下:
[0055] (1)在匹配声学条件下的指标
[0056] 针对人群谈话噪声、汽车噪声、餐厅噪声、街道噪声、列车噪声五种噪声类型,使用信噪比0、5、10dB对噪声和纯净语音进行混合,生成训练集含噪语音,而测试数据使用同样的声学环境。本发明中卷积自注意力编码结构,与CNN(类U‑Net结构)、CNN(无特征通路的类U‑Net结构)、DNN、RNN进行对比,使用PESQ和STOI指标评估语音增强效果。
[0057] 表一 在匹配声学条件下的PESQ指标
[0058]   SNR=0dB SNR=5dB SNR=10dBnoisy 1.4095 1.5819 1.8791
本发明 1.7392 2.0065 2.2928
CNN 1.4960 1.7287 2.0240
CNN(无特征通路) 1.4976 1.7164 1.9968
DNN 1.4947 1.6950 1.9460
RNN 1.4747 1.6729 1.9195
[0059] 表二 在匹配声学条件下的STOI指标
[0060]  SNR=0dB SNR=5dB SNR=10dB
noisy 0.6762 0.7850 0.8798
本发明 0.8144 0.8839 0.9344
CNN 0.7159 0.8251 0.9074
CNN(无特征通路) 0.7139 0.8213 0.9022
DNN 0.7199 0.8236 0.9048
RNN 0.7557 0.851 0.9180
[0061] (2)在非匹配声学条件下的指标
[0062] 针对人群谈话噪声、汽车噪声、餐厅噪声、街道噪声、列车噪声五种噪声类型,使用信噪比0、5、10dB对噪声和纯净语音进行混合,生成训练集,而测试数据使用信噪比为‑2.5、2.5、7.5dB,噪声类型为白噪声、工厂噪声、发动机噪声、粉色噪声。本发明卷积自注意力编码结构,与CNN(类U‑Net结构)、CNN(无特征通路的类U‑Net结构)、DNN、RNN作对比,PESQ和STOI的指标如下表所示。
[0063] 表三 在非匹配声学条件下的PESQ指标
[0064]   SNR=‑2.5dB SNR=2.5dB SNR=7.5dBnoisy 1.3358 1.5102 1.7733
本发明 1.4975 1.7102 1.992
CNN 1.4159 1.6408 1.9140
CNN(无特征通路) 1.4124 1.629 1.8954
DNN 1.3982 1.6273 1.8887
RNN 1.3887 1.6024 1.8688
[0065] 表四 在非匹配声学条件下的STOI指标
[0066]  SNR=‑2.5dB SNR=2.5dB SNR=7.5dB
noisy 0.6094 0.7109 0.7983
本发明 0.6964 0.7890 0.8544
CNN 0.6355 0.7378 0.8225
CNN(无特征通路) 0.6324 0.7354 0.8175
DNN 0.6356 0.7349 0.8220
RNN 0.6351 0.7434 0.8251
[0067] 以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰;这些改进和润饰也应视为本发明的保护范围。