一种基于卷积递归神经网络的单通道实时降噪方法转让专利

申请号 : CN201811010712.6

文献号 : CN109841226B

文献日 : 2020-10-16

本公开揭示了一种基于卷积递归神经网络的单通道实时降噪方法、装置及电子设备、存储介质，属于计算机技术领域。所述方法包括：从接收的单通道声音信号中提取声学特征，将所述声学特征在预先训练的卷积递归神经网络模型中进行迭代运算，计算所述声学特征的比值膜，采用所述比值膜对所述声学特征进行掩蔽，将经过掩蔽后的所述声学特征与所述单通道声音信号的相位进行合成，得到语音信号。上述基于卷积递归神经网络的单通道实时降噪方法及装置能够减少神经网络参数数量，降低数据存储量和对系统数据带宽的需求，在能够实现良好的降噪性能的同时大大提高了单通道语音降噪的实时性。

1.一种基于卷积递归神经网络的单通道实时降噪方法，其特征在于，所述方法包括：从接收的单通道声音信号中提取声学特征；

将所述声学特征在预先训练的卷积递归神经网络模型中进行迭代运算，计算所述声学特征的比值膜；

采用所述比值膜对所述声学特征进行掩蔽；

将经过掩蔽后的所述声学特征与所述单通道声音信号的相位进行合成，得到语音信号；

计算所述声学特征的比值膜的步骤包括：

将卷积神经网络与具有长短期记忆的递归神经网络进行组合得到卷积递归神经网络；

通过所述卷积递归神经网络对预先收集的语音训练集进行训练，构建所述卷积递归神经网络模型；

所述将卷积神经网络与具有长短期记忆的递归神经网络进行组合得到卷积递归神经网络的步骤包括：将两个堆叠的长短期记忆层合并入卷积神经网络的编码器与解码器之间，构建所述卷积递归神经网络。

2.根据权利要求1所述的方法，其特征在于，所述从接收的单通道声音信号中提取声学特征的步骤包括：将接收的单通道声音信号按照预设时间周期分为时间帧；

从所述时间帧中提取频谱幅度矢量；

对所述频谱幅度矢量进行归一化处理，形成声学特征。

3.根据权利要求2所述的方法，其特征在于，所述频谱幅度矢量进行归一化处理，形成声学特征的步骤包括：将当前时间帧与过去时间帧的频谱幅度矢量合并进行归一化处理形成声学特征。

4.根据权利要求2所述的方法，其特征在于，所述频谱幅度矢量进行归一化处理，形成声学特征的步骤包括：将当前时间帧、过去时间帧与未来时间帧的频谱幅度矢量合并进行归一化处理，形成声学特征。

5.根据权利要求1所述的方法，其特征在于，所述卷积神经网络为卷积编码器-解码器结构，所述编码器包括一组卷积层和池化层，所述解码器的结构与反向顺序的所述编码器相同，所述编码器的输出连接所述解码器的输入。

6.根据权利要求1所述的方法，其特征在于，所述具有长短期记忆的递归神经网络包括两个堆叠的长短期记忆层。

7.根据权利要求1所述的方法，其特征在于，所述卷积神经网络中的每个卷积层或池化层包括最多16个核，所述具有长短期记忆的递归神经网络的每个长短期记忆层包括64个神经元。

8.根据权利要求1所述的方法，其特征在于，所述语音训练集由在日常环境下采集的背景噪声、各类型的男女声以及特定信噪比混合的语音信号组合而成。

9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序在被执行时使得电子设备执行如权利要求1-8任一项所述的方法。

一种基于卷积递归神经网络的单通道实时降噪方法

技术领域

[0001] 本公开涉及计算机应用技术领域，特别涉及一种基于卷积递归神经网络的单通道实时降噪方法、装置及电子设备、存储介质。

背景技术

[0002] 语音降噪指将目标语音信号与背景噪声进行分离从而消除或抑制背景噪声。单通道语音是仅依靠单麦克风录音生成的语音信号，与基于波束形成的降噪技术(即通过麦克风阵列的适当配置进行空间滤波)相比，单通道语音降噪可以应用于更宽泛的声学场景。单通道语音降噪不仅在成本上有优势，而且在实际情况下也更容易使用。此外，单通道语音分离可用于强化波束形成和相关的麦克风阵列的效果。

[0003] 由于单通道语音没有麦克风阵列提供的空间信息作为参考，因此单声道语音降噪尤为困难。最近，将单通道语音降噪当作一种监督学习，突破性地将信号处理问题转变为监督学习任务。以传统的语音增强为代表的信号处理方法是基于背景噪声和语音的一般统计分析，而监督学习方法由数据驱动，并且能够自动地从具体的训练样本中学习。可以说，监督学习方法的引入实现了单通道语音降噪技术的飞跃。然而，目前监督学习的单通道语音降噪方法中，网络参数的数量较多且模型较为复杂，影响了单通道语音降噪的实时性及降噪效果。

发明内容

[0004] 为了解决相关技术中单通道语音降噪的网络参数数量较多且模型较为复杂的技术问题，本公开提供了一种基于卷积递归神经网络的单通道实时降噪方法、装置及终端。

[0005] 第一方面，提供了一种基于卷积递归神经网络的单通道实时降噪方法，包括：

[0006] 从接收的单通道声音信号中提取声学特征；

[0007] 将所述声学特征在预先训练的卷积递归神经网络模型中进行迭代运算，计算所述声学特征的比值膜；

[0008] 采用所述比值膜对所述声学特征进行掩蔽；

[0009] 将经过掩蔽后的所述声学特征与所述单通道声音信号的相位进行合成，得到降噪后语音信号。

[0010] 可选的，所述从接收的单通道声音信号中提取声学特征的步骤包括：

[0011] 将接收的单通道声音信号按照预设时间周期分为时间帧；

[0012] 从所述时间帧中提取频谱幅度矢量；

[0013] 对所述频谱幅度矢量进行归一化处理，形成声学特征。

[0014] 可选的，对所述频谱幅度矢量进行归一化处理，形成声学特征的步骤包括：

[0015] 将当前时间帧与过去时间帧的频谱幅度矢量合并进行归一化处理，形成声学特征。

[0016] 可选的，所述对所述频谱幅度矢量进行归一化处理，形成声学特征的步骤包括：

[0017] 将当前时间帧、过去时间帧与未来时间帧的频谱幅度矢量合并进行归一化处理，形成声学特征。

[0018] 可选的，将所述声学特征在预先训练的卷积递归神经网络模型中进行迭代运算，计算所述声学特征的比值膜的步骤之前，所述方法还包括：

[0019] 将卷积神经网络与具有长短期记忆的递归神经网络进行组合得到卷积递归神经网络；

[0020] 通过所述卷积递归神经网络对预先收集的语音训练集进行训练，构建所述卷积递归神经网络模型。

[0021] 可选的，所述卷积神经网络为卷积编码器-解码器结构，所述编码器包括一组卷积层和池化层，所述解码器的结构与反向顺序的所述编码器相同，所述编码器的输出连接所述解码器的输入。

[0022] 可选的，所述具有长短期记忆的递归神经网络包括两个堆叠的长短期记忆层。

[0023] 可选的，所述将卷积神经网络与具有长短期记忆的递归神经网络进行组合得到卷积递归神经网络的步骤包括：

[0024] 将两个堆叠的长短期记忆层合并入卷积神经网络的编码器与解码器之间，构建所述卷积递归神经网络。

[0025] 可选的，所述卷积神经网络中的每个卷积层或池化层包括最多16个核，所述具有长短期记忆的递归神经网络的每个长短期记忆层包括64个神经元。

[0026] 可选的，所述语音训练集由在日常环境下采集的背景噪声、各类型的男女声以及特定信噪比混合的语音信号组合而成。

[0027] 第二方面，提供了一种单通道实时降噪装置，包括：

[0028] 声学特征提取模块，用于从接收的单通道声音信号中提取声学特征；

[0029] 比值膜计算模块，用于将所述声学特征在预先构建的卷积递归神经网络模型中进行迭代运算，计算所述声学特征的比值膜；

[0030] 掩蔽模块，用于采用所述比值膜对所述声学特征进行掩蔽；

[0031] 语音合成模块，用于将经过掩蔽后的所述声学特征与所述单通道声音信号的相位进行合成，得到降噪语音信号。

[0032] 可选的，采用理想比值掩膜作为卷积递归神经网络的训练目标。

[0033] 第三方面，提供了一种电子设备，包括：

[0034] 至少一个处理器；以及

[0035] 与所述至少一个处理器通信连接的存储器；其中，

[0036] 所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的方法。

[0037] 第四方面，提供了一种计算机可读存储介质，用于存储程序，所述程序在被执行时使得电子设备执行如第一方面所述的方法。

[0038] 本公开的实施例提供的技术方案可以包括以下有益效果：

[0039] 在进行单通道实时降噪时，从接收的单通道声音信号中提取声学特征，将声学特征在预先训练的卷积递归神经网络模型中进行迭代运算计算声学特征的比值膜后，采用该比值膜对声学特征进行掩蔽，再将经过掩蔽后的声学特征与单通道声音信号的相位进行合成，得到语音信号，由于该方案中采用了预先训练的卷积递归神经网络模型，在具有良好的降噪性能的同时，大大减少了神经网络参数数量，降低了数据存储量和对系统数据带宽的需求。

[0040] 应当理解的是，以上的一般描述和后文的细节描述仅为示例性，并不能限制本公开范围。

附图说明

[0041] 此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

[0042] 图1是根据一示例性实施例示出的一种基于卷积递归神经网络的单通道实时降噪方法的流程图。

[0043] 图2是图1对应实施例的基于卷积递归神经网络的单通道实时降噪方法中步骤S110的一种具体实现流程图。

[0044] 图3是图1基于卷积递归神经网络的单通道实时降噪方法中步骤S120的一种具体实现流程图。

[0045] 图4是根据一示例性实施例示出的单通道实时降噪的流程示意图。

[0046] 图5为未对CRN模型进行压缩时预测的频谱幅度示意图。

[0047] 图6为对CRN模型进行压缩后预测的频谱幅度示意图。

[0048] 图7是根据一示例性实施例示出的在多人谈话噪声场景下经LSTM模型训练的、经CRN模型训练的、及与未经训练的STOI参数比对结果示意图。

[0049] 图8是根据一示例性实施例示出的在咖啡厅噪声场景下经LSTM模型训练的、经CRN模型训练的、及与未经训练的STOI参数比对结果示意图。

[0050] 图9是根据一示例性实施例输出的在-5dB SNR(信噪比)下多人谈话噪声场景中未经训练的声音信号的频谱图。

[0051] 图10是根据一示例性实施例相应于图9的纯净话语频谱图。

[0052] 图11是根据一示例性实施例输出的是采用CRN模型降噪后的频谱图。

[0053] 图12是根据一示例性实施例示出的一种单通道实时降噪装置的框图。

[0054] 图13是图12对应实施例示出的单通道实时降噪装置中声学特征提取模块110的一种框图。

[0055] 图14是图12对应实施例示出的比值膜计算模块120的一种框图。

具体实施方式

[0056] 这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、与本发明的一些方面相一致的装置和方法的例子。

[0057] 图1是根据一示例性实施例示出的一种基于卷积递归神经网络的单通道实时降噪方法的流程图。该基于卷积递归神经网络的单通道实时降噪方法可用于智能手机、电脑等电子设备中。如图1所示，该基于卷积递归神经网络的单通道实时降噪方法可以包括步骤S110、步骤S120、步骤S130、步骤S140。

[0058] 步骤S110，从接收的单通道声音信号中提取声学特征。

[0059] 单通道声音信号是将要进行实时降噪处理的信号。

[0060] 通常地，单通道声音信号包含语音和非人声干扰噪声。

[0061] 电子设备进行单通道语音实时降噪处理时，可以接收麦克风等录音设备采集的单通道声音信号，也可以接收其它电子设备发送的单通道声音信号，还可以是通过其它方式接收单通道声音信号，在此不进行一一描述。

[0062] 声学特征是能够表征单通道声音信号的数据特征。

[0063] 从接收的单通道声音信号中提取声学特征时，可以对单通道声音信号采用STFT(short-time Fourier transform，短时傅里叶变换)提取声学特征，也可以对单通道声音信号采用小波变换提取声学特征，还可以采用其它形式从接收的单通道声音信号中提取声学特征。

[0064] 可选的，如图2所示，步骤S110可以包括步骤S111、步骤S112、步骤S113。

[0065] 步骤S111，将接收的单通道声音信号按照预设时间周期分为时间帧。

[0066] 预设时间周期是预先设置的时间间隔期，按照预设时间周期，将单通道声音信号分为多个时间帧。

[0067] 在一具体示例性实施例中，将接收的单通道声音信号按照每帧20毫秒分为多个时间帧，且每两个相邻的时间帧之间具有10毫秒的重叠。

[0068] 步骤S112，从时间帧中提取频谱幅度矢量。

[0069] 步骤S113，对频谱幅度矢量进行归一化处理，形成声学特征。

[0070] 在一示例性实施例中，将STFT应用于每个时间帧以提取频谱幅度矢量，每一频谱幅度矢量经过归一化处理后，形成声学特征。

[0071] 可选的，由于时间上下文是语音信号的特征，因此通过以当前时间帧为中心的多个连续帧连接成更大的矢量来整合上下文信息，以进一步提高单通道语音降噪性能。

[0072] 例如，在对频谱幅度矢量进行归一化处理时，将当前时间帧与过去时间帧的频谱幅度矢量合并进行归一化处理，形成声学特征。

[0073] 由于移动通信和助听器等降噪应用中，应用要求的实时性程度高，因此不能使用未来时间帧。针对此类实时性应用，在对频谱幅度矢量进行归一化处理时，将当前时间帧与过去时间帧的频谱幅度矢量合并进行归一化处理。具体地，将先前5帧和当前时间帧拼接成一个统一的特征向量，作为本发明的输入。过去时间帧的数量还可以小于5个，在牺牲一定降噪性能的情况下进一步节省计算时间，提高应用的实时性。

[0074] 又例如，在对频谱幅度矢量进行归一化处理时，将当前时间帧、过去时间帧与未来时间帧的频谱幅度矢量合并进行归一化处理，形成声学特征。

[0075] 对于不要求实时处理的应用，例如自动语音识别(ASR)，可以使用未来时间帧作为输入。具体的，通过将当前时间帧、1个未来时间帧以及5个过去时间帧共7个时间帧拼接成一个统一的特征向量作为本发明的输入，相比未加入未来时间帧的场景，这种场景下可以使STOI(Short-Time Objective intelligibility，短时客观可懂度)提高大约一个百分点。STOI是评估语音降噪性能的重要指标，其典型数值范围在0和1之间，可以解释为听懂语音的百分比。

[0076] 因此，在从单通道声音信号中提取声学特征时，预先按照预设时间周期将单通道声音信号分为时间帧，通过设置适当的时间周期，使基于从各时间帧提取的声学特征为降噪处理时提供输入，而且通过将当前时间帧与过去时间帧、未来时间帧的频谱幅度矢量进行选择性合并形成声学特征，可提高降噪性能。

[0077] 步骤S120，将声学特征在预先训练的卷积递归神经网络模型中进行迭代运算，计算声学特征的比值膜。

[0078] 比值膜是表征带噪语音信号与纯净语音信号之间的关系，其指示了抑制噪声与保留语音的权衡。

[0079] 理想情况下，通过比值膜对带噪语音信号进行掩蔽处理后，可以从带噪语音中还原出纯净的语音信号。

[0080] 卷积递归神经网络模型是预先训练而成的。

[0081] 将步骤S110得到的声学特征作为卷积递归神经网络模型的输入，在该卷积递归神经网络模型中进行迭代运算，计算对该声学特征的比值膜。

[0082] 在该步骤中，将IRM(Ideal Ratio Mask，理想比值膜)作为迭代运算的目标。频谱图中的每个时频单元的IRM可以用以下等式来表述：

[0083]

[0084] 其中SFFT(t，f)和NFFT(t，f)分别表示在时间帧t和频率段f处的纯净语音幅度谱和噪音幅度谱。

[0085] 通过在监督训练过程中预测理想比值膜，进而采用比值膜对声学特征进行掩蔽，以取得降噪后的语音信号。

[0086] 步骤S130，采用比值膜对声学特征进行掩蔽。

[0087] 步骤S140，将经过掩蔽后的声学特征与单通道声音信号的相位进行合成，得到降噪语音信号。

[0088] 训练完成后，经过训练的CRN(Convolutional Recurrent Network，即卷积递归神经网络)即可用于语音降噪的应用。将训练完成的神经网络用于特定应用称为推理或操作。在推理阶段，CRN模型的各层处理带噪信号。由推理的结果得出T-F掩蔽，然后将其用于加权(或掩蔽)有噪声的语音幅度，以产生比原始噪声输入更加清晰的增强语音信号。

[0089] 在一示例性实施例中，将经过掩蔽后的频谱幅度矢量连同单通道声音信号的相位一起发送到逆傅立叶变换，以导出相应时域中的语音信号。

[0090] 利用如上所述的方法，在进行单通道实时降噪时，从接收的单通道声音信号中提取声学特征，将声学特征在预先训练的卷积递归神经网络模型中进行迭代运算计算声学特征的比值膜后，采用该比值膜对声学特征进行掩蔽。再将经过掩蔽后的声学特征与单通道声音信号的相位进行合成，得到语音信号。由于该方案中采用了预先训练的卷积递归神经网络模型，大大减少了神经网络参数数量，降低了数据存储量，和对系统数据带宽的需求，在能够实现良好的降噪性能同时可大大提高单通道语音降噪的实时性。

[0091] 图3是根据图1对应实施例示出的基于卷积递归神经网络的单通道实时降噪方法中步骤S120的一种具体实现流程图。如图3所示，该基于卷积递归神经网络的单通道实时降噪方法可以包括步骤S121、步骤S122。

[0092] 步骤S121，将卷积神经网络与具有长短期记忆的递归神经网络进行组合得到卷积递归神经网络。

[0093] CNN(Convolutional Neural Network，卷积神经网络)是近年引起广泛重视的一种高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了类似于卷积神经网络的神经结构。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了广泛的应用。K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。其中，具有代表性的是LeCun等提出的版本。

[0094] CNN中的卷积操作是基于二维结构定义的，其定义局部感受域每个底层特征只跟输入的一个子集有关，如拓扑邻域。卷积层里面的拓扑局部限制会使得权重矩阵非常稀疏，所以卷积操作连接的两层只有局部连接。计算这样的矩阵乘法比起计算一个稠密矩阵乘法更方便高效，另外更小数目的自由参数会使得统计计算有更多的好处。在拥有二维拓扑结构的图像里，相同的输入模式会在不同位置出现，而且相近的值更可能有更强的依赖，这对于数据的模型是非常重要的。

[0095] CNN利用权值共享的方式减少需要学习的参数数目，使模型的复杂度降低，而且使网络权值的数量也大大的减少。较之一般前向BP算法(Error Back Propagation，误差反向传播)，训练速度和准确度得到了极大的提高。CNN作为一个深度学习算法，可以使得数据的预处理的开销达到最小化。

[0096] 具有长短期记忆(LSTM，Long Short-Term Memory)的递归神经网络(RNN，Recurrent Neural Network)(以下将“具有长短期记忆的递归神经网络”简称为“LSTM”)是一种时间递归神经网络，论文首次发表于1997年。由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

[0097] LSTM的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好，比如用在不分段连续手写识别上。2009年，用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自动语音识别，2013年运用TIMIT自然演讲数据库达到17.7％错误率的纪录。作为非线性模型，LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

[0098] LSTM是一种特定类型的RNN，可以有效地记录声音信号的长时相关性。与传统的RNN相比，LSTM改善了在训练过程中随着时间的推移而带来的梯度减少或梯度爆炸问题。LSTM模块的存储单元有三个门：输入门、忘记门和输出门。输入门控制应将多少当前信息添加到存储器单元，忘记门控制应保留多少先前信息，输出门控制是否输出信息。具体的，LSTM可用数学公式描述如下。

[0099] it＝σ(Wiixt+bii+Whiht-1+bhi)

[0100] ft＝σ(Wifxt+bif+Whfht-1+bhf)

[0101] gt＝tanh(WigXt+big+Whght-1+bhg)

[0102] ot＝σ(Wioxt+bio+Whoht-1+bho)

[0103] ct＝ft⊙ct-1+it⊙gt

[0104] ht＝ot⊙tanh(ct)

[0105] 其中it，ft和ot分别是输入门、忘记门和输出门的输出。xt和ht分别表示在时间t的输入特征和隐藏激活。gt和ct分别表示block输入和存储单元。σ代表sigmoidal函数，如σ(x)＝1/(1+ex)，tanh代表双曲正切函数，如tanh(x)＝(ex-e-x)/(ex+e-x)。符号⊙表示数组元素依次相乘。输入和忘记门是根据先前的激活函数和当前输入计算的，并根据输入门和忘记门对存储器单元执行上下文关联的更新。

[0106] 当训练用于语音去噪时，LSTM保存相关语境用于当前时刻的掩膜预测。

[0107] 通过将卷积神经网络与具有长短期记忆的递归神经网络进行组合得到卷积递归神经网络(CRN)。CRN兼具CNN和LSTM的特性，从而能够高效进行语音去噪的同时，大大较少了CRN网络的神经网络参数的数量，有效减小了CRN的大小。

[0108] 步骤S122，通过卷积递归神经网络对预先收集的语音训练集进行训练，构建卷积递归神经网络模型。

[0109] 在将卷积神经网络与具有长短期记忆的递归神经网络进行组合得到卷积递归神经网络后，通过卷积递归神经网络对预先收集的语音训练集进行训练，调整卷积递归神经网络的网络神经参数，使其输出逼近IRM，以构建卷积递归神经网络模型。

[0110] 图4是根据一示例性实施例示出的单通道实时降噪的流程示意图。如图4所示，输入为声音信号，输出为降噪后的语音信号，图中的虚线箭头表示在训练期间涉及的步骤，图中的带点虚线箭头表示预测阶段的步骤，图中的实线箭头“→”表示训练和预测共享的步骤。作为有监督学习方法，本发明使用理想比值膜(IRM)为训练目标。IRM是通过比较带噪语音信号和对应纯净语音信号的STFT得到。在训练阶段，带有LSTM的RNN估计每个输入带噪语音的理想比值膜，然后计算理想比值膜和估计比值膜之间的均方误差(MSE，Mean-squared error)。经过重复的多轮迭代将整个训练集的MSE最小化，而每轮迭代中训练样本仅使用一次。训练阶段结束后，进入预测阶段，即使用训练好的卷积递归神经网络模型直接对输入的声音信号进行降噪，具体而言，经过训练的卷积递归神经网络模型对输入的声音信号进行处理并计算比值膜，然后使用计算的比值膜对输入的声音信号进行处理，最后重新合成得到降噪后的语音信号。

[0111] 顶部反卷积层的输出通过sigmoidal形函数(参见图4)以得到比值膜的预测，再与IRM进行比较，通过比较，生成MSE错误，用于调整CRN权重。

[0112] 可选的，卷积神经网络为卷积编码器-解码器结构，包括卷积编码器和相应的解码器。编码器包括一组卷积层和池化层，用于从输入中提取高级特征；解码器的结构与反向顺序的编码器相同，能将编码器输出端的低分辨率特征映射到全输入大小的特征映射。内核的数量保持对称：在编码器中逐渐增加内核的数量，而在解码器中逐渐减少内核的数量。对称的编码器-解码器架构确保输出具有与输入相同的形状。为了改善整个网络中的信息和梯度流，我们采用跳过连接，将每个编码器层的输出连接到每个解码器层的输入。其中输出不依赖于未来输入的因果卷积和因果解卷积分别应用于编码器和解码器中，以便实现用于实时处理的因果系统。

[0113] 可选的，具有长短期记忆的递归神经网络包括两个堆叠的长短期记忆层。通过在卷积神经网络的编码器与解码器之间，合并入两个堆叠的长短期记忆层，构建卷积递归神经网络，以处理声音信号的时间动态特性。

[0114] 可选的，为进一步减小CRN模型尺寸，对CRN模型进行压缩，例如，CRN中的每个卷积层或池化层包括最多16个核。具有长短期记忆的递归神经网络的每个长短期记忆层包括64个神经元。通过将CRN模型进行压缩，其STOI性能与完全训练的未经压缩的CRN模型相比仅略微有所降低。当输入SNR为-5dB时，STOI参数的下降约为4-5％。当输入SNR较高时，STOI参数下降甚至更小。图5为未对CRN模型进行压缩时预测的频谱幅度，图6为对CRN模型进行压缩后预测的频谱幅度。

[0115] 总而言之，与未处理过的混合语音相比，压缩后的CRN模型也能够极大改善STOI参数；相比未经压缩的CRN模型，在对CRN模型的降噪性能影响不大的情况下，大大降低了模型尺寸，减少了CRN模型的数据存储量。

[0116] 利用如上所述的方法，通过将卷积神经网络与具有长短期记忆的递归神经网络进行组合得到卷积递归神经网络，使构建的卷积递归神经网络模型具备卷积神经网络的参数数量较少的特性，在保证实现良好的降噪性能的同时大大提高了单通道语音降噪的实时性。

[0117] 可选的，为进一步提高本方案的泛化能力，即为实现不受限于特定噪音环境和特定说话人的通用降噪效果，本示例性实施例的语音训练集由大量在日常环境下采集的背景噪声、各类型的男声和女声、以及以特定信噪比(SNR)混合的人声和噪声组合而成。

[0118] 另外，语音训练集包含大量噪声(约1000小时)和众多语音片段，且整个语音训练集持续大约数百小时，确保CRN模型得到充分训练。

[0119] 图7是根据一示例性实施例示出的在多人谈话噪声场景下经LSTM模型训练的、经CRN模型训练的、及与未经训练的STOI参数比对结果示意图，图8是根据一示例性实施例示出的在咖啡厅噪声场景下经LSTM模型训练的、经CRN模型训练的、及与未经训练的STOI参数比对结果示意图。本实施例所使用的CRN模型的编码器中具有五个卷积层，解码器中具有五个解卷积层，编码器和解码器之间具有两个LSTM层。如图7、8所示，本实施例所提出的基于CRN模型的方法相对于未处理的有噪声的声音信号而言，STOI参数有极大改善，信噪比为-5dB的状态下，STOI参数提高了约20个百分点；SNR为5dB的状态下，STOI参数提高了约10个百分点。图7、8还表明，本方法的性能始终优于以LSTM为主的RNN模型方法，并且在较低SNR下STOI改善更明显。

[0120] 为进一步说明降噪结果，图9显示的是在-5dB SNR下多人谈话噪声场景中未经训练的声音信号的频谱图；图10显示的是相应纯净话语的频谱图；图11显示的是采用CRN模型降噪后的频谱图。图9、10、11表明，降噪后的语音信号比多人谈话噪声场景的声音信号远更接近于纯净语音。

[0121] 本发明的单通道降噪是指对单个麦克风采集的信号进行处理，相比波束形成的麦克风阵列降噪方法，单声道降噪具有更广泛的实用性。本发明采用有监督学习方法进行语音降噪，通过使用带有卷积递归神经网络模型来预测声音信号的比值膜。本发明提出的卷积递归神经网络模型使用的语音训练集包含大量噪声(约1000小时)和众多语音片段，且整个语音训练集持续大约数百小时，确保CRN模型得到充分训练，使单通道实时降噪的实现并不依赖于未来时间帧。由于将卷积神经网络与具有长短期记忆的递归神经网络进行组合得到卷积递归神经网络，再通过卷积递归神经网络对预先收集的语音训练集进行训练，构建卷积递归神经网络模型。这一模型大大减少了神经网络参数数量，并且降低了数据存储量，在能够实现良好的降噪性能的同时大大提高了单通道语音降噪的实时性。

[0122] 下述为本公开装置实施例，可以用于执行本上述基于卷积递归神经网络的单通道实时降噪方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开基于卷积递归神经网络的单通道实时降噪方法实施例。

[0123] 图12是根据一示例性实施例示出的一种单通道实时降噪装置的框图，该装置包括但不限于：声学特征提取模块110、比值膜计算模块120、掩蔽模块130及语音合成模块140。

[0124] 声学特征提取模块110，用于从接收的单通道声音信号中提取声学特征；

[0125] 比值膜计算模块120，用于将所述声学特征在预先构建的卷积递归神经网络模型中进行迭代运算，计算所述声学特征的比值膜；

[0126] 掩蔽模块130，用于采用所述比值膜对所述声学特征进行掩蔽；

[0127] 语音合成模块140，用于将经过掩蔽后的所述声学特征与所述单通道声音信号的相位进行合成，得到降噪语音信号。

[0128] 上述装置中各个模块的功能和作用的实现过程，具体见上述基于卷积递归神经网络的单通道实时降噪方法中对应步骤的实现过程，在此不再赘述。

[0129] 可选的，如图13所示，图12中所述的声学特征提取模块110包括但不限于：时间帧划分单元111、频谱幅度矢量提取单元112和声学特征形成单元113。

[0130] 时间帧划分单元111，用于将接收的单通道声音信号按照预设时间周期分为时间帧；

[0131] 频谱幅度矢量提取单元112，用于从所述时间帧中提取频谱幅度矢量；

[0132] 声学特征形成单元113，用于对所述频谱幅度矢量进行归一化处理，形成声学特征。

[0133] 可选的，如图14所示，图12中所述比值膜计算模块120包括但不限于：网络组合单元121和网络模型构建单元122。

[0134] 网络组合单元121，用于将卷积神经网络与具有长短期记忆的递归神经网络进行组合得到卷积递归神经网络；

[0135] 网络模型构建单元122，用于通过所述卷积递归神经网络对预先收集的语音训练集进行训练，构建所述卷积递归神经网络模型。

[0136] 可选的，本发明还提供一种电子设备，执行如上述示例性实施例任一所示的基于卷积递归神经网络的单通道实时降噪方法的全部或者部分步骤。电子设备包括：

[0137] 处理器；以及

[0138] 与所述处理器通信连接的存储器；其中，

[0139] 所述存储器存储有可读性指令，所述可读性指令被所述处理器执行时实现如上述任一示例性实施例所述的方法。

[0140] 该实施例中的终端中处理器执行操作的具体方式已经在有关该基于卷积递归神经网络的单通道实时降噪方法的实施例中执行了详细描述，此处将不做详细阐述说明。

[0141] 在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读性存储介质，例如可以为包括指令的临时性和非临时性计算机可读性存储介质。

[0142] 应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

一种基于卷积递归神经网络的单通道实时降噪方法转让专利

申请号 : CN201811010712.6

文献号 : CN109841226B

文献日 : 2020-10-16

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 不公告发明人

申请人 : 大象声科(深圳)科技有限公司

摘要 :

权利要求 :

说明书 :