语音分离方法、装置及存储介质转让专利

申请号 : CN202211680551.8

文献号 : CN115691541B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 康世胤吴志勇童玮男朱佳旭陈鋆

申请人 : 深圳元象信息科技有限公司清华大学深圳国际研究生院

摘要 :

本申请公开了一种语音分离方法、装置及存储介质,该方法包括:获取第一语谱图和多个第二语谱图,第一语谱图为原始语音信号的语谱图,多个第二语谱图为从原始语音信号中分离出来的多个原分离语音信号的语谱图;利用校正模型基于第一语谱图对多个第二语谱图的原相位和原幅度进行校正,得到多个第二语谱图对应的校正相位和校正幅度,其中校正模型包括二维卷积模块;根据多个第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度,得到多个校正后的第二语谱图;根据多个校正后的第二语谱图,得到多个校正的分离语音信号。通过这种方式,本申请能够减小分离语音信号与真实的分离源语音信号的差别。

权利要求 :

1.一种语音分离方法,其特征在于,所述方法包括:获取第一语谱图和多个第二语谱图,所述第一语谱图为原始语音信号的语谱图,多个所述第二语谱图为从所述原始语音信号中分离出来的多个原分离语音信号的语谱图;

利用校正模型基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,其中所述校正模型包括二维卷积模块;

根据多个所述第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度,得到多个校正后的第二语谱图;

根据多个所述校正后的第二语谱图,得到多个校正的分离语音信号;

其中,所述校正模型还包括时域频域校正模块,所述时域频域校正模块用于确定所述第二语谱图的时间方向和频率方向的依赖关系;

所述利用校正模型基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,包括:利用所述二维卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度;

其中,所述校正模型还包括密集连接扩张卷积模块;

所述利用所述二维卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,包括:利用所述二维卷积模块、所述密集连接扩张卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度。

2.根据权利要求1所述的方法,其特征在于,所述二维卷积模块包括第一二维卷积模块和第二二维卷积模块,所述密集连接扩张卷积模块包括第一密集连接扩张卷积模块和第二密集连接扩张卷积模块,所述第一密集连接扩张卷积模块和所述第二密集连接扩张卷积模块均包括四个二维扩张卷积子模块;

所述利用所述二维卷积模块、所述密集连接扩张卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,包括:将所述第一语谱图、多个所述第二语谱图进行拼接,得到拼接语谱图;

将所述拼接语谱图输入所述第一二维卷积模块;

将所述第一二维卷积模块的输出结果输入所述第一密集连接扩张卷积模块;

将所述第一密集连接扩张卷积模块的输出结果输入所述时域频域校正模块;

将所述时域频域校正模块的输出结果输入所述第二密集连接扩张卷积模块;

将所述第二密集连接扩张卷积模块的输出结果输入所述第二二维卷积模块;

根据所述第二二维卷积模块的输出结果,得到多个所述第二语谱图对应的校正相位和校正幅度。

3.根据权利要求2所述的方法,其特征在于,所述时域频域校正模块包括第一结构重塑子模块、双向长短期记忆子模块、第二结构重塑子模块、多头自注意力子模块以及第三结构重塑子模块;

所述将所述第一密集连接扩张卷积模块的输出结果输入所述时域频域校正模块,包括:将所述第一密集连接扩张卷积模块的输出结果输入所述第一结构重塑子模块,以对所述第一密集连接扩张卷积模块的输出结果进行第一结构重塑;

将所述第一结构重塑子模块的输出结果输入所述双向长短期记忆子模块;

将所述双向长短期记忆子模块的输出结果输入所述第二结构重塑子模块,以对所述双向长短期记忆子模块的输出结果进行第二结构重塑;

将所述第二结构重塑子模块的输出结果输入所述多头自注意力子模块;

将所述多头自注意力子模块的输出结果输入所述第三结构重塑子模块,以对所述多头自注意力子模块的输出结果进行第三结构重塑;

所述将所述时域频域校正模块的输出结果输入所述第二密集连接扩张卷积模块,包括:将所述第三结构重塑子模块的输出结果输入所述第二密集连接扩张卷积模块。

4.根据权利要求3所述的方法,其特征在于,所述时域频域校正模块还包括第一残差连接子模块、第一层归一化子模块、第二残差连接子模块、第二层归一化子模块;

所述方法还包括:

将所述第一结构重塑子模块的输出结果复制为两份;

所述将所述第一结构重塑子模块的输出结果输入所述双向长短期记忆子模块,包括:将一份所述第一结构重塑子模块的输出结果输入所述双向长短期记忆子模块;

所述将所述双向长短期记忆子模块的输出结果输入所述第二结构重塑子模块,包括:将所述双向长短期记忆子模块的输出结果和另一份所述第一结构重塑子模块的输出结果输入所述第一残差连接子模块;

将所述第一残差连接子模块的输出结果输入所述第一层归一化子模块;

将所述第一层归一化子模块的输出结果输入所述第二结构重塑子模块;

所述方法还包括:

将所述第二结构重塑子模块的输出结果复制为两份;

所述将所述第二结构重塑子模块的输出结果输入所述多头自注意力子模块,包括:将一份所述第二结构重塑子模块的输出结果输入所述多头自注意力子模块;

所述将所述多头自注意力子模块的输出结果输入所述第三结构重塑子模块,包括:将所述多头自注意力子模块的输出结果和另一份所述第二结构重塑子模块的输出结果输入所述第二残差连接子模块;

将所述第二残差连接子模块的输出结果输入所述第二层归一化子模块;

将所述第二层归一化子模块的输出结果输入所述第三结构重塑子模块。

5.根据权利要求2所述的方法,其特征在于,所述时域频域校正模块包括第一时域频域校正模块和第二时域频域校正模块,所述校正模型还包括:频域‑时域特征转换模块和时域‑频域特征转换模块;

所述将所述第一密集连接扩张卷积模块的输出结果输入所述时域频域校正模块,包括:将所述第一密集连接扩张卷积模块的输出结果输入所述第一时域频域校正模块;

所述方法还包括:

将所述第一时域频域校正模块的输出结果输入所述频域‑时域特征转换模块;

将所述频域‑时域特征转换模块的输出结果输入所述第二时域频域校正模块;

所述将所述时域频域校正模块的输出结果输入所述第二密集连接扩张卷积模块,包括:将所述第二时域频域校正模块的输出结果输入所述时域‑频域特征转换模块;

将所述时域‑频域特征转换模块的输出结果输入所述第二密集连接扩张卷积模块。

6.根据权利要求1所述的方法,其特征在于,所述获取第一语谱图和多个第二语谱图,包括:利用时域模型将所述原始语音信号分离得到多个原分离语音信号;

将所述原始语音信号和多个所述原分离语音信号分别进行短时傅里叶变换,得到所述原始语音信号的第一语谱图以及多个所述原分离语音信号的第二语谱图。

7.根据权利要求1所述的方法,其特征在于,所述根据多个所述校正后的第二语谱图,得到多个校正的分离语音信号,包括:对多个所述校正后的第二语谱图进行逆短时傅里叶变换,得到多个校正的分离语音信号。

8.一种语音分离装置,其特征在于,所述装置包括存储器以及处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1‑7任一项所述的语音分离方法。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1‑7任一项所述的语音分离方法。

说明书 :

语音分离方法、装置及存储介质

技术领域

[0001] 本申请涉及计算机技术领域,尤其涉及一种语音分离方法、语音分离装置及存储介质。

背景技术

[0002] 语音分离的目的是从混合语音中分离每个说话人的源信号。近年来,基于深度学习的方法在语音分离领域取得令人瞩目的成就。目前主流语音分离的方法是基于时域模型的方法,时域模型的输入是语音的波形,通过神经网络预测得到分离源的波形。但是基于时域模型预测得到的分离语音信号的语谱图经常出现一些明显的幅度和相位的错误,使分离语音信号与真实的分离源语音信号差别很大。

发明内容

[0003] 基于此,本申请实施例提供一种语音分离方法、语音分离装置及存储介质,能够减小分离语音信号与真实的分离源语音信号的差别。
[0004] 第一方面,本申请提供一种语音分离方法,所述方法包括:
[0005] 获取第一语谱图和多个第二语谱图,所述第一语谱图为原始语音信号的语谱图,多个所述第二语谱图为从所述原始语音信号中分离出来的多个原分离语音信号的语谱图;
[0006] 利用校正模型基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,其中所述校正模型包括二维卷积模块;
[0007] 根据多个所述第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度,得到多个校正后的第二语谱图;
[0008] 根据多个所述校正后的第二语谱图,得到多个校正的分离语音信号。
[0009] 第二方面,本申请提供一种语音分离装置,所述装置包括存储器以及处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现如上所述的语音分离方法。
[0010] 第三方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上所述的语音分离方法。
[0011] 本申请实施例提供了一种语音分离方法、语音分离装置及存储介质,由于利用包括二维卷积模块的校正模型基于原始语音信号的第一语谱图对分离出来的多个原分离语音信号的第二语谱图的原相位和原幅度进行校正,根据多个第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度得到多个校正后的第二语谱图,进而得到多个校正的分离语音信号,通过这种方式,能够减小分离语音信号与真实的分离源语音信号的差别。

附图说明

[0012] 图1是本申请语音分离方法一实施例的流程示意图;
[0013] 图2是本申请语音分离方法中校正模型一实施例的示意图;
[0014] 图3是本申请语音分离方法另一实施例的流程示意图;
[0015] 图4是本申请语音分离方法中校正模型另一实施例的示意图;
[0016] 图5是本申请语音分离方法又一实施例的流程示意图;
[0017] 图6是本申请语音分离方法中校正模型又一实施例的示意图;
[0018] 图7是本申请语音分离方法又一实施例的流程示意图;
[0019] 图8是本申请语音分离方法中校正模型又一实施例的示意图;
[0020] 图9是本申请语音分离方法又一实施例的流程示意图;
[0021] 图10是本申请语音分离方法又一实施例的流程示意图;
[0022] 图11是本申请语音分离装置一实施例的框图。

具体实施方式

[0023] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024] 附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0025] 目前主流语音分离的方法是基于时域模型的方法,时域模型的输入是语音的波形,通过神经网络预测得到分离源的波形。但是基于时域模型预测得到的分离语音信号的语谱图经常出现一些明显的幅度和相位的错误,使分离语音信号与真实的分离源语音信号差别很大。
[0026] 本申请旨在解决上述技术问题,由于利用包括二维卷积模块的校正模型基于原始语音信号的第一语谱图对分离出来的多个原分离语音信号的第二语谱图的原相位和原幅度进行校正,根据多个第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度得到多个校正后的第二语谱图,进而得到多个校正的分离语音信号,通过这种方式,能够减小分离语音信号与真实的分离源语音信号的差别。
[0027] 下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0028] 参见图1,图1是本申请语音分离方法一实施例的流程示意图,所述方法包括:步骤S101、步骤S102、步骤S103以及步骤S104。
[0029] 步骤S101:获取第一语谱图和多个第二语谱图,所述第一语谱图为原始语音信号的语谱图,多个所述第二语谱图为从所述原始语音信号中分离出来的多个原分离语音信号的语谱图。
[0030] 语音信号可以是指语音的波形信号,原始语音信号可以是未经分离的混合语音信号,原分离语音信号可以是从原始语音信号分离得到的语音信号。语谱图是语音信号的时间‑频率表示方法,语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音能量,语谱图采用二维平面表达三维信息,能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。第一语谱图为原始语音信号的语谱图,第二语谱图为原分离语音信号的语谱图。
[0031] 由于本申请实施例需要对相位和幅度进行校正,语谱图包括频域信息,因此首先需要获取原始语音信号的第一语谱图以及获取从所述原始语音信号中分离出来的多个原分离语音信号的第二语谱图。
[0032] 步骤S102:利用校正模型基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,其中所述校正模型包括二维卷积模块。
[0033] 二维卷积模块可以是指二维卷积层,在二维卷积层中,一个二维输入数组和一个二维核(kernel)数组通过互相关运算输出一个二维数组。由于互相关运算的结果能够反映两个信号之间相似性的度量,因此,以所述第一语谱图为对照,可以利用包括二维卷积模块的校正模型对多个所述第二语谱图的原相位和原幅度进行校正,得到的多个所述第二语谱图对应的校正相位和校正幅度。校正相位和校正幅度可以理解为原相位和原幅度与真实相位和真实幅度之间的偏差。任意一段语音波形在STFT(Short‑Time Fourier Transform,短时傅里叶变换)后会成为一个复数矩阵,可以具体表示为实部和虚部,或者幅度和相位;本申请实施例中,二维卷积模块的输入为第一语谱图的原相位和原幅度,以及多个第二语谱图的原相位和原幅度,或者二维卷积模块的输入为第一语谱图的虚部和实部,以及多个第二语谱图的虚部和实部。其中,相位、幅度与实部、虚部的关系为:相位是a,幅度是b,实部是c,虚部是d,那么实部c=b * cos(a),虚部d=b * sin(a)。第一语谱图为原始语音信号的语谱图,掩藏着多个真实的语音信号的语谱图的真实相位和真实幅度,因此需要第一语谱图作为对照,利用校正模型对多个所述第二语谱图的原相位和原幅度进行校正。
[0034] 步骤S103:根据多个所述第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度,得到多个校正后的第二语谱图。
[0035] 得到校正相位和校正幅度后,结合原相位和原幅度,即可得到校正相位和原相位之和,校正幅度和原幅度之和,进而可以得到多个校正后的第二语谱图。
[0036] 步骤S104:根据多个所述校正后的第二语谱图,得到多个校正的分离语音信号。
[0037] 得到第二语谱图后,再通过逆傅里叶变换即可得到多个校正后的分离语音信号。
[0038] 本申请实施例由于利用包括二维卷积模块的校正模型基于原始语音信号的第一语谱图对分离出来的多个原分离语音信号的第二语谱图的原相位和原幅度进行校正,根据多个第二语谱图的原相位和原幅度以及对应的校正相位和校正幅度得到多个校正后的第二语谱图,进而得到多个校正的分离语音信号,通过这种方式,能够减小分离语音信号与真实的分离源语音信号的差别。
[0039] 在一些实施例中,所述校正模型还包括时域频域校正模块,所述时域频域校正模块用于确定所述第二语谱图的时间方向和频率方向的依赖关系;此时,步骤S102,所述利用校正模型基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,还可以包括:利用所述二维卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度。
[0040] 本申请实施例中,校正模型除了包括二维卷积模块外,还包括时域频域校正模块,时域频域校正模块用于确定所述第二语谱图的时间方向和频率方向的依赖关系,依赖关系包括但不限于:帧内的频率依赖关系、同一频段内的时间依赖关系,等等;时域频域校正模块可以包括任何能够确定所述第二语谱图的时间方向和频率方向的依赖关系的模块,例如: RNN(Recurrent Neural Network,循环神经网络)等,具体可以是LSTM(Long‑Short Term Memory,长短期记忆)、BLSTM(Bi‑directional Long‑Short Term Memory,双向长短期记忆)等。根据依赖关系可以在更加细致的方向对原相位和原幅度进行校正。
[0041] 在一些实施例中,所述校正模型还包括密集连接扩张卷积模块,此时步骤S102,所述利用所述二维卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,还可以包括:利用所述二维卷积模块、所述密集连接扩张卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度。
[0042] 在本申请实施例中,校正模型除了包括二维卷积模块、时域频域校正模块外,还包括密集连接扩张卷积模块,密集连接扩张卷积模块用于增加感受野(其对应的参数为扩张率);感受野(Receptive Field)可以是卷积神经网络每一层输出的特征图中的单个元素映射回原始输入特征中的区域大小;感受野越大,那么原始输入的区域就越大,越能观察到全局信息。密集连接扩张卷积模块以密集块为基础,可以保持特征的有效传递,在密集块中逐步加入不同扩张率的扩张卷积,通过密集连接的不同扩张率的扩张卷积来聚合多尺度空间上下文信息,使网络在不增加参数量且不损失空间分辨率的情况下,增加网络的感受野,并且避免扩张卷积带来的网格伪影。
[0043] 参见图2,图2为校正模型10一实施例的结构示意图,该校正模型10包括二维卷积模块、密集连接扩张卷积模块以及时域频域校正模块103。在一些实施例中,所述二维卷积模块包括第一二维卷积模块101a和第二二维卷积模块101b,所述密集连接扩张卷积模块包括第一密集连接扩张卷积模块102a和第二密集连接扩张卷积模块102b,所述第一密集连接扩张卷积模块102a和所述第二密集连接扩张卷积模块102b均包括四个二维扩张卷积子模块。本申请实施例中,二维卷积模块的数量为两个以上(图中以两个为例说明),密集连接扩张卷积模块的数量为两个以上(图中以两个为例说明);二维卷积模块的数量越多,密集连接扩张卷积模块的数量越多,其所需要的计算资源、计算时间越多;如果用户希望缩短计算时间,一般可以选择两个二维卷积模块、两个密集连接扩张卷积模块。配置在校正模型10的时域频域校正模块103之前的可以称为第一二维卷积模块101a、第一密集连接扩张卷积模块102a,配置在时域频域校正模块103之后的可以称为第二二维卷积模块101b、第二密集连接扩张卷积模块102b。所述第一密集连接扩张卷积模块102a和所述第二密集连接扩张卷积模块102b的密集块各包括四个二维扩张卷积子模块,即4层,前3层中的每一层都是接收前面所有层的信息,输出作为下一层的输入;从前往后,4层卷积的扩张率逐渐增大。例如:第一层卷积的扩张率为1,第二层卷积的扩张率为2,第三层卷积的扩张率为4,第四层卷积的扩张率为8。
[0044] 此时,步骤S102,所述利用所述二维卷积模块、所述密集连接扩张卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,还可以包括:子步骤S1021、子步骤S1022、子步骤S1023、子步骤S1024、子步骤S1025、子步骤S1026以及子步骤S1027,如图3所示。
[0045] 子步骤S1021:将所述第一语谱图、多个所述第二语谱图进行拼接,得到拼接语谱图。
[0046] 子步骤S1022:将所述拼接语谱图输入所述第一二维卷积模块。
[0047] 子步骤S1023:将所述第一二维卷积模块的输出结果输入所述第一密集连接扩张卷积模块。
[0048] 子步骤S1024:将所述第一密集连接扩张卷积模块的输出结果输入所述时域频域校正模块。
[0049] 子步骤S1025:将所述时域频域校正模块的输出结果输入所述第二密集连接扩张卷积模块。
[0050] 子步骤S1026:将所述第二密集连接扩张卷积模块的输出结果输入所述第二二维卷积模块。
[0051] 子步骤S1027:根据所述第二二维卷积模块的输出结果,得到多个所述第二语谱图对应的校正相位和校正幅度。
[0052] 在一些实施例中,该校正模型包括二维卷积模块、时域频域校正模块。在一些实施例中,所述二维卷积模块包括第一二维卷积模块和第二二维卷积模块,步骤S102,所述利用所述二维卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,还可以包括:将所述第一语谱图、多个所述第二语谱图进行拼接,得到拼接语谱图;将所述拼接语谱图输入所述第一二维卷积模块;将所述第一二维卷积模块的输出结果输入所述时域频域校正模块;将所述时域频域校正模块的输出结果输入所述第二二维卷积模块;根据所述第二二维卷积模块的输出结果,得到多个所述第二语谱图对应的校正相位和校正幅度。
[0053] 参见图4,在一些实施例中,所述时域频域校正模块103包括第一结构重塑子模块1031、双向长短期记忆子模块1032、第二结构重塑子模块1033、多头自注意力子模块1034以及第三结构重塑子模块1035,其中,第一结构重塑子模块1031接收第一密集连接扩张卷积模块102a的输出结果,其输出结果传递给双向长短期记忆子模块1032;第二结构重塑子模块1033接收双向长短期记忆子模块1032的输出结果,其输出结果传递给多头自注意力子模块1034;第三结构重塑子模块1035接收多头自注意力子模块1034的输出结果,其输出结果传递给第二密集连接扩张卷积模块102b。本申请实施例中的三个结构重塑子模块主要是对上一层输入的数据进行结构重塑,以便于满足下一层的数据要求。
[0054] 子步骤S1024,所述将所述第一密集连接扩张卷积模块的输出结果输入所述时域频域校正模块,可以包括:子步骤S10241、子步骤S10242、子步骤S10243、子步骤S10244、子步骤S10245,如图5所示。
[0055] 子步骤S10241:将所述第一密集连接扩张卷积模块的输出结果输入所述第一结构重塑子模块,以对所述第一密集连接扩张卷积模块的输出结果进行第一结构重塑。
[0056] 第一密集连接扩张卷积模块的输出结果为特征RB*F*T*C,B代表批尺寸(batchsize)维度的信息,C代表通道(channel)维度的信息,T代表时间维度的信息,F代表频率维度的信B*F*T*C BT *F*C息;需要通过第一结构重塑子模块将特征R 进行结构重塑为R ,以便于双向长短期记忆子模块捕获帧内的频率依赖性。
[0057] 子步骤S10242:将所述第一结构重塑子模块的输出结果输入所述双向长短期记忆子模块。
[0058] 双向长短期记忆子模块包括BLSTM(Bi‑directional Long‑Short Term Memory,双向长短期记忆)神经网络,BLSTM包括两个独立的LSTM(Long‑Short Term Memory,长短期记忆)神经网络,LSTM 作为 RNN (Recurrent Neural Network,循环神经网络)的一种变体,相比较于传统的 RNN 网络可以学习到数据中长期依赖关系;相比较于LSTM,BLSTM 可以更好地处理梯度消失和爆炸的问题,可以更好地对特征进行提取和表示,效果相比较于 LSTM也更加优越。本申请实施例中,通过双向长短期记忆子模块可以捕获帧内的频率依赖性。
[0059] 子步骤S10243:将所述双向长短期记忆子模块的输出结果输入所述第二结构重塑子模块,以对所述双向长短期记忆子模块的输出结果进行第二结构重塑。
[0060] 双向长短期记忆子模块的输出结果为特征RBT *F*C,需要通过第二结构重塑子模块BT *F*C BF*T*C将特征R 进行结构重塑为R ,以便于多头自注意力子模块捕捉不同帧间的时间依赖性。
[0061] 子步骤S10244:将所述第二结构重塑子模块的输出结果输入所述多头自注意力子模块。
[0062] 多头自注意力子模块包括MHSA机制(Multi‑headed Self‑attention,多头自注意力)。自注意力机制可以认为在学习一种关系,即一个序列中当前token与其他token之间的联系,多头自注意力机制效果优于单头自注意力机制。本申请实施例中,通过多头自注意力子模块可以捕捉不同帧间的时间依赖性。
[0063] 子步骤S10245:将所述多头自注意力子模块的输出结果输入所述第三结构重塑子模块,以对所述多头自注意力子模块的输出结果进行第三结构重塑。
[0064] 多头自注意力子模块的输出结果为特征RBF*T*C,需要通过第三结构重塑子模块将BF*T*C B*F*T*C特征R 进行结构重塑为R ,以便于输入第二密集连接扩张卷积模块。
[0065] 此时,子步骤S1025,所述将所述时域频域校正模块的输出结果输入所述第二密集连接扩张卷积模块,可以包括:将所述第三结构重塑子模块的输出结果输入所述第二密集连接扩张卷积模块。
[0066] 结合参见图6,在一些实施例中,所述时域频域校正模块103还包括第一残差连接子模块1036、第一层归一化子模块1037、第二残差连接子模块1038、第二层归一化子模块1039。本申请实施例中时域频域校正模块103还包括两个残差连接子模块和两个层归一化子模块,第一结构重塑子模块1031的输出结果复制为两份,一份第一结构重塑子模块1031的输出结果输入双向长短期记忆子模块1032,第一残差连接子模块1036接收双向长短期记忆子模块1032的输出结果和另一份第一结构重塑子模块1031的输出结果,第一残差连接子模块1036的输出结果传递到第一层归一化子模块1037,第一层归一化子模块1037的输出结果传递到第二结构重塑子模块1033;第二结构重塑子模块1033的输出结果复制为两份,一份第二结构重塑子模块1033的输出结果输入多头自注意力子模块1034,第二残差连接子模块1038接收多头自注意力子模块1034的输出结果和另一份第二结构重塑子模块1033的输出结果,第二残差连接子模块1038的输出结果传递到第二层归一化子模块1039,第二层归一化子模块1039的输出结果传递到第三结构重塑子模块1035。
[0067] 残差连接的作用主要包括:对于有些层,并不确定其效果是不是正向的,增加残差连接之后,相当于将上一层的输出结果复制为两份,然后兵分两路:将一份上一层的输出结果传递到本层,可以有效的提升模型性能,再将本层的输出结果与另一份上一层的输出结果相加,将相加的结果输入下一层;如此,一方面可以降低模型复杂度以减少过拟合,另一方面可以防止梯度爆炸和消失问题。层归一化的作用主要包括通过对层的激活值的归一化,可以加速模型的训练过程,使其更快的收敛。
[0068] 如图7所示,所述方法还可以包括:步骤SA、将所述第一结构重塑子模块的输出结果复制为两份;子步骤S10242,所述将所述第一结构重塑子模块的输出结果输入所述双向长短期记忆子模块,还可以包括:将一份所述第一结构重塑子模块的输出结果输入所述双向长短期记忆子模块。子步骤S10243,所述将所述双向长短期记忆子模块的输出结果输入所述第二结构重塑子模块,还可以包括:子步骤S102431、子步骤S102432、子步骤S102433。
[0069] 子步骤S102431:将所述双向长短期记忆子模块的输出结果和另一份所述第一结构重塑子模块的输出结果输入所述第一残差连接子模块。
[0070] 子步骤S102432:将所述第一残差连接子模块的输出结果输入所述第一层归一化子模块。
[0071] 子步骤S102433:将所述第一层归一化子模块的输出结果输入所述第二结构重塑子模块。
[0072] 参见图7,所述方法还包括:步骤SB、将所述第二结构重塑子模块的输出结果复制为两份;此时,子步骤S10244,所述将所述第二结构重塑子模块的输出结果输入所述多头自注意力子模块,还可以包括:将一份所述第二结构重塑子模块的输出结果输入所述多头自注意力子模块。
[0073] 子步骤S10245,所述将所述多头自注意力子模块的输出结果输入所述第三结构重塑子模块,还可以包括:子步骤S102451、子步骤S102452、子步骤S102453。
[0074] 子步骤S102451:将所述多头自注意力子模块的输出结果和另一份所述第二结构重塑子模块的输出结果输入所述第二残差连接子模块。
[0075] 子步骤S102452:将所述第二残差连接子模块的输出结果输入所述第二层归一化子模块。
[0076] 子步骤S102453:将所述第二层归一化子模块的输出结果输入所述第三结构重塑子模块。
[0077] 参见图8,在一些实施例中,所述时域频域校正模块103包括第一时域频域校正模块103a和第二时域频域校正模块103b,通过多个时域频域校正模块的堆叠,可以提取更细粒度的频率方向和时间方向的依赖关系。
[0078] 在一些实施例中,所述校正模型10还包括:频域‑时域特征转换模块104和时域‑频域特征转换模块105。频域‑时域特征转换模块104进行频域‑时域的变换,时域‑频域特征转换模块105进行时域‑频域的变换,为频域‑时域的变换的逆过程。由于从特征上看,频率特征的重复学习容易限制效果的提高,而一帧频域信息对应于一个时间窗内的波形信息,它们可以通过FFT(Fast Fourier Transform,快速傅立叶变换)相互转换。通过这种简单而有效的转换,校正模型可以从波形和谱图两个维度了解时间特征和频率特征的依赖关系。因此,校正模型增加两个模块:频域‑时域特征转换模块104和时域‑频域特征转换模块105。
[0079] 本申请实施例中,时域频域校正模块的数量为两个以上,配置在频域‑时域特征转换模块104之前的可以称为第一时域频域校正模块103a,配置在时域‑频域特征转换模块105之前的可以称为第二时域频域校正模块103b,配置连接关系可以包括n个依次连接的基本连接单元,基本连接单元为:第一时域频域校正模块103a、频域‑时域特征转换模块104、第二时域频域校正模块103b、时域‑频域特征转换模块105。图中以两个时域频域校正模块为例说明,第一时域频域校正模块103a接收第一密集连接扩张卷积模块102a的输出结果,第一时域频域校正模块103a的输出结果传递到频域‑时域特征转换模块104;第二时域频域校正模块103b接收频域‑时域特征转换模块104的输出结果,第二时域频域校正模块103b的输出结果传递到时域‑频域特征转换模块105,时域‑频域特征转换模块105的输出结果传递到第二密集连接扩张卷积模块102b。
[0080] 结合参见图9,此时,子步骤S1024,所述将所述第一密集连接扩张卷积模块的输出结果输入所述时域频域校正模块,可以包括:将所述第一密集连接扩张卷积模块的输出结果输入所述第一时域频域校正模块。
[0081] 所述方法还可以包括:步骤SC1和步骤SC2。
[0082] 步骤SC1、将所述第一时域频域校正模块的输出结果输入所述频域‑时域特征转换模块。
[0083] 步骤SC2、将所述频域‑时域特征转换模块的输出结果输入所述第二时域频域校正模块。
[0084] 子步骤S1025,所述将所述时域频域校正模块的输出结果输入所述第二密集连接扩张卷积模块,可以包括:子步骤S10251和子步骤S10252。
[0085] 子步骤S10251:将所述第二时域频域校正模块的输出结果输入所述时域‑频域特征转换模块。
[0086] 子步骤S10252:将所述时域‑频域特征转换模块的输出结果输入所述第二密集连接扩张卷积模块。
[0087] 需要说明的是,在上述包括密集连接扩张卷积模块的校正模型的实施例中,在没有增加感受野需求的情况下,也可以不需要密集连接扩张卷积模块。具体说明如下:
[0088] 在一些实施例中,该校正模型包括二维卷积模块、时域频域校正模块。在一些实施例中,所述二维卷积模块包括第一二维卷积模块和第二二维卷积模块,步骤S102,所述利用所述二维卷积模块、所述时域频域校正模块基于所述第一语谱图对多个所述第二语谱图的原相位和原幅度进行校正,得到多个所述第二语谱图对应的校正相位和校正幅度,还可以包括:将所述第一语谱图、多个所述第二语谱图进行拼接,得到拼接语谱图;将所述拼接语谱图输入所述第一二维卷积模块;将所述第一二维卷积模块的输出结果输入所述时域频域校正模块;将所述时域频域校正模块的输出结果输入所述第二二维卷积模块;根据所述第二二维卷积模块的输出结果,得到多个所述第二语谱图对应的校正相位和校正幅度。
[0089] 在一些实施例中,所述时域频域校正模块包括第一结构重塑子模块、双向长短期记忆子模块、第二结构重塑子模块、多头自注意力子模块以及第三结构重塑子模块,其中,第一结构重塑子模块接收第一二维卷积模块的输出结果,其输出结果传递给双向长短期记忆子模块;第二结构重塑子模块接收双向长短期记忆子模块的输出结果,其输出结果传递给多头自注意力子模块;第三结构重塑子模块接收多头自注意力子模块的输出结果,其输出结果传递给第二二维卷积模块。
[0090] 在一些实施例中,所述时域频域校正模块还包括第一残差连接子模块、第一层归一化子模块、第二残差连接子模块、第二层归一化子模块。第一结构重塑子模块的输出结果复制为两份,一份第一结构重塑子模块的输出结果输入双向长短期记忆子模块,第一残差连接子模块接收双向长短期记忆子模块的输出结果和另一份第一结构重塑子模块的输出结果,第一残差连接子模块的输出结果传递到第一层归一化子模块,第一层归一化子模块的输出结果传递到第二结构重塑子模块;第二结构重塑子模块的输出结果复制为两份,将一份第二结构重塑子模块的输出结果输入多头自注意力子模块,第二残差连接子模块接收多头自注意力子模块的输出结果和另一份第二结构重塑子模块的输出结果,第二残差连接子模块的输出结果传递到第二层归一化子模块,第二层归一化子模块的输出结果传递到第三结构重塑子模块。
[0091] 在一些实施例中,所述时域频域校正模块包括第一时域频域校正模块和第二时域频域校正模块。
[0092] 在一些实施例中,所述校正模型还包括:频域‑时域特征转换模块和时域‑频域特征转换模块。频域‑时域特征转换模块进行频域‑时域的变换,时域‑频域特征转换模块进行时域‑频域的变换,为频域‑时域的变换的逆过程。
[0093] 本申请实施例中,时域频域校正模块的数量为两个以上,配置在频域‑时域特征转换模块之前的可以称为第一时域频域校正模块,配置在时域‑频域特征转换模块之前的可以称为第二时域频域校正模块,配置连接关系可以包括n个依次的基本连接单元,基本连接单元为:第一时域频域校正模块、频域‑时域特征转换模块、第二时域频域校正模块、时域‑频域特征转换模块。以两个时域频域校正模块为例说明,第一时域频域校正模块接收第一二维卷积模块的输出结果,第一时域频域校正模块的输出结果传递到频域‑时域特征转换模块;第二时域频域校正模块接收频域‑时域特征转换模块的输出结果,第二时域频域校正模块的输出结果传递到时域‑频域特征转换模块,时域‑频域特征转换模块的输出结果传递到第二二维卷积模块。
[0094] 在一些实施例中,步骤S101,所述获取第一语谱图和多个第二语谱图,可以包括:子步骤S1011和子步骤S1012,如图10所示。
[0095] 子步骤S1011:利用时域模型将所述原始语音信号分离得到多个原分离语音信号。
[0096] 时域模型的输入是语音的波形,通过神经网络预测得到分离源的波形,包括但不限于DPRNN(Dual‑Path Recurrent Neural Network,双路径循环神经网络)、DPTNet(Dual‑Path Transformer network,双路径变压器网络)、TasNet (Time‑domain Audio Separation Network,时域音频分离网络),等等。
[0097] 子步骤S1012:将所述原始语音信号和多个所述原分离语音信号分别进行短时傅里叶变换,得到所述原始语音信号的第一语谱图以及多个所述原分离语音信号的第二语谱图。
[0098] 在一些实施例中,步骤S104,所述根据多个所述校正后的第二语谱图,得到多个校正的分离语音信号,可以包括:对多个所述校正后的第二语谱图进行逆短时傅里叶变换,得到多个校正的分离语音信号。
[0099] 本申请实施例在时域模型分离步骤之后添加校正模型,能够校正频域中的实部信息和虚部信息或者相位和幅度。在一个实施例中,采用的校正模型如下:两个二维卷积模块(即一个第一二维卷积模块和一个第二二维卷积模块),两个密集连接扩张卷积模块(即一个第一密集连接扩张卷积模块和一个第二密集连接扩张卷积模块),每个密集连接扩张卷积模块包括四个二维扩张卷积子模块,八个时域频域校正模块(即四个第一时域频域校正模块和四个第二时域频域校正模块),每个时域频域校正模块包括:第一结构重塑子模块、双向长短期记忆子模块、第一残差连接子模块、第一层归一化子模块、第二结构重塑子模块、多头自注意力子模块、第二残差连接子模块、第二层归一化子模块以及第三结构重塑子模块;在进行语音分离时采用上述的校正模型,在WSJ0‑2mix数据集上的SI‑SDR(Scale Invariant Source‑to‑Distortion Ratio,尺度不变的源失真比)为22.2dB,在lib ‑2mix数据集上的SI‑SDR为19.4dB,能够达到目前最先进的性能。
[0100] 参见图11,图11是本申请语音分离装置一实施例的框图,需要说明的是,本实施例的语音分离装置能够实现上述语音分离方法,相关内容的详细说明,请参见上述方法部分,在此不再赘叙。
[0101] 所述装置100包括存储器1以及处理器2;所述存储器1用于存储计算机程序;所述处理器2用于执行所述计算机程序并在执行所述计算机程序时实现如上任一所述的语音分离方法。
[0102] 其中,处理器2可以是微控制单元、中央处理单元或数字信号处理器,等等。存储器1可以是Flash芯片、只读存储器、磁盘、光盘、U盘或者移动硬盘等等。
[0103] 本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上任一所述的语音分离方法。
[0104] 其中,该计算机可读存储介质可以是上述装置的内部存储单元,例如硬盘或内存。该计算机可读存储介质也可以是上述装置的外部存储设备,例如配备的插接式硬盘、智能存储卡、安全数字卡、闪存卡,等等。
[0105] 应当理解,在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。
[0106] 还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0107] 以上所述,仅为本申请的具体实施例,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。