语音分离方法、装置、电子设备和可读存储介质转让专利
申请号 : CN202110260475.4
文献号 : CN112634935B
文献日 : 2021-06-11
发明人 : 马路 , 杨嵩
申请人 : 北京世纪好未来教育科技有限公司
摘要 :
权利要求 :
1.一种语音分离方法,其特征在于,包括:获取待处理语音帧;
生成所述待处理语音帧的第一特征向量,所述第一特征向量包括所述待处理语音帧的每个时频点的特征向量;
对所述第一特征向量作聚类处理以获得第一特征向量类别;
提取每个所述第一特征向量类别对应的声纹特征;
根据相邻待处理语音帧的声纹特征相似度最高或者声纹特征距离最短的第一特征向量类别组合,输出通道分离后的语音。
2.根据权利要求1所述的语音分离方法,其特征在于,所述生成所述待处理语音帧的第一特征向量,包括:根据预先训练的网络模型生成所述待处理语音帧的第一特征向量;
对所述网络模型进行训练,包括:获取至少两个说话人的第一时频域语音;
混合所述第一时频域语音,以获得第一混合语音;
根据所述第一时频域语音判断所述第一混合语音中每个时频点的说话人之间的能量的相对大小,以获得每个时频点的每个说话人的第一标签;
以所述第一混合语音和所述第一标签训练所述网络模型。
3.根据权利要求1或2所述的语音分离方法,其特征在于,利用K均值聚类模型对所述第一特征向量作聚类处理以获得第一特征向量类别。
4.根据权利要求1所述的语音分离方法,其特征在于,所述提取每个所述第一特征向量类别对应的声纹特征,包括:
确定所述待处理语音帧的每个第一特征向量类别对应的时频点掩码值;
根据所述待处理语音帧与相应时频点掩码值的乘积,以获得所述第一特征向量类别对应的语音;
将所述第一特征向量类别对应的语音输入预先训练的声纹特征提取模型,以获得第一特征向量类别对应的声纹特征。
5.根据权利要求4所述的语音分离方法,其特征在于,对所述声纹特征提取模型进行训练,包括:
获取至少两个说话人的第二时频域语音;
根据将所述第二时频域语音输入到所述声纹特征提取模型后所得到的声纹特征,计算两两说话人之间的声纹特征相似度;
以相同说话人之间的声纹特征相似度最大以及不同说话人之间的声纹特征相似度最小为训练目标,训练所述声纹特征提取模型。
6.根据权利要求4或5所述的语音分离方法,其特征在于,所述生成所述待处理语音帧的第一特征向量,包括:根据预先训练的网络模型生成所述待处理语音帧的第一特征向量;
在所述根据所述待处理语音帧生成第一特征向量之前,所述方法还包括:联合训练所述网络模型和所述声纹特征提取模型;
其中,所述联合训练所述网络模型和所述声纹特征提取模型,包括:加载单独训练所述网络模型得到的第一网络参数,加载单独训练所述声纹特征提取模型得到的第二网络参数;
获取至少两个说话人的第三时频域语音,混合所述第三时频域语音得到第二混合语音;
将所述第二混合语音输入所述网络模型,获得第二特征向量,所述第二特征向量包括所述第二混合语音的每个时频点的特征向量;
对所述第二特征向量作聚类处理,得到第二特征向量类别;
确定每个第二特征向量类别对应的时频点掩码值;
计算所述第二混合语音与相应时频点掩码值的乘积,以获得所述第二特征向量类别对应的语音;
将所述第二特征向量类别对应的语音输入声纹特征提取模型,以获得所述第二混合语音的声纹特征;
根据所述第二混合语音的声纹特征与所述第二特征向量,以联合损失函数最小为训练目标,训练所述网络模型和所述声纹特征提取模型,其中,联合损失函数为所述网络模型的损失函数与声纹特征提取模型的损失函数的加权和函数。
7.根据权利要求1所述的语音分离方法,其特征在于,根据相邻待处理语音帧的声纹特征相似度最高或者声纹特征距离最短的第一特征向量类别组合,输出通道分离后的语音,包括:
根据所述相邻待处理语音帧的声纹特征相似度最高或者声纹特征距离最短的第一特征向量类别组合,确定相同声源的特征向量类别组;
对所述特征向量类别组的声纹特征做平滑处理。
8.根据权利要求1所述的语音分离方法,其特征在于,所述特征向量为embedding向量。
9.一种语音分离装置,其特征在于,包括:获取模块,用于获取待处理语音帧;
特征向量生成模块,用于生成所述待处理语音帧的第一特征向量,所述第一特征向量包括所述待处理语音帧的每个时频点的特征向量;
聚类模块,用于对所述第一特征向量作聚类处理以获得第一特征向量类别;
声纹特征提取模块,用于提取每个所述第一特征向量类别对应的声纹特征;
语音输出模块,用于根据相邻待处理语音帧的声纹特征相似度最高或者声纹特征距离最短的第一特征向量类别组合,输出通道分离后的语音。
10.根据权利要求9所述的语音分离装置,其特征在于,所述特征向量生成模块在用于生成所述待处理语音帧的第一特征向量时,具体用于:根据预先训练的网络模型生成所述待处理语音帧的第一特征向量;
所述语音分离装置包括第一训练模块;
所述第一训练模块,用于:
获取至少两个说话人的第一时频域语音;
混合所述第一时频域语音,以获得第一混合语音;
根据所述第一时频域语音判断所述第一时频域语音中每个时频点的说话人之间的能量的相对大小,以获得每个时频点的每个说话人的第一标签;
以所述第一混合语音和所述第一标签训练所述网络模型。
11.根据权利要求9所述的语音分离装置,其特征在于,所述声纹特征提取模块在用于提取每个所述第一特征向量类别对应的声纹特征时,具体用于:确定所述待处理语音帧的每个第一特征向量类别对应的时频点掩码值;
根据所述待处理语音帧与相应时频点掩码值的乘积,以获得所述第一特征向量类别对应的语音;
将所述第一特征向量类别对应的语音输入预先训练的声纹特征提取模型,以获得第一特征向量类别对应的声纹特征。
12.根据权利要求11所述的语音分离装置,其特征在于,所述装置包括第二训练模块;
所述第二训练模块,用于:
获取至少两个说话人的第二时频域语音;
根据将所述第二时频域语音输入到所述声纹特征提取模型后所得到的声纹特征,计算两两说话人之间的声纹特征相似度;
以相同说话人之间的声纹特征相似度最大以及不同说话人之间的声纹特征相似度最小为训练目标,训练所述声纹特征提取模型。
13.根据权利要求11或12所述的语音分离装置,其特征在于,所述特征向量生成模块在用于生成所述待处理语音帧的第一特征向量时,具体用于:根据预先训练的网络模型生成所述待处理语音帧的第一特征向量;
所述装置包括第三训练模块;
所述第三训练模块,用于:
加载单独训练所述网络模型得到的第一网络参数,加载单独训练所述声纹特征提取模型得到的第二网络参数;
获取至少两个说话人的第三时频域语音,混合所述第三时频域语音得到第二混合语音;
将所述第二混合语音输入所述网络模型,获得第二特征向量,所述第二特征向量包括所述第二混合语音的每个时频点的特征向量;
对所述第二特征向量作聚类处理,得到第二特征向量类别;
确定每个第二特征向量类别对应的时频点掩码值;
计算所述第二混合语音与相应时频点掩码值的乘积,以获得所述特征向量类别对应的语音;
将所述特征向量类别对应的语音输入声纹特征提取模型,以获得声纹特征;
根据所述第二混合语音的声纹特征与特征向量,以联合损失函数最小为训练目标,训练所述网络模型和所述声纹特征提取模型,其中,联合损失函数为所述网络模型的损失函数与声纹特征提取模型的损失函数的加权和函数。
14.根据权利要求9所述的语音分离装置,其特征在于,语音输出模块包括平滑处理模块;
所述平滑处理模块,用于:
根据所述相邻待处理语音帧的声纹特征相似度最高或者声纹特征距离最短的第一特征向量类别组合,确定相同声源的特征向量类别组,对所述特征向量类别组的声纹特征做平滑处理。
15.一种电子设备,包括存储器和处理器,所述存储器用于存储计算机指令,其特征在于,所述计算机指令被所述处理器执行以实现如权利要求1‑8任一项所述的方法。
16.一种可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现如权利要求1‑8任一项所述的方法。
说明书 :
语音分离方法、装置、电子设备和可读存储介质
技术领域
背景技术
刻一次性恢复出所有的声源,虽然增加了分离声源数量的灵活性,但无法实时处理。
发明内容
型的损失函数与声纹特征提取模型的损失函数的加权和函数。
失函数与声纹特征提取模型的损失函数的加权和函数。
征做平滑处理。
法。
别,提取第一特征向量类别对应的声纹特征,根据相邻待处理语音帧的声纹特征相似度最
高或者声纹特征距离最短的第一特征向量类别组合,输出通道分离后的语音。
第一特征向量类别组合所对应的通道作为分离语音的通道,消除了通道交叉问题,实现了
通道实时跟踪,提高了语音分离的实时性。
附图说明
说明书的一部分。
具体实施方式
了便于描述,附图中仅示出了与本申请相关的部分。
人的第一特征向量被聚类到相同的第一特征向量类别;
模型是embedding模型。具体的,此处可将待处理语音帧的每一个时频点转化为深度表示
embedding得到embedding向量。
度,F表示频域长度,D表示第一特征向量维度,其取值大小可在网络训练过程中从备选数值
(如:10 100)中选择使分类效果最好的值作为最终数值。
~
特征向量被聚类到相同的第一特征向量类别;
特征向量类别,根据第k(k=1,2,…,K,K为第一特征向量类别总数)个第一特征向量类别,可
以计算得到待处理语音帧中属于第k个第一特征向量类别对应的语音,提取该语音所得到
的声纹特征,即第k个第一特征向量类别对应的声纹特征。声纹特征具有一个特点,即相同
说话人的声纹特征的相识度高或距离短,若第t帧第k个第一特征向量类别对应的声纹特征
与第t+1帧第k个第一特征向量类别对应的声纹特征的相似度越高或距离越短,则说明第t
帧第k个第一特征向量类别对应的语音与第t+1帧第k个第一特征向量类别对应的语音是同
一个的语音的可能性越大。
征向量类别对应的声纹特征。
的语音是同一声源的语音,即可以确定分离语音的通道。为了便于理解,以第t帧和t+1帧为
例,进行说明,根据相邻待处理语音帧的声纹特征相似度最高或者声纹特征距离最短的第
一特征向量类别组合,可以确定第t帧的哪个第一特征向量类别与第t+1帧第二待处理帧的
哪个第一特征向量类别是同一说话人的语音,假设第t帧第k(k=1,2,…,K,K为第一特征向
量类别总数)个第一特征向量类别对应的声纹特征与第t+1帧第k个第一特征向量类别对应
的声纹特征的相似度高或距离短,则说明第t帧第k个第一特征向量类别对应的声纹特征与
第t+1帧第k个第一特征向量类别对应的声纹特征是同一说话人的声纹特征;此处拼接第t
帧第k个第一特征向量类别对应的声纹特征对应的通道与第t+1帧第k个第一特征向量类别
对应的声纹特征对应的通道;同理,拼接第t帧的其他第一特征向量类别对应的声纹特征对
应的通道与第t+1帧的其他第一特征向量类别对应的声纹特征对应的通道;拼接完成后,相
同说话人是相同通道,不同说话人是不同通道,而通道对应的语音是通道分离后的语音。
个第一特征向量类别对应的声纹特征的相似度或距离中,第t帧第k个第一特征向量类别与
第t+1帧第k个第一特征向量类别对应的相似度最高或距离最短。
后,采用聚类模型聚类出2个类别,具体该聚类模型可采用K均值聚类模型,即K‑Means聚类
模型,该聚类模型也可以采用均值漂移聚类、基于密度的聚类、用高斯混合模型的最大期望
聚类等其他聚类模型。
别的第frame #1帧的时频表示,将该结果输入声纹特征提取模型(Speaker Encoder)之后
得到该类别对应的第frame #1帧的声纹特征,标记为:dc,t,其中,d表示声纹特征,c表示说
话人,t表示帧。假定,第frame #1帧两个类别提取的声纹特征分别是d1,1和d2,1,第frame #2
帧两个类别提取的声纹特征分别是d1,2和d2,2,为了将前后两帧待处理语音对应通道拼接到
一起,计算前后两帧两个类别对应声纹特征的距离或者相似度,共有 种排列,即:两个说
话人有两种组合排列: 。
的第frame #2帧的通道1和通道2的声纹特征分别是 和 。此时,将第frame #1帧声纹特
征d1,1对应的通道与第frame #2帧声纹特征 对应的通道拼接到一起,将第frame #1帧声
纹特征d2,1对应的通道与第frame #2帧声纹特征 对应的通道拼接到一起;与此同时,可
将通道1第frame #1帧的声纹特征d1,1与通道1第frame #2帧的声纹特征 进行平滑得到
更稳定的声纹特征d1,将通道2第frame #1帧的声纹特征d2,1与通道2第frame #2帧的声纹
特征 进行平滑得到更稳定的声纹特征d2,即:
量类别组的声纹特征做平滑处理。以上述举例内容为例,通过公式(3)计算的得到的组合就
是第一特征向量类别组合,而第一特征向量类别组合中的每个特征向量类别组均是一个相
同声源的特征向量类别组:
第t+1帧聚类出的K个类别一一对应上,从而出现通道交叉问题。而本发明实施例根据声纹
特征具有稳定性的特点,将第t帧聚类出的K个类别提取对应的声纹特征,在第t+1帧的时
候,利用第t帧得到的每个类别的声纹特征在第t+1帧的K个类别对应的声纹特征中选择距
离最短或者相似度最大的声纹特征所对应的第一特征向量类别作为第t+1帧中与第t帧所
对应的类别,从而实现相邻帧分离后的通道跟踪,进而得到通道分离后的语音。
块(STFT)和特征提取模块后,分别进入Embedding模型和时频掩码模块,由Embedding模型
生成语音帧在每个时频点的embedding向量,由聚类模型聚类处理embedding向量,得到相
应的embedding向量类别;时频掩码模块生成每个embedding向量类别的时频点掩码值,并
根据时频点掩码值确定embedding向量类别的语音;声纹特征提取模型根据embedding向量
类别的语音生成embedding向量类别的声纹特征,通道跟踪模型根据embedding向量类别的
声纹特征,确定声纹特征相似度最高或者声纹特征距离最短的embedding向量类别组合,并
根据声纹特征相似度最高或者声纹特征距离最短的embedding向量类别组合,拼接通道,拼
接通道后即可获得相应的分离的语音;其中,图4中黑色长方形表示实际的一个说话人的
embedding向量类别,灰色长方形表示实际的另一个说话人的embedding向量类别,聚类模
型聚类后通道存在通道模糊,而通道跟踪模型处理后可以消除通道模糊。
Time Fourier Transform)表示短时傅里叶变换,用于将时域波形转换到时频域。纯净的语
音source1经过房间冲激响应之后作为说话人#1的语音,经过短时傅里叶变换变换为时频
域信号S(1 t,f),计算时频域信号每个时频点的能量,其中,t表示时间、f表示频率;同理,纯
净的语音source2经过房间冲激响应之后作为说话人#2的语音,经过STFT变换得到时频域
信号S(2 t,f),计算每个时频点能量;比较每个时频点上说话人#1的时频域信号S(1 t,f)的能
量和说话人#2的时频域信号S(2 t,f)的能量;对说话人#1来说,若 ,则该时频
点的label为Y1(t,f);否则Y1(t,f)=0;同时,计算每个时频点上语音的掩码值mask ,即:
计算每个时频点上某个说话人语音幅度占混合语音幅度的比例,具体可采用公式
计算。与此同时,记录每个说话人语音片段的身份id,用以训练声纹特征提取模
型。
,其中,表示网络参数,N表示输入时频点数量,D表示embedding长度。考虑
单位模的embedding表示,即: ,其中,vn={vn,d},vn,d表示第n个
embedding向量的第d维。网络模型期望找到一种embedding表示,即::将每一个时频点n表
示成一个D维的embedding向量,在这个embedding向量中可以通过简单的聚类方法即可将
不同说话人的语音分开,Y={yn,c}表示将第n个时频点分类到第c个类别,即: yn,c=1表示第n
个时频点属于第c个类别(在这里,表示哪一个说话人)。Embedding模型的训练目标即是根
据标签Y={yn,c}去寻找一种embedding向量使得尽可能的分类正确。
比较两个说话人每个时频点的能量的相对大小,以说话人#1为例,若 ,则归属
矩阵Y对应元素为 ,反之, 。将输入 和 叠加后得到第一混合语
音作为网络输入,以归属矩阵Y作为第一标签,以 作为损失函数训练网络参数。
说话人c的能量大于其他说话人,则 ;反之, 。
该类别的时频点掩码值为1,非该类别的时频点掩码值设置为0,这样每个类别的时频点数
量等于输入混合音频的时频点数量;时频点掩码值可采用比例掩码,则计算每个时频点上
每个类别的幅度比例,即:
相乘得到对应类别的语音;将mask后的每个类别的语音输入声纹特征提取模块Speaker
Encoder,得到每个类别每一帧的声纹特征;考虑到声纹特征的稳定性,利用声纹特征将前
后相邻两帧的类别整合到一起,消除通道模糊,从而将聚类算法从句子级别扩展到帧级别,
实现实时流式处理。
该目的进行训练。
馈入声纹特征提取模型(Speaker Encoder)得到声纹特征 ,其中,表示神经网络参
数,则对应说话人特征d‑vector表示为:
人的d‑vector eji与所有说话人的 之间的余弦相似度,即:
,当且仅当 时输出为1,其他情况为0,即定义如下损失函数:
征之间的相似度,最后优化公式(9),使得loss尽可能小。
特征提取模型的损失函数的加权和函数。
帧语音帧的第二特征向量与声纹特征。
训练得到的网络参数作为Embedding模型和声纹特征提取模型的初始参数,将说话人#1的
音频 和说话人#2的音频 混合后作为Embedding模型的输入,将Embedding模型输
出的embedding向量进行K=2的聚类得到两个聚类中心,按照公式(6)计算每个说话人的
mask,将得到的mask与输入混合语音相乘,结果输入到声纹特征网络模型Speaker
Encoder,提取对应的声纹特征;如此计算,得到连续M帧的embedding向量和声纹特征,使用
公式(10)计算总的损失函数,Loss‑total.,迭代训练网络使得 最小。
特征向量类别组合,并根据声纹特征相似度最高或者声纹特征距离最短的第一特征向量类
别组合,拼接通道。
帧的第一特征向量;
提取模型的损失函数的加权和函数。
处理。
示的实施方式中的各种处理。在RAM803中,还存储有系统操作所需的各种程序和数据。处理
单元801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线
804。
以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因
特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如
磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出
的计算机程序根据需要被安装入存储部分808。其中,处理单元801可实现为CPU、GPU、TPU、
FPGA、NPU等处理单元。
的计算机程序,计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中,
该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安
装。
代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于
实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注
的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可
以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意
的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行
规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的
组合来实现。
结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中,对上
述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、
结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,
在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或
示例以及不同实施例/方式或示例的特征进行结合和组合。
隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三
个等,除非另有明确具体的限定。
以做出其它变化或变型,并且这些变化或变型仍处于本申请的范围内。