伴奏音乐提取方法及装置转让专利

申请号 : CN200910079834.5

文献号 : CN101577117B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张晨

申请人 : 无锡中星微电子有限公司

摘要 :

本发明公开了一种伴奏音乐提取方法及装置,该方法包括:获取待处理歌曲中的合成音频信号帧,所述合成音频信号帧由所述歌曲左声道的音频信号帧和右声道的对应音频信号帧合成;确定所述合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;根据确定出的所述音频类别,设定对消增益参数和输出增益参数;通过所述对消增益参数控制所述左声道的音频信号帧和右声道的对应音频信号帧的对消,并使用所述输出增益参数对消后的音频信号帧进行输出增益计算,得到左、右声道的输出信号帧。能够有效消除歌曲中的语音,得到音质良好伴奏音乐。

权利要求 :

1.一种伴奏音乐提取方法,其特征在于,包括:

获取待处理歌曲中的合成音频信号帧,所述合成音频信号帧由所述歌曲左声道的音频信号帧和右声道的对应音频信号帧合成;

确定所述合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;

根据确定出的所述音频类别,设定对消增益参数和输出增益参数,具体包括:当确定所述合成音频信号帧所属的音频类别为语音时,分别设置所述对消增益参数和输出增益参数为a1和b1;

当确定所述合成音频信号帧所属的音频类别为音乐时,分别设置所述对消增益参数和输出增益参数为a2和b2;

当确定所述合成音频信号帧所属的音频类别为语音音乐组合时,分别设置所述对消增益参数和输出增益参数为a3和b3;

其中,0≤a2<a3<a1≤1,0<b1<b3<b2≤1;

计算所述左声道的音频信号帧与所述对消增益参数的乘积;

用所述乘积减去所述右声道的对应音频信号帧,得到对消后左声道的音频信号帧;计算所述对消后左声道的音频信号帧与所述输出增益参数的乘积,得到左声道的输出信号帧;以及用所述右声道的对应音频信号帧减去所述左声道的音频信号帧与所述对消增益参数的乘积,得到对消后右声道的音频信号帧;计算所述对消后右声道的音频信号帧与所述输出增益参数的乘积,得到右声道的输出信号帧。

2.如权利要求1所述的方法,其特征在于,确定所述合成音频信号帧所属的音频类别,具体包括:对所述合成音频信号帧进行频带划分,分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;

根据所述能量向量和存储的各个音频类别的分类模型参数,采用混合高斯模型GMM算法,分别计算得到所述合成音频信号帧为各音频类别的概率;其中,每个音频类别的分类模型参数根据已知的该音频类别的若干音频信号帧确定;

确定所述概率最大值所对应的音频类别为所述合成音频信号帧所属的音频类别。

3.如权利要求2所述的方法,其特征在于,所述对所述合成音频信号帧进行频带划分,具体包括:将所述合成音频信号帧划分为不均匀的L个频带,划分出的第k个子频带的起始频率~终止频率定义为: 或 或将所述合成音频信号帧划分为均匀的L个频带,划分出的第k个子频带的起始频率~终止频率定义为:其中,F为所述合成音频信号帧的频带宽度,k=0,1,......,L-1;且L为大于等于1的正整数;

所述计算划分出的各子频带的频域能量,具体为:根据所述合成音频信号帧的频率分布函数和各子频带的所述起始频率、终止频率,计算各个子频带的频域能量。

4.如权利要求3所述的方法,其特征在于,所述计算得到所述合成音频信号帧为各音频类别的概率,具体包括:根据所述能量向量和所述各个音频类别的分类模型参数,计算得到与所述合成音频数据帧与各个音频类别对应的基本密度函数:根据所述基本密度函数计算得到所述合成音频信号帧为各音频类别的概率。

5.如权利要求2所述的方法,其特征在于,所述分类模型参数的确定,具体包括:提取一组某一音频类别的备用音频信号帧;

对获取的每一个备用音频信号帧进行频带划分,分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;

根据得到的所有备用音频信号帧的能量向量和设定的高斯混合模型参数初始值,采用最大似然估计迭代算法,确定该音频类别的音频信号分类模型参数。

6.如权利要求5所述的方法,其特征在于,所述确定该音频类别的音频信号分类模型参数,包括:根据得到所有备用音频信号帧的能量向量和原高斯混合模型参数,根据得到的能量向量,通过贝叶斯公式分别计算各组的后验概率;

根据所述后验概率,计算得到获取的音频信号帧对应的新高斯混合模型参数,将所述新高斯混合模型参数与原高斯混合模型参数进行比较;若其差值不小于设定的阈值,则将所述新高斯混合模型参数作为所述原高斯混合模型参数,继续计算所述后验概率;若其差值小于设定的阈值,确定所述新高斯混合模型参数为该音频类别的音频信号分类模型参数。

7.一种伴奏音乐提取装置,其特征在于,包括:

获取模块,用于获取待处理歌曲中的合成音频信号帧,所述合成音频信号帧由所述歌曲左声道的音频信号帧和右声道的对应音频信号帧合成;

确定模块,用于确定所述合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;

设置模块,用于根据确定出的所述音频类别,设定对消增益参数和输出增益参数,其中,当确定所述合成音频信号帧所属的音频类别为语音时,分别设置所述对消增益参数和输出增益参数为a1和b1;当确定所述合成音频信号帧所属的音频类别为音乐时,分别设置所述对消增益参数和输出增益参数为a2和b2;当确定所述合成音频信号帧所属的音频类别为语音音乐组合时,分别设置所述对消增益参数和输出增益参数为a3和b3;其中,

0≤a2<a3<a1≤1,0<b1<b3<b2≤1;

执行模块,用于计算所述左声道的音频信号帧与所述对消增益参数的乘积;用所述乘积减去所述右声道的对应音频信号帧,得到对消后左声道的音频信号帧;计算所述对消后左声道的音频信号帧与所述输出增益参数的乘积,得到左声道的输出信号帧;用所述右声道的对应音频信号帧减去所述左声道的音频信号帧与所述对消增益参数的乘积,得到对消后右声道的音频信号帧;计算所述对消后右声道的音频信号帧与所述输出增益参数的乘积,得到右声道的输出信号帧。

8.如权利要求7所述的装置,其特征在于,所述确定模块,具体包括:频带划分单元,用于对所述合成音频信号帧进行频带划分;

向量生成单元,用于分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;

概率确定单元,用于根据所述能量向量和存储的各个音频类别的分类模型参数,采用混合高斯模型GMM算法,分别计算得到所述合成音频信号帧为各音频类别的概率;其中,每个音频类别的分类模型参数根据已知的该音频类别的若干音频信号帧确定;

类别确定单元,用于确定所述概率最大值所对应的音频类别为所述合成音频信号帧所属的音频类别。

9.如权利要求8所述的装置,其特征在于,还包括:

参数确定模块,用于根据已知的各音频类别的若干音频信号帧确定对应的所述分类模型参数。

10.如权利要求9所述的装置,其特征在于,所述参数确定模块,具体包括:提取单元,用于提取一组某一音频类别的备用音频信号帧;

划分单元,用于对获取的每一个备用音频信号帧进行频带划分;

生成单元,用于分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;

确定单元,用于根据得到的所有备用音频信号帧的能量向量和设定的高斯混合模型参数初始值,采用最大似然估计迭代算法,确定该音频类别的音频信号分类模型参数。

说明书 :

伴奏音乐提取方法及装置

技术领域

[0001] 本发明涉及信号处理领域,尤指一种利用模式分类技术进行歌曲中伴奏音乐提取的方法及装置。

背景技术

[0002] 目前一些音频播放软件或者是音频处理软件已经具有从歌曲中提取伴奏功能,这个功能的作用就是实现从一首歌曲中把其伴奏音乐提取出来。例如,当想录制自己演唱的歌曲,而又找不到这首歌曲的伴奏音乐时,就可以使用这个从歌曲中提取伴奏功能,从原唱歌曲中单独把伴奏音乐分离并提取出来。
[0003] 由于人声频率主要集中在低频,而音乐频率在整个频带分布较为广泛,因此,现有的提取伴奏音乐的方法,通常利用大多数歌曲中语音(即人声)在两个声道中基本相同的特点,采用将两个声道中的音频信号直接进行对减的方式来消除语音(即人声)。其进行信号处理的基本原理如图1所示,用左声道的音频信号减去右声道的音频信号得到左声道的新音频信号,用右声道的音频信号减去左声道的音频信号得到右声道的新音频信号,得到的左声道新音频信号和右声道的新音频信号即可组成伴奏音乐。
[0004] 现有从歌曲中提取伴奏音乐的方法具有的缺点是:直接采取将立体声歌曲的左右声道两路信号对消的方式,往往不能有效的消除人声;且在消除语音的同时,若伴奏音乐在两个声道中的也出现相同部分时,则也会消除一部分伴奏音乐,使得提取的伴奏音乐准确度比较低,从而引起伴奏音乐音质的下降等问题。

发明内容

[0005] 本发明实施例提供一种伴奏音乐提取方法及装置,解决现有技术中在消除语音时引起的伴奏音乐音质下降的问题,能够有效消除歌曲中的语音,得到音质良好伴奏音乐。
[0006] 一种伴奏音乐提取方法,包括:
[0007] 获取待处理歌曲中的合成音频信号帧,所述合成音频信号帧由所述歌曲左声道的音频信号帧和右声道的对应音频信号帧合成;
[0008] 确定所述合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;
[0009] 根据确定出的所述音频类别,设定对消增益参数和输出增益参数,具体包括:
[0010] 当确定所述合成音频信号帧所属的音频类别为语音时,分别设置所述对消增益参数和输出增益参数为a1和b1;
[0011] 当确定所述合成音频信号帧所属的音频类别为音乐时,分别设置所述对消增益参数和输出增益参数为a2和b2;
[0012] 当确定所述合成音频信号帧所属的音频类别为语音音乐组合时,分别设置所述对消增益参数和输出增益参数为a3和b3;
[0013] 其中,0≤a2<a3<a1≤1,0<b1<b3<b2≤1;
[0014] 计算所述左声道的音频信号帧与所述对消增益参数的乘积;
[0015] 用所述乘积减去所述右声道的对应音频信号帧,得到对消后左声道的音频信号帧;计算所述对消后左声道的音频信号帧与所述输出增益参数的乘积,得到左声道的输出信号帧;以及
[0016] 用所述右声道的对应音频信号帧减去所述左声道的音频信号帧与所述对消增益参数的乘积,得到对消后右声道的音频信号帧;计算所述对消后右声道的音频信号帧与所述输出增益参数的乘积,得到右声道的输出信号帧。
[0017] 根据本发明的上述方法,确定所述合成音频信号帧所属的音频类别,具体包括:
[0018] 对所述合成音频信号帧进行频带划分,分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;
[0019] 根据所述能量向量和存储的各个音频类别的分类模型参数,采用混合高斯模型GMM算法,分别计算得到所述合成音频信号帧为各音频类别的概率;其中,每个音频类别的分类模型参数根据已知的该音频类别的若干音频信号帧确定;
[0020] 确定所述概率最大值所对应的音频类别为所述合成音频信号帧所属的音频类别。
[0021] 根据本发明的上述方法,所述对所述合成音频信号帧进行频带划分,具体包括:
[0022] 将所述合成音频信号帧划分为不均匀的L个频带,划分出的第k个子频带的起始频率~终止频率定义为: 或 或
[0023] 将所述合成音频信号帧划分为均匀的L个频带,划分出的第k个子频带的起始频率~终止频率定义为:
[0024] 其中,F为所述合成音频信号帧的频带宽度,k=0,1,......,L-1;且L为大于等于1的正整数;
[0025] 所述计算划分出的各子频带的频域能量,具体为:根据所述合成音频信号帧的频率分布函数和各子频带的所述起始频率、终止频率,计算各个子频带的频域能量。
[0026] 根据本发明的上述方法,所述计算得到所述合成音频信号帧为各音频类别的概率,具体包括:
[0027] 根据所述能量向量和所述各个音频类别的分类模型参数,计算得到与所述合成音频数据帧与各个音频类别对应的基本密度函数:
[0028] 根据所述基本密度函数计算得到所述合成音频信号帧为各音频类别的概率。
[0029] 根据本发明的上述方法,所述分类模型参数的确定,具体包括:
[0030] 提取一组某一音频类别的备用音频信号帧;
[0031] 对获取的每一个备用音频信号帧进行频带划分,分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;
[0032] 根据得到的所有备用音频信号帧的能量向量和设定的高斯混合模型参数初始值,采用最大似然估计迭代算法,确定该音频类别的音频信号分类模型参数。
[0033] 根据本发明的上述方法,所述确定该音频类别的音频信号分类模型参数,包括:
[0034] 根据得到所有备用音频信号帧的能量向量和原高斯混合模型参数,根据得到的能量向量,通过贝叶斯公式分别计算各组的后验概率;
[0035] 根据所述后验概率,计算得到获取的音频信号帧对应的新高斯混合模型参数,将所述新高斯混合模型参数与原高斯混合模型参数进行比较;若其差值不小于设定的阈值,则将所述新高斯混合模型参数作为所述原高斯混合模型参数,继续计算所述后验概率;若其差值小于设定的阈值,确定所述新高斯混合模型参数为该音频类别的音频信号分类模型参数。
[0036] 一种伴奏音乐提取装置,包括:
[0037] 获取模块,用于获取待处理歌曲中的合成音频信号帧,所述合成音频信号帧由所述歌曲左声道的音频信号帧和右声道的对应音频信号帧合成;
[0038] 确定模块,用于确定所述合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;
[0039] 设置模块,用于根据确定出的所述音频类别,设定对消增益参数和输出增益参数其中,当确定所述合成音频信号帧所属的音频类别为语音时,分别设置所述对消增益参数和输出增益参数为a1和b1;当确定所述合成音频信号帧所属的音频类别为音乐时,分别设置所述对消增益参数和输出增益参数为a2和b2;当确定所述合成音频信号帧所属的音频类别为语音音乐组合时,分别设置所述对消增益参数和输出增益参数为a3和b3;其中,0≤a2<a3<a1≤1,0<b1<b3<b2≤1;
[0040] 执行模块,用于计算所述左声道的音频信号帧与所述对消增益参数的乘积;用所述乘积减去所述右声道的对应音频信号帧,得到对消后左声道的音频信号帧;计算所述对消后左声道的音频信号帧与所述输出增益参数的乘积,得到左声道的输出信号帧;用所述右声道的对应音频信号帧减去所述左声道的音频信号帧与所述对消增益参数的乘积,得到对消后右声道的音频信号帧;计算所述对消后右声道的音频信号帧与所述输出增益参数的乘积,得到右声道的输出信号帧。
[0041] 根据本发明的上述装置,所述确定模块,具体包括:
[0042] 频带划分单元,用于对所述合成音频信号帧进行频带划分;
[0043] 向量生成单元,用于分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;
[0044] 概率确定单元,用于根据所述能量向量和存储的各个音频类别的分类模型参数,采用混合高斯模型GMM算法,分别计算得到所述合成音频信号帧为各音频类别的概率;其中,每个音频类别的分类模型参数根据已知的该音频类别的若干音频信号帧确定;
[0045] 类别确定单元,用于确定所述概率最大值所对应的音频类别为所述合成音频信号帧所属的音频类别。
[0046] 本发明的上述装置,还包括:
[0047] 参数确定模块,用于根据已知的各音频类别的若干音频信号帧确定对应的所述分类模型参数。
[0048] 根据本发明的上述装置,所述参数确定模块,具体包括:
[0049] 提取单元,用于提取一组某一音频类别的备用音频信号帧;
[0050] 划分单元,用于对获取的每一个备用音频信号帧进行频带划分;
[0051] 生成单元,用于分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量;
[0052] 确定单元,用于根据得到的所有备用音频信号帧的能量向量和设定的高斯混合模型参数初始值,采用最大似然估计迭代算法,确定该音频类别的音频信号分类模型参数。
[0053] 本发明实施例提供的伴奏音乐提取方法及装置,获取待处理歌曲中的合成音频信号帧,所述合成音频信号帧由所述歌曲左声道的音频信号帧和右声道的对应音频信号帧合成;确定所述合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;根据确定出的所述音频类别,设定对消增益参数和输出增益参数;通过所述对消增益参数控制所述音频信号帧和所述对应音频信号帧的对消,并使用所述输出增益参数对消后的音频信号帧进行输出增益计算,得到左、右声道的输出信号帧。根据语音、音乐语音音乐组合等音频信号帧各自的特征,通过模式分类技术,确定待处理的合成音频信号帧的音频类别,根据音频信号帧所属的音频类别对各音频信号帧逐一进行对消和增益处理,从而更有效的消除歌曲中包含的语音,得到更优质的伴奏音乐。

附图说明

[0054] 图1为现有技术中从歌曲中提取伴奏音乐的流程图;
[0055] 图2为本发明实施例中伴奏音乐提取确定方法的流程图;
[0056] 图3为本发明实施例中对合成音频信号帧进行对消和增益调整的原理图;
[0057] 图4为本发明实施例中对合成音频信号进行分类的流程图;
[0058] 图5为本发明实施例中高斯混合模型的原理示意图;
[0059] 图6为本发明实施例中音频信号分类模型参数确定的流程图;
[0060] 图7为本发明实施例中伴奏音乐提取装置的结构示意图。

具体实施方式

[0061] 本发明实施例提供的伴奏音乐提取方法,通过确定待处理歌曲中的合成音频信号帧所属的音频类别,确定对左、右声道对应的各音频信号帧进行对消时的对消增益参数和输出增益参数,对左、右声道各对应的音频信号帧进行对消和输出增益计算,得到左、右声道的输出信号,最终得到只包含纯音乐的伴奏音乐。其流程如图2所示,包括下列步骤:
[0062] 步骤S101:获取待处理歌曲中的合成音频信号帧。
[0063] 其中,合成音频信号帧由待处理歌曲左声道的音频信号帧和右声道的对应音频信号帧合成。
[0064] 实际获取的过程可以是分别提取待处理歌曲左声道的音频信号帧和右声道的对应音频信号帧,再合成上述合成音频信号帧;也可以先将左、右声道的两路音频信号合成一路合成音频信号后,从合成的一路音频信号中提取合成音频信号帧。
[0065] 步骤S102:确定获取的合成音频信号帧所属的音频类别。
[0066] 其中,音频类别包括语音、音乐或语音音乐组合。
[0067] 确定合成音频信号帧所属音频类别的具体过程在下面在进行详细阐述。
[0068] 步骤S103:根据确定出的音频类别,设定对消增益参数和输出增益参数。
[0069] 当确定合成音频信号帧所属的音频类别为语音时,设置对消增益参数为a1,输出增益参数为b1。
[0070] 当确定合成音频信号帧所属的音频类别为音乐时,设置对消增益参数为a2,输出增益参数为b2。
[0071] 当确定合成音频信号帧所属的音频类别为语音音乐组合时,设置对消增益参数为a3,输出增益参数为b3。
[0072] 其中,0<a2<a3<a1≤1,0<b1<b2<b3≤1。
[0073] 通常对消增益参数和输出增益参数可以根据经验值设定。
[0074] 一般情况下,可以采取:当一个合成音频信号帧为语音的概率越大时,设定的对消增益参数的值越接近于1;当一个合成音频信号帧为音乐的概率越大时,设定的输出增益参数的值越接近于1。
[0075] 例如:
[0076] 当确定合成音频信号帧所属的音频类别为语音时,设置对消增益参数为a1=1.0,输出增益参数为b1=0.5。
[0077] 当确定合成音频信号帧所属的音频类别为音乐时,设置对消增益参数为a2=0.5,输出增益参数为b2=1.0。
[0078] 当确定合成音频信号帧所属的音频类别为语音音乐组合时,设置对消增益参数为a3=0.8,输出增益参数为b3=0.8。
[0079] 将对消增益参数和输出增益参数分别作为控制左右声道音频信号对消和输出增益计算的权重因子,用于下列步骤S104、步骤S105中。
[0080] 步骤S104:通过对消增益参数控制左声道的音频信号帧和右声道的对应音频信号帧的对消,分别得到对消后左、右声道的音频信号帧。
[0081] 对音频信号帧进行对消和增益调整的原理如图3所示。
[0082] 计算左声道的音频信号帧与对消增益参数的乘积,用计算得到的乘积减去右声道的对应音频信号帧,得到对消后左声道的音频信号帧;用右声道的对应音频信号帧减去上述计算得到的乘积,得到对消后右声道的音频信号帧。
[0083] 步骤S105:使用输出增益参数对消后的音频信号帧进行输出增益计算,得到左、右声道的输出信号帧。
[0084] 如图3所示,计算对消后左声道的音频信号帧与输出增益参数的乘积,得到左声道的输出信号帧;计算对消后右声道的音频信号帧与输出增益参数的乘积,得到右声道的输出信号帧。
[0085] 上述对消增益参数(包括a1、a2、a3等)是控制左、右声道两路信号对消的权重因子,a1、a2、a3的值越接近于1,则两路信号对消的越厉害。增益b1、b2、b3等为输出信号的增益因子,包括b1、b2、b3的值越大,则输出增益越高。根据模式分类的结果设置相应的对消增益参数和输出增益参数,控制对消和输出两个增益的大小来实现消除语音,可以保证提取的伴奏音乐的音质良好。
[0086] 上述步骤S102中确定合成音频信号帧所属的音频类别。具体为根据预先确定出的分类模型参数,分别计算待测的合成音频信号帧为语音、音乐和语音音乐组合的概率,确定获取的合成音频信号帧为语音、音乐或语音音乐组合。音频信号帧所属音频类别的确定过程如图4所示,执行步骤如下:
[0087] 步骤S201:对获取到的合成音频信号帧进行频带划分。将上述合成音频信号帧的整个频带范围划分为若干个子频带。
[0088] 假设音频信号帧的带宽为F,对其进行子频带划分时,可以采用均分的方式也可以采用非均分的方式。
[0089] 采用非均分的方式时,将音频信号帧划分为L个频带,则划分出的第k个子频带的范围可以定义为:
[0090]
[0091] 其中,k=0,1,......,L-1。
[0092] 采用非均分的方式时,将音频信号帧划分为L个频带,则划分出的第k个子频带的范围还可以定义为:
[0093]
[0094] 其中,k=0,1,......,L-1,L为正整数。
[0095] 采用均分的方式时,将音频信号帧划分为L个频带,则划分出的第k个子频带的范围可以定义为:
[0096]
[0097] 其中,k=0,1,......,L-1。
[0098] 步骤S202:分别计算划分出的各个子频带的频域能量,得到对应的能量向量。
[0099] 得到的能量向量由所有子频带频域能量组成。具体包括:
[0100] 各子频带频域能量通过下列公式计算得到:
[0101]
[0102] 其中,wk0为子频带的起始频率;
[0103] wk1为子频带的终止频率;
[0104] F(ω)为合成音频信号帧的频率分布函数。
[0105] 计算得到每个子频带对应的子频带频域能量后,按照子频带的顺序组成一个能量向量:
[0106] 该能量向量表征该合成音频信号帧的信号特征。
[0107] 其中不同类型的音频信号.其频域能量在各子频带区间的分布有所不同.音乐的频域能量在上述各子频带区间中的分布相对比较均匀,而在语音中,能量主要集中在第0个子频带。
[0108] 步骤S203:根据得到的能量向量和存储的确定语音、音乐和歌曲所对应的音频信号分类模型参数,分别计算得到合成音频信号帧为各音频类别的概率。
[0109] 本发明实施例采用高斯混合模型(Gaussian Mixture Model,GMM),对合成音频信号进行分类。其中,音频信号分类模型参数通过分别对已知的大量语音、音乐、语音音乐组合等的音频信号进行训练,采用最大似然估计迭代计算语音、音乐、语音音乐组合各自对应的高斯混合模型参数,即为语音、音乐、语音音乐组合各自的音频信号分类模型参数λy(λ1,λ2,λ3等)。具体计算过程下面再具体阐述(参见步骤S301-步骤S305)。
[0110] 下面具体说明计算得到合成音频信号帧为各音频类别的概率的过程。以计算合成音频信号帧为语音的概率为例,具体包括:
[0111] (1)获取已确定的语音所对应的音频信号分类模型参数(即高斯混合模型参数),其表达式为:
[0112] λ1={pj,uj,∑j}
[0113] 其中,j=1,2,......,M,M为正整数,表示混合模型中有M个成员,对语音信号的音频信号分类模型参数,则y=1。
[0114] 其中: μj为均值,∑j为协方差。
[0115] (2)计算上述步骤S202中得到的能量向量对应的L维的基本密度函数。
[0116] 基本密度函数为:
[0117]
[0118] 其中,j=1,2,......,M,M为正整数。
[0119] (3)根据计算出的各个密度函数,计算得到整个高斯混合模型的概率密度函数为:
[0120]
[0121] 高斯混合模型具体如图5所示。
[0122] 例如,上述计算出的p(x|λ1)即为合成音频信号帧为语音的概率,采用同样的计算过程,通过已知的音乐和语音音乐组合的音频信号分类模型参数可以分别计算得到合成音频信号帧为音乐的概率p(x|λ2)和为语音音乐组合的概率p(x|λ3)。
[0123] 步骤S204:根据计算得到的概率确定音频信号帧所属的类别。
[0124] 确定上述概率最大值所对应的音频类别为该合成音频信号帧所属的音频类别。所属的类别包括:语音、音乐和语音音乐组合等。
[0125] 例如:比较p(x|λ1)、p(x|λ2)、p(x|λ3)的大小;若p(x|λ1)最大,则该合成音频信号帧所属的音频类别为语音,若p(x|λ2)最大,则该合成音频信号帧所属的音频类别为音乐,若p(x|λ3)最大,则该合成音频信号帧所属的音频类别为语音音乐组合。
[0126] 上述步骤S203中,通过对大量语音、音乐和语音音乐组合等各类音频信号帧进行训练,预先得到语音、音乐和语音音乐组合分别对应的分类模型参数。即根据已知的某一类别的若干音频信号帧,可以确定该音频类别所对应的音频信号分类模型参数,其流程如图6所示,执行步骤如下:
[0127] 步骤S301:提取某一音频类别的若干音频信号帧(各种音频库中的备用音频信号帧)。
[0128] 从某一音频类别的音频库中获取存储的该类别的若干音频信号帧。
[0129] 其中,某一音频类别的音频库包括语音库、音乐库和歌曲库等。音频信号帧的类别可以包括语音、音乐和语音音乐组合(即歌曲)等,即歌曲为语音和音乐的混合音频信号。下面步骤中具体以语音为例进行说明。
[0130] 步骤S302:将获取的某一音频类别的音频信号帧分为若干组。
[0131] 具体根据高斯混合模型的成员个数进行划分。例如高斯混合模型包含M个成员,则分为M组,每组中包含n个音频信号帧。
[0132] 步骤S303:针对获取的每一个音频信号帧,将其整个频带范围划分为若干个子频带,并计算各个子频带的能量,得到对应的能量向量。
[0133] 对音频信号帧进行频带划分和计算各个子频带的能量,得到对应的能量向量的过程同步骤S201和步骤S202,此处不再赘述。
[0134] 即分别得到上述M组每组中包含的音频信号帧的能量向量。
[0135] 步骤S304:根据得到的能量向量,通过贝叶斯公式分别计算各组的后验概率。具体包括:
[0136] (1)设定的高斯混合模型参数初始值:
[0137]
[0138] 其中,j=1,2,......,M,M为正整数,表示混合模型中有M个成员;
[0139] y取不同值时表示不同音频类别所对应的初始值;
[0140] pj的初始值设置为 即满足
[0141] uj的初始值设置为 xi为第j组中的第i个能量向量;
[0142] ∑j的初始值设置为
[0143] (2)根据能量向量,采用贝叶斯公式计算得到对应的后验概率:
[0144] 首先,计算概率密度:
[0145] 通过贝叶斯公式计算后验概率:
[0146]
[0147] 即根据概率密度 通过贝叶斯公式可以得到后验概率。
[0148] 步骤S305:根据上述后验概率,采用最大似然估计算迭代算法,计算得到该组音频信号帧对应的高斯混合模型参数。具体包括:
[0149] 根据后验概率分别计算出新的均值、协方差和混合系数。
[0150] 计算新的均值:
[0151]
[0152] 计算新的方差:
[0153]
[0154] 计算新的混合系数:
[0155]
[0156] 从而得到新高斯混合模型的参数
[0157] 将得到的新高斯混合模型 的值与原高斯混合模型 值进行比较,若则说明得到的 值已基本不变化,则停止迭代并保存该 值为语音信号对应的高斯模型参数(即音频信号分类模型参数)λy(例如对语音进行训练时为λ1),否则返回计算后验概率,继续迭代过程,即以新高斯混合模型 作为新一轮的原高斯混合模型 继续计算后验概率以及后续迭代过程。
[0158] 即对语音库中提取的若干语音信号帧、音乐库中提取的若干音乐信号帧和歌曲库中提取的若干混合音频信号帧,分别执行步骤S301-步骤S304的训练过程,即可得到语音、音乐和语音音乐组合等个音频类别分别对应的音频信号分类模型参数λ1,λ2,λ3。训练完成后保存得到的音频信号分类模型参数。
[0159] 根据本发明实施例提供的上述伴奏音乐提取方法,可以构建一种伴奏音乐提取装置,如图7所示,包括:获取模块101、确定模块102、设置模块103和执行模块104。
[0160] 获取模块101,用于获取待处理歌曲中的合成音频信号帧,其中,合成音频信号帧由歌曲左声道的音频信号帧和右声道的对应音频信号帧合成。
[0161] 确定模块102,用于确定合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合。
[0162] 较佳的,确定模块102,进一步可以包括:频带划分单元1021、向量生成单元1022、概率确定单元1023和类别确定单元1024。
[0163] 频带划分单元1021,用于对合成音频信号帧进行频带划分。
[0164] 向量生成单元1022,用于分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量。
[0165] 概率确定单元1023,用于根据向量生成单元1022得到的能量向量和存储的各个音频类别的分类模型参数,采用混合高斯模型GMM算法,分别计算得到合成音频信号帧为各音频类别的概率;其中,每个音频类别的分类模型参数根据已知的该音频类别的若干音频信号帧确定。
[0166] 类别确定单元1024,用于确定概率最大值所对应的音频类别为合成音频信号帧所属的音频类别。
[0167] 设置模块103,用于根据确定出的音频类别,设定对消增益参数和输出增益参数。
[0168] 执行模块104,用于通过对消增益参数控制左声道的音频信号帧和右声道的对应音频信号帧的对消,并使用输出增益参数对消后的音频信号帧进行输出增益计算,得到左、右声道的输出信号帧。
[0169] 上述伴奏音乐提取装置,还包括:参数确定模块105,用于根据已知的各音频类别的若干音频信号帧确定对应的分类模型参数。
[0170] 较佳的,参数确定模块105,进一步可以包括:提取单元1051、划分单元1052、生成单元1053和确定单元1054。
[0171] 提取单元1051,用于提取一组某一音频类别的备用音频信号帧。
[0172] 划分单元1052,用于对获取的每一个备用音频信号帧进行频带划分。
[0173] 生成单元1053,用于分别计算划分出的各子频带的频域能量,得到由所有子频带频域能量组成的能量向量。
[0174] 确定单元1054,用于根据得到的所有备用音频信号帧的能量向量和设定的高斯混合模型参数初始值,采用最大似然估计算迭代算法,确定该音频类别的音频信号分类模型参数。
[0175] 本发明实施例提供的伴奏音乐提取方法及装置,获取待处理歌曲中的合成音频信号帧,确定合成音频信号帧所属的音频类别为语音、音乐或语音音乐组合;根据确定出的音频类别,设定对消增益参数和输出增益参数;通过对消增益参数控制左声道的音频信号帧和右声道的对应音频信号帧的对消,并使用输出增益参数对消后的音频信号帧进行输出增益计算,得到左、右声道的输出信号帧。通过模式分类技术,正确区分合成音频数据帧属于语音、音乐和语音音乐组合三种音频类别中的哪一种。为后续针对每一帧音频信号进行与其所属音频类别相符合的对消和增益调整奠定了基础。
[0176] 根据分类结果针对不同的音频信号帧使用不同的对消增益参数和输出增益参数,进行对消和输出增益调整,使消除语音更准确、有效。
[0177] 使用高斯混合模型,对已知的音频信号帧进行训练时,分为多个组,且通过大量数据的统计特性,得到高斯混合模型参数从而使本发明实施例所提供的伴奏音乐提取方法,能够对各种不同的语音具有很好的适用性。
[0178] 上述方法优化了从歌曲中提取伴奏音乐的过程,通过对消增益参数和输出增益参数的设定,实现动态调整语音消除系统的目的。在有效消除歌曲中语音的同时,保证了伴奏音乐音质的良好。
[0179] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化、替换或应用到其他类似的装置,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。