基于信号下混比进行中心信号缩放和立体声增强的设备和方法转让专利

申请号 : CN201480033313.5

文献号 : CN105284133B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 克里斯蒂安·乌勒彼得·普罗坎奥利弗·赫尔穆特塞巴斯蒂安·沙勒埃马努埃尔·哈贝特斯

申请人 : 弗劳恩霍夫应用研究促进协会

摘要 :

提供了一种用于根据包括两个或更多个音频输入声道的音频输入信号生成包括两个或更多个修改音频声道的修改音频信号的设备。所述设备包括用于生成信号下混信息的信息生成器(110)。该信息生成器(110)适于通过以第一方式组合两个或更多个音频输入声道中的每个音频输入声道的频谱值来生成信号信息。此外,该信息生成器(110)适于通过以不同于第一方式的第二方式组合两个或更多个音频输入声道中的每个音频输入声道的频谱值进行组合来生成下混信息。此外,该信息生成器(110)适于组合信号信息与下混信息以获得信号下混信息。此外,所述设备包括用于根据信号下混信息衰减两个或更多个音频输入声道以获得两个或更多个修改音频声道的信号衰减器(120)。

权利要求 :

1.一种用于根据包括两个或更多个音频输入声道的音频输入信号生成包括两个或更多个修改音频声道的修改音频信号的设备,其中,所述设备包括:信息生成器(110),所述信息生成器(110)用于生成信号下混信息,其中,所述信息生成器(110)适于通过以第一方式组合所述两个或更多个音频输入声道中的每个音频输入声道的频谱值来生成信号信息,其中,所述信息生成器(110)适于通过以不同于所述第一方式的第二方式组合所述两个或更多个音频输入声道中的每个音频输入声道的频谱值来生成下混信息,并且其中,所述信息生成器(110)适于组合所述信号信息与所述下混信息以获得信号下混信息,以及信号衰减器(120),所述信号衰减器(120)用于根据所述信号下混信息衰减所述两个或更多个音频输入声道,以获得所述两个或更多个修改音频声道,其中,所述信息生成器(110)被配置成根据下面的公式生成所述信号信息Φ1(m,k):H

Φ1(m,k)=ε{WX(m,k)(WX(m,k))},其中,所述信息生成器(110)被配置成根据下面的公式生成所述下混信息Φ2(m,k):Φ2(m,k)=ε{VX(m,k)(VX(m,k))H},以及其中,所述信息生成器(110)被配置成根据下面的公式生成信号下混比作为所述信号下混信息Rg(m,k,β):其中,X(m,k)表示所述音频输入信号,其中,X(m,k)=[X1(m,k)…XN(m,k)]T,其中,N表示所述音频输入信号的音频输入声道的数量,其中,m表示时间索引,以及其中,k表示频率索引,其中,X1(m,k)表示第一音频输入声道,其中,XN(m,k)表示第N音频输入声道,其中,V表示矩阵或向量,其中,W表示矩阵或向量,

其中,H表示矩阵或向量的共轭转置,

其中,ε{·}是期望运算,

其中,β是实数且β>0,以及

其中,tr{}是矩阵的迹。

2.根据权利要求1所述的设备,其中,V是元素等于1的长度为N的行向量,并且W是大小为N×N的单位矩阵。

3.根据权利要求1所述的设备,其中,V=[1,1],其中,W=[1,-1],以及其中,N=2。

4.根据权利要求1所述的设备,其中,所述修改音频声道的数量等于所述音频输入声道的数量,或者其中,所述修改音频声道的数量小于所述音频输入声道的数量。

5.根据权利要求1所述的设备,

其中,所述信息生成器(110)被配置成处理所述两个或更多个音频输入声道中的每个音频输入声道的频谱值以获得两个或更多个处理值,以及其中,所述信息生成器(110)被配置成组合所述两个或更多个处理值以获得所述信号信息,以及其中,所述信息生成器(110)被配置成组合所述两个或更多个音频输入声道中的每个音频输入声道的频谱值以获得组合值,以及其中,所述信息生成器(110)被配置成处理所述组合值以获得所述下混信息。

6.根据权利要求5所述的设备,其中,所述信息生成器(110)被配置成:通过将所述频谱值乘以所述频谱值的复共轭以获得所述两个或更多个音频输入声道中的每个音频输入声道的所述频谱值的自功率谱密度,来处理所述两个或更多个音频输入声道中的每个音频输入声道的频谱值。

7.根据权利要求6所述的设备,其中,所述信息生成器(110)被配置成通过确定所述组合值的功率谱密度来处理所述组合值。

8.根据权利要求7所述的设备,其中,所述信息生成器(110)被配置成确定以获得所述信号信息,其中,Φi,i(m,k)表示第i个音频信号声道的频谱值的自功率谱密度。

9.根据权利要求1所述的设备,其中,所述信号衰减器(120)适于根据下面的公式根据增益函数G(m,k)来衰减所述两个或更多个音频输入声道:Y(m,k)=G(m,k)X(m,k),

其中,所述增益函数G(m,k)取决于所述信号下混信息,以及其中,所述增益函数G(m,k)是所述信号下混信息的单调递增函数或者所述信号下混信息的单调递减函数,其中,X(m,k)表示所述音频输入信号,其中,Y(m,k)表示所述修改音频信号,

其中,m表示时间索引,以及

其中,k表示频率索引。

10.根据权利要求9所述的设备,

其中,所述增益函数G(m,k)是第一函数 第二函数第三函数 或第四函数

其中,

其中,

其中,

其中,

其中,β是实数且β>0,

其中,γ是实数且γ>0,以及

其中,Rmin表示R的最小值。

11.一种用于生成修改音频信号的系统,其中所述系统包括:相位补偿器(210),所述相位补偿器(210)用于根据包括两个或更多个未处理音频声道的未处理音频信号生成包括两个或更多个相位补偿音频声道的相位补偿音频信号,以及根据前述权利要求中的任一项所述的设备(220),所述设备(220)用于接收所述相位补偿音频信号作为音频输入信号,并且用于根据所述音频输入信号来生成包括两个或更多个修改音频声道的所述修改音频信号,所述音频输入信号包括作为两个或更多个音频输入声道的所述两个或更多个相位补偿音频声道,其中,所述两个或更多个未处理音频声道之一是参考声道,其中,所述相位补偿器(210)适于针对所述两个或更多个未处理音频声道中的不是所述参考声道的每个未处理音频声道,估计所述未处理音频声道与所述参考声道之间的相位传递函数,以及其中,所述相位补偿器(210)适于通过根据所述未处理音频声道的相位传递函数修改所述未处理音频声道中的不是所述参考声道的每个未处理音频声道,生成所述相位补偿音频信号。

12.一种用于根据包括两个或更多个音频输入声道的音频输入信号生成包括两个或更多个修改音频声道的修改音频信号的方法,其中,所述方法包括:通过以第一方式组合所述两个或更多个音频输入声道中的每个音频输入声道的频谱值来生成信号信息,通过以不同于所述第一方式的第二方式组合所述两个或更多个音频输入声道中的每个音频输入声道的频谱值来生成下混信息,通过组合所述信号信息与所述下混信息来生成信号下混信息,以及根据所述信号下混信息衰减所述两个或更多个音频输入声道,以获得所述两个或更多个修改音频声道,其中,根据下面的公式执行生成所述信号信息Φ1(m,k):Φ1(m,k)=ε{WX(m,k)(WX(m,k))H},其中,根据下面的公式执行生成所述下混信息Φ2(m,k):Φ2(m,k)=ε{VX(m,k)(VX(m,k))H},以及其中,根据下面的公式生成信号下混比作为所述信号下混信息Rg(m,k,β):其中,X(m,k)表示所述音频输入信号,其中,X(m,k)=[X1(m,k)…XN(m,k)]T,其中,N表示所述音频输入信号的音频输入声道的数量,其中,m表示时间索引,以及其中,k表示频率索引,其中,X1(m,k)表示第一音频输入声道,其中,XN(m,k)表示第N音频输入声道,其中,V表示矩阵或向量,其中,W表示矩阵或向量,

其中,H表示矩阵或向量的共轭转置,

其中,ε{·}是期望运算,

其中,β是实数且β>0,以及

其中,tr{}是矩阵的迹。

13.一种包含计算机程序的计算机可读介质,所述计算机程序用于当在计算机或信号处理器上执行时实现根据权利要求12所述的方法。

说明书 :

基于信号下混比进行中心信号缩放和立体声增强的设备和

方法

技术领域

[0001] 本发明涉及音频信号处理,具体地,涉及基于信号下混比(signal-to-downmix ratio)进行中心信号缩放(scaling)和立体声增强。

背景技术

[0002] 音频信号一般是直达声和环境(或扩散)声的混合。直达信号由声源例如乐器、歌唱者或扬声器发出,并且沿着最短的可能路径到达接收者例如收听者的耳朵或麦克风。当收听直达声时,直达声被感知为来自声源的方向。用于定位和用于其他空间声音属性的相关听觉线索是耳间声级差(ILD)、耳间时间差(ITD)和耳间相干性。引起相同的ILD和ITD的直达声波被感知为来自同一方向。在不存在环境声的情况下,到达左耳和右耳或到达任何其他组的间隔开传感器的信号是相干的。
[0003] 相比之下,环境声由很多间隔开的声源或者对同一声音做出贡献的声音反射边界发出。当声波到达房间中的墙壁时,声波的一部分被反射,并且房间中的所有反射的重叠,即混响(reverberation),是环境声的突出示例。其他示例是掌声、多路重合噪声(babble noise)和风噪声。环境声被感知为是弥散的、不能够定位,并且引起收听者被包围(“沉浸在声音中”)的印象。当使用一组间隔开的传感器捕获环境声场时,所记录的信号至少部分地不相干。
[0004] 关于分离、分解或缩放的相关现有技术基于的是平移信息(panning information),即,声道间声级差(ICLD)和声道间时间差(ICTD)或者基于直达声和环境声的信号特征。在两声道立体声记录中利用ICLD的方法是在[7]中描述的上混合方法、方位辨别和再合成(ADRess)算法[8]、由Vickers提出的从两声道输入信号到三声道的上混合[9]、以及在[10]中描述的中心信号提取。
[0005] 退化分离估计技术(DUET)[11,12]是基于将时频点(time-frequency bin)聚类成具有相似的ICLD和ICTD的组。对原始方法的限制在于:可以被处理的最大频率等于在最大麦克风间距上的声音速度的二分之一(由于在ICTD估计中的不定性),这在[13]中已经被论述。当源在时频域中交叠时并且当混响增强时,该方法的性能降低。基于ICLD和ICTD的其他方法是:修正的ADRess算法[14],其扩展了ADRess算法[8]以用于处理间隔开的麦克风记录;用于时间延迟混合的基于时频相关(AD-TIFCORR)的方法[15];用于无回声混合的混合矩阵的方向估计(DEMIX)[16],其包括在特定时频点处仅一个源是活动的置信测度(confidence measure);基于模型的期望最大化源分离和定位(MESSL)[17];以及在例如[18,19]中的模拟双耳人类听觉机制的方法。
[0006] 尽管用于盲源分离(BSS)的方法使用上述直达信号分量的空间线索,但是环境信号的提取和衰减也与所提出的方法相关。在[22,7,23]中描述了基于两声道信号中的声道间相干性(ICC)的方法。在[24]中已经提出了自适应滤波的应用,利用下述基本原理:能够跨声道预测直达信号,而根据预测误差获得扩散声音。
[0007] 基于多声道维纳滤波的两声道立体声信号的上混合方法对直达声的ICLD以及直达信号分量和环境信号分量的功率谱密度(PSD)两者都进行估计[25]。
[0008] 用于从信号声道记录提取环境信号的方法包括使用输入信号的时频表示的非负矩阵分解,其中,根据该近似的残差[26]、低级特征提取和监督学习[27]、以及对混响系统的冲激响应的估计和频域中的逆滤波[28]获得环境信号。

发明内容

[0009] 本发明的目的是提供用于音频信号处理的改进概念。本发明的目的通过以下所述的设备、系统、方法以及计算机程序来实现。
[0010] 提供了一种用于根据包括两个或更多个音频输入声道的音频输入信号生成包括两个或更多个修改音频声道的修改音频信号的设备。所述设备包括用于生成信号下混信息的信息生成器。信息生成器适于:通过以第一方式组合两个或更多个音频输入声道中的每个音频输入声道的频谱值来生成信号信息。此外,信息生成器适于:通过以不同于第一方式的第二方式组合两个或更多个音频输入声道中的每个音频输入声道的频谱值来生成下混信息。此外,信息生成器适于:组合信号信息与下混信息以获得信号下混信息。此外,所述设备包括信号衰减器,其用于根据信号下混信息衰减两个或更多个音频输入声道,以获得两个或更多个修改音频声道。
[0011] 在特定实施方式中,所述设备可以例如适用于:根据包括三个或更多个音频输入声道的音频输入信号来生成包括三个或更多个修改音频声道的修改音频信号。
[0012] 在实施方式中,修改音频声道的数量等于或小于音频输入声道的数量,或者其中,修改音频声道的数量小于音频输入声道的数量。例如,根据特定实施方式,所述设备可以适于:根据包括两个或更多个音频输入声道的音频输入信号来生成包括两个或更多个修改音频声道的修改音频信号,其中,修改音频声道的数量等于音频输入声道的数量。
[0013] 实施方式提供了用于对音频信号中的虚拟中心的水平进行缩放的新概念。在时频域中对输入信号进行处理,使得在所有声道中具有近似相等能量的直达声音分量被放大或衰减。根据所有输入声道信号的功率谱密度之和与所述和信号的功率谱密度之间的比率获得实值谱权重。所提出的概念的应用是对两声道立体声记录进行上混合,以用于使用环绕声设置、立体声增强、对话增强对其进行再现,并且作为用于语义音频分析的预处理。
[0014] 实施方式提供了用于对音频信号中的中心信号进行放大或衰减的新概念。与先前的概念相比,考虑了信号分量的横向位移(lateral displacement)和扩散两者。此外,当采用所述概念的实现时,讨论了语义上有意义的参数的使用以便支持用户。
[0015] 一些实施方式致力于中心信号缩放,即,对音频记录中的中心信号的放大或衰减。中心信号例如在此被定义为在所有声道中具有近似相等强度并且在声道之间具有可忽略的时间差的所有直达信号分量之和。
[0016] 音频信号处理和再现的各种应用受益于中心信号缩放,例如上混合、对话增强和语义音频分析。
[0017] 上混合指的是:根据具有较少声道的输入信号创建输出信号的处理。其主要应用是例如在[1]中详细说明的使用环绕声设置对两声道信号的再现。对空间音频的主观品质的研究[2]表明:定位性(locatedness)[3]、位置和宽度是声音的突出的描述性属性。对2-5上混合算法的主观评估的结果[4]显示附加中心扬声器的使用能够使立体声图像变窄。所提出的工作受到以下假设的启发:当附加的中心扬声器再现被平移至中心的主要直达信号分量时,并且当这些信号分量在偏离中心扬声器信号中被衰减时,定位性、位置和宽度能够被保持或者甚至被改善。
[0018] 对话增强指的是提高例如广播和电影声音中的语音可理解度(speech intelligibility),并且当背景声音相对于对话太响亮时,经常需要对话增强[5]。这尤其适用于听力不好的人、非母语的收听者、在嘈杂的环境中的人或者当耳间掩蔽级差(binaural masking level difference)由于窄的扬声器布置而减小时。所述概念方法可以用于对对话被平移至中心的输入信号进行处理,以便对背景声音进行衰减,从而使得能够实现较好的语音可理解度。
[0019] 语义音频分析(或者音频内容分析)包括下述处理:从音频信号推断有意义的描述符,例如主旋律的节拍跟踪(beat tracking)或改编(transcription)。例如参见[6],当感兴趣的声音嵌入在背景声音中时,计算方法的性能通常恶化。由于在音频生产中通常的做法是:感兴趣的声源(例如,主要的乐器和歌唱者)被平移至中心,所以可以应用中心提取,作为对背景声音进行衰减以及混响的预处理步骤。
[0020] 根据实施方式,信息生成器可以被配置成:组合信号信息与下混信息,使得信号下混信息表示信号信息与下混信息的比率。
[0021] 在实施方式中,信息生成器可以被配置成:处理两个或更多个音频输入声道中的每个音频输入声道的频谱值以获得两个或更多个处理值,以及其中,信息生成器可以被配置成:组合两个或更多个处理值以获得信号信息。此外,信息生成器可以被配置成:组合两个或更多个音频输入声道中的每个音频输入声道的频谱值以获得组合值,以及其中,信息生成器可以被配置成处理组合值以获得下混信息。
[0022] 根据实施方式,信息生成器可以被配置成:通过将所述频谱值乘以所述频谱值的复共轭以获得两个或更多个音频输入声道中的每个音频输入声道的频谱值的自功率谱密度,来处理该两个或更多个音频输入声道中的每个音频输入声道的频谱值。
[0023] 在实施方式中,信息生成器可以被配置成通过确定组合值的功率谱密度来处理所述组合值。
[0024] 根据实施方式,信息生成器可以被配置成根据下面的公式生成信号信息s(m,k,β):
[0025]
[0026] 其中,N表示音频输入信号的音频输入声道的数量,其中,Φi,i(m,k)表示第i个音频信号声道的频谱值的自功率谱密度,其中,β是实数且β>0,其中,m表示时间索引,并且其中,k表示频率索引。例如,根据特定实施方式,β≥1。
[0027] 在实施方式中,信息生成器可以被配置成;根据公式R(m,k,β)确定信号下混比作为信号下混信息
[0028]
[0029] 其中,Φd(m,k)表示组合值的功率谱密度,以及其中,Φd(m,k)β是下混信息。
[0030] 根据实施方式,信息生成器可以被配置成根据下面的公式生成信号信息Φ1(m,k),
[0031] Φ1(m,k)=ε{WX(m,k)(WX(m,k))H},
[0032] 其中,信息生成器被配置成根据下面的公式生成下混信息Φ2(m,k),
[0033] Φ2(m,k)=ε{VX(m,k)(VX(m,k))H},以及
[0034] 其中,信息生成器被配置成根据下面的公式生成信号下混比作为信号下混信息Rg(m,k,β),
[0035]
[0036] 其中,X(m,k)表示音频输入信号,其中,
[0037] X(m,k)=[X1(m,k)…XN(m,k)]T
[0038] 其中,N表示音频输入信号的音频输入声道的数量,其中,m表示时间索引,并且其中,k表示频率索引,其中,X1(m,k)表示第一音频输入声道,其中XN(m,k)表示第N音频输入声道,其中,V表示矩阵或向量,其中,W表示矩阵或向量,其中,H表示矩阵或向量的共轭转置,其中,ε{.}是期望运算,其中,β是实数且β>0,以及其中,tr{}是矩阵的迹。例如,根据特定实施方式,β≥1。
[0039] 在实施方式中,V可以是元素等于1的长度为N的行向量,W可以是大小为N×N的单位矩阵。
[0040] 根据实施方式,V=[1,1],其中,W=[1,-1],以及其中,N=2。
[0041] 在实施方式中,信号衰减器可以适于:根据下面的公式根据增益函数G(m,k)来衰减两个或更多个音频输入声道,
[0042] Y(m,k)=G(m,k)X(m,k),
[0043] 其中,增益函数G(m,k)取决于信号下混信息,以及其中,增益函数G(m,k)是信号下混信息的单调递增函数或者信号下混信息的单调递减函数,
[0044] 其中,X(m,k)表示音频输入信号,其中,Y(m,k)表示修改音频信号,其中,m表示时间索引,以及其中,k表示频率索引。
[0045] 根据实施方式,增益函数G(m,k)可以是第一函数 第二函数第三函数 或第四函数
[0046] 其中,
[0047]
[0048] 其中,
[0049]
[0050] 其中,
[0051]
[0052] 其中,
[0053]
[0054] 其中,β是实数且β>0,
[0055] 其中,γ是实数且γ>0,以及
[0056] 其中,Rmin表示R的最小值。
[0057] 此外,提供了一种系统。所述系统包括相位补偿器,其用于根据包括两个或更多个未处理音频声道的未处理的音频信号来生成包括两个或更多个相位补偿音频声道的相位补偿音频信号。此外,所述系统包括根据上面描述的实施方式中之一的设备,其用于接收相位补偿音频信号作为音频输入信号,并且根据所述音频输入信号来生成包括两个或更多个修改音频声道的修改音频信号,所述音频输入信号包括作为两个或更多个音频输入声道的两个或更多个相位补偿音频声道。两个或更多个未处理音频声道之一是参考声道。相位补偿器适于:针对两个或更多个未处理音频声道中的不是参考声道的每个未处理音频声道,估计该未处理音频声道与参考声道之间的相位传递函数。此外,相位补偿器适于:通过根据该未处理音频声道的相位传递函数修改未处理音频声道中的不是参考声道的每个未处理音频声道,来生成相位补偿音频信号。
[0058] 此外,提供了一种用于根据包括两个或更多个音频输入声道的音频输入信号来生成包括两个或更多个修改音频声道的修改音频信号的方法。所述方法包括:
[0059] 通过以第一方式组合两个或更多个音频输入声道中的每个音频输入声道的频谱值来生成信号信息。
[0060] 通过以不同于第一方式的第二方式组合两个或更多个音频输入声道中的每个音频输入声道的频谱值来生成下混信息。
[0061] 通过组合信号信息与下混信息来生成信号下混信息。以及:
[0062] 根据信号下混信息衰减两个或更多个音频输入声道,以获得两个或更多个修改音频声道。
[0063] 此外,提出了一种当在计算机或信号衰减器上执行时实现上面描述的方法的计算机程序。

附图说明

[0064] 在下面,参照附图更详细地描述了本发明的实施方式,在附图中:
[0065] 图1示出了根据实施方式的设备;
[0066] 图2示出了根据实施方式的作为声道间声级差的函数并且作为声道间相干性的函数的信号下混比;
[0067] 图3示出了根据实施方式的作为声道间相干性的函数和声道间声级差的函数的谱权重;
[0068] 图4示出了根据另一实施方式的作为声道间相干性的函数和声道间声级差的函数的谱权重;
[0069] 图5示出了根据又一实施方式的作为声道间相干性的函数和声道间声级差的函数的谱权重;
[0070] 图6a至图6e示出了混合信号的左声道信号和右声道信号以及直达源信号的声谱图;
[0071] 图7示出了根据实施方式的用于中心信号提取的输出信号和输入信号;
[0072] 图8示出了根据实施方式的输出信号的声谱图;
[0073] 图9示出了根据实施方式的用于中心信号衰减的输出信号和输入信号;
[0074] 图10示出了根据实施方式的输出信号的声谱图;
[0075] 图11a至图11d示出了已经被混合以获得具有声道间时间差和没有声道间时间差的输入信号的两个语音信号;
[0076] 图12a至图12c示出了根据实施方式的根据增益函数计算的谱权重;以及
[0077] 图13示出了根据实施方式的系统。

具体实施方式

[0078] 图1示出了根据实施方式的用于根据包括两个或更多个音频输入声道的音频输入信号来生成包括两个或更多个修改音频声道的修改音频信号的设备。
[0079] 该设备包括用于生成信号下混信息的信息生成器110。
[0080] 信息生成器110适于:通过以第一方式组合两个或更多个音频输入声道中的每个音频输入声道的频谱值来生成信号信息。此外,信息生成器110适于:通过以与第一方式不同的第二方式组合两个或更多个音频输入声道中的每个音频输入声道的频谱值来生成下混信息。
[0081] 此外,信息生成器110适于:组合信号信息与下混信息,以获得信号下混信息。例如,信号下混信息可以是信号下混比,例如信号-下混值。
[0082] 此外,该设备包括信号衰减器120,其用于根据信号下混信息对两个或更多个音频输入声道进行衰减,以获得两个或更多个修改音频声道。
[0083] 根据实施方式,信息生成器可以被配置成:组合信号信息和下混信息,使得信号下混信息表示信号信息与下混信息的比率。例如,信号信息可以是第一值,下混信息可以是第二值,信号下混信息表示信号值与下混值的比率。例如,信号下混信息可以是第一值除以第二值。或者,例如,如果第一值和第二值是对数值,则信号下混信息可以是第一值与第二值之间的差。
[0084] 在下面,针对以幅度差立体声(amplitude difference stereophony)为特征的输入信号的情况,描述并分析下层信号模型(underlying signal model)和概念。
[0085] 基本原理是计算实值谱权重,并将所述实值谱权重应用作为直达源的横向位置和扩散的函数。在本文中说明的处理被应用于STFT领域中,但是它不限于特定滤波器组。第N声道输入信号由以下来表示:
[0086] x[n]=[x1[n]…xN[n]]T.  (1)
[0087] 其中,n表示离散时间索引。输入信号被假定成是直达信号si[n]与环境声ai[n]的相加混合,
[0088]
[0089] 其中,P是声源的数量,di,l[n]表示第i个源到长度为Li,l个样本的第l个声道的直达路径的冲激响应,并且环境信号分量相互不相关或者弱相关。在下面的描述中,假定信号模型与幅度差立体声相对应,即,
[0090] 利用时间索引m和频率索引k由以下给出x[n]的时频域表示:
[0091] X(m,k)=[X1(m,k)…XN(m,k)]T,  [3],
[0092] 输出信号由以下表示:
[0093] Y(m,k)=[Y1(m,k)…YN(m,k)]T,  (4),
[0094] 并且使用实值权重G(m,k)通过谱加权来获得输出信号:
[0095] Y(m,k)=G(m,k)X(m,k),  (5)。
[0096] 通过应用滤波器组的逆处理来计算时域输出信号。对于谱权重的计算,此后被表示为下混信号的和信号被计算如下:
[0097]
[0098] 输入信号的PSD的矩阵,其包括在主对角线(main diagonal)上的(自)PSD的估计,由下式给出,同时非对角元素(off-diagonal element)是互PSD(cross-PSD)的估计,[0099]
[0100] 其中,X*表示X的复共轭,并且ε{·}是关于时间维度的期望运算。在提出的仿真中,使用单极递归平均来估计期望值,
[0101]
[0102] 其中,滤波器系数α确定积分时间。此外,数量R(m,k;β)被定义如下:
[0103]
[0104] 其中,Φd(m,k)是下混信号的PSD,β是下面将提出的参数。数量R(m,k;1)是信号下混比(SDR),即,总的PSD与下混信号的PSD的比率。幂 确保R(m,k;β)的范围独立于β。
[0105] 信息生成器110可以被配置成根据等式(9)确定信号下混比。
[0106] 根据等式(9),可由信息生成器110确定的信号信息s(m,k,β)被定义如下:
[0107]
[0108] 如可以从以上看到的,Φi,i(m,k)被定义为Φi,i(m,k)=ε{Xi(m,k)Xi*(m,k)}。因此,为了确定信号信息s(m,k,β),对两个或更多个音频输入声道中的每个音频输入声道的频谱值Xi(m,k)进行处理,以获得两个或更多个音频输入声道中的每个音频输入声道的经处理的值Φi,i(m,k)β,然后对所获得的经处理的值Φi,i(m,k)β进行组合,例如,如在等式(9)中通过计算所获得的经处理的值Φi,i(m,k)β的总和。
[0109] 因此,信息生成器110可以被配置成:对两个或更多个音频输入声道中的每个音频输入声道的频谱值Xi(m,k)进行处理,以获得两个或更多个经处理的值Φi,i(m,k)β,并且信息生成器110可以被配置成:对两个或更多个经处理的值进行组合以获得信号信息s(m,k,β)。更概括地,信息生成器110适于:通过以第一方式对两个或更多个音频输入声道中的每个音频输入声道的频谱值Xi(m,k)进行组合来生成信号信息s(m,k,β)。
[0110] 此外,根据等式(9),可由信息生成器110确定的下混信息d(m,k,β)被定义如下:
[0111] d(m,k,β)=Φd(m,k)β。
[0112] 为了形成Φd(m,k),首先,根据上面的等式(6)来形成Xd(m,k):
[0113]
[0114] 如可以看到的,首先,对两个或更多个音频输入声道中的每个音频输入声道的频谱值Xi(m,k)进行组合,例如,如在等式(6)中,通过计算两个或更多个音频输入声道中的每个音频输入声道的频谱值Xi(m,k)的总和,以获得组合值Xd(m,k)。
[0115] 然后,为了获得Φd(m,k),例如,根据Φd(m,k)=ε{Xd(m,k)Xd*(m,k)}形成Xd(m,k)的功率谱密度,并且然后,可以确定Φd(m,k)β。更概括地说,对所获得的组合值Xd(m,k)进行处理,以获得下混信息d(m,k,β)=Φd(m,k)β。
[0116] 因此,信息生成器110可以被配置成:对两个或更多个音频输入声道中的每个音频输入声道的频谱值Xi(m,k)进行组合以获得组合值,并且信息生成器110可以被配置成:对组合值进行处理以获得下混信息d(m,k,β)。更概括地,信息生成器110适于:通过以第二种方式对两个或更多个音频输入声道中的每个音频输入声道的频谱值Xi(m,k)进行组合来生成下混信息d(m,k,β)。如何生成下混信息的方式(“第二方式”)不同于如何生成信号信息的方式(“第一方式”),因此,第二方式不同于第一方式。
[0117] 信息生成器110适于:通过以第一方式对两个或更多个音频输入声道中的每个音频输入声道的频谱值进行组合来生成信号信息。此外,信息生成器110适于:通过以不同于第一方式的第二方式对两个或更多个音频输入声道中的每个音频输入声道的频谱值进行组合来生成下混信息。
[0118] 图2中上方的图示出了对于N=2的信号下混比R(m,k;1)作为ICLDΘ(m,k)的函数,针对Ψ(m,k)∈{0,0.2,0.4,0.6,0.8,1}示出。图2中下方的图以彩色编码的二维图示出了对于N=2的信号下混比R(m,k;1)作为ICCΨ(m,k)和ICLDΘ(m,k)的函数。
[0119] 特别地,图2示出了对于N=2的SDR作为ICCΨ(m,k)和ICLDΘ(m,k)的函数,其中,[0120]
[0121] 并且
[0122]
[0123] 图2示出了SDR具有以下属性:
[0124] 1.与Ψ(m,k)和|logΘ(m,k)|都单调相关。
[0125] 2.对于扩散输入信号,即,Ψ(m,k)=0,SDR假定其最大值R(m,k;1)=1。
[0126] 3.对于被平移至中心的直达声,即Θ(m,k)=1,SDR假定其最小值Rmin,其中对于N=2,Rmin=0.5。
[0127] 由于这些属性,对于中心信号的提取,可以通过使用单调递减函数根据SDR来计算用于中心信号缩放的适当谱权重,对于中心信号的衰减,可以通过使用单调递增函数根据SDR来计算用于中心信号缩放的适当谱权重。
[0128] 对于中心信号的提取,R(m,k;β)的适当函数例如是:
[0129]
[0130] 以及
[0131]
[0132] 其中,引入了用于控制最大衰减的参数。
[0133] 对于中心信号的衰减,R(m,k;β)的适当函数例如是:
[0134]
[0135] 以及
[0136]
[0137] 图3和图4分别示出了当β=1,γ=3时的增益函数(13)和增益函数(15)。当Ψ(m,k)=0时,谱权重是常数。最大衰减是γ.6dB,该最大衰减也适用于增益函数(12)和增益函数(14)。
[0138] 特别地,图3以dB示出了谱权重Gc2(m,k;1,3)作为ICCΨ(m,k)和ICLDΘ(m,k)的函数。
[0139] 此外,图4以dB示出了谱权重Gs2(m,k;1,3)作为ICCΨ(m,k)和ICLDΘ(m,k)的函数。
[0140] 此外,图5以dB示出了谱权重Gc2(m,k;2,3)作为ICCΨ(m,k)和ICLDΘ(m,k)的函数。
[0141] 针对β=2,γ=3时的等式(13)中的增益函数,在图5中示出了参数β的影响。当β具有较大值时,Ψ对谱权重的影响减小,而Θ的影响增大。当与图3中的增益函数相比时,这导致扩散信号分量更多泄漏至输出信号,并且导致被平移偏离中心的直达信号分量的更多衰减。
[0142] 谱权重的后处理:在进行谱加权之前,可以借助于平滑操作来进一步处理权重G(m,k;β,γ)。沿着频率轴的零相位低通滤波减少了循环卷积伪差(circular convolution artifact),例如当在STFT计算中的零填充太短或者应用矩形合成窗时,所述循环卷积伪差可能发生。尤其当用于PSD估计的时间常数相当小时,沿着时间轴的低通滤波可以减少处理伪差。
[0143] 在下面,提供了一般化的谱权重。
[0144] 当将等式(9)重写为以下时,获得更一般的谱权重,
[0145]
[0146] 其中,
[0147] Φ1(m,k)=ε{WX(m,k)(WX(m,k))H}  (17),
[0148] Φ2(m,k)=ε{VX(m,k)(VX(m,k))H}  (18),
[0149] 其中,上标H表示矩阵或向量的共轭转置,并且W和V是混合矩阵或混合(行)向量。
[0150] 在此,可以将Φ1(m,k)看作信号信息,可以将Φ2(m,k)看作下混信息。
[0151] 例如,当V是元素等于1的长度为N的向量时,Φ2=Φd。当V是元素等于1的长度为N的行向量,并且W是大小为N×N的单位矩阵时,等式(16)与等式(9)相同。
[0152] 对于W=[1,-1],V=[1,1],以及N=2,一般化的SDR Rg(m,k,β,W,V)覆盖例如侧信号(side signal)的PSD与下混信号的PSD的比率。
[0153]
[0154] 其中,Φs(m,k)是侧信号的PSD。
[0155] 根据实施方式,信息生成器110适于:通过以第一方式对两个或更多个音频输入声道中的每个音频输入声道的频谱值Xi(m,k)进行组合来生成信号信息Φ1(m,k)。此外,信息生成器110适于:通过以与第一方式不同的第二方式对两个或更多个音频输入声道中的每个音频输入声道的频谱值Xi(m,k)进行组合来生成下混信息Φ2(m,k)。
[0156] 在下面,描述了以到达时间立体声(time-of-arrival stereophony)为特征的混合模型的更一般情况。
[0157] 上面描述的谱权重的推导依赖于假设Li,l=1, 即,在输入声道之间直达声源时间对准。当直达源信号的混合不限于幅度差立体声(Li,l>1)时,例如当使用间隔开的麦克风记录时,输入信号的下混Xd(m,k)经受相位抵消。当应用如上所述的谱加权时,Xd(m,k)中的相位抵消导致增大SDR值,从而导致典型的梳状滤波伪差。
[0158] 对于增益函数(12)和增益函数(13),梳状滤波器的陷波(notch)对应于以下频率:
[0159]
[0160] 以及对于增益函数(14)和增益函数(15),梳状滤波器的陷波对应于以下频率:
[0161]
[0162] 其中,fs是采样频率,o是奇整数,e是偶整数,d是采样中的延迟。
[0163] 解决该问题的第一方法是在计算Xd(m,k)之前对由ICTD产生的相位差进行补偿。通过对第i声道和由索引r表示的参考声道之间的时变声道间相位传递函数进行估计来实现相位差补偿(PDC),
[0164]
[0165] 其中,运算符A\B表示集合B与集合A的集论差(set-theoretic difference),并且将时变全通补偿滤波器HC,i(m,k)应用于第i声道信号,
[0166]
[0167] 其中,GC,i(m,k)的相位传递函数是
[0168]
[0169] 使用单极递归平均来估计期望值。应当注意,在递归平均之前,需要对在接近陷波频率(notch frequency)的频率处发生的2π的相位跳变进行补偿。
[0170] 根据下式来计算下混信号,
[0171]
[0172] 使得PDC仅应用于计算Xd并且不影响输出信号的相位。
[0173] 图13示出了根据实施方式的系统。
[0174] 该系统包括相位补偿器210,其用于根据包括两个或更多个未处理的音频声道的未处理音频信号来生成包括两个或更多个相位补偿音频声道的相位补偿音频信号。
[0175] 此外,该系统包括根据上面描述的实施方式中之一的设备220,以用于接收作为音频输入信号的相位补偿音频信号,并且根据包括作为两个或更多个音频输入声道的两个或更多个相位补偿音频声道的音频输入信号,来生成包括两个或更多个修改音频声道的修改音频信号。
[0176] 两个或更多个未处理音频声道中之一是参考声道。相位补偿器210适于:针对两个或更多个未处理音频声道中的、不是参考声道的每个未处理音频声道来估计所述未处理音频声道与参考声道之间的相位传递函数。此外,相位补偿器210适于:通过根据所述未处理音频声道的相位传递函数对未处理音频声道中的不是参考声道的每个未处理音频声道进行修改,来生成相位补偿音频信号。
[0177] 在下面,提供了对控制参数的直观解释,例如,控制参数的语义含义。
[0178] 对于数字音频效果的操作,有利的是,利用语义上有意义的参数来提供控制。增益函数(12)至增益函数(15)通过参数α、β和γ来控制。声音工程师和音频工程师习惯于时间常数,将α指定为时间常数是直观的,并且是根据惯例的。通过实验可以最佳地体验积分时间的影响。为了支持对所提供的概念的操作,提出了用于剩余参数的描述符,即,对于γ是“影响(impact)”,对于β是“扩散性(diffuseness)”。
[0179] 参数影响可最佳地相比于滤波器的阶数(order)。通过类比于滤波中的滚降(roll-off),对于N=2,最大衰减等于γ.6dB。
[0180] 在此提出描述词扩散来强调下述事实:然后对平移的声音和扩散声音进行衰减,β的较大值导致扩散声音的较多泄漏。用户参数βu的非线性映射,例如 (其中,0≤βu≤10)在下述方面是有利的:与直接修改β时相反,其实现了处理的更加一致的行为(其中,一致性与参数的变化对于整个参数值范围上的结果的影响有关)。
[0181] 在下面,简要论述了计算复杂度和内存需求。
[0182] 计算复杂度和内存需求与滤波器组的频带的数量成比例,并且取决于谱权重的另外的后处理的实现。当设置β=1、 根据等式(12)或等式(14)计算谱权重时,并且当不应用PDC滤波器时,可以获得所述方法的低成本实现。当 时,SDR的计算仅使用每子频带一个成本密集非线性函数(cost intensive nonlinear function)。对于β=1,仅需要用于PSD估计的两个缓冲器,而明确利用ICC例如[7,10,20,21,23]的方法需要至少三个缓冲器。
[0183] 在下面,借助示例讨论了所提出的概念的性能。
[0184] 首先,处理被应用于以44100Hz采样的5个乐器记录(鼓、贝斯、键盘、2个吉他)的幅度平移的混合(amplitude-panned mixture),其中,3秒长度的剪辑(excerpt)被可视化。鼓、贝斯和键盘被声像调节至中心,一个吉他被平移至左声道,而第二个吉他被平移至右声道,二者都具有|ICLD|=20dB。使用具有立体声冲激响应的卷积混响(convolution reverb)来生成环境信号分量,所述立体声冲激响应具有每输入声道大约1.4秒的RT60。在K加权[29]之后,反射信号被添加有大约8dB的直达-环境比率。
[0185] 图6a至图6e显示了直达源信号以及混合信号的左声道信号和右声道信号的声谱图。使用长度为2048个样本、50%重叠、1024个样本的帧大小、以及正弦窗的STFT来计算声谱图。请注意,为了清楚起见,仅显示与高达4kHz的频率相对应的谱系数的幅值。特别地,图6a至图6e示出了用于音乐示例的输入信号。
[0186] 特别地,图6a至图6e在图6a中示出了源信号,其中,鼓、贝斯和键盘被平移至中心;在图6b示出了源信号,其中混合中的吉他1被平移至左边;在图6c示出了源信号,其中混合中的吉他2被平移至右边;在图6d中示出了混合信号的左声道;以及在图6e中示出了混合信号的右声道。
[0187] 图7显示了用于通过应用Gc2(m,k;1,3)所获得的中心信号提取的输入信号和输出信号。特别地,图7是用于中心提取的示例,其中示出了输入时间信号(黑色)和输出时间信号(以灰色覆盖),其中图7中上方的图示出了左声道,其中图7中下方的图示出了右声道。
[0188] 用于此处和下面的PSD估计中的递归平均的时间常数被设置成200ms。
[0189] 图8示出了输出信号的声谱图。目视检查显示了:在输出声谱图中,被平移偏离中心(在图6b和图6c中所示的)的源信号被极大地衰减。特别地,图8示出了用于中心提取的示例,更特别地,输出信号的声谱图。输出声谱图还显示了环境信号分量被衰减。
[0190] 图9示出了用于通过应用Gs2(m,k;1,3)所获得的中心信号衰减的输入信号和输出信号。时间信号示出了来自鼓的短暂声音通过处理被衰减。特别地,图9示出了用于中心衰减的示例,其中示出了输入时间信号(黑色)和输出时间信号(以灰色覆盖)。
[0191] 图10示出了输出信号的声谱图。可以观察到,例如当观看600Hz以下的较低频率范围中的短暂声音分量和持续音并且与图6a进行比较时,被平移至中心的信号被衰减。输出信号中的突出声音对应于偏离中心的经平移的乐器和混响。特别地,图10示出了用于中心衰减的示例,更特别地,输出信号的声谱图。
[0192] 经由耳机的非正规收听(informal listening)显示了:信号分量的衰减是有效的。当收听所提取的中心信号时,随着在吉他2的旋律期间的轻微调制,处理伪差变得可听见,类似于在动态范围压缩中的抽气效应(pumping)。可以注意到,混响被降低,并且与高频率相比,对于低频率而言衰减更有效。在没有更详细的分析的情况下,不能回答这是由较低频率中的较大的直达-环境比率、声源的频率内容、还是由于无屏蔽现象造成的主观感知所引起的。
[0193] 当收听中心被衰减的输出信号时,与中心提取结果相比,整体声音品质稍微较好。随着当主导的中心源处于活跃时被平移的源朝着中心的轻微移动,处理伪差是可听见的,相当于当提取中心时的抽气效应。由于在输出信号中增加的环境音的量,输出信号听起来不那么直接。
[0194] 为了示出PDC滤波,图11a至图11d示出了已经被混合以获得具有ICTD和没有ICTD的输入信号的两个语音信号。特别地,图11a至图11d示出了用于说明PDC的输入源信号,其中图11a示出了源信号1;其中图11b示出了源信号2;其中图11c示出了混合信号的左声道;以及其中图11d示出了混合信号的右声道。
[0195] 通过将具有相等增益的语音源信号混合至每个声道,并且通过将具有10dB(K加权的)的SNR的白噪声添加至信号,来生成两声道混合信号。
[0196] 图12a至图12c示出了根据增益函数(13)计算的谱权重。特别地,图12a至图12c示出了用于表明PDC滤波的谱权重Gc2(m,k,1,3),其中图12a示出了在不禁用ICTD、PDC的情况下输入信号的谱权重;图12b示出了在禁用ICTD、PDC的情况下输入信号的谱权重;图12c示出了在启用ICTD、PDC的情况下输入信号的谱权重。
[0197] 当语音是活跃的并且假定具有低SNR的时频区域中的最小值时,在上方的图中的谱权重接近0dB。第二个图显示了输入信号的谱权重,其中第一语音信号(图11a)与26个样本的ICTD混合。在图12b中示出了梳状滤波器特征。图12c示出了当启用PDC时的谱权重。虽然在848Hz和2544Hz处的陷波频率附近补偿不完美,但是极大地减少了梳状滤波伪差。
[0198] 非正规的收听显示了:附加噪音被极大地衰减。当对没有ICTD的信号进行处理时,输出信号具有一点儿环境声特征,该环境声特征大概由附加噪音所引入的相位不相干性产生。
[0199] 当对具有ICTD的信号进行处理时,第一语音信号(图11a)被极大地衰减,并且当不应用PDC滤波时,强的梳状滤波伪差是可听见的。使用另外的PDC滤波,梳状滤波伪差仍然是稍微可听见的,但是不大令人讨厌。对其他材料的非正规收听显示了轻伪差(light artifact),通过减小γ、通过增大β、或者通过将未处理的输入信号的缩放版本添加至输出,可以减小所述轻伪差。一般地,当衰减中心信号时,伪差的可听见性较小,而当提取中心信号时,伪差的可听见性较大。所感知的空间图像的失真非常小。可以将这归因于下述事实:谱权重对于所有声道信号是相同的,并且不影响ICLD。当对以到达时间立体声为特征的自然记录进行处理时,梳状滤波伪差几乎是不可听见的,其中对于该自然记录,单声道下混不易经受强的可听见的梳状滤波伪差。对于PDC滤波,可以注意到,递归平均的时间常数的小的值(特别地,当计算Xd时相位差的即时补偿)在用于下混的信号中引入了相干性。因此,处理相对于输入信号的扩散是不可知的。当增大时间常数时,可以观察到:(1)具有幅度差立体声的输入信号的PDC的影响降低,以及(2)当直达声源在输入声道之间没有时间对准时,梳状滤波影响在旋律开始处变得更加可听见。
[0200] 已经提供了通过应用根据SDR的单调函数所计算的实值谱权重来对音频记录中的中心信号进行缩放的概念。基本原理是中心信号缩放需要考虑直达源的横向位移以及扩散量两者,并且这些特征隐含地被SDR捕获。处理可以通过语义上有意义的用户参数来控制,并且所述处理可以与计算复杂度低且存储器负荷小的其他频域技术进行比较。当对以幅度差立体声为特征的输入信号进行处理时,所提出的概念产生良好的结果,但是当直达声源在输入声道之间没有时间对准时,可能经受梳状滤波伪差。解决上述问题的第一方法是对声道间传递函数中的非零相位进行补偿。
[0201] 到此为止,借助于非正规收听对实施方式的概念进行了测试。对于典型的商业记录,结果具有良好的声音品质,但是还取决于期望的分离强度。
[0202] 虽然在设备的上下文中已经描述了一些方面,但是很明显,这些方面还表示对相应方法的描述,其中,块或装置与方法步骤或方法步骤的特征相对应。类似地,方法步骤的上下文中所描述的方面也表示对相应设备的相应的块或项目或特征的描述。
[0203] 本发明的分解信号可以被存储在数字存储介质上,或者可以在传输介质(如无线传输介质或有线传输介质例如因特网)上传输。
[0204] 取决于某些实现要求,本发明的实施方式可以以硬件或以软件来实现。该实现可以使用存储有电子可读控制信号的数字存储介质(例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪速存储器)来执行,所述电子可读控制信号与可编程计算机系统进行协作(或者能够与其进行协作),使得执行相应的方法。
[0205] 根据本发明的一些实施方式包括具有电子可读控制信号的非暂态数据载体,该电子可读控制信号能够与可编程计算机系统进行协作,使得执行本文中描述的方法之一。
[0206] 一般地,本发明的实施方式可以被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,该程序代码能够操作以用于执行所述方法之一。程序代码可以例如被存储在机器可读载体上。
[0207] 其他实施方式包括存储在机器可读载体上的、用于执行本文中描述的方法之一的计算机程序。
[0208] 换言之,因此,当计算机程序在计算机上运行时,本发明方法的实施方式是具有用于执行本文中描述的方法之一的程序代码的计算机程序。
[0209] 因此,本发明方法的另一实施方式是数据载体(或者数字存储介质,或者计算机可读介质),该数据载体包括其上记录的、用于执行本文中描述的方法之一的计算机程序。
[0210] 因此,本发明方法的另一实施方式是表示用于执行本文中描述的方法之一的计算机程序的信号序列或数据流。该数据流或信号序列可以例如被配置成经由数据通信连接(例如经由因特网)来传输。
[0211] 另一实施方式包括被配置成或适用于执行本文中描述的方法之一的处理装置,例如计算机或可编程逻辑器件。
[0212] 另一实施方式包括已经安装有用于执行本文中描述的方法之一的计算机程序的计算机。
[0213] 在一些实施方式中,可编程逻辑器件(例如现场可编程门阵列)可以用来执行本文中描述的方法的功能中的一些功能或所有功能。在一些实施方式中,现场可编程门阵列可以与微处理器进行协作,以便执行本文中描述的方法之一。一般地,优选地,所述方法由任何硬件设备来执行。
[0214] 对于本发明的原理而言,上述实施方式仅仅是说明性的。应当理解,对于本领域的其它技术人员而言,本文中描述的布置和细节的修改和变型将是显而易见的。因此,意图仅被后续的专利权利要求的范围所限制,而不是被通过本文中的实施方式的描述和说明所呈现的特定细节所限制。
[0215] 参考文献
[0216] [1]国际电信联盟,无线电通信会议,“Multichannel stereophonic sound system with and without accompanying picture(具有和不具有附图的多声道立体声系统)”,ITU-R BS.775-2建议书,日内瓦,瑞士,2006年。
[0217] [2]J.Berg和F.Rumsey,“Identification of quality attributes of spatial sound by repertory grid technique(通过库格技术识别空间声音的品质属性)”,音频工程协会期刊,第54卷,第365-379页,2006年。
[0218] [3]J.Blauert,Spatial Hearing(空间听觉),麻省理工学院出版社,1996年。
[0219] [4]F.Rumsey,“Controlled subjective assessment of two-to-five channel surround sound processing algorithms(两声道至五声道环绕声处理算法的受控主观评估)”,音频工程协会期刊,第47卷,第563-582页,1999年。
[0220] [5]H.Fuchs,S.Tuff和C.Bustad,“Dialogue enhancement-technology and experiments(对话增强技术和实验)”,EBU技术综述,第Q2卷,第1-11页,2012年。
[0221] [6]J.-H.Bach,J.Anemüller和B.Kollmeier,“Robust speech detection in real acoustic backgrounds with perceptually motivated features(在具有感知激发特征的真实声学背景中鲁棒的语音检测)”,语音通信,第53卷,第690-706页,2011年。
[0222] [7]C.Avendano和J.-M.Jot,“A frequency-domain approach to multi-channel upmix(多声道上混的频域方法)”,音频工程协会期刊,第52卷,2004年。
[0223] [8]D.Barry,B.Lawlor和E.Coyle,“Sound source separation:Azimuth discrimination and resynthesis(声源分离:方位辨别和重新合成)”,在数字音频效果(DAFx)国际会议的会议录中,2004年。
[0224] [9]E.Vickers,“Two-to-three  channel upmix for center channel derivation and speech enhancement(用于中心声道推导和语音增强的两声道至三声道上混)”,在音频工程协会第127届会议的会议录中,2009年。
[0225] [10]D.Jang,J.Hong,H.Jung和K.Kang,“Center channel separation based on spatial analysis(基于空间分析的中心声道分离)”,在数字音频效果(DAFx)国际会议的会议录中,2008年。
[0226] [11]A.Jourjine,S.Rickard和O.Yilmaz,“Blind separation of disjoint orthogonal signals:Demixing N sources from 2mixtures(分开的正交信号的盲分离:从两种混合将N个源分开)”,在声学、语音和信号处理国际会议(ICASSP)的会议录中,2000年。
[0227] [12]O.Yilmaz和S.Rickard,“Blind separation of speech mixtures via time-frequency masking(通过时频掩蔽的语音混合的盲分离)”,关于信号处理的电气和电子工程师协会会刊,第52卷,第1830-1847页,2004年。
[0228] [13]S.Rickard,“The DUET blind source separation algorithm(DUET盲源分离算法)”,在盲语音分离中,S:Makino,T.-W.Lee和H.Sawada编,施普林格出版社,2007年。
[0229] [14]N.Cahill,R.Cooney,K.Humphreys和R.Lawlor,“Speech source enhancement using a modified ADRess algorithm for applications in mobile communications(使用用于移动通信中的应用的经修改的ADRess算法的语音源增强)”,在音频工程协会第121届大会的会议录中,2006年。
[0230] [15]M.Puigt和Y.Deville,“Atime-frequency correlation-based blind source separation method for time-delay mixtures(用于时间延迟混合的基于时频相干性的盲源分离方法)”,在声学、语音和信号处理国际会议(ICASSP)的会议录中,2006年。
[0231] [16]Simon Arberet,Remi Gribonval和Frederic Bimbot,“Arobust method to count and locate audio sources in a stereophonic linear anechoic micxture(一种对立体声线性无回声混合中的音频源进行计数和定位的鲁棒方法)”,在声学、语音和信号处理国际会议(ICASSP)的会议录中,2007年。
[0232] [17]M.I.Mandel,R.J.Weiss和D.P.W.Ellis,“Model-based expectation-maximization source separation and localization(基于模型的期望最大化源分离和定位)”,关于音频、语音和语言处理的电气和电子工程师协会会刊,第18卷,第382-394页,2010年。
[0233] [18]H.Viste和G.Evangelista,“On the use of spatial cues to improve binaural source separation(使用空间线索来提高双耳源分离)”,在数字音频效果(DAFx)国际会议的会议录中,2003年。
[0234] [19]A.Favrot,M.Erne和C.Faller,“Improved cocktail-party processing(增强的鸡尾酒会处理)”,在数字音频效果(DAFx)国际会议的会议录中,2006年。
[0235] [20]美国专利7,630,500B1,P.E.Beckmann,2009年。
[0236] [21]美国专利7,894,611B2,P.E.Beckmann,2011年。
[0237] [22]J.B.Allen,D.A.Berkeley和J.Blauert,“Multimicrophone signal-processing technique to remove room reverberation from speech signals(从语音信号消除空间混响的多麦克风信号处理技术)”,美国声学学会期刊,第62卷,1977年。
[0238] [23]J.Merimaa,M Goodwin和J.-M.Jot,“Correlation-based ambience extraction from stereo recordings(从立体声记录提取基于相关性的周围环境)”,在音频工程协会第123届会议的会议录中,2007年。
[0239] [24]J.Usher和J.Benesty,“Enhancement of spatial sound quality:A new reverberation-extraction audio upmixer(空间语音品质的提高:一种新的混响提取音频上混器)”,关于音频、语音和语言处理的电气和电子工程师协会会刊,第15卷,第2141-至第2150页,2007年。
[0240] [25]C.Faller,“Multiple-loudspeaker playback of stereo signals(立体声信号的多个扬声器回放)”,音频工程协会期刊,第54卷,2006年。
[0241] [26]C.Uhle,A.Walther,O.Hellmuth和J.Herre,“Ambience separation from mono recordings using Non-negative Matrix Factorization(使用非负矩阵因子分解从单声道记录分离周围环境)”,在音频工程协会第30届国际会议的会议录中,2007年。
[0242] [27]C.Uhle和C.Paul,“Asupervised learning approach to ambience extraction from mono recordings for blind upmixing(一种用于盲上混的从单声道记录提取周围环境的监督学习方法)”,在数字音频效果(DAFx)国际会议的会议录中,2008年。
[0243] [28]G.Soulodre,“System for extracting and changing the reverberant content of an audio input signal(用于提取并改变音频输入信号的混响内容的系统)”,美国专利8,036,767,2011年10月。
[0244] [29]国际电信联盟,无线电通信会议,“Algorithms to  measure audio programme loudness and true-peak audio level(测量音频节目响度和真峰值音频电平的算法)”,ITUR BS.1770-2建议书,日内瓦,瑞士,2011年3月。