采用特征提取处理音频信号用于语音增强的方法和装置转让专利

申请号 : CN200980131016.3

文献号 : CN102124518A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 克里斯蒂安·乌勒奥立夫·赫尔穆特伯恩哈特·格里尔法尔科·里德布施

申请人 : 弗朗霍夫应用科学研究促进协会

摘要 :

用于处理音频信号以获得用于语音增强滤波器(12)的控制信息的装置,该装置包括:特征提取器(14)用于在用于多个短时谱表示的多个频带的每个频带提取至少一个特征,其中,所述至少一个特征表示所述多个频带的频带中的短时谱表示的谱形。该装置还包括特征合并器(15)用于采用合并参数合并用于每个频带的至少一个特征,以获得用于音频信号的时间部分的语音增强滤波器的控制信息。该特征合并器可采用神经网络回归方法,该神经网络回归方法基于在用于神经网络训练阶段中确定的合并参数。

权利要求 :

1.一种用于处理音频信号以获得用于语音增强滤波器的控制信息的装置,包括:特征提取器,用于获得所述音频信号的短时谱表示的时序和用于在用于多个短时谱表示的多个频带的每个频带中提取至少一个特征,所述至少一个特征表示所述多个频带的频带中的短时谱表示的谱形;和特征合并器,用于采用合并参数合并用于每个频带的至少一个特征,以获得用于所述音频信号的时间部分的语音增强滤波器的控制信息。

2.根据权利要求1所述的装置,其中,所述特征提取器可操作以提取至少一个附加特征,所述至少一个附加特征表示与所述谱形不同的短时谱表示的特性,和其中,所述特征合并器可操作以采用所述合并参数将所述至少一个附加特征与用于每个频带的所述至少一个特征合并。

3.根据权利要求1所述的装置,其中,所述特征提取器可操作以应用频率变换操作,其中,针对时刻序列获得谱表示序列,所述谱表示有具有非均匀带宽的频带,带宽随着频带的中心频率的增加而变大。

4.根据权利要求1所述的装置,其中,所述特征提取器可操作以计算每个带的谱平坦度量度作为第一特征,所述每个带的谱平坦度量度表示在所述带中的能量分布,或计算每个带的归一化能量量度作为第二特征,所述归一化基于信号帧的总能量,所述谱表示从所述信号帧的总能量得到,和其中,所述特征提取器可操作以采用用于带的所述谱平坦度量度或每个带的归一化能量。

5.根据前述权利要求任一项所述的装置,其中,所述特征提取器可操作以附加地提取用于每个带的谱流量量度或提取谱偏量度,所述每个带的谱流量量度表示时间连续的谱表示之间的类似性或相异性,所述谱偏量度表示围绕矩心的非对称性。

6.根据权利要求1所述的装置,其中,所述特征提取器可操作以附加地提取LPC特征,所述LPC特征包括LPC误差信号、直到预定阶的线性预测系数或所述LPC误差信号和所述线性预测系数的组合,或者其中,所述特征提取器可操作以附加地提取PLP系数或RASTA-PLP系数或梅尔频率倒谱系数或Delta特征。

7.根据权利要求6所述的装置,其中,所述特征提取器可操作以计算用于时域音频采样块的线性预测系数特征,所述块包括用于提取表示用于每个频带的谱形的所述至少一个特征的音频采样。

8.根据权利要求1所述的装置,其中,所述特征提取器可操作以采用一个或两个直接相邻频带的谱信息以及仅频带的谱信息计算频带中的所述谱的形状。

9.根据权利要求1所述的装置,其中,所述特征提取器可操作以提取用于每个音频采样块的每个特征的原始特征信息和合并频带中的原始特征信息的序列以获得用于所述频带的所述至少一个特征。

10.根据权利要求1所述的装置,其中,所述特征提取器可操作以计算用于每个频带的多个谱值且合并所述多个谱值以获得表示所述谱形的所述至少一个特征,以便所述至少一个特征具有小于所述频带中的所述谱值的数目的维数。

11.一种处理音频信号以获得用于语音增强滤波器的控制信息的方法,包括:获得所述音频信号的短时谱表示的时序;

提取用于多个短时谱表示的多个频带中的每个频带的至少一个特征,所述至少一个特征表示所述多个频带的频带中的短时谱表示的谱形;和采用合并参数合并用于每个频带的至少一个特征,以获得用于音频信号的时间部分的用于语音增强滤波器的所述控制信息。

12.一种用于在音频信号中语音增强的装置,包括:

根据权利要求1所述用于处理所述音频信号的装置,用于获得表示所述音频信号的时间部分的用于多个带的滤波器控制信息;和可控滤波器,所述滤波器为可控的,以便基于所述控制信息所述音频信号的带相对于不同的带被可变地衰减。

13.根据权利要求13所述的装置,其中,所述用于处理所述音频信号的装置包括提供谱信息的时频变换器,所述控制信息被提供给所述时频变换器,所述谱信息具有比谱分辨率高的分辨率;和其中,所述装置附加地包括控制信息后处理器,所述控制信息后处理器用于将所述控制信息内插至所述高分辨率且平滑所述内插的控制信息以获得后处理的控制信息,基于所述后处理的控制信息设置所述可控滤波器的可控滤波参数。

14.一种在音频信号中语音增强的方法,包括:

根据权利要求11所述的用于处理所述音频信号的方法,用于获得用于表示音频信号的时间部分的用于多个带的滤波器控制信息;和控制滤波器以便基于所述控制信息所述音频信号的带相对于不同的带被可变地衰减。

15.一种用于训练特征合并器用于确定所述特征合并器的合并参数的装置,包括:特征提取器,用于获得训练音频信号的短时谱表示的时序,其中针对所述训练音频信号,用于每个频带的语音增强滤波器的控制信息是已知的,且用于提取用于多个短时谱表示的多个频带的每个频带中的至少一个特征,所述至少一个特征表示所述多个频带的频带中的短时谱表示的谱形;和优化控制器,用于向所述特征合并器提供用于每个频带的所述至少一个特征,用于采用中间合并参数计算所述控制信息,用于改变所述中间合并参数,用于将所述改变的控制信息与已知的控制信息进行比较,以及用于当所述改变的中间合并参数产生与所述已知的控制信息更好地匹配的控制信息时,更新所述中间合并参数。

16.一种用于训练特征合并器用于确定所述特征合并器的合并参数的方法,包括:获得训练音频信号的短时谱表示的时序,针对所述训练音频信号,用于每个频带的语音增强滤波器的控制信息是已知的;

提取用于多个短时谱表示的所述多个频带的每个频带中的至少一个特征,所述至少一个特征表示所述多个频带的频带中的短时谱表示的谱形;

向所述特征合并器提供用于每个频带的所述至少一个特征;

采用中间合并参数计算所述控制信息;

改变所述中间合并参数;

将所述改变的控制信息与已知的控制信息进行比较;

当所述改变的中间合并参数产生与所述已知的控制信息更好地匹配的控制信息时,更新所述中间合并参数。

17.一种计算机程序,用于当在计算机上运行时执行根据权利要求11、14或16所述的方法。

说明书 :

采用特征提取处理音频信号用于语音增强的方法和装置

技术领域

[0001] 本发明涉及音频信号处理技术领域,特别地,涉及音频信号的语音增强领域,以便处理的信号具有语音内容,该语音内容具有改进的客观或主观音频可懂度。
[0002] 发明背景和现有技术
[0003] 语音增强被应用于不同的应用。重要的应用是在助听器中使用数字信号处理。在助听器中的数字信号处理提供用于听力损伤的复原的新的、有效的手段。除了较高的声学信号质量之外,数字助听器考虑特定的语音处理策略。对于这些策略中的一些,听觉环境的语音噪声比(Speech-to-Noise Ratio,SNR)的估计是希望的。具体地,考虑这样的应用,在该应用中对于具体的声学环境优化用于语音处理的复杂算法,但是这类算法可能在不满足具体的假设的场景下失败。这特别适用于可在安静的环境或在SNR低于某个阈值的场景中引入处理人工因素的噪声减少方案。用于压缩算法和放大的参数的最佳选择可依据语音噪声比,使得基于SNR估计的参数组的适应有助于证明该效果。此外,可直接采用SNR估计作为用于噪声减少方案的控制参数,例如维纳滤波或谱减法。
[0004] 其他应用是在电影声音的语音增强领域。已经发现一些人具有理解电影语音内容的问题,例如由于听力损伤。为了跟上电影的情节,理解音轨的有关语音是非常重要的,例如,独白、对话、广播和讲述。听力困难的人常常经历相对于语音来说,背景声音例如环境噪声和音乐以过高的水平被呈现。在这种情况中,希望增加语音信号的水平并衰减背景音乐或,通常地,相对于总水平提高语音信号的水平。
[0005] 语音增强的主要方法是谱加权,也称为短时谱衰减,如图3中所示。通过依据在子带信号中的噪声能量衰减输入信号x[k]的子带信号X(ω)计算输出信号y[k]。
[0006] 在以下中,假设输入信号x[k]为希望的语音信号s[k]和背景噪声b[k]的加法的混合。
[0007] x[k]=s[k]+b[k] (1)
[0008] 语音增强为语音的客观可懂度和/或主观质量的改进。
[0009] 通过如标号30表示的短时傅立叶变换(STFT)、其他时-频变换或滤波器组的方式计算输入信号的频域表示。接着根据公式2在频域对输入信号进行滤波,鉴于计算滤波器的频率响应G(ω),使得减小噪声能量。分别通过时-频变换或滤波器组的反向处理的方式计算输出信号。
[0010] Y(ω)=G(ω)X(ω) (2)
[0011] 在标号31处采用输入信号谱X(ω)和噪声谱的估计 或者,相同地,采用线性子带SNR的估计 计算对每个谱值的合适的谱权重G(ω)。
[0012] 在标号32处将加权后的谱值变换回时域。噪声抑制规则的主要例子是谱相减[S.Boll,“Suppression of acoustic noise in speech using spectral subtraction”,IEEE Trans.on Acoustics,Speech,and Signal Processing,vol.27,no.2,pp.113-120,1979]和维纳滤波。假设输入信号为语音和噪声信号的相加混合,且语音和噪声是不相关联的,在公式3中给出了用于谱相减方法增益值。
[0013]
[0014] 根据公式4从线性子带 的估计中获得类似的权重。
[0015] 信道
[0016]
[0017] 在过去已经提出了谱相减的各种扩展,即过相减因子和谱底参数[M.Berouti,R.Schwartz,J.Makhoul,“Enhancement of speech corrupted by acoustic noise”,Proc.Of the IEEE Int.Conf.on Acoustics,Speech,and Signal Processing,ICASSP,1979],广义形态[J.Lim,A.Oppenheim,“Enhancement and bandwidth compression of noisy speech”,Proc.ofthe IEEE,vol 67,no.12,pp.1586-1604,1979]的采用,感性标准(e.g.N.Virag,“Single channel speech enhancement based on masking properties of the human auditory system”,IEEE Trans.Speech and Audio Proc.,vol.7,no.2,pp.126-137,1999)和多带谱相减(例如,S.Kamath,P.Loizou,“A multi-band spectral subtraction method for enhancing speech corrupted by colored noise”,Proc.of the IEEE Int.Conf.Acoust.Speech Signal Processing,2002)的采用。然而,谱加权方法至关重要的部分为瞬时噪声频谱的估计或者子带SNR的估计,如果噪声是不稳定的则该谱加权方法容易出错。噪声估计的错误导致参差噪声、语音成分或音乐的噪声(被描述为“具有音调质量的颤声”的人工因素[P.Loizou,Speech Enhancement:Theory and Practice,CRC Press,2007])的失真。
[0018] 进行噪声估计的简单方法是在语音暂停时对噪声频谱进行测量和平均。如果在语音活动期间噪声频谱随时间变化且如果语音暂停的检测失败,则该方法不能得到满意的效果。在过去提出了用于甚至在语音活动期间噪声频谱的估计方法,根据P.Loizou,Speech Enhancement:Theory and Practice,CRC Press,2007,可将该方法分为:
[0019] ●最小音轨算法
[0020] ●时间回归平均算法
[0021] ●基于直方图的算法
[0022] 在R.Martin,“Spectral subtraction based on minimum statistics”,Proc.of EUSIPCO,Edingburgh,UK,1994中已提出了采用最小统计的噪声频谱估计。该方法基于在每个子带中的信号能量的局部最小值的音轨。在G.Doblinger,“Computationally Efficient Speech Enhancement By Spectral Minima Tracking In Subbands”,Proc.of Eurospeech,Madrid,Spain,1995,中提出了用于噪声估计和更快更新的非线性更新规则。
[0023] 每当在特定频带估计的SNR很小时,时间回归平均算法估计并更新噪声频谱。这通过回归地计算过去噪声估计的加权平均和当前频谱完成。作为语音出现的可能性的函数确定权重,或作为在特定频带中估计的SNR的函数确定权重,例如,在I.Cohen,“Noise estimation by minima controlled recursive averaging for robust speech enhancement”,IEEE Signal Proc.Letters,vol.9,no.1,pp.12-15,2002中,和在L.Lin,W.Holmes,E.Ambikairajah,“Adaptive noise estimation algorithm for speech enhancement”,Electronic Letters,vol.39,no.9,pp.754-755,2003中。
[0024] 基于直方图的方法依据子带能量的直方图为时常双模的假设。大的低能量模式汇集没有语音的段或者语音能量低的段的能量值。高能量模式汇集具有有声语音和噪声的段的能量值。从低能量模式确定特定子带的噪声能量[H.Hirsch,C.Ehrlicher,“Noise estimation techniques for robust speech recognition”,Proc.of the IEEE Int.Conf.on Acoustics,Speech,and Signal Processing,ICASSP,Detroit,USA,1995]。对于最近的综合性综述,参照P.Loizou,Speech Enhancement:Theory and Practice,CRC Press,2007。
[0025] 用于采用振幅调制特征基于指导式学习的子带SNR的估计的方法在J.Tchorz,B.Kollmeier,“SNR Estimation based on amplitude modulation analysis with applications to noise suppression”,IEEE Trans,Speech andAudio Processing,vol.11,no.3,pp.184-192,2003, 和 在 M.Kleinschmidt,V.Hohmann,“Sub-band SNR estimation using auditory feature processing”,Speech Communication:Special Issue on Speech Processingfor Hearing Aids,vol.39,pp.47-64,2003之中报道。
[0026] 其他语音增强方法为音调同步滤波(例如.在R.Frazier,S.Samsam,L Braida,A.Oppenheim,“Enhancement of speech by adaptive filtering”,Proc.of the IEEE Iht.Conf.on Acoustics,Speech,and Signal Processing,ICASSP,Philadelphia,USA,1976),STM(Spectro Temporal Modulation)滤波(例如,在N.Mesgarani,S.Shamma,“Speech enhancement based on filtering the spectro-temporal modulations”,Proc.of the IEEE Int.Conf.onAcoustics,Speech,and Signal Processing,ICASSP,Philadelphia,USA,2005),基于输入信号的正弦模型表示的滤波(例如,J.Jensen,J.Hansen,“Speech enhancement using a constrained iterative sinusoidal model”,IEEE Trans.on Speech and Audio Processing,vol.9,no.7,pp.731-740,2001)。
[0027] 如在J.Tchorz,B.Kollmeier,“SNR Estimation based on amplitude modulation analysis with applications to noise suppression”,IEEE Trans.On Speech and Audio Processing,vol.11,no.3,pp.184-192,2003和M.Kleinschmidt,V.Hohmann,“Sub-band SNR estimation using auditory feature processing”,Speech Communication:Special Issue on Speech Processing for Hearing Aids,vol.39,pp.47-64,200312,13中报道的,用于采用振幅调制特征基于指导式学习的子带SNR的估计的方法的缺点在于需要两个谱图处理步骤。第一谱图处理步骤为生成时域音频信号的时/频图谱。接着,为了生成调制谱图,需要另一个“时/频”变换,该另一个“时/频”变换将来自谱域的谱信息变换为调制域。由于固有的系统延时和对任何变换算法来说固有的时/频分辨率问题,这个附加的变换操作会产生问题。
[0028] 这个程序的另一个后果是在噪声是非稳定的且变化的噪声信号可能出现时的场景中,该噪声估计是很不准确的。

发明内容

[0029] 本发明的目的是提供用于语音增强的改进的思想。
[0030] 根据第一方面,通过用于处理音频信号以获得用于语音增强滤波器的控制信息的装置实现这个目的,该装置包括:特征提取器用于获得音频信号的短时谱表示的时序和用于在用于多个短时谱表示的多个频带的每个频带中提取至少一个特征,所述至少一个特征表示所述多个频带的频带中的短时谱表示的谱形;和特征合并器用于采用合并参数用于采用合并参数合并用于每个频带的至少一个特征,以获得用于所述音频信号的时间部分的语音增强滤波器的控制信息。
[0031] 根据第二方面,通过处理音频信号以获得用于语音增强滤波器的控制信息的方法实现这个目的,该方法包括:获得音频信号的短时谱表示的时序;提取用于多个短时谱表示的多个频带中的每个频带的至少一个特征,所述至少一个特征表示所述多个频带的频带中的短时谱表示的谱形;和采用合并参数合并用于每个频带的至少一个特征,以获得用于音频信号的时间部分的用语语音增强滤波器的控制信息。
[0032] 根据第三方面,通过用于在音频信号中语音增强的装置实现该目的,该装置包括:用于处理音频信号以获得用于表示音频信号的时间部分的多个带的滤波器控制信息的装置;和可控滤波器,该滤波器为可控的以便基于所述控制信息所述音频信号的带相对于不同的带被可变地衰减。
[0033] 根据第四方面,通过在音频信号中语音增强的方法实现这个目的,该方法包括:用于获得用于表示音频信号的时间部分的多个带的滤波器控制信息的处理音频信号的方法;和控制滤波器以便基于控制信息音频信号的带相对于不同的带被可变地衰减。
[0034] 根据第五方面,通过用于训练特征合并器用于确定特征合并器的合并参数的装置实现这个目的,该装置包括:特征提取器用于获得训练音频信号的短时谱表示的时序,其中针对所述训练音频信号,用于每个频带的语音增强滤波器的控制信息是已知的,且用于提取用于多个短时谱表示的多个频带的每个频带中的至少一个特征,所述至少一个特征表示所述多个频带的频带中的短时谱表示的谱形;和优化控制器,用于向所述特征合并器提供用于每个频带的所述至少一个特征,用于采用中间合并参数计算所述控制信息,用于改变所述中间合并参数,用于将所述改变的控制信息与已知的控制信息进行比较,以及用于当所述改变的中间合并参数产生与所述已知的控制信息更好地匹配的控制信息时,更新所述中间合并参数。
[0035] 根据第六方面,通过训练特征合并器用于确定特征合并器的合并参数的方法实现这个目的,该方法包括:获得训练音频信号的短时谱表示的时序,针对所述训练音频信号,用于每个频带的语音增强滤波器的控制信息是已知的;提取用于多个短时谱表示的所述多个频带的每个频带中的至少一个特征,所述至少一个特征表示所述多个频带的频带中的短时谱表示的谱形;向所述特征合并器提供用于每个频带的所述至少一个特征;采用中间合并参数计算所述控制信息;改变所述中间合并参数;将所述改变的控制信息与已知的控制信息进行比较;当所述改变的中间合并参数产生与所述已知的控制信息更好地匹配的控制信息时,更新所述中间合并参数。
[0036] 根据第七方面,通过用于当运行在计算机之上执行任一本发明方法的计算机程序实现这个目的。
[0037] 本发明基于这样的发现,该发现为在特定带中的音频信号的谱形的带形状(band-wise)信息对于确定用于语音增强滤波器的控制信息是非常有用的参数。具体地,用于多个带和用于多个随后的短时谱表示的带形状确定的谱形信息特征提供了用于音频信号的语音增强处理的有用的特征描述。具体地,谱形特征组,其中每个谱形特征与多个谱带中的带相关联,例如巴克带或通常地在频率范围之中具有可变带宽的带,已经提供了用于确定用于每个带的信号/噪声比的有用的特征组。为了这个目的,通过特征合并器对用于多个带的谱形特征进行处理,该特征合并器用于采用合并参数将这些特征进行合并以获得用于针对每个带的用于音频信号的时间部分的语音增强滤波器的控制信息。优选地,特征合并器包括通过一些合并参数控制的神经网络,其中,在实际地进行语音增强滤波之前进行的训练阶段确定这些合并参数。具体地,该神经网络进行神经网络回归方法。特别的优点是可在训练阶段采用音频资料确定合并参数,该音频材料可与实际的语音增强的音频材料不同,因此可以仅进行一次训练阶段,且在这个训练阶段之后,固定地设置该合并参数,且可将其施加至具有语音的每个未知的音频信号,该具有语音的每个未知的音频信号与训练信号的语音特征是可比较的。例如,这类语音特征可为语言或群语言,例如欧洲语言对亚洲语言,等。
[0038] 优选地,该创新的概念通过采用特征提取和神经网络学习语音的特征对噪声进行估计。其中,创新地提取的特征为直接低级谱特征,可通过有效的且容易的方式提取该直接低级谱特征,并且重要的是可以提取该直接低级谱特征而没有大的系统固有延时,因此创新思想对于提供精确的噪声或SNR估计,甚至在噪声不稳定且发生可变噪声信号的场景中是特别有用的。

附图说明

[0039] 以下结合附图对本发明的优选实施例进行详细描述,其中:
[0040] 图1为优选的用于处理音频信号的装置或方法的块图;
[0041] 图2为根据本发明的优选实施例的用于训练特征合并器的装置或方法的块图;
[0042] 图3为示出了根据本发明的优选实施例的语音增强装置和方法的块图;
[0043] 图4示出了用于训练特征合并器和用于采用优化的合并参数进行神经网络回归的步骤概况;
[0044] 图5为示出了作为SNR的函数的增益因子的绘图,其中将施加的增益(实线)与谱相减增益(点线)和维纳滤波器(短划线)比较;
[0045] 图6为每个频带的特征的概况和用于全带宽的优选的附加特征;
[0046] 图7为用于示出特征提取器的优选实施方式的流程图;
[0047] 图8示出了用于示出每个频率值的增益因子的计算和语音增强信号部分的后续计算的优选实施方式的流程图;
[0048] 图9示出了谱加权的例子,其中示出了输入时间信号、估计的子带SNR、在内插之后频数(frequency bins)中估计的SNR、谱权重和处理的时间信号;和
[0049] 图10为采用多层神经网络的特征合并器的优选实施方式的原理块图。
[0050] 优选实施方式的详细描述
[0051] 图1示出了优选的用于处理音频信号10以获得用于语音增强滤波器12的控制信息11的装置。该语音增强滤波器可以通过多种方式实施,例如可控的滤波器,该可控的滤波器用于采用用于多个频带中的每个频带的每个频带的控制信息对音频信号10进行滤波,以获得语音增强音频输出信号13。如后续所示,也可将可控的滤波器实施为时/频变换,其中,将单独计算的增益因子施加至在后续进行的频/时变换之前的谱值或谱带。
[0052] 图1中的装置包括特征提取器14,该特征提取器14用于获得音频信号的短时谱表示的时序和用于提取用于多个短时谱表示的多个频带的每个频带中的至少一个特征,其中该至少一个特征表示所述多个频带的频带中的短时谱表示的谱形。另外,特征提取器14可被实施以提取除了谱形特征之外的其它特征部分。在特征提取器14的输出处,存在每个音频短时谱的若干特征,其中这些若干特征至少包括用于至少10个或优选更多个,例如20-30个的多个频带的每个频带的谱形特征。这些特征可作为它们原有状态使用,或者可采用平均处理或其他处理对这些特征进行处理,例如几何平均、算术平均或中值(median processing)处理或其他统计时刻处理(例如方差、偏斜、....),以获得用于每个带的原始特征或平均特征,以便将所有这些原始和/或平均特征输入至特征合并器15。特征合并器
15采用合并参数合并多个谱形特征以及优选地附加特征,可通过合并参数输入16提供该合并参数,或者将合并参数硬连线或硬编程在特征合并器15中,由此不需要合并参数输入
16。在特征合并器的输出处,获得用于音频信号时间部分的用于每个频带或多个频带的“子带”或多个子带的用于语音增强滤波器的控制信息。
[0053] 优选地,特征合并器15被实施为神经网络回归电路,但该特征合并器也可被实施为任何数值或统计控制的特征合并器,其向由特征提取器14输出的特征施加任何合并操作,以便最后得到所需的控制信息,例如带形状SNR值或带形状增益因子结果。在神经网络应用的优选实施例中,需要训练阶段(“训练阶段”意味着在其中进行从示例中学习的阶段)。在该训练阶段,使用如图2中标记的用于训练特征合并器15的装置。具体地,图2示出了用于训练特征合并器用于确定特征合并器的合并参数的这个装置。为此,图2中的装置包括特征提取器14,该特征提取器14优选地被以与图1中的特征提取器14同样的方式实施。另外,特征合并器15也被以与图1中的特征合并器15同样的方式实施。
[0054] 除了图1之外,图2中的装置还包括优化控制器20,优化控制器20接收用于训练音频信号的控制信息作为输入,如标号21所标示。基于已知的训练音频信号进行训练阶段,该已知的训练音频信号在每个带中具有已知的语音/噪声比。例如,相互分离地提供语音部分和噪声部分,且在运行时测量每个带的实际SNR,即在学习操作期间。具体地,优化控制器20可操作以用于控制特征合并器,以便为特征合并器15提供来自特征提取器14的特征。接下来,基于这些特征和来自先前迭代运行的中间合并参数,特征合并器15计算控制信息11。将该控制信息11提供至优化控制器,且在优化控制器20中与用于训练音频信号的控制信息21进行比较。中间合并参数响应于来自优化控制器20的指令而被改变,并且采用该改变的合并参数,通过特征合并器15计算进一步的控制信息组。当进一步的控制信息更好地匹配用于训练音频信号21的控制信息时,优化控制器20更新合并参数,并将这些更新的合并参数16发送至特征合并器以在下一个运行中作为中间合并参数使用。可选择地,或另外地,可将该更新的合并参数存储在存储器中用于后续使用。
[0055] 图4示出了在神经网络回归方法中采用特征提取进行谱加权处理的概况。采用参考子带SNR值Rt和在训练阶段期间从训练项目xt[k]中的特征计算神经网络的参数w,在图4的左侧标示了训练阶段。在图4的右侧标示了噪声估计和语音增强滤波。
[0056] 提出的概念遵循谱加权的方式,并且使用新的方法用于谱权重计算。噪声估计基于指导学习方法并采用本发明的特征组。这些特征针对音调对噪声信号部分的区分。另外地,提出的特征考虑到了在更大时间标度上信号性能的演进。
[0057] 在此提供的噪声估计方法能处理多种多样的非稳定背景声音。借助如图4所示的特征提取和神经网络回归方法获得非稳定背景噪声中的鲁棒(robust)SNR估计。从在频带中的SNR的估计计算实际评估的权重,频带的间隔接近巴克标度(Bark scale)。SNR估计的谱分辨率是较粗,从而能够实现在带中谱形的测量。
[0058] 图4的左侧对应训练阶段,训练阶段基本上仅需要进行一次。如训练41标示的图4的左侧的过程包括参考SNR计算块21,参考SNR计算块21生成用于输入至图2中的优化控制器20的训练音频信号的控制信息21。图4中在训练侧的特征提取器14对应于图2的特征提取器14。特别地,图2已被示出接收训练音频信号,该训练音频信号由语音部分和背景部分构成。为了能够进行有用的参考,背景部分bt和语音信号St分别相互独立地可被利用,且在被输入至特征提取器14之前通过相加器43将两者相加。因此相加器43的输出对应于输入至图2中特征提取器14的训练音频信号。
[0059] 在15,20标示的神经网络训练器对应于块15和20,相应的连接关系如图2所标示或通过其他类似的连接实施产生合并参数组w,并且可将其存储在存储器40之中。接着在神经网络回归器15中使用这些合并参数,当本发明的概念如通过图4中的应用42所示实施时,神经网络回归器15对应于图1的特征合并器15。图4中的谱加权器对应于图1的可控滤波器12和图4的特征提取器14,右侧对应于图1中的特征提取器14。
[0060] 下面将详细地讨论提出的概念的简单实现方式。图4中的特征提取器14如下操作。
[0061] 已调查了一组不同的特征21,以鉴别用于子带SNR估计的最佳特征组。以各种配置将这些特征合并,且通过客观测量和非正式听(informal listening)的方式评估这些特征。特征选择处理产生特征组,该特征组包括谱能量、谱流量、谱平整度、谱偏、LPC和RASTA-PLP系数。从对应于临界带标度的谱系数计算谱能量、谱流量、谱平整度和谱偏特征。
[0062] 参考图6,详细说明了这些特征。附加的特征是谱能量的Delta特征和低通滤波的谱能量的Delta-Delta特征。
[0063] 结合图10讨论在块15,20中或者图4中的15中使用的神经网络的结构,或者优选地,在图1或图2中的特征合并器中使用的神经网络的结构。特别地,优选的神经网络包括输入神经元层100。通常,可采用n个输入神经元,即每个输入特征一个神经元。优选地,神经元网络具有对应于特征的数量的220个输入神经元。神经元网络还包括隐藏层102,该隐藏层102具有p个隐藏层神经元。通常,p小于n,且在优选的实施例中,隐藏层具有50个神经元。在输出侧,神经网络包括输出层104,该输出层104具有q个输出神经元。具体地,输出神经元的数量等于频带的数量,以便每个输出神经元为每个频带提供控制信息,例如用于每个频带的SNR(语音噪声比)信息。如果,例如,存在25个不同的频带,优选具有这样的带宽,该带宽从低频向高频增加,接着输出神经元数量q将等于25。因此,神经网络被应用于从计算的低水平特征的子带SNR估计。如上所述,神经网络具有220个输入神经元和一个具有50个神经元隐藏层102。输出神经元的数量等于频带的数量。优选地,隐藏神经元包括激发函数,该激发函数为双曲正切,且输出神经元的激发函数是恒等式(identity)。
[0064] 通常,每个神经元从层102或104接收所有对应的输入,所述输入相对于层102为所有输入神经元的输出。接着,层102或104的每个神经元进行加权相加,其中,加权参数对应于合并参数。隐藏层除了参数之外还可包括偏移值。此外,偏移值也属于合并参数。特别地,各个输出被其相应的合并参数加权,如图10的示范盒106所示,加权操作的输出被输入至每个神经元中的加法器108。加法器的输出或至神经元的输入可包括非线性函数110,该非线性函数可被设置在神经元的输出和/或输入,例如,根据具体情况在隐藏层。
[0065] 根据纯语音信号和背景噪声的混合训练神经网络的权重,采用分离的信号计算纯语音信号和背景噪声的参考SNR。在图4的左侧示出了训练处理。语音和噪声以每项3dB的SNR混合,并被提供至特征提取。这个SNR在时间上恒定,且该SNR为宽带SNR值。数据组包括每个长度为2.5秒的38个语音信号和48个噪声信号的2304种组合。语音信号产生自7种语言的不同讲话者。噪声信号为交通噪声、人群噪声和各种自然氛围的录音。
[0066] 对于给定的谱加权规则,神经网络的输出的两个定义是合适的:可采用用于时间变化的子带SNR R(ω)的参考值或者利用谱权重G(ω)(从SNR值获得)训练神经网络。利用子带SNR作为参考值的仿真,与利用谱权重训练的网(net)相比产生了更好的客观效果和在非正式听中产生更好的评定结果。采用100个迭代循环训练神经网络。在这个工作中采用训练算法,这个工作基于按比例的共轭梯度。
[0067] 接着将讨论谱加权操作12的优选实施例。
[0068] 将估计的子带SNR估计线性地内插至输入谱的频率分辨率,并将估计的子带SNR估计变换为线性比 沿着时间和沿着频率采用IIR低通滤波平滑线性子带SNR以减少人工因素,估计错误可导致人工因素。进一步需要沿着频率的低通滤波以减少圆周卷积的影响,如果谱加权的脉冲响应超过DFT帧的长度则会出现圆周卷积。其进行两次,而在相反顺序进行第二滤波(开始于最后的采样),使得产生的滤波器具有零相。
[0069] 图5示出了作为SNR的函数的增益因子。将施加的增益(实线)与谱相减增益(点线)和维纳滤波器(短划线)比较。
[0070] 根据修改的公式5中的谱相减规则计算谱权重,该谱权重被限制至-18dB。
[0071]
[0072] 通过实验确定参数α=3.5和β=1。选择0dB SNR的该特定衰减以避免以参差噪声为代价的语音信号的失真。在图5中示出了作为SNR函数的衰减曲线。
[0073] 图9示出了用于输入和输出信号,估计的子带SNR和谱权重的例子。
[0074] 具体地,图9具有谱加权的例子:输入的时间信号,估计的子带SNR,在内插之后估计的频数中估计的SNR、谱权重和处理的时间信号。
[0075] 图6示出了通过特征提取器14提取的优选的特征的概况。对于每个低分辨率,对于频带即对于需要SNR和增益值的25个频带中的每一个,特征提取器倾向于表示在所述频带中的短时谱表示的谱形的特征。在所述带中的谱形表示在所述带中的能量的分布,且可通过多个不同的计算规则实施。
[0076] 优选的谱形特征为谱平坦度量度(SFM),谱平坦度量度(SFM)为由谱值的几何平均除以谱值的算术平均。在几何平均/算术平均的定义中,在进行n次开方运算或平均运算之前,将乘方(power)施加至带中的每个谱值。
[0077] 通常,当在用于SFM的计算公式中分母中的用于处理每个谱值的乘方大于用于分子的乘方时也可计算谱平坦度量度。接着,分母和分子均可包括算术值计算方程。示例性地,分子中的乘方为2且分母中的乘方为1。通常,用于分子的乘方只需要大于用于分母的乘方以获得广义的谱平坦度量度。
[0078] 从这个计算公式清楚的是,对于其中能量在整个频带上平均分布的带,SFM小于1,且对于多个频率线,SFM接近于接近0的小值,然而在能量在带中集中在单谱值的情况下,例如,SFM值等于1。因此,高的SFM值表示其中在带中能量集中在一定位置的带,而小的SFM值表示能量在带中平均分布。
[0079] 其他谱形特征包括谱偏,其度量围绕其矩心分布的非对称性。在此存在涉及在某个频带中短时频率表示的谱形的其他特征。
[0080] 当计算用于频带的谱形时,如图6所示并且如下详细讨论的,还存在其他特征,这些特征被计算用于频带。并且,也存在附加的特征,对于频带不是必要地被计算,但是对于全带宽需要被计算。
[0081] 谱能量
[0082] 计算用于每个时间帧和频带的谱能量,通过该帧的总能量将谱能量归一化。另外地,采用二阶IIR滤波器在时间上对谱能量进行低通滤波。
[0083] 谱流量
[0084] 谱流量被定义为连续的帧20的谱之间的相异性,且通常通过距离函数的方式应用。在该工作中,根据方程6采用欧氏距离计算谱流量,其中,方程6分别具有谱系数X(m,k),时间帧指数m,子带指数r,频带的下限和上限lr和ur。
[0085]
[0086] 谱平坦度量度
[0087] 存在用于向量的平坦度的计算或谱的音调(其于谱的平整度负相关)的各种定义。如公式7所示,在此采用的谱平坦度量度SFM被计算为子带信号的L个谱系数的几何平均与算术平均之比。
[0088]
[0089] 谱偏
[0090] 分布的谱偏度量围绕它的矩心的非对称性,且分布的谱偏被定义为随机变量的三阶中心矩除以它的标准偏差的立方。
[0091] 线性预测系数
[0092] LPC为全极点滤波器的系数,LPC从前值预测时间序列的实际值x(k),以便误差平方 最小。
[0093]
[0094] 通过自相关方法的方式计算LPC。
[0095] 梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients)
[0096] 采用用于每个频带的具有单元权重的三角形加权函数根据梅尔比例(mel-scale)对功率谱进行变形。通过取对数以及进行离散余弦变换计算MFCC。
[0097] 相对谱感知线性预测系数(RASTA-PLP)
[0098] 按照以下步骤从功率谱计算RASTA-PLP系数[H.Hermansky,N.Morgan,“RASTA Processing of Speech”,IEEE Trans.On Speech and Audio Processing,vol.2,no.4,pp.578-589,1994]:
[0099] 1、谱系数的幅度压缩
[0100] 2、子带能量在时间上的带通滤波
[0101] 3、与步骤2的反向处理相关的幅度扩展
[0102] 4、乘以对应相同响度曲线的权重
[0103] 5、通过将系数提高至0.33的乘方响度感觉的模拟
[0104] 6、通过自相关方法的方式产生的谱的全极模型的计算
[0105] 感知线性预测(PLP)系数
[0106] 计算PLP值类似于RASTA-PLP,但没有应用步骤1-3[H.Hermansky,“Perceptual Linear Predictive Analysis for Speech”,J.Ac.Soc.Am.,vol.87,no.4,pp.1738-1752,1990]。
[0107] Delta特征
[0108] 在过去Delta特征已被成功地应用在自动语音识别和音频内容分类之中。存在各种用于它们的计算的方式。在此,通过将特征的时序与具有9个采样长度(特征时间序列的采样速率等于STFT的帧速率)的线性斜率进行卷积的方式来计算它们。通过施加Delta操作至Delta特征获得Delta-Delta特征。
[0109] 如上所述,优选具有低分辨率频带的带分离,其与人类听觉系统的感知情况类似。因此,对数带分离或巴克状带分离是优选的。这意味着具有低中心频率的带比具有高中心频率的带窄。在谱平坦度量度的计算中,例如,求和运算从值q扩展,值q通常地为在带中最低的频率值,并扩展至计数值ur,计数值ur为在预定义的带中的最大的谱值。为了具有更好的谱平坦度量度,优选在低带中使用来自低的频带和/或高的相邻的频带中的一些或所有谱值。这意味着,例如,采用第二带的谱值以及另外地采用第一带和/或第三带的谱值计算用于第二带的谱平坦度量度。在优选的实施例中,不仅使用第一或第二带任一个中的谱值,也使用第一带和第三带中的谱值。这意味着当计算用于第二带的SFM时,公式(7)中的q从等于第一带中的第一(最低)谱值lr和等于第三带中的最高谱值ur扩展。因此,可以计算基于较高数量的谱值的谱形特征直到特定的带宽,在该带宽处,带自身内谱值的数目足以使得lr和ur表示来自相同的低分辨率频带的谱值。
[0110] 关于通过特征提取器提取的线性预测系数,优选使用公式(8)的LPC aj或在优化或系数的任何合并之后保留的残值/误差值,例如利用归一化因子的乘法或加法,以便这些系数以及平方误差值影响通过特征提取器提取的LPC特征。
[0111] 谱形特征的优点是它是低维数的特征。例如当考虑具有10个复杂或真实谱值的频带宽时,所有这10个复杂或真实谱值的使用将是无用的且将是计算资源的浪费。因此,提取谱形特征,该谱形特征具有这样的维数,该维数小于原始数据的维数。例如当考虑能量时,由于原始数据具有10的维数,则存在10的平方个谱值。为了提取可被有效使用的谱形特征,提取这样的谱形特征,该谱形特征具有的维数小于原始数据的维数,且优选地为1或2。例如当适合频带的谱包络的低级的多项式完成时,可获得对于原始数据的类似的维数减小。例如当仅两个或三个参数适合时,则谱形特征包括多项式或任何其他参数化系统的这两个或三个参数。通常,表示在频带中能量分布的且具有小于原始数据的5%或至少小于原始数据的50%或仅小于原始数据的30%的低维数的所有参数都是有用的。
[0112] 已发现仅使用谱形特征也能够得到用于处理音频信号的装置的有利行为,但优选至少使用附加的带形状特征。已示出在提供改进结果中使用的附加的带形状特征为每个带的谱能量,其中每个带的谱能量是针对每个时间帧和频率带计算的,并通过帧的总能量对每个带的谱能量进行归一化。可对该特征进行低通滤波,或者也可不进行低通滤波。另外,已发现谱流量特征的添加有益地增强本发明装置的性能,以便当除了每个带的谱能量特征和每个带的谱流量特征外,还使用每个带的谱形特征时,获得在好的表现中产生的有效步骤。除了附加的特征,这再次增强了发明的装置的性能。
[0113] 如对于谱能量特征的描述,可进行在时间上的这个特征的低通滤波或者施加在时间上的移动平均归一化,但也不是必须施加。在前述的例子中,例如计算用于相应带的五个前谱形特征的平均,且将计算的结果作为用于在当前帧的当前带的谱形特征。然而,也可双向地进行该平均,以便对于平均运算,不仅来自过去的特征,而且来自“未来”的特征也用于计算当前特征。
[0114] 将随后讨论图7和8以提供如图1、图2或图4所述的特征提取器14的优选实施方式。在第一步骤中,对音频信号进行窗口化以提供音频采样值的块,如步骤70中所示出。优选地,施加重叠。这意味着由于重叠的范围,在两个连续的帧中出现同一个音频信号,其中相对于音频采样值50%的重叠是优选的。在步骤71中,进行窗口化音频采样值的块的时/频变换以获得具有第一分辨率的频率表示,该第一分辨率为高分辨率。为此目的,获得利用有效FFT实现的短时傅立叶变换。当利用时间上后续的音频采样值的块实施步骤71多次时,获得了现有已知的图谱。在步骤72中,高分辨率谱信息,即高分辨率谱值被分组至低分辨率频带。当例如进行具有1024或2048个输入值的FFT时,存在1024或2048个谱值,但这类高分辨率既不需要也不是想要的。反而,分组步骤72使得将高分辨率图谱划分成少量带,例如具有可变带宽的带,例如如从巴克带已知的或从对数带划分已知的。接着,在分组步骤72之后,进行用于的分辨率带的每个的谱形特征,优选地,和其他特征的计算73。虽然在图7中未示出,由于对于这些全带宽特征,任何通过步骤71或步骤72获得的谱分离都不需要,因此可采用在步骤70获得的数据计算与整个频率带相关的另外的特征。
[0115] 步骤73产生谱形特征,该谱形特征具有m维数,其中m小于n,优选地,m为每频带1或2。这意味着将在步骤72之后的用于当前频带的信息通过特征提取操作压缩至在步骤
73之后的当前低维数信息。
[0116] 如图7中所示出,在步骤71和步骤72附近,对于不同的操作,时/频变换和分组的步骤可以互换。可采用低分辨率滤波器组对步骤70的输出进行滤波,例如实现该低分辨率滤波器组使得在输出获得25个子带信号。接着可进行每个子带的高分辨率分析以获得用于谱形特征计算的原始数据。例如,这可通过子带信号的FFT分析或者通过子带信号的任何其他分析完成,例如通过进一步的串级(cascaded)滤波器组。
[0117] 图8示出了用于实现图1的可控滤波器12或图3中所示出的谱加权特征或在图4的12所示的优选步骤。在确定低分辨率带形状控制信息(例如子带SNR值)的确定步骤(如在步骤80所示)之后,在步骤81中进行至高分辨率的内插,低分辨率带形状控制信息通过图4中的神经网络回归块15输出。
[0118] 目的是获得用于每个谱值的权重因子,每个谱值通过在图3的步骤30中进行的短时傅立叶变换,或者在步骤71中进行,或者71和72右侧所示出的可选择的步骤获得。步骤81之后,获得用于每个谱值的SNR值。然而,这个SNR值仍然在对数域中,且步骤82提供用于每个高分辨率谱值的对数域至线性域的变换。
[0119] 在步骤83中,在时间和频率上对用于每个谱值的线性SNR值(即在高分辨率)进行平滑,例如采用IIR低通滤波器,或可选择地,FIR低通滤波器,例如可施加任何移动平均运算。在步骤84中,基于平滑的线性SNR值计算用于每个高分辨率频率值的谱权重。这个计算依赖图5中示出的函数,虽然这个图中示出的函数被指定为对数项目,然而在线性域中计算在步骤84中的用于每个高分辨率频率值的谱权重。
[0120] 在步骤85中,接着将每个谱值与确定的谱权重相乘以获得高分辨率谱值组,高分辨率谱值组与谱权重组相乘。在步骤86中对这个处理的谱进行频率-时间变换。依据应用场景和依据在步骤80中采用的重叠,可在时域音频采样值的两个块之间进行交叉衰减操作以解决块的人工因素,其中通过两个后续的频率-时间变换获得所述时域音频采样值。
[0121] 可施加另外的窗口以减少圆周卷积的人工因素。
[0122] 步骤86的结果是音频采样值的块,该音频采样值的块具有改进的语音性能,即相比较于相应的没有进行语音增强的输入信号可更好地感知语音。
[0123] 依据本发明方法的特定应用需求,本发明方法也可采用硬件或软件实现。实施可以利用数字储存媒介,特别地是具有其上存储有电子可读控制信号的盘、DVD或CD执行,所述电子可读控制信号可与可编程的计算机系统协同工作,从而执行本发明的方法。一般而言,本发明因此也是具有存储在机器可读载体上的程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码用于执行本发明方法。换言之,本发明因此也可被实现为具有程序代码的计算机程序,当该计算机程序产品在计算机上被执行时,该程序代码用于执行本方法。
[0124] 虽然本发明已依据一些实施例进行了描述,但是存在落入本发明范围内的改变、变更和等效物。也应注意的是:存在实施本发明的方法与组成的许多备选方法。因此,期望的是:下述所附权利要求被理解为包括落入本发明的精神与范围内的所有这些改变、变更和等效物。