用于提高噪声环境中话音的可理解性的系统和方法转让专利

申请号 : CN200880132348.9

文献号 : CN102246230B

文献日 : 2013-03-20

本发明的一方面提供了一种在有噪收听环境中增强电-声换能器输出的话音的方法。在一些实施例中，该方法包括：使用滤波器H(z)对输入音频信号x(t)进行滤波，以产生滤波后的音频信号x(t)公式(I)，其中x(t)公式(I)-H(z)x(t)；向电-声换能器提供与滤波后的音频信号x(t)公式(I)相对应的信号，以产生与滤波后的音频信号相对应的声波；以及在使用所述滤波器对所述音频信号进行滤波之前，将所述滤波器配置为使得，对于一个或多个频率，滤波后的音频信号具有高于输入音频信号的信号电平，并且使得滤波后的音频信号的总信号电平(slf)与输入信号的总信号电平(slr)实质上相关，使得slf＝slf×c。

1.一种在有噪收听环境中增强电-声换能器(106)输出的话音的方法，包括：使用可适配滤波器H(z)(191)对输入音频信号x(t)进行滤波，以产生滤波后的音频信号其中向电-声换能器(106)提供与滤波后的音频信号相对应的模拟信号，以产生与滤波后的音频信号相对应的声波；以及在使用所述滤波器对所述音频信号进行滤波之前，将所述滤波器配置为使得，对于一个或多个频率，滤波后的音频信号具有高于输入音频信号的信号电平，并且使得滤波后的音频信号的总信号电平slf与输入信号的总信号电平slr相关，使得slf＝slf×c，其中c是常数，其中，配置滤波器的步骤包括：基于输入音频信号的至少一部分来估计信号频谱Px(f)；以及基于与声-电换能器接收的信号相对应的音频信号的至少一部分来估计噪声频谱Py(f)，并且对于多个频率中的每一个f，至少部分基于所估计的频谱Px(f)和Py(f)来确定所述滤波器的增益函数γ(f)，其中，确定γ(f)的步骤包括：对于所述多个频率中的每一个f，确定该频率f处由于向电-声换能器提供与滤波后的音频信号相对应的信号而产生的声波与背景噪声的信噪比SNR(f)，其中，SNR(f)是Px(f)和Py(f)的函数；以及确定函数γER(f)，其中，对于f＜ft，γER(f)＝min(1，max(c1，SNR(f)/c2))，其中ft、c1和c2是预定值。

2.根据权利要求1所述的方法，其中，滤波后的音频信号的总信号电平等于输入音频信号的总信号电平。

3.根据权利要求1所述的方法，其中，c＝1。

4.根据权利要求1至3中任一项所述的方法，其中，所述滤波器被配置为使得：由于向电-声换能器提供与滤波后的音频信号相对应的信号而产生的声波与背景噪声的信噪比SNR最大化，同时限制滤波后的音频信号在不同频率处的最大值和最小值改变。

5.根据权利要求4所述的方法，其中，针对不同频率以不同权重对所述SNR的最大化进行加权。

6.根据权利要求1所述的方法，其中，确定γ(f)的步骤还包括：对于每个所述频率f，确定Φs(f)/Φn(f)，其中Φs(f)是Px(f)的函数，Φn(f)是Py(f)的函数，并且，SNR(f)＝Φs(f)/Φn(f)。

7.根据权利要求6所述的方法，其中，确定γ(f)的步骤还包括：在服从于以下约束的前提下最大化∑γ(f)·SNR(f)·W(f)：(i)∑γ(f)·Px(f)等于∑Px(f)；以及

(ii)γ(f)大于或等于第一值和/或小于或等于第二值，其中SNR(f)＝Φs(f)/Φn(f)，W(f)是针对频率f的预定权重。

8.根据权利要求6所述的方法，其中，确定γ(f)的步骤还包括：在服从于以下约束的前提下最大化∑γ(f)·SNR(f)·W(f)：(i)∑γ(f)·Px(f)等于∑Px(f)；以及

(ii)γ(f)大于或等于最小阈值γmin(f)和/或小于或等于最大阈值γmax(f)，其中SNR(f)＝Φs(f)/Φn(f)，W(f)是针对频率f的预定权重。

9.根据权利要求1所述的方法，还包括：确定γER(fT)，其中，γER(fT)等于：其中fT是预定频率，γER(fT)是频率fT处的γER(f)，Ps(f)是估计得到的话音频谱，Ps(t，f)是时间平均的Ps(f)。

10.根据权利要求9所述的方法，还包括：将γ(f)设置为等于：

11.根据权利要求6至10中任一项所述的方法，其中：

Φs(f)＝Λrx(f)·Ps(f)，其中Ps(f)是Px(f)的函数，Λrx(f)是电-声换能器的函数；

以及

Φn(f)＝Λtx(f)·Pn(f)，其中Pn(f)是Py(f)的函数，Λtx(f)是声-电换能器的函数。

12.根据权利要求1至3中任一项所述的方法，其中，使用滤波器H(z)对音频信号进行滤波以产生滤波后的音频信号的步骤是在频域实现的。

13.根据权利要求1至3中任一项所述的方法，还包括：使用数模转换器(104)将滤波后的音频信号转换为模拟音频信号。

14.根据权利要求1至3中任一项所述的方法，其中，使用滤波器H(z)对音频信号进行滤波以产生滤波后的音频信号的步骤是在时域实现的，并且包括：根据针对多个离散频率中的每一个而确定的增益来获得有限冲激响应滤波器。

15.一种用于产生声波的设备(100)，包括：

电-声换能器(106)，用于将电子信号转换为在收听点(108)可听的声学能量；

声-电换能器(110)，用于将在收听点处(108)或在收听点(108)附近的声学能量转换为噪声信号；

可适配滤波器(191)，用于对输入音频信号进行滤波，以产生滤波后的音频信号；

数模转换器(104)，用于将滤波后的音频信号转换为模拟音频信号，其中，数模转换器(104)的输出耦合至电-声换能器(106)，使得电-声换能器接收模拟信号；以及控制器模块(192)，适于将可适配滤波器配置为使得，对于一个或多个频率，滤波后的音频信号具有高于输入音频信号的信号电平，并且使得滤波后的音频信号的总信号电平slf与输入音频信号的总信号电平slr相关，使得slf＝slf×c，其中c是常数，控制器模块(192)被配置为通过以下操作来配置可适配滤波器(191)：基于输入音频信号的至少一部分来估计信号频谱Px(f)；

基于与声-电换能器(110)接收的信号相对应的音频信号的至少一部分来估计噪声频谱Py(f)，并且对于多个频率中的每一个f，至少部分基于所估计的频谱Px(f)和Py(f)来确定可适配滤波器(191)的增益函数γ(f)，其中，确定γ(f)包括：对于所述多个频率中的每一个f，确定该频率f处由于向电-声换能器提供与滤波后的音频信号相对应的信号而产生的声波与背景噪声的信噪比SNR(f)，其中，SNR(f)是Px(f)和Py(f)的函数；以及确定函数γER(f)，其中，对于f＜ft，γER(f)＝min(1，max(c1，SNR(f)/c2))，其中ft、c1和c2是预定值。

16.根据权利要求15所述的设备，其中，控制器模块(192)被配置为：将可适配滤波器(191)配置为使得滤波后的音频信号的总信号电平等于输入音频信号的总信号电平。

17.根据权利要求16所述的设备，其中，c＝1。

18.根据权利要求15至17中任一项所述的设备，其中，控制器模块(192)被配置为：将可适配滤波器(191)配置为使得，由于向电-声换能器(106)提供与滤波后的音频信号相对应的信号而产生的声波与背景噪声的信噪比SNR最大化，同时限制滤波后的音频信号在不同频率处的最大值和最小值改变。

19.根据权利要求18所述的设备，其中，针对不同频率以不同权重对所述SNR的最大化进行加权。

20.根据权利要求19所述的设备，其中，控制器模块(192)被配置为还通过以下操作来确定γ(f)：对于每个所述频率f，确定Φs(f)/Φn(f)，其中Φs(f)是Px(f)的函数，Φn(f)是Py(f)的函数，并且，SNR(f)＝Φs(f)/Φn(f)。

21.根据权利要求20所述的设备，其中，控制器模块(192)被配置为通过以下操作来确定γ(f)：在服从于以下约束的前提下最大化∑γ(f)·SNR(f)·W(f)：(i)∑γ(f)·Px(f)等于∑Px(f)；以及

(ii)γ(f)大于或等于第一值和/或小于或等于第二值，其中SNR(f)＝Φs(f)/Φn(f)，W(f)是针对频率f的预定权重。

22.根据权利要求20所述的设备，其中，控制器模块(192)被配置为通过以下操作来确定γ(f)：在服从于以下约束的前提下最大化∑γ(f)·SNR(f)·W(f)：(i)∑γ(f)·Px(f)等于∑Px(f)；以及

(ii)γ(f)大于或等于最小阈值γmin(f)和/或小于或等于最大阈值γmax(f)，其中SNR(f)＝Φs(f)/Φn(f)，W(f)是针对频率f的预定权重。

23.根据权利要求22所述的设备，其中，γmin(f)是SNR(f)的函数。

24.根据权利要求23所述的设备，其中，γmin(f)＝min(1，max(c1，SNR(f)/c2))，其中c1和c2是预定值。

25.根据权利要求15所述的设备，其中控制器模块(192)被配置为通过确定γER(fT)来确定γ(f)，其中，γER(fT)等于：其中fT是预定频率，γER(fT)是频率fT处的γER(f)，Ps(f)是估计得到的话音频谱，Ps(t，f)是时间平均的Ps(f)。

26.根据权利要求25所述的设备，其中，控制器模块(192)被配置为将γ(f)设置为等于：

27.根据权利要求15至17中任一项所述的设备，其中：

Φs(f)＝Λrx(f)·Ps(f)，其中Ps(f)是Px(f)的函数，Λrx(f)是电-声换能器(106)的函数；以及Φn(f)＝Λtx(f)·Pn(f)，其中Pn(f)是Py(f)的函数，Λtx(f)是声-电换能器(110)的函数。

28.根据权利要求15至17中任一项所述的设备，其中，可适配滤波器(191)被配置为在频域对输入音频信号进行滤波。

29.根据权利要求15至17中任一项所述的设备，其中，可适配滤波器(191)被配置为在时域对输入音频信号进行滤波，并且可适配滤波器(191)包括有限冲激响应滤波器。

用于提高噪声环境中话音的可理解性的系统和方法

技术领域

[0001] 本发明涉及用于在存在周围噪声的情况下提高话音的可理解性的系统和方法。

背景技术

[0002] 在噪声环境中说话时，说话者基于周围噪声的水平来调整他/她的话音的声级和频谱成分，以使他/她的话音更易理解。这被称为Lombard效应(参见例如J.C.Junqua，“The Lombard reflex and its role on human listeners and automatic speech recognizer，”J.Acoustic Soc.Amer.，Vol.93，1993，510-524)。在噪声环境中使用移动终端时，期望终端以类似方式操作，即应当对接收的下行信号中的话音进行处理，使得从终端的电-声换能器(例如扬声器)发射的结果话音在到达终端用户的耳朵时尽可能易于理解。

[0003] 在多项研究中，通过提高话音信号的功率来改进话音的可理解性(参见例如“The influence of first and second formants on the intelligibility of clipped speech，”J.Audio Eng.Soc.，vol.16，pp.182-185，1968；R.J.Niederjohn 和J.H.Grotelueschen，“The enhancement of speech intelligibility in high noise levels by high-pass filtering followed by rapid amplitude compression，”IEEE Trans.Acoust.，Speech，Signal Processing，vol.ASSP-24，pp.277-282，Aug.1976；J.Lynch，“A methodology for evaluating the performance of dynamic range control algorithms for speech enhancement”，Acoustics，Speech，and Signal Processing，IEEE International Conference on ICASSP′87.Volume 12，Apr 1987第153-156页)。进行这种操作的应用的示例是自适应声级控制器和压缩器(参见例如J.Lynch，“A methodology for evaluating the performance of dynamic range control algorithms for speech enhancement”，Acoustics，Speech，and Signal Processing，IEEE International Conference on ICASSP′87.Volume12，Apr1987第153-156页)。

[0004] 然而，对于已经接近于其数字过载电平的信号而言，不能通过提高话音的功率电平来提高可理解性，因为这将导致数字限幅从而导致信号失真。相应地，需要一种保持话音的声级同时优化频谱特性的方法。

[0005] 研究已经表明，相对于第一共振峰突出话音的第二共振峰可以提高话音的可理解性，同时保持总信号功率(参见例如J.C.Junqua，“The Lombard reflex and its role on human listeners and automatic speech recognizer，”J.Acoustic Soc.Amer.，Vol.93，1993，510-524；I.B.Thomas，“The second formant and speech intelligibility，”in Proc.Nut.Electronics Conf.，vol.23，1967，pp.544-548；以及“The influence of first and second formants on the intelligibility of clipped speech，”J.Audio Eng.Soc.，vol.16，pp.182-185，1968)。

[0006] 在 B Sauert，G Enzner 和 P.Vary，“Near end listening enhancement with strict loudspeaker output power constraining“，International Workshop on Acoustic Echo and Noise Control，IWAENC 2006，September 12-14，Paris，France中讨论了基于线性滤波来提高可理解性的方法。提出了在所有频率处产生相等SNR的方法，以及进行相反操作的方法(即，衰减不可听频率处的信号并放大可听频率)。

[0007] 应注意的是，改变信号的频谱特性的方法可以与提高总电平的方法相结合来使用。在改变频谱特性之前，如果未达到过载点，则可以应用与频率无关的增益来提高总信号电平。

[0008] 改变发射话音的频谱特性的方法的问题在于，不能以受控的方式获得最大期望效果。因此，期望改进系统和方法，用于提高噪声环境中话音的可理解性。

发明内容

[0009] 一方面，本发明提供了一种在有噪收听环境中增强电-声换能器(例如扬声器)输出的话音的方法。在一些实施例中，该方法包括以下步骤：使用滤波器H(z)(例如，在一些实施例中为FIR滤波器)对输入音频信号x(t)进行滤波(在频域或时域中)，以产生滤波后的音频信号其中向电-声换能器提供与滤波后的音频信号相对应的信号，以产生与滤波后的音频信号相对应的声波；以及在使用所述滤波器对所述音频信号进行滤波之前，将所述滤波器配置为使得，对于一个或多个频率，滤波后的音频信号具有高于输入音频信号的信号电平，并且使得滤波后的音频信号的总信号电平(slf)与输入信号的总信号电平(slr)实质上相关，使得slf＝slf×c，其中c是常数(在一些实施例中，c等于或约等于1)。在一些实施例中，所述滤波器被配置为使得滤波后的音频信号的总信号电平实质上等于输入音频信号的总信号电平。在所述滤波器为FIR滤波器的实施例中，所述FIR滤波器是根据针对多个离散频率中的每一个而确定的增益来获得的。

[0010] 在一些实施例中，所述滤波器被配置为使得：由于向电-声换能器提供与滤波后的音频信号相对应的信号而产生的声波与背景噪声的信噪比(SNR)最大化，同时限制滤波后的音频信号在不同频率处的最大值和最小值改变。可以针对不同频率以不同权重对SNR的最大化进行加权。

[0011] 在一些实施例中，配置滤波器的步骤包括：基于输入音频信号的至少一部分来估计信号频谱Px(f)；基于与声-电换能器(例如麦克风)接收的信号相对应的音频信号的至少一部分来估计噪声频谱Py(f)；以及对于多个频率中的每一个f，至少部分基于所估计的频谱Px(f)和Py(f)来确定所述滤波器的增益γ(f)。确定γ(f)的步骤可以包括：对于每个所述频率f，确定Φs(f)/Φn(f)，其中Φs(f)是Px(f)的函数，Φn(f)是Py(f)的函数；以及在服从于以下约束(i)和(ii)的前提下最大化(∑γ(f)·SNR(f)·W(f))：(i)∑γ(f)·Px(f)等于或实质上等于c∑Px(f)，其中c是常数或者是时变的，以及(ii)γ(f)大于或等于第一值(例如最小阈值γmin(f))和/或小于或等于第二值(例如最大阈值γmax(f))，其中SNR(f)＝Φs(f)/Φn(f)，W(f)是针对频率f的预定权重。在一些实施例中，γmin(f)＝min(1，max(c1，SNR(f)/c2))，其中c1和c2是预定值。在一些实施例中，确定γ(f)的步骤包括：确定γER(f)，其中，对于f＜ft，γER(f)＝min(1，max(c1，SNR(f)/c2))，其中ft、c1和c2是预定值，SNR(f)＝Φs(f)/Φn(f)。在一些实施例中，Φs(f)＝Λrx(f)·Ps(f)，其中Ps(f)是Px(f)的函数，Λrx(f)是电-声换能器的函数；以及Φn(f)＝Λtx(f)·Pn(f)，其中Pn(f)是Py(f)的函数，Λtx(f)是声-电换能器的函数。

[0012] 在另一方面，本发明提供了一种用于输出音频信号的设备。在一些实施例中，所述设备包括：电-声换能器，用于将电子信号转换为在收听点可听的声学能量；声-电换能器，用于将在收听点处或在收听点附近的声学能量转换为噪声信号；可适配滤波器，用于对输入音频信号进行滤波，以产生滤波后的音频信号；数模转换器，用于将滤波后的音频信号转换为模拟音频信号，其中，数模转换器的输出耦合至电-声换能器，使得电-声换能器接收模拟信号；以及控制器模块，适于将可适配滤波器配置为使得，对于一个或多个频率，滤波后的音频信号具有高于输入音频信号的信号电平，并且使得滤波后的音频信号的总信号电平(slf)与输入音频信号的总信号电平(slr)实质上相关，使得slf＝slf×c，其中c是常数。

[0013] 以下参照附图来描述上述和其他方面以及实施例。

附图说明

[0014] 附图被并入此处并形成说明书的一部分，附图示意了本发明的各个实施例，并与描述一起还用于解释本发明的原理，使相关领域技术人员能够实现和使用本发明。在附图中，相似的参考标记指示相同或功能相似的元件。

[0015] 图1是根据本发明一些实施例的设备的功能框图。

[0016] 图2是示意了根据本发明一些实施例的过程的流程图。

[0017] 图3是示意了根据本发明一些实施例的过程的流程图。

[0018] 图4是根据本发明一些实施例的移动终端的功能框图。

具体实施方式

[0019] 现在参照图1，图1示意了根据本发明一些实施例的设备100，设备100能够产生话音，并且能够提高噪声环境中话音的可理解性。

[0020] 设备100产生或接收输入音频信号x(t)，并使用滤波器系统102来对音频信号x(t)进行滤波，以产生滤波后的音频信号其中 H(z)是滤波器系统使用的可适配滤波器191。向电-声换能器(例如扬声器)106提供滤波后的音频信号
以产生与滤波后的音频信号相对应的声波(即发射话音)。更具体地，在一些实施例中，向数模转换器104提供滤波后的音频信号数模转换器104接收滤波后的音频信号并
产生与滤波后的音频信号相对应的模拟信号，将该模拟信号提供给电-声换能器106，电-声换能器106基于该模拟信号来产生声波。

[0021] 滤波器H(z)191被配置为对发射话音与周围环境噪声的信噪比进行优化。此外，该滤波器可以被配置为不增大发射话音的总信号电平。可以使用有限冲激响应滤波器(FIR)H(z)，在频域或时域中实现滤波操作其中使用例如在美国专利No.7,251,271中描述的技术，根据在离散频率处的期望增益函数γ(f)来获得H(z)。

[0022] 相应地，在利用滤波器102对输入音频信号x(t)进行滤波之前，滤波器系统102的控制器模块192将可适配滤波器191(即H(z))配置为使得，对于一个或多个频率，滤波后的音频信号具有高于输入音频信号x(t)的信号电平。此外，滤波器H(z)可以被配置为使得滤波后的音频信号的总信号电平(slf)与输入信号x(t)的总信号电平(slr)实质上相关，使得slf＝slf×c，其中c是常数。在一些实施例中，c等于或约等于1。

[0023] 控制器模块192被配置为基于人耳参考点(ERP)108处的可听噪声(Φn)和输入信号x(t)来配置可适配滤波器191。声-电换能器110(例如麦克风)将可听噪声Φn转换为电信号y(t)。噪声估计器模块114接收信号y(t)，噪声估计器模块114被配置为产生信号y(t)的估计频谱Py(f)，其中f表示离散频率。例如，噪声估计器模块114可以被配置为使用离散傅立叶变换，根据信号y(t)来产生频谱Py(f)。即，在一些实施例中，Py(f)＝2
|Y(f)|，其中Y(f)＝DFT(y(t))。类似地，控制器模块192被配置为产生输入信号x(t)的
2
估计频谱Px(f)。即，在一些实施例中，Px(f)＝|X(f)|，其中X(f)＝DFT(x(t))。控制器模块192被配置为使用频谱Py(f)和Px(f)来配置滤波器H(z)(例如计算滤波器H(z)的频率特性，以获得期望目的)。

[0024] 图2中示意了上述过程。现在参照图2，图2是示意了根据本发明一些实施例的过程200的流程图。过程200可以开始于步骤202，在步骤202，控制器模块192配置滤波器H(z)以优化发射话音与周围环境噪声的信噪比。接下来(步骤204)，使用滤波器H(z)来对输入音频信号x(t)进行滤波，以产生滤波后的音频信号接下来(步骤206)，使用数模转换器104将滤波后的音频信号转换为模拟信号。接下来(步骤207)，将模拟信号提供给电-声换能器106，电-声换能器106产生与滤波后的音频信号相对应的声波。由于所产生的声波与滤波后的音频信号而不是输入音频信号x(t)相对应，因此与对应于输入音频信号x(t)的情况相比，声波将更加易于理解。接下来(步骤208)，接收表示ERP108处的噪声的噪声信号。在步骤208之后，该过程返回步骤202，在步骤202，控制器模块
192再次基于接收的噪声信号和输入音频信号x(t)来配置滤波器H(z)。按照这种方式，本发明提供了一种通过基于背景噪声信号和输入音频信号来配置滤波器，从而提高电-声换能器106产生的信号的可听度的方法。

[0025] 如上所述，控制器模块192被配置为使用频谱Py(f)和Px(f)来配置滤波器H(z)。更具体地，在一些实施例中，控制器模块192使用所计算的频谱Py(f)和Px(f)，分别导出下行链路话音和ERP 108处的近端噪声的频谱Φs(f)和Φn(f)。例如，在一些实施例中，Φs(f)＝ΛRX(f)·Ps(f)，Φn(f)＝ΛTX(f)·Pn(f)，其中ΛRX(f)是电-声换能器106的转移函数，ΛTX(f)是声-电换能器110的转移函数，Ps(f)是Px(f)的函数，Pn(f)是Py(f)的函数。因此，在一些实施例中，控制器模块192使用Φs(f)和Φn(f)来配置滤波器H(z)。

[0026] 可以通过将数字信号电平与声学声压相关的校准过程来预先计算电-声接口的转移函数，ΛRX(f)和ΛTX(f)。典型地，可以通过同时测量声学声压和信号的数字电平来执行上述操作。

[0027] 由于话音信号的非平稳特性，期望的滤波器特性H(z)是时间相关的，并在任何给定时刻基于频谱估计。为了方便，在标记中省略了这种时间依赖性。典型地，该处理基于与20ms相对应的采样帧，对于8kHz采样率得到160个采样，对于16kHz采样率得到320个采样。

[0028] 在一些实施例中，分别使用例如基于话音采样x(t)和y(t)的帧的快速傅立叶变换(FFT)的周期图估计，来估计频率Px(f)和Py(f)(参见例如P.Stoica和R.Moses，“Introduction to spectral analysis”，Prentice Hall)。对于20ms的帧长，FFT的合适长度分别为256和512，其中对原始帧填充零或者利用来自先前帧的采样来扩展原始帧。在一些实施例中，估计得到的话音和噪声频谱Ps(f)和Py(f)分别基于以下对基于帧的频谱估计进行平均：

[0029] Ps(k，f)＝(1-λs)Ps(k-1，f)+λsPx(k，f)以及

[0030] Pn(k，f)＝(1-λn)Pn(k-1，f)+λnPy(k，f)，其中索引k表示针对特定帧的估计。平均常数λs和λn可以是时变的，并且经由语音活动性检测来控制，以在x(t)中存在话音时更新话音频谱Ps(f)，并在y(t)仅包含噪声时更新Pn(f)。可以在例如3GPP TS 26.094，Adaptive Multi-Rate(AMR)speech codec；Voice Activity Detector中找到语音活动性检测算法的示例。

[0031] 如上所述，控制器模块192使用Φs(f)和Φn(f)来配置滤波器H(z)。例如，在一些实施例中，控制器模块192使用Φs(f)和Φn(f)来计算滤波器H(z)的期望增益函数γ(f)。更具体地，在一些实施例中，控制器模块192通过在服从于以下约束(1)和(2)[0032] (1) 以及

[0033] (2)

[0034] 的前提下最大化

[0035]

[0036] 来确定γ(f)，其中

[0037] γ(f)＝|H(ei2πf)|2，c是常数或者是时变的。

[0038] 参数W(f)、γmin和γmax可能依赖于信号x(t)和y(t)的特性。例如，γmin和γmax可以是SNR(f)的函数。

[0039] 作为限制期望增益的最大和最小值的备选，可以指定增益函数中的最大差值。这可以用公式表示为以下约束：

[0040]

[0041] 上述优化问题可以被视为线性编程问题，可以使用单纯形算法来获得对该优化问题的解(参见例如M.S.Bazaraa，H.D.Sherali，C.M.Shetty，“Nonlinear programming”，John Wiley & Sons)。该线性编程问题等于在服从于以下约束的前提下最小化

[0042]

[0043]

[0044] 备选地，采用对增益的最小值和最大值之间的差值的限制，在服从于以下约束的前提下最小化

[0045]

[0046]

[0047] 在一些实施例中，滤波器H(z)应当仅在未处理的电-声换能器信号的可理解性将降低的条件下影响发射话音。因此，在原始话音已经可听的任何频率或频率范围处，滤波器不应减小信号电平。这可以通过使阈值γmin(f)依赖于给定频率处的SNR来实现。选择γmin(f)＝min(1.0，max(γlower_limit，SNR(f)/SNRthreshold))，将导致在SNR小于SNRthreshold的频率处逐渐引入该效果。

[0048] 此外，为了减小不同时刻之间H(z)的频率特性的波动，可以通过将来自用于计算离散时间傅立叶变换的FFT的相邻槽(bin)进行组合，来减小H(z)的频率分辨率γ(f)。此外，由于对于较高频率，话音频谱随时间的波动较大，因此，对于特定阈值频率(ft)以上的频率，可以仅确定一个增益。该阈值频率ft可以大约为1-2kHz，并且可以根据信号特性而变化。

[0049] 如上所述，可以使用单纯形算法来获得上述优化问题的解。然而，对于特定应用，单纯形算法的计算要求可能过高。为了降低计算复杂度，可以实现近似。例如，对于ft以下的频率，可以使用例如γER(f)＝min(1.0，max(γlower_linit，SNR(f)/SNRthreshold))来计算增益函数。接下来，通过计算γER(fT)将针对f＜fT已经移除的功率重新分配给频率f≥fT，所述γER(fT)给出针对f≥fT的功率增加，该功率增加等于针对f＜fT给出的功率减少：

[0050]

[0051] 上述计算确保了γER(fT)不改变平均话音功率，从而固定了f＜fT与f≥fT之间的功率重新分布的形状。为了确保下行链路信号的功率保持不变，可以根据以下等式来对γER(fT)进行缩放：

[0052]

[0053] 现在参照图3，图3是示意了用于配置滤波器H(z)的上述步骤中的一些步骤的流程图300。过程300可以开始于步骤302，在步骤302，控制器模块192估计输入音频信号x(t)的频谱Px(f)。接下来(步骤304)，模块114估计音频信号y(t)的频谱Py(f)，y(t)与声-电换能器110输出的信号相对应。接下来(步骤306)，控制器模块192计算[0054] 接下来(步骤308)，控制器模块192通过在服从于以下约束(i)和(ii)的前提下最大化(∑γ(f)·SNR(f)·W(f))来确定γ(f)：(i)∑γ(f)·Px(f)等于或实质上等于∑Px(f)，以及(ii)γ(f)大于或等于第一值和/或小于或等于第二值，其中W(f)是针对频率f的预定权重。接下来(步骤310)，模块基于步骤308中确定的γ(f)来计算滤波器H(z)。

[0055] 现在参照图4，图4是根据本发明一些实施例的设备100的功能框图。如图所示，设备100可以包括：数据处理系统402(例如一个或多个微处理器和/或数字信号处理器)；数据存储系统406(例如一个或多个非易失性存储设备)；以及存储在存储系统406上的计算机软件408。还可以将配置参数410存储在存储系统406中。在设备100是移动通信终端(例如移动电话)的实施例中，设备100可以包括：发送/接收(Tx/Rx)电路404，用于向基站发送数据和从基站接收数据。在一些实施例中，软件408被配置为使得当处理器402执行软件408时，设备执行以上参照图3所示的流程图描述的步骤。例如，控制器模块192可以以软件实现(即软件408可以包括控制器模块192)。

[0056] 尽管以上已经描述了本发明的各个实施例，但是应理解，这些实施例仅以示例而非限制方式呈现。因此，本发明的宽度和范围不应限于上述任一示例实施例。

[0057] 此外，尽管以上描述和在附图中示意的过程被示为步骤序列，但是这仅仅是为了示意。相应地，可以想到，可以添加一些步骤，可以省去一些步骤，可以重新布置步骤的顺序，可以并行执行一些步骤。

用于提高噪声环境中话音的可理解性的系统和方法转让专利

申请号 : CN200880132348.9

文献号 : CN102246230B

文献日 : 2013-03-20

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 安德尔斯·埃里克松 , 佩尔·阿格伦

申请人 : 艾利森电话股份有限公司

摘要 :

权利要求 :

说明书 :