用于语音增强的噪声方差估计器转让专利

申请号 : CN200880008886.7

文献号 : CN101647061B

文献日 : 2012-04-11

相似专利: 请登录后查看

本公开描述了用于具要有限的可用存储器的设备的语音增强方法。该方法适用于非常嘈杂的环境，并且能够在存在以及不存在语音期间估计语音分量和噪声分量的相对强度。

1.一种用于增强包括语音分量和噪声分量的音频信号中的语音分量的方法，包括：把音频信号从时域变换成频域中的多个子频带；

其中假设所述多个子频带中的每一个具有语音分量和噪声分量，所述噪声分量具有在时间指数m的幅度和方差，其中所述幅度通过利用区分语音分量与噪声分量的统计差值被估计，处理音频信号的子频带，所述处理包括响应于控制，自适应地减小所述子频带中的一些子频带的增益，其中所述控制至少部分地从噪声分量的方差的估值得到，其中在每个时间指数m根据所述幅度的过去估值的平方的加权平均值得出所述方差的估值，其中子频带信号中具有大于预定的估值偏差的最大量的估值偏差的噪声分量的幅度的估值从子频带信号中的噪声分量的幅度的过去估值的平均值中被排除或减小其在子频带信号中的噪声分量的幅度的过去估值的平均值中的加权；

其中具有大于阈值的数值的所述幅度的所述过去估值从所述加权平均值中被排除或减小其在所述加权平均值中的加权；以及把处理后的子频带信号从频域变换到时域，以便提供其中语音分量被增强的音频信号。

2.一种用于得出在包括语音分量和噪声分量的子频带信号中的噪声分量的方差的估值的方法，包括：从子频带信号中的噪声分量的幅度的过去估值的平均值得出子频带信号的噪声分量的方差的所述估值，其中在每个时间指数m根据噪声分量的幅度的过去估值的平方的加权平均值得出噪声分量的方差的所述估值，其中子频带信号中具有大于预定的估值偏差的最大量的估值偏差的噪声分量的幅度的估值从子频带信号中的噪声分量的幅度的过去估值的平均值中被排除或减小其在子频带信号中的噪声分量的幅度的过去估值的平均值中的加权，以及其中，具有大于阈值的数值的所述幅度的所述过去估值从所述加权平均值中被排除或减小其在所述加权平均值中的加权。

3.按照权利要求1或权利要求2的方法，其中在子频带信号中的噪声分量的幅度的每个估值是子频带信号的噪声分量的方差的估值、子频带信号的语音分量的方差的估值、和子频带信号的幅度的函数。

4.按照权利要求1或权利要求2的方法，其中所述阈值是的函数，其

中是所估计的先验信噪比，是子频带信号的噪声分量的方差的估值，和ψ是由所述预定的估计偏差的最大量确定的常数。

5.按照权利要求4的方法，其中在子频带信号中的噪声分量的幅度的每个估值是子频带信号的噪声分量的方差的估值、子频带信号的语音分量的方差的估值、和子频带信号的幅度的函数。

6.一种用于增强包括语音分量和噪声分量的音频信号中的语音分量的设备，包括：用于把音频信号从时域变换成频域中的多个子频带的装置；

其中假设所述多个子频带中的每一个具有语音分量和噪声分量，所述噪声分量具有在时间指数m的幅度和方差，其中所述幅度通过利用区分语音分量与噪声分量的统计差值被估计，用于处理音频信号的子频带的装置，所述处理包括响应于控制，自适应地减小所述子频带中的一些子频带的增益，其中所述控制至少部分地从噪声分量的方差的估值得到，其中在每个时间指数m根据所述幅度的过去估值的平方的加权平均值得出所述方差的估值，其中子频带信号中具有大于预定的估值偏差的最大量的估值偏差的噪声分量的幅度的估值从子频带信号中的噪声分量的幅度的过去估值的平均值中被排除或减小其在子频带信号中的噪声分量的幅度的过去估值的平均值中的加权；

其中具有大于阈值的数值的所述幅度的所述过去估值从所述加权平均值中被排除或减小其在所述加权平均值中的加权；以及用于把处理后的子频带信号从频域变换到时域，以便提供其中语音分量被增强的音频信号的装置。

7.一种用于得出在包括语音分量和噪声分量的子频带信号中的噪声分量的方差的估值的设备，包括：用于从子频带信号中的噪声分量的幅度的过去估值的平均值得出子频带信号的噪声分量的方差的所述估值的装置，其中在每个时间指数m根据噪声分量的幅度的过去估值的平方的加权平均值得出噪声分量的方差的所述估值，其中子频带信号中具有大于预定的估值偏差的最大量的估值偏差的噪声分量的幅度的估值从子频带信号中的噪声分量的幅度的过去估值的平均值中被排除或减小其在子频带信号中的噪声分量的幅度的过去估值的平均值中的加权，以及其中，具有大于阈值的数值的所述幅度的所述过去估值从所述加权平均值中被排除或减小其在所述加权平均值中的加权。

8.按照权利要求6或权利要求7的设备，其中在子频带信号中的噪声分量的幅度的每个估值是子频带信号的噪声分量的方差的估值、子频带信号的语音分量的方差的估值、和子频带信号的幅度的函数。

9.按照权利要求6或权利要求7的设备，其中所述阈值是的函数，其

中是所估计的先验信噪比，是子频带信号的噪声分量的所述方差的估值，和ψ是由预定的估计偏差的最大量确定的常数。

10.按照权利要求9的设备，其中在子频带信号中的噪声分量的幅度的每个估值是子频带信号的噪声分量的方差的估值、子频带信号的语音分量的方差的估值、和子频带信号的幅度的函数。

用于语音增强的噪声方差估计器

技术领域

[0001] 本发明涉及音频信号处理。更具体地，本发明涉及在噪声环境下的语音增强和澄清。

[0002] 引用结合

[0003] 以下参考文献每一个都通过引用全部结合于此：

[0004] Y.Ephraim and D.Malah，“Speech enhancement using a minimummean square error short time spectral amplitude estimator，”IEEE Trans.Acoust.，Speech，SignalProcessing，vol.32，pp.1109-1121，Dec.1984.

[0005] N.Virag，“Single channel speech enhancement based on maskingproperties of the human auditory system，”IEEE Tran.Speech andAudio Processing，vol.7，pp.126-137，Mar.1999.

[0006] R.Martin，“Spectral subtraction based on minimum statistics，”in Proc.EUSIPCO，1994，pp.1182-1185.

[0007] P.J.Wolfe and S.J.Godsill，“Efficient alternatives to Ephraim andMalah suppression rule for audio signal enhancement，”EURASIPJournal on Applied Signal Processing，vol.2003，Issue 10，Pages 1043-1051，2003.

[0008] Y.Ephraim，H.Lev-Ari and W.J.J.Roberts，“A brief survey of SpeechEnhancement，”The Electronic Handbook，CRC Press，April 2005. 背景技术

[0009] 我们生活在噪声世界。来自自然源以及人类活动的环境噪声无处不在。在话音通信期间，环境噪声与预期的语音信号同时被发送，不利地影响接收信号的质量。这个问题可以通过用来去除这样的不想要的噪声分量的语音增强技术而得到缓和，由此产生更清晰的和更易懂的信号。

[0010] 大多数语音增强系统依赖于各种形式的自适应滤波操作。这样的系统衰减具有低信噪比(SNR)的噪声语音信号的时间/频率(T/F)区域，同时保持具有高SNR的那些区域。语音的关键分量因此被保持而噪声分量被大大地减小，通常，这样的滤波操作由诸如数字信号处理(DSP)芯片那样的计算装置在数字域中执行。

[0011] 子频带域处理是在其中实施这样的自适应滤波操作的优选方式之一。概略地，时域中的不改变的语音信号通过使用滤波器组，诸如离散傅立叶变换(DFT)，被变换成各种子频带。在每个子频带内的信号随后按照语音与噪声的已知统计特性被抑制到想要的量。最后，在子频带域中的噪声抑制信号通过使用逆滤波器组而被变换到时域，以产生增强的语音信号，其质量高度依赖于抑制过程的细节。

[0012] 现有技术语音增强器的例子在图1中示出。通过将包含清晰语言以及噪声的模拟语音信号数字化而生成输入。这个未改变的音频信号y(n)，其中n＝0，1，...∞是时间指数(time index)，随后被发送到分析滤波器组装置或功能(“分析滤波器组(Analysis Filterbank)”)2，从而产生多个子频带信号，Yk(m)，k＝1，...K，m＝0，1，...∞，其中k是子频带号，而m是每个子频带信号的时间指数。子频带信号由于在分析滤波器组2中的下采样操作，比起y(n)具有较低的采样速率。然后通过使用噪声方差估计器装置或功能(“噪声方差估计器(Noise VarianceEstimator)”)4，用子频带信号作为输入来估计每个子频带的噪声电平。本发明的噪声方差估计器4不同于在现有技术中已知的那些噪声方差估计器，并将在下面具体地参照图2a和2b进行描述。根据所估计的噪声电平，在抑制规则装置或功能(“抑制规则(Suppression Rule)”)6中确定适当的抑制增益gk，并把它如下地施加到子频带信号：

[0013] k＝1，...，K. (1)

[0014] 用乘法器符号8符号表示把抑制增益这样地施加到子频带信号。最后，被发送到合成滤波器组装置或功能(“合成滤波器组(Synthesis Filterbank)”)10，以便产生增强的语音信号为了呈现清晰起见，图1示出了生成和施加抑制增益到多个子频带信号(k)中的仅仅一个子频带信号的细节。

[0015] 用于每个子频带的适当的抑制量与它的噪声电平强烈相互关联。而这又由噪声信号的方差来确定，其中对于零均值高斯概率分布，该方差被定义为噪声信号的均方值。显然，精确的噪声方差估计对于系统的性能是关键的。

[0016] 通常，噪声方差是不可先验得到的，而必须从未改变的音频信号中估计出来。众所周知，“清晰的”噪声信号的方差可以通过在大的时间块上对于噪声幅度的平方值执行时间平均运算，而被估计出。然而，因为未改变的音频信号包含干净的语音和噪声，这样的方法不能直接应用。

[0017] 以前已经提出许多噪声方差估计策略用来解决这个问题。最简单的解决方案是在语音增强系统的初始化级，当语音信号还不存在时估计噪声方差(参考文献[1])。然而，这个方法只在噪声信号以及噪声方差是相对平稳时才很好地起作用。

[0018] 对于非平稳噪声的精确处理，已经提出了更复杂的方法。例如，话音活动检测(VAD)估计器利用独立的检测器来确定语音信号的存在。噪声方差仅仅在它不存在的时间期间才被更新(参考文献[2])。这个方法有两个缺点。首先，当音频信号具有噪声时很难得到可靠的VAD结果，这又影响噪声方差估计结果的可靠性。第二，这个方法妨碍当语音信号存在时更新噪声方差估值的可能性。由于在其中语音电平弱的时间期间噪声方差估值仍旧可以被可靠地更新，所以后一问题导致低效率。

[0019] 另一个广泛引用的、对这个问题的解决方案是最小值统计方法(参考文献[3])。原则上，该方法保持对于每个子频带的历史样本的信号电平的记录，并根据最小记录值来估计噪声方差。在这个方法背后的基本原理是，语音信号通常是自然具有停顿的开/关过程。另外，当存在语音信号时，信号电平通常大得多。所以，如果记录足够长的时间的话，来自该算法的最小信号电平很可能是来自语音停顿部分，从而产生可靠的估计噪声电平。 [0020] 无论如何，最小值统计方法具有高的存储器要求，因此不能应用于只具有有限的可用存储器的设备。

发明内容

[0021] 按照本发明的第一方面，由语音和噪声分量组成的音频信号的语音分量被增强。音频信号从时域变换成频域中的多个子频带。随后处理音频信号的子频带。处理包括响应于控制，自适应地减小一些子频带的增益。控制至少部分是从音频信号的噪声分量的方差的估值得到的。该估值又是从音频信号的噪声分量的幅度的以前估值的平均值得到的。音频信号中具有大于预定的估值偏差的最大量的估值偏差的噪声分量的幅度的估值从音频信号中的噪声分量的幅度的以前估值的平均值中被排除或减小其在音频信号的噪声分量的幅度的以前估值的平均值中的加权。最后，处理后的音频信号再从频域变换成时域，以便提供其中语音分量被增强的音频信号。本发明的这个方面还可包括估计在音频信号中的噪声分量的幅度作为音频信号的噪声分量中的方差的估值、音频信号的语音分量中的方差的估值、和音频信号的幅度的函数。

[0022] 按照本发明的另一方面，得到由语音和噪声分量组成的音频信号的噪声分量中的方差的估值。在音频信号的噪声分量中的方差的估值是从音频信号中的噪声分量的幅度的以前估值的平均值得到的。音频信号中具有大于预定的估值偏差的最大量的估值偏差的噪声分量的幅度的估值从在音频信号中的噪声分量的幅度的以前估值的平均值中被排除或减小其在音频信号中的噪声分量的幅度的以前估值的平均值中的加权。本发明的这个方面还可包括估计在音频信号中的噪声分量的幅度作为音频信号的噪声分量中的方差的估值、音频信号的语音分量中的方差的估值、和音频信号的幅度的函数。

[0023] 按照本发明的以上方面的任一方面，在音频信号中的噪声分量的幅度的以前估值的平均值中，音频信号中具有大于阈值的数值的噪声分量的幅度的估值被排除或减小其加权。

[0024] 上述的阈值可以是的函数，其中是所估计的先验信噪比，是音频信号的噪声分量的估计方差，和ψ是由预定的估计偏差的最大量确定的常数。 [0025] 本发明的上述方面可以被实施为方法或适于执行这样的方法的设备。被存储在计算机可读介质上的计算机程序可以使得计算机执行这样的方法中的任一种。 [0026] 本发明的一个目的是提供在语音存在以及不存在期间起作用的、能够估计语音和噪声分量的相对强度的语音增强。

[0027] 本发明的另一个目的是提供不管是否存在重大的噪声分量，都能够估计语音和噪声分量的相对强度的语音增强。

[0028] 本发明的再一个目的是提供可用于具有有限的可用存储器的设备的语音增强。 [0029] 本发明的这些和其它特征和优点将在以下的说明和所附权利要求中被阐述或变得更明白。所述特征和优点可以借助于在所附权利要求中具体地指出的装置和组合而被实现和得到。而且，本发明的特征和优点可以通过本发明的实践而学习到或可以从此后阐述的说明中弄明白。

附图说明

[0030] 图1是显示现有技术语音增强器的功能框图。

[0031] 图2a是按照本发明的各方面的示例性噪声方差估计器的功能框图。这样的噪声方差估计器可被使用来改进诸如图1的例子中的那种的现有技术语音增强器或可被使用于其它目的。

[0032] 图2b是对于理解图2a的噪声方差估计器的操作有用的流程图。 [0033] 图3显示作为针对四个真实的SNR的数值所估计的先验SNR的函数的、噪声幅度的偏差的估计的理想化的曲线图。

具体实施方式

[0034] 这里使用的缩略词和术语的词汇表在附录A中给出。符号及其各自的定义的列表在附录B中给出。附录A和附录B是本发明的一个整体部分，它们形成本专利申请的部分。 [0035] 按照本发明的各方面的噪声方差估计器的示例性实施例的框图显示于图2a中。它可以与诸如图1的那种的语音增强器集成在一起，以便估计每个子频带的噪声电平。例如，按照本发明的各方面的噪声方差估计器可被利用作为图1的噪声方差估计器4，因此提供改进的语音增强器。给噪声方差估计器的输入是未改变的子频带信号Y(m)，它的输出是更新后的噪声方差估值的数值。

[0036] 为了说明起见，噪声方差估计器的特征可能在于具有三个主要的部件：噪声幅度估计器装置或功能(“噪声幅度估计(Estimation of Noise Amplitude)”)12、响应于噪声幅度估计工作的噪声方差估计装置或功能(“噪声方差估计(Estimation of Noise Variance)”)14、和语音方差估计装置或功能(“语音方差估计(Estimate of Speech -1Variance)”)16。图2a的噪声方差估计器例子还包括延时18，用z域符号表示(“Z ”)示出。

[0037] 图2a的噪声方差估计器例子的运行可以还参照图2b的流程图而被最好地了解。将会意识到，这里以各种例子显示和描述的各种设备、功能和处理可被显示为以与这里图上显示的方式不同的方式被组合或分开。例如，当用计算机软件指令序列实施时，图2a和
2b的所有功能可以由在适当的数字信号处理硬件中运行的多线程软件指令序列来实施，在这种情形下，在图上显示的例子中的各种装置和功能可以对应于软件指令的各部分。 [0038] 噪声分量的幅度被估计(噪声幅度估计12，图2a；估计N(m)24，图2b)。因为音频输入信号包含语音和噪声；这样的估计只能通过利用区分一个分量与另一个分量的统计差值而完成。而且，噪声分量的幅度可以经由适当修改当前被使用于语音分量幅度的估计的现有统计模型而被估计(参考文献[4]和[5])。

[0039] 这样的语音和噪声模型通常假设语音和噪声分量是不相关的零均值高斯分布。关键的模型参数，更具体地，语音分量方差和噪声分量方差，必须从未改变的输入音频信号被估计出。如上所述，语音和噪声分量的统计特性是完全不同的。在大多数情形下，噪声分量的方差是相对稳定的。相反，语音信号是“开/关”过程，它的方差即使在几毫秒内也可以急剧地改变。因此，噪声分量的方差的估计牵涉到相对长的时间窗口，而用于语音分量的类似操作可能只牵涉到当前的和以前的输入样本。后者的例子是在参考文献[1]中提出的“判决引导方法(decision-directed method)”。

[0040] 一旦统计模型及其语音和噪声分量的分布参数被确定，从音频信号估计语音和噪声分量的幅度就是可行的。在示例性实施例中，在参考文献[4]中以前介绍的、用于估计语音分量的幅度的最小均方差(MMSE)功率估计器适用于估计噪声分量的幅度。估计器模型的选择对于本发明不是关键的。

[0041] 简言之，MMSE功率估计器首先根据统计模型以及未改变的音频信号，分别确定语音和噪声分量的概率分布。然后确定噪声幅度为使得估计误差的均方值最小的数值。 [0042] 最后，在准备进行随后的计算时，通过把所估计的噪声幅度的平方的当前绝对值包括在总的噪声方差中，而更新噪声分量的方差。这个附加值变为在合理长的缓存器上的累加运算的一部分，它包含当前的以及以前的噪声分量幅度。为了进一步改进噪声方差估计的精度，可以结合有偏估计避免方法。

[0043] 噪声幅度估计

[0044] (噪声幅度估计12，图2a；估计N(m)24，图2b)

[0045] 如图1、2a和2b(20)所示，加到噪声方差估计器(在本上下文中，“噪声方差估计器”是图1的方块4，以及是图2a的单元12、14、16、和18的组合)的输入是子频带： [0046] Y(m)＝X(m)+D(m) (2)

[0047] 其中X(m)是语音分量，以及D(m)是噪声分量。这里m是时间指数，以及子频带号下标k被省略，因为同一个噪声方差估计器被使用于每个子频带。可以假设，分析滤波器组生成复数量，如DFT所做的那样。这里，子频带分量也是复数的，以及可被进一步表示为： [0048] Y(m)＝R(m)exp(jθ(m)) (3)

[0049] X(m)＝A(m)exp(jα(m)) (4)

[0050] 和

[0051] D(m)＝N(m)exp(jφ(m)) (5)

[0052] 其中R(m)，A(m)和N(m)分别是未改变的音频信号、语音和噪声分量的幅度，以及θ(m)，α(m)和φ(m)是它们各自的相位。

[0053] 通过假设语音和噪声分量是不相关的零均值高斯分布，X(m)的幅度可以通过使用在参考文献4中得到的下列MMSE功率估计器而被估计出：

[0054]

[0055] 其中增益函数由下式给出：

[0056]

[0057] 其中

[0058]

[0059]

[0060] 和

[0061]

[0062] 这里λx(m)和λd(m)分别是语音分量和噪声分量的方差。ξ(m)和γ(m)常常被解译为先验和后验分量对噪声比，这里就采用该表示法。换句话说，“先验”SNR是假设的(而实际上未知的)语音方差(因此称为“先验”的)对噪声方差的比值；“后验”SNR是观察到的信号的幅度平方(因此称为“后验”的)对噪声方差的比值。

[0063] 在MMSE功率估计器模型中，语音和噪声分量的各自方差可以被互换，以便估计噪声分量的幅度：

[0064]

[0065] 其中

[0066]

[0067] 以及

[0068]

[0069] 语音方差估计

[0070] (语音方差估计16，图2a；估计 (m)22，图2b)

[0071] 语音分量方差的估计可以通过使用在参考文献[1]中提出的判决引导方法来计算：

[0072]

[0073] 这里

[0074] 0＜＜μ＜1 (15)

[0075] 是预先选择的常数，以及是语音分量幅度的估值。下面描述噪声分量方差估值的计算。

[0076] 噪声幅度估计(从以上继续)

[0077] 噪声分量幅度的估值最后由下式给出：

[0078]

[0079] 其中

[0080]

[0081] 以及

[0082]

[0083] 虽然在本例中利用了复数滤波器组，但修改用于仅仅具有实数值的滤波器组的公式是容易的。

[0084] 上述的方法仅仅作为例子给出。根据应用，可以采用更复杂的或更简单的方法。多麦克风输入也可以被使用来得到噪声幅度的更好的估值。

[0085] 噪声方差估计

[0086] (噪声方差估计14，图2a；估计λd(m)26，图2b)

[0087] 在给定的时间指数m时输入的子频带中的噪声分量部分地由它的方差λd(m)确定。对于零均值高斯，这被定义为噪声分量的幅度的平方的均值：

[0088] λd(m)＝E{N2(m)} (19)

[0089] 这里，数学期望E{N2(m)}是对于在时间指数m时噪声分量的概率分布而取的。 [0090] 通过假设噪声分量是平稳的和各态历经的，λd(m)可以通过对于先验估计的噪声幅度执行时间平均操作而得到。更具体地，时间指数(m+1)的噪声方差λd(m+1)可以通过执行以前估计的噪声幅度的平方的加权平均而被估计出：

[0091]

[0092] 其中w(i)，i＝0，...，∞是加权函数。实际上，w(i)可被选择为长度为L的窗口：w(i)＝1，i＝0，...，L-1。在矩形窗口方法(RWM)中，估计的噪声方差由下式给出： [0093]

[0094] 也有可能使用指数窗口：

[0095] w(i)＝βi+1 (22)

[0096] 其中

[0097] 0＜β＜1. (23)

[0098] 在移动平均方法(MAM)中，估计出的噪声方差是噪声幅度的平方的移动平均值： [0099]

[0100] 其中初始值可被设置为合理地选择的预定值。

[0101] 偏差估计避免

[0102] 偶尔地，模型不能提供语音和噪声分量的精确表示。在这些情形下，噪声方差估计可以变为不精确的，由此产生非常偏差的结果。已经开发了偏差估计避免(BEA)方法来缓和这个问题。

[0103] 实际上，BEA把变小的权重分配给噪声幅度估值以使得：

[0104]

[0105] 其中偏差，bias(m)，大于预定的最大值Bmax，即：

[0106] |bias(m)|＞Bmax (26)

[0107] 噪声幅度估值的精确性受到模型的精度支配，具体地是语音和噪声分量的方差，如在以前部分中所描述的那样。因为噪声分量是相对平稳的，所以它的方差随时间缓慢演化。为此，分析假设：

[0108]

[0109] 相比而言，语音分量本质上是瞬变的，且易于产生大的错误。假设真实的先验SNR是：

[0110] ξ*(m)＝λx(m)/λd(m) (28)

[0111] 而所估计的先验SNR是：

[0112]

[0113] 的估值偏差实际上由下式给出：

[0114]

[0115] 显然，如果

[0116]

[0117] 则可以具有无偏估计器，以及

[0118]

[0119] 正如在图3上看到的，估值偏差相对于图上的虚线，即零偏差线，是不对称的。图＊＊的下部指示对于ξ 的变化值的变化的估值偏差值，而图的上部显示对于或ξ 的很小的依赖性。

[0120] 对于感兴趣的SNR范围，噪声幅度的低估(under-extimation)，即： [0121]

[0122] 将导致正的偏差，这对应于图的上部。正如可以看到的那样，影响是相对小的，所以不成问题。

[0123] 然而，图的下部对应于其中语音分量的方差被低估的情形，这导致大的负的估值偏差，如公式(30)给出的那样，即：

[0124]

[0125] 和

[0126]

[0127] 或，可替换地

[0128]

[0129] 和

[0130]

[0131] 以及对于ξ＊的不同数值的强的依赖性。这些是其中噪声幅度的估值太大的情形。因此，给予这样的幅度以减小的权重或全部避免。

[0132] 实际上，经验教导了这样的可疑幅度R(m)满足：

[0133]

[0134] 其中ψ是预定的正的常数。这个规则提供对于偏差的较低约束： [0135]

[0136] 其中

[0137] ψ＝2(Bmax+1) (40)

[0138] 总之，正偏差是可忽略的。如果在公式(16)中定义的、且与公式(38)一致的所估计的噪声幅度被给予减小的权重的话，负偏差是可维持的。在实际的应用中，由于λd(m)的数值是未知的，公式(38)的规则可被近似为：

[0139]

[0140] 其中

[0141]

[0142] BEA方法的两个这样的例子是利用BEA的矩形窗口方法(RWM)和利用BEA的移动平均方法(MAM)。在前一实施方案中，被给予与公式(38)一致的样本的权重是零： [0143]

[0144] 其中Φm是对于时间指数m，包含满足下式的L个最接近的的集合： [0145]

[0146] 在后一实施方案中，可利用减小的权重来包括这样的样本：

[0147]

[0148] 其中

[0149]

[0150] 和

[0151] β1＜β0 (47)

[0152] 完成图2b流程图的描述后，然后时间指数m增大1(“m←m+1”56)，并重复图2b的过程。

[0153] 实施方式

[0154] 本发明可以以硬件或软件或它们的组合(例如，可编程的逻辑阵列)来实施。除非另外阐述，作为本发明的一部分被包括的过程不是固有地与任何特定的计算机或其他设备相关。具体地，可以使用各种具有按照这里的教导编写的程序的通用机器，或构建更专用的设备(例如，集成电路)来执行需要的方法步骤可以是更方便的。因此，本发明可以以在一个或多个可编程计算机系统上执行的一个或多个计算机程序来实施，每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储单元)、至少一个输入设备或端口、和至少一个输出设备或端口。程序代码被施加到输入数据上以执行这里描述的功能和生成输出信息。输出信息以已知的方式被施加到一个或多个输出设备。

[0155] 每个这样的程序可以以任何想要的计算机语言(包括机器、汇编、或高级别过程、逻辑或面向对象的编程语言)来实施，以便与计算机系统通信。无论如何，语言可以是汇编或解译的语言。

[0156] 每个这样的计算机程序优选地被存储在或下载到由通用或专用可编程计算机可读的存储媒体或装置(例如，固态存储器或媒体、磁或光媒体)，用于当存储媒体或装置被计算机系统读取以便执行这里描述的过程时配置和操作计算机。本发明的系统还可以被认为是被实现为计算机可读的存储介质，其被配置有计算机程序，其中这样配置的存储介质使得计算机系统以特定方式和预定义方式操作来执行这里描述的功能。 [0157] 已经描述了本发明的许多实施例。无论如何，将会看到，可以作出各种修改而不背离本发明的精神和范围。例如，这里描述的某些步骤可以独立地排序，因此可以以与所描述的次序不同的次序来执行。

[0158] 附录A

[0159] 缩略语和术语词汇表

[0160] BEA 偏差估计避免

[0161] DFT 离散傅立叶变换

[0162] DSP 数字信号处理

[0163] MAM 移动平均方法

[0164] RWM 矩形窗口方法

[0165] SNR 信噪比

[0166] T/F 时间/频率

[0167] VAD 语音端点检测(voice activity detection)

[0168] 附录B

[0169] 符号列表

[0170] y(n)，n＝0，1，...，∞ 数字化时间信号 [0171] 增强的语音信号

[0172] Yk(m)，k＝1，...，K，m＝0，1，...，∞ 子频带信号k

[0173] 增强的子频带信号k

[0174] X(m) 子频带k的语音分量 [0175] D(m) 子频带k的噪声分量 [0176] gk 用于子频带k的抑制增益 [0177] R(m) 噪声语音幅度

[0178] θ(m) 噪声语音相位

[0179] A(m) 语音分量幅度

[0180] 所估计的语音分量幅度

[0181] α(m) 语音分量相位

[0182] N(m) 噪声分量幅度

[0183] 所估计的噪声分量幅度

[0184] φ(m) 噪声分量相位

[0185] GSP 增益函数

[0186] λx(m) 语音分量方差

[0187] 所估计的语音分量方差

[0188] λd(m) 噪声分量方差

[0189] 所估计的噪声分量方差

[0190] ξ(m) 先验语音分量对噪声比 [0191] γ(m) 后验语音分量对噪声比 [0192] ξ’(m) 先验噪声分量对语音比 [0193] γ’(m) 后验噪声分量对语音比 [0194] α 预先选择的常数 [0195] β 针对偏差估值预先选择的

用于语音增强的噪声方差估计器转让专利

申请号 : CN200880008886.7

文献号 : CN101647061B

文献日 : 2012-04-11

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 俞容山

申请人 : 杜比实验室特许公司

摘要 :

权利要求 :

说明书 :

用于语音增强的噪声方差估计器

技术领域

发明内容

附图说明

具体实施方式