抑制噪声的方法及装置转让专利

申请号 : CN200680001539.2

文献号 : CN101091209B

文献日 : 2010-06-09

相似专利: 请登录后查看

提供了一种噪声抑制方法和装置，能够使用较少量的操作而实现高品质的噪声抑制。通过以下操作抑制输入信号中包含的噪声：将输入信号转换成频域信号；对频域信号的频带进行集成以确定集成频域信号；基于该集成频域信号确定估计噪声；基于估计噪声和所述集成频域信号确定频谱增益；以及利用该频谱增益对所述频域信号进行加权。

1.一种噪声抑制方法，用于抑制包含在输入信号中的噪声，所述方法包括以下步骤：将输入信号的样本转换成频域样本，以确定集成频域样本；

根据所述集成频域样本来确定估计噪声；

根据所述估计噪声和所述集成频域样本来确定频谱增益；以及利用所述频谱增益对所述频域样本进行加权。

2.根据权利要求1所述的噪声抑制方法，还包括以下步骤：对所述估计噪声进行校正，以确定校正的估计噪声；以及根据所述校正的估计噪声和所述集成频域样本来确定频谱增益。

3.根据权利要求1或2所述的噪声抑制方法，还包括以下步骤：对所述频域样本的幅度进行校正，以确定幅度校正样本；以及对所述幅度校正样本的频带进行集成，以确定集成频域样本。

4.根据权利要求3所述的噪声抑制方法，还包括以下步骤：对所述频域样本的相位进行校正，以确定相位校正样本；以及把使用所述频谱增益和所述相位校正样本对所述幅度校正样本进行加权的结果转换成时域信号。

5.根据权利要求3所述的噪声抑制方法，包括以下步骤：消除所述输入信号的样本的偏移量，以确定无偏移量的样本；以及把所述无偏移量的样本转换成频域样本。

6.根据权利要求4所述的噪声抑制方法，包括以下步骤：消除所述输入信号的样本的偏移量，以确定无偏移量的样本；以及把所述无偏移量的样本转换成频域样本。

7.一种噪声抑制装置，用于抑制包含在输入信号中的噪声，所述装置包括：转换器，用于把输入信号的样本转换成频域样本；

频带集成器，用于对所述频域样本的频带进行集成，以确定集成频域样本；

噪声估计器，用于根据所述集成频域样本来确定估计噪声；

频谱增益生成器，用于根据所述估计噪声和所述集成频域样本来确定频谱增益；以及乘法器，用于使用所述频谱增益对所述频域样本进行加权。

8.根据权利要求7所述的噪声抑制装置，还包括：估计噪声调节器，用于对所述估计噪声进行校正，以确定校正的估计噪声；以及频谱增益生成器，用于根据所述校正的估计噪声和所述集成频域样本来确定频谱增益。

9.根据权利要求7或8所述的噪声抑制装置，还包括：幅度调节器，用于对所述频域样本的幅度进行校正，以确定幅度校正样本；以及频带集成器，用于对所述幅度校正样本的频带进行集成，以确定集成频域样本。

10.根据权利要求9所述的噪声抑制装置，还包括：相位调节器，用于对所述频域样本的相位进行校正，以确定相位校正样本；以及逆变换器，用于把使用所述频谱增益和所述相位校正样本对所述幅度校正样本进行加权的结果转换成时域信号。

11.根据权利要求9所述的噪声抑制装置，还包括：偏移量消除器，用于消除所述输入信号的样本的偏移量，以确定无偏移量的样本；以及转换器，用于将所述无偏移量的样本转换成频域样本。

12.根据权利要求10所述的噪声抑制装置，还包括：偏移量消除器，用于消除所述输入信号的样本的偏移量，以确定无偏移量的样本；以及转换器，用于将所述无偏移量的样本转换成频域样本。

13.一种噪声抑制方法，包括：

将输入信号的样本转换成包括多个频率分量的频域样本；

根据所述频域样本来确定频谱增益，所述频谱增益的个数小于所述频域样本的个数；以及利用所述频谱增益对所述频域样本进行加权，以抑制所述输入信号中包含的噪声，其中，将至少一个所述频谱增益施加到所述多个频率分量。

14.根据权利要求13所述的噪声抑制方法，其中，在所述频谱增益确定步骤中，针对每个频谱增益，使用被施加公共频谱增益的所述频域样本来确定所述频域样本公共的估计噪声，并且根据所述估计噪声来确定所述频谱增益。

15.一种用于抑制噪声的噪声抑制装置，包括：转换器，用于把输入信号的样本转换成频域样本；

频谱增益生成器，用于根据所述频域样本来确定频谱增益，所述频谱增益的个数小于所述频域样本的个数；

乘法器，用于利用所述频谱增益对所述频域样本进行加权；以及频率集成器，通过对所述频域样本进行集成，以确定集成频域样本；

其中，所述频谱增益生成器根据所述集成频域样本来确定频谱增益，而且所述乘法器采用至少一个所述频谱增益，对多个所述频域样本进行加权。

16.根据权利要求15所述的噪声抑制装置，还包括：噪声估计器，用于根据所述集成频域样本来确定估计噪声，所述估计噪声中的每一个是所述多个频域样本公共的估计噪声，其中，所述频谱增益生成器根据所述估计噪声来确定所述频谱增益。

技术领域

本发明涉及一种用于抑制噪声以减少叠加在所需音频信号上的噪声的方法和装置，还涉及一种在噪声抑制信号处理中使用的计算机程序。

背景技术

噪声抑制器(噪声抑制系统)是一种用于抑制叠加在所需音频信号上的噪声的系统，典型地，其使用转换成频域的输入信号来估计噪声分量的功率谱，并且从输入信号中减去这个估计的功率谱，从而抑制了混入所需音频信号中的噪声。当连续地估计噪声分量的功率谱时，能够处理不规则噪声的抑制。例如，在专利文献1(日本未公开号为204175/2002的专利申请)中公开了一种传统的噪声抑制器。
通常，向噪声抑制器提供数字信号作为输入信号，该数字信号是通过对麦克风的输出信号的模数(AD)转换获得的，而该麦克风用于对语音波进行校正。通常，在AD转换和噪声抑制器之间设置高通滤波器，以便抑制在使用麦克风进行语音收集期间或在AD转换期间添加的低频分量。在专利文献2(美国专利号5,659,622)中公开了这种配置的示例。
图1示出一种配置，其中将专利文献2的高通滤波器应用于专利文献1的噪声抑制器。
把带噪语音信号(包含所需语音信号和噪声的信号)作为样本值序列而提供给输入端11。带噪语音信号样本被提供给高通滤波器17，在此处抑制低通分量，然后被提供给帧分频器1。为了保持输入带噪语音的线性和表现足够高的信号处理性能，抑制低通分量是一个重要的过程。帧分频器1将带噪语音信号样本分成具有指定样本数目的帧，并将它们传送到加窗(windowing)处理器2。加窗处理器2将所划分的带噪语音样本帧与窗函数相乘，并将结果传输到傅立叶(Fourier)变换器3。
傅立叶变换器3在加窗的带噪语音样本上执行傅立叶变换以将这些样本分成多个频率分量，对这些幅值进行多路复用，然后将它们提供到估计噪声计算器52、频谱增益生成器82和多路复用乘法器16。相位被传输到逆傅立叶变换器9。估计噪声计算器52针对所提供的多个频率分量中的每一个估计噪声，并将它们传输到频谱增益生成器82。作为噪声估计的示例，存在一种噪声分量的估计方法，其基于过去的信噪比对带噪语音进行加权，在专利文献1中有详细描述。
频谱增益生成器82为多个频率分量生成各自的频谱增益，以便通过把带噪语音和系数相乘产生噪声得到抑制的增强语音。作为生成频谱增益的一个示例，广泛使用的一种方法是最少均方短周期频谱幅度方法，该方法最小化了增强语音的均方功率。专利文献1中进行了详细的描述。
把为各个频率生成的频谱增益提供给多路复用乘法器16。多路复用乘法器16针对每个频率把傅立叶变换器3提供的带噪语音和频谱增益生成器82提供的频谱增益相乘，并将乘积作为增强语音的幅度传输到逆傅立叶变换器9。逆傅立叶变换器9利用多路复用乘法器16提供的增强语音的幅度和傅立叶变换器3提供的带噪语音的相位执行逆傅立叶变换，并将结果作为增强语音信号样本提供给帧合成器10。这个帧合成器10使用相邻帧的增强语音样本合成当前帧的输出语音样本，并将结果输出到输出端12。

发明内容

高通滤波器17抑制直流附近的频率分量，并且通常允许具有大于或等于100Hz到120Hz频率的分量通过，不对这些分量进行抑制。尽管高通滤波器17可以被配置为有限冲激响应(FIR)型滤波器或者无限冲激响应(IIR)型滤波器，但是通常使用后者，因为需要尖锐的(sharp)通带末端(passband end)特性。众所周知，IIR型滤波器的传递函数由有理函数表示，而且分母系数的灵敏度非常高。因此，当利用有限字长操作来实现高通滤波器17时，为了达到足够高的精度需要使用频繁的双精度操作。所以就存在操作量大的问题。相反，如果为了减少操作量而省略高通滤波器17，则很难保持输入信号的线性，从而不可能实现高品质的噪声抑制。
此外，在估计噪声计算器52中，针对傅立叶变换器3所提供的所有频率分量估计噪声，而且在频谱增益生成器82中，确定与其相对应的频谱增益。从而，如果为了提高频率分辨率而增大傅立叶变换的块长(帧长)，则组成每个块的样本数目变得更大，导致操作量增大的问题。
本发明的目的是提供一种噪声抑制方法和装置，能够使用更少量操作而实现高品质的噪声抑制。
根据本发明的噪声抑制方法包括如下步骤：将输入信号转换成频域信号；对频域信号的频带进行集成，以确定集成频域信号；根据该集成频域信号来确定估计噪声；根据估计噪声和前述集成频域信号来确定频谱增益；以及利用频谱增益对前述频域信号进行加权。
此外，根据本发明的噪声抑制装置包括：转换器，用于将输入信号转换成频域信号；频带集成器，用于对频域信号的频带进行集成以确定集成频域信号；噪声估计器，用于根据该集成频域信号来确定估计噪声；频谱增益生成器，用于根据估计噪声和前述集成频域信号来确定频谱增益；以及乘法器，用于通过频谱增益对前述频域信号进行加权。
此外，一种执行用于抑制噪声的信号处理的计算机程序，其使得计算机执行：将输入信号转换成频域信号的过程；对频域信号的频带进行集成以确定集成频域信号的过程；根据该集成频域信号确定估计噪声的过程；根据估计噪声和前述集成频域信号确定频谱增益的过程；以及通过频谱增益对前述频域信号进行加权的过程。
具体地，本发明用于抑制噪声的方法、装置和计算机程序的特征在于：在傅立叶变换之后，对信号执行低通分量的抑制。更具体地，本发明的特征在于包括：幅度调节器，用于对傅立叶变换输出的幅度进行低通分量的抑制；相位调节器，用于针对傅立叶变换输出的相位而执行与低通分量的幅度变形(deformation)相对应的相位校正。
此外，本发明的特征在于：针对多个频率分量而执行噪声估计和频谱增益的生成。更具体地，本发明的特征在于包括频带集成器，该频带集成器用于对多个频率分量的一部分进行集成。
根据本发明，由于把转换成频域的信号的幅度与常量相乘，并把相位与常量相加，所以能够采用单精度操作在较少量操作的情况下实现高品质的噪声抑制。此外，根据本发明，针对比组成每一个傅立叶变换块的样本数更少数量的频率分量执行噪声估计和噪声系数的生成，从而能够减少操作量。

附图说明

图1是示出传统噪声抑制装置的配置示例的方框图；
图2是示出本发明的第一实施例的方框图；
图3是示出包括在本发明第一实施例中的幅度调节器的配置的方框图；
图4是示出包括在本发明第一实施例中的相位调节器的配置的方框图；
图5是解释频率样本集成的图表；
图6是示出包括在本发明第一实施例中的多路复用乘法器的配置的方框图；
图7是示出本发明的第二实施例的方框图；
图8是示出本发明的第三实施例的方框图；
图9是示出包括在本发明第三实施例中的多路复用乘法器的配置的方框图；
图10是示出包括在本发明第三实施例中的加权带噪语音计算器的配置的方框图；
图11是示出包括在图10中的按频率分类(frequency-classified)SNR计算器的配置的方框图；
图12是示出包括在图10中的多路复用非线性处理器的配置的方框图；
图13是示出非线性处理器中的非线性函数的一个示例的图表；
图14是示出包括在本发明第三实施例中的估计噪声计算器的配置的方框图；
图15是示出包括在图11中的按频率分类估计噪声计算器的配置的方框图；
图16是示出包括在图12中的更新控制器的配置的方框图；
图17是示出包括在本发明第三实施例中的估计先验SNR计算器的配置的方框图；
图18是示出包括在图14中的多路复用限幅器的配置的方框图；
图19是示出包括在图14中的多路复用加权累加器的方框图；
图20是示出包括在图16中的加权加法器的方框图；
图21是示出包括在本发明第三实施例中的频谱增益生成器的配置的方框图；
图22是示出包括在本发明第三实施例中的频谱增益调节器的配置的方框图；
图23是示出包括在图22中的按频率分类频谱增益调节器的配置的方框图。
附图标记描述
1帧分频器
2，20加窗处理器
3傅立叶变换器
4，5049计数器
5，52估计噪声计算器
6，1402按频率分类SNR计算器
7，估计先验SNR计算器
8，82频谱增益生成器
9逆傅立叶变换器
10帧合成器
11输入端
12输出端
13，16，161，704，705，1404多路复用乘法器
14加权带噪语音计算器
15频谱增益调节器
17高通滤波器
18幅度调节器
19相位调节器
21语音不存在概率存储器
22偏移量消除器
53频带集成器(band integrator)
54估计噪声调节器
501，502，1302，1303，1422，1423，1495，1502，1503，1602，1603，1801，1901，7013，7072，7074多路分解器
503，1304，1424，1475，1504，1604，1803，1903，7014，7075多路复用器
5040到504M-1按频率分类估计噪声计算器
520更新控制器
701多路复用限幅器
702归纳(aposteriori)SNR存储器
703频谱增益存储器
706加权存储器
707多路复用加权累加器
708，5046，7092，7094加法器
811MMSE STSA增益函数值计算器
812一般似然比(generalized likelihood ratio)计算器
814频谱增益计算器
921临时估计SNR
9210到921M-1按频带分类(frequency-band-classified)临时估计SNR
922过去估计SNR
9220到922M-1过去按频带分类估计SNR
923权重
924估计先验SNR
9240到924M-1按频带分类估计先验SNR
13010到1301K-1，1597，7091，7093乘法器
1401，5042估计噪声存储器
1405多路复用非线性处理器
14210到1421M-1，5048除法器
14850到1485M-1非线性处理器
15010到1501M-1按频率分类频谱增益调节器
1591，70120到7012M-1最大值选择器
1592最小频谱增益存储器
1593，5204，5206阈值存储器
1594，5203，5205比较器
1595，5044开关
1596修改值存储器
18020到1802K-1加权处理器
19020到1902K-1相位旋转器
5041寄存器长度存储器
5045移位寄存器
5047最小值选择器
5201逻辑和计算器
5207阈值计算器
7011常量值存储器
70710到7071M-1加权加法器
7095常量乘法器

具体实施方式

图2是示出本发明的第一实施例的方框图。
图2所示的配置和图1所示的传统配置除了高通滤波器17、幅度调节器18、相位调节器19、加窗处理器20、频带集成器53、估计噪声调节器54和多路复用乘法器161之外相同。下面集中于这些不同点而对详细操作进行描述。
在图2中，去掉了图1中的高通滤波器17和多路复用乘法器16，反而添加了幅度调节器18、相位调节器19、加窗处理器20、频带集成器53、估计噪声调节器54和多路复用乘法器161。
提供幅度调节器18和相位调节器19是为了将高通滤波器的频率响应应用到转换成频域的信号上。特别地，在图2中，把函数f的绝对值(幅度-频率响应)应用到幅度调节器18的输入信号，而把相位(相位-频率响应)应用到相位调节器19的输入信号，其中，该函数f的绝对值是通过将z＝exp(j·2πf)应用于图1的高通滤波器17的转移函数而获得的。利用这种处理，有可能获得与附图1中高通滤波器17应用到输入信号相同的效果。也就是说，输入信号通过傅立叶变换器3转换成频域信号，然后乘以频率响应，而不是在时域中把高通滤波器17的转移函数与输入信号进行卷积。
把幅度调节器18的输出提供给频带集成器53和多路复用乘法器161。频带集成器53对与多个频率分量相对应的信号样本进行集成，以减少总数量，并将结果传输到估计噪声计算器52和频谱增益生成器82。在集成时，把多个信号样本相加，并将其和除以被加样本的数量以确定平均值。估计噪声调节器54对估计噪声计算器52提供的估计噪声进行校正，并将结果传输到频谱增益生成器82。
在估计噪声调节器54中进行校正的最关键操作是把所有的频率分量乘以相同的常量。而且，依据频率使用不同的常量。特殊的情况是：特定频率的常量设为1.0；也就是说，不对常量设为1.0的频率的数据进行校正，而对其他频率的数据进行校正。这意味着可依据频率进行选择性的校正。除此之外，还可能通过依据频率添加不同值、通过执行非线性处理等进行校正。
通过进行上述校正，通过减少与频带集成所生成的估计噪声值的真实值的偏差，能够保持待输出的增强语音的高语音品质。对于下述频带集成方法，通过非正式的主观评价已经表明：大于或等于1000Hz的频带中的估计噪声乘以常量0.7适合于8kHz的采样。
相位调节器19的输出传输到逆傅立叶变换器9。从这点开始向前的操作与图1描述的相同。专利文献3(日本未公开专利申请131689/2003)公开了提供了用于抑制帧边界处的断续语音的加窗处理器20。
图3示出图2中的幅度调节器18的配置示例。这里，假设独立的傅立叶变换输出分量的数量为K。把傅立叶变换器3提供的多路复用带噪语音幅度谱传输到多路分解器1801。多路分解器1801将多路复用带噪语音幅度谱分解为单独的频率分量并将它们传输到加权处理器18020到1802K-1。加权处理器18020到1802K-1使用相应的幅频响应对针对单独频率分量而分解的带噪语音幅度谱进行加权，并将结果传输到多路复用器1803。多路复用器1803对从加权处理器18020到1802K-1传输来的信号进行多路复用，并将结果作为校正的带噪语音幅度谱而输出。
图4示出图2的相位调节器19的配置示例。把傅立叶变换器3提供的多路复用带噪语音相位谱传输到多路分解器1901。多路分解器1901将多路复用带噪语音相位谱分解为单独的频率分量并将它们传输至相位旋转器19020到1902K-1。相位旋转器19020到1902K-1根据相应的相频响应对针对单独的频率分量而分解的带噪语音相位谱进行旋转，并将结果传输到多路复用器1903。多路复用器1903对从相位旋转器19020到1902K-1传输来的信号进行多路复用，并将结果作为校正的带噪语音相位谱而输出。
图5是解释如何通过图2的频带集成器53对多个频率样本进行集成的图表。此处示出的是8kHz采样的情况，也就是说，具有4kHz频带的信号进行块长度为L的傅立叶变换的情况。根据专利文献1，所产生的经傅立叶变换的带噪语音信号样本的数量与傅立叶变换的块长度L一样。然而，独立分量的数量是这些样本的一半，即L/2。
本发明中，为了减少独立频率分量的数量，对这些L/2个样本进行部分集成。为此，在较高的频率范围内，更多的样本集成为一个样本。也就是说，随着频率变得更高，多个频率分量集成合一，即，频带的划分是不均匀的。作为这种不均匀划分的示例，在倍频程(octave)划分中，频带以2次幂向着较低频带端变得更窄，在临界频带划分中，基于人类听觉特性而划分频带，以及其他已知的示例等。关于临界频带的详细内容，可以参考非专利文献1(PSYCHOACOUSTICS，2NDED.，SPRINGER，第158到164页，1999年1月)。
特别地，由于基于临界频带的频带划分表现出与人类听觉特性的高度一致，它已经得到了广泛使用。在4kHz频带中，临界频带总共包括18个频带。相反，在本发明中，较低的范围被分成比图5所示的临界频带的情况中那些频带更窄的频带，以防止噪声抑制特性的恶化(deterioration)。本发明的特征在于：以和临界频带划分相同的方式对高于1156Hz到4kHz的频率范围进行频带划分，但是把低于1156Hz的范围划分为更窄的频带。
图5示出了L＝256的示例。从直流到第十三分量的频率分量没有被集成，并且独立地处理(hand)这些频率分量。接下来的十四个分量两两地集成为七组。接下来的六个分量三个三个地集成为两组。然后，接下来的四个分量集成为一组。此后，根据临界频带的情况来集成分量。
上述频率分量的集成能够将独立频率分量的数量从128减少到32。表1中示出了傅立叶变换后的128个频率分量和集成后的32个频率分量之间的对应关系。由于一个频率分量的带宽是4000/128＝31.25Hz，基于此而计算的相应频率在最右栏中示出。
表1.通过频率分量集成的不均匀划分子频带的生成(fs＝8kHz)
  频带编号   频率分量编号(分  量的数目)   频率[Hz]   0   0(1)   0·31   1   1(1)   31·62   …   …   …   12   12(1)   375·406   13   13-14(2)   406·469   14   15-16(2)   469·531   15   17-18(2)   531·594   16   19-20(2)   594·656   17   21-22(2)   656·719   18   23-24(2)   719·781   19   25-26(2)   781·844   20   27-29(3)   844·938   21   30-32(3)   938·1031   22   33-36(4)   1031·1156   23   37-42(6)   1156·1344   24   43-48(6)   1344·1531
  频带编号   频率分量编号(分  量的数目)   频率[Hz]   25   49-56(8)   1531·1781   26   57-65(9)   1781·2063   27   66-75(10)   2063·2375   28   76-87(12)   2375·2750   29   88-101(14)   2750·3188   30   102-119(18)   3188·3750   31   120-128(9)   3750·4000
在频带集成器53的操作中很重要的是，不对频率低于约400Hz的频率分量进行集成。如果对这个频率范围内的频率分量进行集成，则分辨率降低，导致语音品质的降低。另一方面，在高于约1156Hz的频率中，可以按照临界频带对频率分量进行集成。当输入信号的频带变得更宽时，需要通过增加傅立叶变换的块长度L来保持语音品质。这是因为在前述没有集成频率分量的低于或等于400Hz的频带中的一个频率分量的带宽增加了，导致分辨率降低。例如，作为参考使用L＝256和带宽为4kHz的情况，通过确定傅立叶变换的块长度L以使L＞fs/31.25成立，即使使用更宽的频带信号，也可能保持与带宽为4kHz时同等的语音品质。根据这个规则，当选择L为2的幂时，当8kHz＜fs≤16kHz时确定L＝512，当16kHz＜fs≤32kHz时确定L＝1024，当32kHz＜fs≤64kHz时确定L＝2048。表2中示出与表1相对应的示例，其中fs＝16kHz。表2示出一个示例，而那些具有稍微不同的频带集成边界的示例具有相同效果。
表2.通过频率分量集成的不均匀划分子频带的生成(fs＝16kHz)
  频带编号   频率分量编号(分  量的数目)   频率[Hz]   0   0(1)   0·31   1   1(1)   31·62   …   …   …   12   12(1)   375·406
  频带编号   频率分量编号(分  量的数目)   频率[Hz]   13   13-14(2)   406·469   14   15-16(2)   469·531   15   17-18(2)   531·594   16   19-20(2)   594·656   17   21-22(2)   656·719   18   23-24(2)   719·781   19   25-26(2)   781·844   20   27-29(3)   844·938   21   30-32(3)   938·1031   22   33-36(4)   1031·1156   23   37-42(6)   1156·1344   24   43-48(6)   1344·1531   25   49-56(8)   1531·1781   26   57-65(9)   1781·2063   27   66-75(10)   2063·2375   28   76-87(12)   2375·2750   29   88-101(14)   2750·3188   30   102-119(18)   3188·3750   31   119-140(21)   3750·4406   32   140-169(29)   4406·5313   33   169-204(35)   5313·6406
  频带编号   频率分量编号(分  量的数目)   频率[Hz]   34   204-245(41)   6406·7688   35   245-255(10)   7688·8000
图6示出了多路复用乘法器161的配置示例。多路复用乘法器161包括乘法器16010到1601K-1、多路分解器1602、1603和多路复用器1604。图2中的幅度调节器18提供的多路复用的已校正带噪语音幅度谱在多路分解器1602中被分解成单独频率的K个样本，这些样本被提供到各个乘法器16010到1601K-1。从图2中的频谱增益生成器82提供的多路复用的频谱增益被多路分解器1603分解成单独频率的成分，这些成分被提供到各个乘法器16010到1601K-1。
按频率分类的频谱增益的数目等于在频带集成器53中集成的频带的数目。换句话说，与频带集成器53所集成的每一个子频带相对应的频谱增益由多路分解器1603分离。
在图5所示的示例中，分离的频谱增益的数目是32。分离的频谱增益被提供到与频带集成器53中的频带集成模式(pattern)相对应的乘法器中。在图5所示的示例中，根据表1将公共频谱增益提供给多个乘法器。
在表1的示例中，由于K＝128，把公共频谱增益传输到如下乘法器中的每一个：乘法器160127至160129、乘法器160130至160132、乘法器160133至160136、乘法器160137至160142、乘法器160143至160148、乘法器160149至160156、乘法器160157至160165、乘法器160166至160175、乘法器160176至160187、乘法器160188至1601101、乘法器1601102至1601119和乘法器1601120至1601128。把独立的频谱增益分别传输到乘法器16010至160126。乘法器16010至1601K-1中的每一个把输入的已校正带噪语音频谱和输入的频谱增益相乘，并把结果输出到多路复用器1604。多路复用器1604对输入信号进行多路复用以输出增强语音幅度谱。
图7是示出本发明的第二实施例的方框图。与第一实施例中图2所示的配置不同的是偏移量消除器22。偏移量消除器22从加窗的带噪语音中消除偏移量，并输出结果。最简单的偏移量消除方案通过如下方式实现：计算每帧的带噪语音的平均值，将它假设为偏移量，并从该帧中的所有样本中减去该平均值。还可能在大量的帧上对各帧的平均值进行平均，从而确定该平均值为偏移量并减去该平均值。通过偏移量消除，能够提高接下来的傅立叶变换器的变换精度，从而提高输出的增强语音的语音品质。
图8是示出本发明的第三实施例的方框图。把带噪语音信号作为样本值序列提供给输入端11。该带噪语音信号样本提供给帧分频器1，并被分成每个均包括K/2个样本的帧。此处，假设K为偶数。把分成多帧的带噪语音信号样本提供给加窗处理器2，其中该信号乘以窗函数w(t)。下面的等式给出信号yn(t)bar，该信号通过第n帧的输入信号yn(t)(t＝0，1，…，K/2-1)被w(t)加窗而获得。
[Math 1]

{\overline{y}}_{n} (t) = w (t) y_{n} (t) - - - (1)

实践中广泛使用的还有，对两个连续的帧的部分进行交叠和加窗。当假设交叠长度是帧长的50％时，对于t＝0，1，…，K/2-1，yn(t)bar(t＝0，1，…，K/2-1)通过下述等式获得，并从加窗处理器2输出：
[Math 2]

{\overline{y}}_{n} (t) = w (t) y_{n - 1} (t + K / 2)

{\overline{y}}_{n} (t + K / 2) = w (t + K / 2) y_{n} (t) - - - (2)

对于实数信号，使用水平对称的窗函数。进一步的，设计该视窗函数以便当频谱增益设为1时输入信号和输出信号彼此对应而没有计算错误。这意味着w(t)+w(t+K/2)＝1。
以下描述一个示例，该示例参考通过对两个连续帧交叠百分之五十而执行加窗操作的情况。例如，对于w(t)，可使用下面等式表述的汉宁窗(Hanning window)。
[Math 3]

w (t) = \{\begin{matrix} 0.5 + 0.5 \cos (\frac{π (t - K / 2)}{K / 2}), & 0 \leq t < K \\ 0, & K \leq t \end{matrix} - - - (3)

除此之外，已知的还有多种窗函数，例如汉明窗(Hammingwindow)、凯瑟窗(Kaiser window)、布兰克曼窗(Blackman window)等等。把加窗输出yn(t)bar提供到偏移量消除器22，以消除偏移量。偏移量消除的细节与参考图7已经描述的一样。把消除偏移量后的信号提供给傅立叶变换器3，在那里该信号变换成带噪语音频谱Yn(k)。带噪语音频谱Yn(k)分成相位和幅度；带噪语音相位谱arg Yn(k)经过相位调节器19提供到逆傅立叶变换器9，带噪语音幅度谱|Yn(k)|经过幅度调节器18提供到多路复用乘法器13和多路复用乘法器16。相位调节器19和幅度调节器18的操作与参考图2已经描述的那些操作相同。
多路复用乘法器13基于经过幅度校正的带噪语音幅度谱而计算带噪语音功率谱，并将它传输到频带集成器53。频带集成器53部分地集成带噪语音功率谱，以便减少独立频率分量的数目，然后将结果传输到估计噪声计算器5、按频率分类SNR(信噪比)计算器6和加权带噪语音计算器14。频带集成器53的操作与参考图2已经描述的那些操作相同。加权带噪语音计算器14基于多路复用乘法器13提供的带噪语音功率谱计算加权带噪语音功率谱，并将结果传输到估计噪声计算器5。估计噪声计算器5基于带噪语音功率谱、加权带噪语音功率谱和计数器4的计数值来估计噪声的功率谱，并将结果作为估计噪声功率谱传输到按频率分类SNR计算器6。
按频率分类SNR(信噪比)计算器6基于输入的带噪语音功率谱和估计带噪语音功率谱计算各个频带的SNR，并将结果作为归纳SNR提供到估计先验SNR计算器7和频谱增益生成器8。
估计先验SNR计算器7基于输入的归纳SNR和频谱增益调节器15提供的校正的频谱增益来估计先验SNR，并将结果作为估计先验SNR传输到频谱增益生成器8。频谱增益生成器8接收归纳SNR、估计先验SNR和语音不存在概率存储器21提供的语音不存在概率作为其输入，基于这些输入生成频谱增益，并将结果作为频谱增益传输到频谱增益调节器15。
频谱增益调节器15使用输入的估计先验SNR和频谱增益来校正频谱增益，并将校正的频谱增益Gn(k)bar提供给多路复用乘法器161。多路复用乘法器161使用频谱增益调节器15提供的校正的频谱增益Gn(k)bar，对经过幅度调节器18从傅立叶变换器3提供的校正的带噪语音幅度谱进行加权，从而确定增强语音幅度谱|Xn(k)|bar，并将它们传输到逆傅立叶变换器9。|Xn(k)|bar通过下面等式表示。
[Math 4]

| {\overline{X}}_{n} (k) | = {\overline{G}}_{n} (k) H_{n} (k) | Y_{n} (k) | - - - (4)

此处，Hn(k)是幅度调节器18中的校正增益，具有可模拟高通滤波器17的幅频响应的特性。
逆傅立叶变换器9将多路复用乘法器161提供的增强语音幅度|Xn(k)|bar乘以傅立叶变换器3经相位调节器19提供的校正的带噪语音相位谱argYn(k)+argHn(k)，来确定增强语音Xn(k)bar。也就是说，执行公式
[Math5]

{\overline{X}}_{n} (k) = | {\overline{X}}_{n} (k) | \cdot {\arg Y_{n} (k) + \arg H_{n} (k)} - - - (5)

此处，argHn(k)是相位调节器19中校正的相位，具有可模拟高通滤波器17的相频响应的特性。
对所获得的Xn(k)bar进行逆傅立叶变换，以产生包括每帧K个样本xn(t)bar的时域样本序列(t＝0，1，…，K-1)，并将它输出到加窗处理器20，在加窗处理器20处与窗函数w(t)相乘。下面等式给出对于输入信号xn(t)(t＝0，1，…，K/2-1)由w(t)加窗的信号xn(t)bar。
[Math 6]

{\overline{x}}_{n} (t) = w (t) x_{n} (t) - - - (6)

实际中还得到广泛使用的是，对两个连续的帧部分交叠地加窗。如果假设交叠长度是帧长的50％，对于t＝0，1，…，K/2-1，
由以下等式获得的yn(t)bar(t＝0，1，…，K/2-1)从加窗处理器20输出并传输到帧合成器10。
[Math 7]

{\overline{x}}_{n} (t) = x (t) x_{n - 1} (t + K / 2) - - - (7)

{\overline{x}}_{n} (t + K / 2) = w (t + K / 2) x_{n} (t)

帧合成器10从xn(t)bar的每两个相邻帧中提取K/2个样本，并且通过以下等式获得增强语音xn(t)hut。
[Math 8]

{\hat{x}}_{n} (t) = {\overline{x}}_{n - 1} (t + K / 2) + {\overline{x}}_{n} (t) - - - (8)

所获得的增强语音xn(t)hut(t＝0，1，…，K/2-1)从帧合成器10输出，并传输到输出端12。
图9是示出图8中所示的多路复用乘法器13的配置的方框图。多路复用乘法器13包括乘法器13010到1301K-1、多路分解器1302和1303以及多路复用器1304。由图8中的幅度调节器18提供的多路复用的已校正带噪语音幅度谱被多路分解器1302和1303分成按频率分类的K个样本，并把分离的样本提供到乘法器13010到1301K-1中的每一个。乘法器13010到1301K-1对输入信号进行平方运算，并将结果传输到多路复用器1304。多路复用器1304对输入信号进行多路复用并将该多路复用信号作为带噪语音功率谱而输出。
图10是示出加权带噪语音计算器14的配置的方框图。加权带噪语音计算器14包括估计噪声存储器1401、按频率分类SNR计算器1402、多路复用非线性处理器1405和多路复用乘法器1404。估计噪声存储器1401存储由图8的估计噪声计算器5所提供的估计噪声功率谱，并向按频率分类SNR计算器1402输出一帧前存储的估计功率谱。基于估计噪声存储器1401提供的估计噪声功率谱和图8中频带集成器53提供的带噪语音功率谱，按频率分类SNR计算器1402确定各个频带的SNR，并将它们输出到多路复用非线性处理器1405。
基于按频率分类SNR计算器1402提供的SNR，多路复用非线性处理器1405计算加权系数向量并将该加权系数向量输出到多路复用乘法器1404。多路复用乘法器1404针对每个频带而计算图8中的频带集成器53提供的带噪语音功率谱与多路复用非线性处理器1405提供的加权系数向量的乘积，并向图8中的估计噪声存储器5输出加权带噪语音功率谱。多路复用乘法器1404的配置与参考图9描述的多路复用乘法器13的配置相同，因此省略其详细描述。
图11是示出图10中所示的按频率分类SNR计算器1402的配置的方框图。按频率分类SNR计算器1402包括除法器14210到1421M-1、多路分解器1422和1423以及多路复用器1424。把图8中的频带集成器53提供的带噪语音功率谱传输到多路分解器1422。把图10中的估计噪声存储器1401提供的估计噪声功率谱传输到多路分解器1423。带噪语音功率谱和估计噪声功率谱分别被多路分解器1422和多路分解器1423分成与各个频率分量相对应的M个样本，并将这些样本提供给相应的除法器14210到1421M-1。这些M个样本与子频带相对应，其每一个都由频带集成器53中集成的频率分量组成。在除法器14210到1421M-1中，根据下面公式把所提供的带噪语音功率谱除以估计噪声功率谱，以确定按频率分类SNR γn(k)hut，该γn(k)hut传输到多路复用器1424。
[Math 9]

{\hat{γ}}_{n} (k) = \frac{{| Y_{n} (k) |}^{2}}{λ_{n - 1} (k)} - - - (9)

此处，λn-1(k)是前一帧的估计噪声功率谱。多路复用器1424对所传输的M个按频率分类SNR进行多路复用，并将结果传输到图10中的多路复用非线性处理器1405。
下面参考图12，将详细描述图10的多路复用非线性处理器1405的配置和操作。图12是示出包括在加权带噪语音计算器14中的多路复用非线性处理器1405的配置的方框图。多路复用非线性处理器1405包括多路分解器1495、非线性处理器14850到1485M-1和多路复用器1475。多路分解器1495把图10中的按频率分类SNR计算器1402提供的SNR分离成按频带分类SNR，并将它们传输到非线性处理器14850到1485M-1。非线性处理器14850到1485M-1中每一个都具有非线性函数，该非线性函数根据输入值输出实数值。
图13示出了非线性函数的示例。当f1为输入值时，图13中所示非线性函数的输出值f2由以下等式给出：
[Math 10]

f_{2} = \{\begin{matrix} 1, & f_{1} \leq a \\ \frac{f_{1} - b}{a - b}, & a < f_{1} \leq b \\ 0, & b < f_{1} \end{matrix} - - - (10)

此处，a和b是任意实数。
在图12的非线性处理器14850到1485M-1的每一个中，多路分解器1495提供的按频带分类SNR由非线性函数处理，以确定加权系数，并将结果输出到多路复用器1475。也就是说，非线性处理器14850到1485M-1中的每一个根据SNR而输出范围在1到0之间的加权系数。当SNR较低时，输出1，而当SNR较高时，输出0。多路复用器1475对非线性处理器14850到1485M-1输出的加权系数进行多路复用，并将结果作为加权系数向量输出到多路复用乘法器1404。
图10中多路复用乘法器1404使用的、用于和带噪语音功率谱相乘的加权系数与SNR相对应地进行取值；SNR越大，即，包含在带噪语音中的语音分量越大，则加权系数的值越小。在更新估计噪声时，一般使用带噪语音功率谱。然而，当用于更新估计噪声的带噪语音功率谱根据SNR被加权时，能够减少包含在带噪语音功率谱中的语音分量的影响，从而实现更高精度的噪声估计。此处，尽管示出的是使用非线性函数计算加权系数的示例，除了非线性函数，也可使用由其他形式表现的SNR函数，诸如线性函数、高次多项式等等。
图14是示出图8所示的估计语音噪声计算器5的配置的方框图。噪声估计计算器5包括多路分解器501、502、多路复用器503和按频率分类估计噪声计算器5040到504M-1。多路分解器501把图8中的加权带噪语音计算器14提供的加权带噪语音功率谱分离成按频带分类的加权带噪语音功率谱，并将它们提供到按频率分类估计噪声计算器5040到504M-1中的每一个。多路分解器502把图8中的频带集成器53提供的带噪语音功率谱分离成按频带分类的带噪语音功率谱，并将它们提供到按频率分类估计噪声计算器5040到504M-1中的每一个。
按频率分类估计噪声计算器5040到504M-1根据多路分解器501提供的按频带分类的加权带噪语音功率谱、多路分解器502提供的按频带分类的带噪语音功率谱和图8中的计数器4提供的计数值而计算按频率分类估计噪声功率谱，并将它们输出到多路复用器503。多路复用器503对按频率分类估计噪声计算器5040到504M-1提供的按频率分类估计噪声功率谱进行多路复用，并将估计噪声功率谱输出到图8中的按频率分类SNR计算器6和加权带噪语音计算器14。将参考图15详细描述按频率分类估计噪声计算器5040到504M-1的配置和操作。
图15是示出图14中所示的按频率分类估计噪声计算器5040到504M-1的配置的方框图。按频率分类估计噪声计算器504包括更新控制器520、寄存器长度存储器5041、估计噪声存储器5042、开关5044、移位寄存器5045、加法器5046、最小值选择器5047、除法器5048和计数器5049。向开关5044提供来自图14的多路分解器501的按频率分类加权带噪语音功率谱。当开关5044闭合时，按频率分类加权带噪语音功率谱传输到移位寄存器5045。根据更新控制器520提供的控制信号，移位寄存器5045将内部寄存器中存储的值移到相邻的寄存器。移位寄存器长度等于存储在寄存器长度存储器5041中的值，该寄存器长度存储器5041在后文描述。移位寄存器5045的所有寄存器输出均提供到加法器5046。加法器5046将所有提供的寄存器输出进行相加，并将结果传输到除法器5048。
另一方面，向更新控制器520提供计数值、按频率分类带噪语音功率谱和按频率分类估计噪声功率谱。更新控制器520持续输出“1”，直到计数值达到预先设定的值。到达预先设定的值之后，当输入的带噪语音信号被确定为噪声时更新控制器520输出“1”，否则输出“0”，并将结果传输到计数器5049、开关5044和移位寄存器5045。当更新控制器520提供的信号为“1”和“0”时，开关5044分别闭合(close)和打开(open)电路。当更新控制器520提供的信号为“1”时，计数器5049增加计数值，当所提供的信号为“0”时，不改变计数值。当更新控制器520提供的信号为“1”时，移位寄存器5045选取开关5044提供的信号样本中的一个样本，同时将内部寄存器中存储的值移到相邻的寄存器。计数器5049的输出和寄存器长度存储器5041的输出提供给最小值选择器5047。
最小值选择器5047从所提供的计数值和寄存器长度中选择较小的一种形式，并将它传输到除法器5048。除法器5048把加法器5046提供的按频率分类带噪语音功率谱的和除以计数值和寄存器长度中较小的一种形式，并将商作为按频率分类估计噪声功率谱λn(k)而输出。当假设Bn(k)(n＝0，1，…，N-1)为存储在移位寄存器5045中的带噪语音功率谱的样本值时，根据如下等式给出λn(k)：
[Math 11]

λ_{n} (k) = \frac{1}{N} Σ_{n = 0}^{N - 1} B_{n} (k) - - - (11)

此处，N为计数值和寄存器长度之间的较小值。由于计数值从0开始单调增加，开始时采用计数值执行除法，然后采用寄存器长度执行除法。通过除以寄存器长度来确定移位寄存器中存储的值的平均值。由于移位寄存器5045中没有存储很多值，所以利用实际已存储有值的寄存器的数目执行除法。当计数值小于寄存器长度时，实际已存储有值的寄存器的数目等于计数值，当计数值大于寄存器长度时，实际已存储有值的寄存器的数目等于寄存器长度。
图16是示出图15中所示的更新控制器520的配置的方框图。更新控制器520包括逻辑和计算器5201、比较器5203和5205、阈值存储器5204和5206以及阈值计算器5207。把图8中的计数器4提供的计数值传输到比较器5203。还把作为阈值存储器5204的输出的阈值传输到比较器5203。比较器5203在所提供的计数值和阈值之间进行比较，并且，当计数值小于阈值和大于阈值时，分别将“1”和“0”传输到逻辑和计算器5201。另一方面，阈值计算器5207计算与图15中的估计噪声存储器5042所提供的按频率分类估计噪声功率谱相对应的值，并把它作为阈值输出到阈值存储器5206。
计算阈值最简单的方法是把按频率分类估计噪声功率谱乘以常量。除此之外，还可以使用高次多项式或非线性函数计算阈值。阈值存储器5206存储阈值计算器5207输出的阈值，并将前一帧存储的阈值输出到比较器5205。比较器5205对阈值存储器5206提供的阈值和图14的多路分解器502提供的按频率分类带噪语音功率谱进行比较，并且，当按频率分类带噪语音功率谱小于和大于阈值时，分别向逻辑和计算器5201输出“1”和“0”。简言之，基于估计噪声功率谱的大小来确定带噪语音信号是否为噪声。逻辑和计算器5201计算比较器5203的输出值和比较器5205的输出值之间的逻辑和，并将计算的结果输出到图15中的开关5044、移位寄存器5045和计数器5049。
这样，更新控制器520不仅在初始状态和静音阶段输出“1”，而且即使在非静音阶段当带噪语音功率较低时也输出“1”。也就是说，估计噪声得以更新。由于针对每个频率而计算阈值，所以能够针对每个频率更新估计噪声。
图17是示出图8中所示的估计先验SNR计算器7的配置的方框图。估计先验SNR计算器7包括多路复用值范围限制处理器701、归纳SNR存储器702、频谱增益存储器703、多路复用乘法器704和705、加权存储器706、多路复用加权累加器707和加法器708。把图8中的按频率分类SNR计算器6所提供的归纳SNR γn(k)(k＝0，1，…，M-1)传输到归纳SNR存储器702和加法器708。归纳SNR存储器702存储第n帧中的归纳SNRγ(k)，并将第(n-1)帧中的归纳SNRγn-1(k)传输到多路复用乘法器705。
把图8中的频谱增益调节器15提供的已校正频谱增益Gn(k)bar(k＝0，1，…，M-1)传输到频谱增益存储器703。频谱增益存储器703存储第n帧中的已校正频谱增益Gn(k)bar，并将第(n-1)帧中的已校正频谱增益Gn-1(k)bar传输到多路复用乘法器704。多路复用乘法器704对所提供的Gn(k)bar进行平方，以确定G2n-1(k)bar，并将它传输到多路复用乘法器705。多路复用乘法器705针对K-0，1，…，M-1把G2n-1(k)bar和γn-1(k)相乘，以确定G2n-1(k)bar·γn-1(k)，并将结果作为过去估计SNR 922传输到多路复用加权累加器707。多路复用乘法器704和705的配置与参考图9已经描述的多路复用乘法器13的配置相同，因此省略其详细描述。
向加法器708的另一端提供-1，把相加的结果γn(k)-1传输到多路复用限幅器701。多路复用限幅器701利用值范围限制操作符p[·]，对加法器708提供的相加结果γn(k)-1执行操作，并将结果P[γn(k)-1]作为临时估计SNR 921传输到加法器707。此处，P[x]由下面等式定义。
[Math 12]

P [x] = \{\begin{matrix} x, & x > 0 \\ 0, & x \leq 0 \end{matrix} - - - (12)

还把来自加权存储器703的权重923提供给多路复用加权累加器707。多路复用加权累加器707基于所提供的临时估计SNR 921、过去SNR 922和权重923来确定估计先验SNR 924。当权重923表示为α而估计先验SNR表示为ζn(k)hut时，ζn(k)hut由下面等式来计算。
[Math 13]

{\hat{ξ}}_{n} (k) = α γ_{n - 1} (k) {\overline{G}}^{2}_{n - 1} (k) + (1 - α) P [γ_{n} (k) - 1] - - - (13)

此处，G2-1(k)γ-1(k)bar＝1
图18是示出图17中所示的多路复用限幅器701的配置的方框图。多路复用限幅器701包括常量值存储器7011、最大值选择器70120到7012M-1、多路分解器7013和多路复用器7014。把γn(k)-1从图17中的加法器708提供到多路分解器7013。多路分配器7013将所提供的γn(k)-1分成M个按频带分类的分量，并将它们提供到最大值选择器70120到7012M-1。把来自常量值存储器7011中的0提供给最大值选择器70120到7012M-1的其他输入。最大值选择器70120到7012M-1对γn(k)-1和0进行比较，并将较大值提供给多路复用器7014。该最大值选择操作与前述公式12的执行相对应。多路复用器7014对这些值进行多路复用并输出结果。
图19是示出包括在图17中的多路复用加权累加器707的配置的方框图。多路复用加权累加器707包括加权加法器70710到7071M-1、多路分解器7072、7074和多路复用器7075。把来自图17中的多路复用限幅器701的P[γn(k)-1]作为临时估计SNR提供给多路分解器7072。多路分解器7072将P[γn(k)-1]分成M个按频带分类的分量，并将它们作为按频带分类的临时估计SNR9210到921M-1而传输到加权加法器70710到7071M-1。把来自图17中的多路复用乘法器705的G2n-1(k)barγn-1(k)作为过去估计SNR 922提供给多路分解器7074。多路分解器7074将G2n-1(k)barγn-1(k)分成M个按频带分类的分量，并将它们作为过去按频带分类估计SNR 9220到922M-1而传输到加权加法器70710到7071M-1。另一方面，还向加权加法器70710到7071M-1提供权重923。加权加法器70710到7071M-1执行前述公式13表示的加权相加，并将按频带分类的估计先验SNR 9240到924M-1传输到多路复用器7075。多路复用器7075对按频带分类的估计先验SNR 9240到924M-1进行多路复用并将结果作为估计先验SNR 924而输出。下面将参考图20描述加权加法器70710到7071M-1的操作和配置。
图20是示出图19中所示的加权加法器70710到7071M-1的配置的方框图。加权加法器7071包括乘法器7091和7093、常量乘法器7095、加法器7092和7094。提供来自图19中的多路分解器7072的按频带分类临时估计SNR 921、来自图19中的多路分解器7074的过去按频带分类SNR 922和来自图17中的加权存储器706的加权923作为输入。把具有值为α的权重923传输到常量乘法器7095和乘法器7093。常量乘法器7095将输入信号乘以-1并将所获得的-α传输到加法器7094。向加法器7094的其它输入提供1，从而加法器7094输出和，即1-α。把这个输出1-α提供到乘法器7091，并在那里与另一个输入相乘，即，与按频带分类临时估计SNR P[γn(k)-1]相乘。把所产生的乘积(1-α)P[γn(k)-1]传输到加法器7092。另一方面，在乘法器7093中，作为权重923而提供的α乘以过去估计SNR 922，把所产生的乘积αG2n-1(k)barγn-1(k)传输到加法器7092。加法器7092输出(1-α)P[γn(k)-1]与αG2n-1(k)barγn-1(k)的和，作为按频带分类估计先验SNR 904。
图21是示出图8中所示的频谱增益生成器8的配置的方框图。频谱增益生成器8包括MMSE STSA增益函数值计算器811、一般似然比计算器812和频谱增益计算器814。下面，基于非专利文献2(IEEETRANSACTIONSON ACOUSTICS，SPEECH，AND SIGNALPROCESSING，VOL.32，NO.6，第1109-1121页，1984年12月)中描述的公式来描述计算频谱增益的方法。
假设帧数为n，频率数为k，γn(k)表示图8中的按频率分类SNR计算器6所提供的按频率分类归纳SNR，ζn(k)hut表示图8中的估计先验SNR计算器7所提供的按频率分类估计先验SNR，而q表示图8中的语音不存在概率存储器21所提供的语音不存在概率。还假设
ηn(k)＝ξn(k)hut/(1-q)
vn(k)＝(ηn(k)γn(k))/(1+ηn(k))。
基于图8中的按频率分类SNR计算器6所提供的归纳SNR γn(k)、图8中的估计先验SNR计算器7所提供的估计先验SNRζn(k)hut和图8中的语音不存在概率存储器21所提供的语音不存在概率q，MMSESTSA增益函数值计算器811计算每个频带的MMSE STSA增益函数值，并将它输出到频谱增益计算器814。每个频带的MMSE STSA增益函数值Gn(k)由下述公式给出
[Math 14]

G_{n} (k) = \frac{\sqrt{π}}{2} \frac{\sqrt{v_{n} (k)}}{γ_{n} (k)} \exp (- \frac{v_{n} (k)}{2}) [(1 + v_{n} (k)) I_{0} (\frac{v_{n} (k)}{2}) + v_{n} (k) I_{1} (\frac{v_{n} (k)}{2})] - - - (14)

此处，I0(z)是0阶修正贝塞耳(Bessel)函数而I1(z)是一阶修正贝塞耳函数。在非专利文献3(Iwanami Shoten，Sugakujiten，1985，第374G页)中可找到修正贝塞耳函数的参考。
基于图8中的按频率分类SNR计算器6所提供的归纳SNR γn(k)、图8中的估计先验SNR计算器7所提供的估计先验SNRζn(k)hut和图8中的语音不存在概率存储器21所提供的语音不存在概率q，一般似然比计算器812计算每个频带的一般似然比，并将它输出到频谱增益计算器814。各个频带的一般似然比Λn(k)由下述公式给出：
[Math 15]

Λ_{n} (k) = \frac{1 - q}{q} \frac{\exp (v_{n} (k))}{1 + η_{n} (k)} - - - (15)

频谱增益计算器814根据MMSE STSA增益函数值计算器811提供的MMSE STSA增益函数值Gn(k)和一般似然比计算器812提供的一般似然比Λn(k)，计算每个频率的频谱增益，并将结果输出到图8中的频谱增益调节器15。各个频带的频谱增益Gn(k)bar由下述公式给出：
[Math 16]

{\overline{G}}_{n} (k) = \frac{Λ_{n} (k)}{Λ_{n} (k) + 1} G_{n} (k) - - - (16)

除了计算各个频带的SNR，还可以确定包括多个频带的加宽频带的公共SNR，并使用该SNR。
图22是示出图8中所示的频谱增益调节器15的配置的方框图。频谱增益调节器15包括按频率分类频谱增益调节器15010到1501M-1、多路分解器1502和1503以及多路复用器1504。多路分解器1502将图8中的估计先验SNR计算器7所提供的估计先验SNR分成按频带分类的分量，并将它们输出到各个按频率分类频谱增益调节器15010到1501M-1。多路分解器1503将图8中的频谱增益生成器8所提供的频谱增益分成按频带分类的分量，并将它们输出到各个按频率分类频谱增益调节器15010到1501M-1。按频率分类频谱增益调节器15010到1501M-1根据多路分解器1502提供的按频带分类估计先验SNR和多路分解器1503提供的按频带分类频谱增益，计算按频带分类已校正频谱增益，并将它们输出到多路复用器1504。多路复用器1504对按频率分类频谱增益调节器15010到1501M-1提供的按频带分类已校正频谱增益进行多路复用，并将它们作为已校正频谱增益输出到图8中的多路复用乘法器16和估计先验SNR计算器7。
下面参考图23，将详细描述按频率分类频谱增益调节器15010到1501M-1的配置和操作。
图23是示出包括在频谱增益调节器15中的按频率分类频谱增益调节器15010到1501M-1的配置的方框图。按频率分类频谱增益调节器1501包括最大值选择器1591、最小频谱增益存储器1592、阈值存储器1593、比较器1594、开关1595、修改值存储器1596和乘法器1597。比较器1594在阈值存储器1593提供的阈值和图22中的多路分解器1502提供的按频带分类估计先验SNR之间进行比较，并且，当按频带分类估计先验SNR大于和小于阈值时，分别向开关1595提供“0”和“1”。当比较器1594的输出值为“1”时，开关1595将图22中的多路分解器1503所提供的按频带分类估计先验SNR输出到乘法器1597，而当比较器1594的输出值为“0”时输出到最大值选择器1591。更清楚地说，当按频带分类估计先验SNR小于阈值时，对频谱增益进行校正。乘法器1597计算开关1595的输出值和修改值存储器1596的输出值的乘积，并将该乘积传输到最大值选择器1591。
另一方面，最小频谱增益存储器1592把存储的频谱增益的下限提供给最大值选择器1591。最大值选择器1591对图22中的多路分解器1503提供的按频带分类频谱增益或乘法器1597计算的乘积与最小频谱增益存储器1592提供的最小频谱增益进行比较，并向图22中的多路复用器1504输出较大值。也就是说，频谱增益必须取比存储在最小频谱增益存储器1592中的下限更大的值。
尽管在至此描述的所有实施例中，已经假设最小均方误差短周期频谱幅度方法作为用于抑制噪声的方案，但是还可应用其它方法。这些方法的例子包括：非专利文献4(PROCEEDINGS OF THEIEEE，VOL.67，NO.12，第1586-1604页，1979年12月)中公开的维纳滤波方法、非专利文献5(IEEETRANSACTIONS ONACOUSTICS，SPEECH，AND SIGNAL PROCESSING，VOL.27，NO.2，第113-129页，1979年4月)中公开的谱析(spectraubtracting)方法。然而，在此省略这些详细配置示例的描述。
前述每个实施例的噪声抑制装置可由计算机装置来配置，该计算机装置包括用于存储程序的存储设备、装备有输入键和开关的控制部分、诸如LCD等的显示设备和从控制部分接收输入并控制每一个部分的操作的控制设备。前述每个实施例的噪声抑制装置的操作可以通过使控制设备执行存储器中存储的程序来实现。该程序可预先存储于存储器中，或写入CD-ROM或其他用户选择的存储介质。还可以通过网络提供该程序。

抑制噪声的方法及装置转让专利

申请号 : CN200680001539.2

文献号 : CN101091209B

文献日 : 2010-06-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 杉山昭彦 , 加藤正德

申请人 : 日本电气株式会社

摘要 :

权利要求 :

说明书 :

技术领域

背景技术

发明内容

附图说明

具体实施方式