噪声抑制方法和设备转让专利

申请号 : CN200610087675.X

文献号 : CN1892822B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 加藤正德杉山昭彦

申请人 : 日本电气株式会社

摘要 :

在用于抑制包含在语音信号中的噪声的噪声抑制设备中,将语音信号转换为谱语音分量的第一矢量和与第一矢量相同的谱语音分量的第二矢量。根据第一矢量谱语音分量,确定噪声抑制系数的矢量。根据所述第一矢量谱语音分量,确定估计噪声分量的矢量,并根据估计噪声分量和第一矢量谱语音分量,计算语音部分校正因子和非语音部分校正因子,以产生组合校正因子。以组合校正因子对噪声抑制系数进行加权,以产生在后抑制系数的矢量。以在后抑制系数对第二矢量谱语音分量进行加权,以产生增强语音分量的矢量。

权利要求 :

1.一种抑制语音信号中的噪声的方法,包括:

a)将语音信号转换为频谱语音分量(|Yn|)的第一矢量和与所述第一矢量频谱语音分量相同的频谱语音分量(|Yn|)的第二矢量;

b)根据所述第一矢量频谱语音分量(|Yn|),确定噪声抑制系数的矢量;

c)根据所述第一矢量频谱语音分量(|Yn|),确定语音对噪声关系(p);

d)根据所确定的语音对噪声关系(p)、所述第一矢量频谱语音分量和所述噪声抑制系数确定在后抑制系数的矢量;以及e)以所述在后抑制系数的矢量对所述第二矢量频谱语音分量(|Yn|)进行加权。

2.根据权利要求1所述的方法,其特征在于(d)包括:根据所述第一矢量频谱语音分量(|Yn|),确定第一校正因子(FU),并根据所述第一校正因子(FU)和预定第二校正因子(FV),计算所述在后抑制系数的矢量,组合所述第一和第二校正因子,以产生组合校正因子(F),以及以所述组合校正因子(F)对所述噪声抑制系数的矢量进行加权,以确定所述在后抑制系数的矢量。

3.根据权利要求2所述的方法,其特征在于(d)包括:以所述噪声抑制系数对所述第一矢量频谱语音分量(|Yn|)进行加权以便产生增强语音幅度谱分量的矢量,以及利用增强语音幅度谱分量的矢量来确定所述第一校正因子(FU)。

4.根据权利要求2或3所述的方法,其特征在于还包括:根据所述第一矢量频谱语音分量(|Yn|),估计频谱噪声分量(λn)的矢量;以及(d)包括:利用估计频谱噪声分量(λn)的矢量来确定所述第一校正因子(FU)。

5.根据权利要求2所述的方法,其特征在于(d)包括:根据所述第一矢量频谱语音分量(|Yn|),确定所述第二校正因子(FV),以及利用所述第一和第二校正因子(FU,FV)来确定所述在后抑制系数的矢量。

6.根据权利要求2所述的方法,其特征在于(d)包括:根据所确定的语音对噪声关系(p),组合所述第一和第二校正因子(FU,FV),以产生所述组合校正因子(F)。

7.根据权利要求6所述的方法,其特征在于(d)包括:根据pFV+(1-p)FU来组合所述第一校正因子和所述第二校正因子,其中p表示所述语音对噪声关系,以及FU和FV分别表示所述第一校正因子和所述第二校正因子。

8.根据权利要求1所述的方法,其特征在于所述语音对噪声关系表示所述第一矢量频谱语音分量中语音部分出现的概率。

9.根据权利要求4所述的方法,其特征在于(c)包括:利用所述噪声抑制系数的矢量对所述第一矢量频谱语音分量(|Yn|)进行加权,以便产生增强语音幅度谱分量的矢量;

对所述增强语音幅度谱分量的矢量进行平方;

平均平方后的增强语音幅度谱分量的矢量,以产生语音功率平均值;

平均估计频谱噪声分量(λn),以产生噪声功率平均值;

根据第一和第二平滑因子,平滑语音功率平均值,以产生第一平滑语音功率平均值和第二平滑语音功率平均值;

根据所述噪声功率平均值,产生第一函数值和第二函数值;

根据所述第一平滑语音功率平均值,从所述第一函数值中产生第一索引,以及根据所述第二平滑语音功率平均值,从所述第二函数值中产生第二索引;以及对所述第一和第二索引求和,以产生表示所述语音对噪声关系的输出信号。

10.根据权利要求1所述的方法,其特征在于(d)包括:根据所述语音对噪声关系(p)确定噪声抑制系数的多个下限值;将所述噪声抑制系数的矢量与所述噪声抑制系数的所述下限值进行比较;以及根据比较结果,利用所述噪声抑制系数的所述多个下限值来确定所述在后抑制系数的矢量。

11.根据权利要求10所述的方法,其特征在于(d)包括:还根据第一校正因子下限值(NCLL)和第二校正因子下限值(SCLL)来确定所述噪声抑制系数的多个下限值。

12.根据权利要求11所述的方法,其特征在于(d)包括:根据所述语音对噪声关系(p),确定所述第一校正因子下限值(NCLL)和所述第二校正因子下限值(SCLL)。

13.根据权利要求1所述的方法,其特征在于还包括:

根据所述第一矢量频谱语音分量(|Yn|)来估计频谱噪声分量(λn)的矢量;以及利用所述频谱语音分量(|Yn|)的第一矢量和所述噪声抑制系数的矢量来确定增强语音幅度谱分量的矢量,其中(c)包括根据估计的频谱噪声分量(λn)的矢量和增强语音幅度谱分量的矢量来确定所述语音对噪声关系(p)。

14.根据权利要求1到13任一个所述的方法,其特征在于(d)包括确定所述在后抑制系数的矢量,从而当所述语音对噪声关系指示在所述第一矢量频谱语音分量(|Yn|)中语音部分出现的高概率时,噪声抑制较低。

15.一种抑制语音信号中的噪声的方法,包括:

a)将语音信号转换为频谱语音分量(|Yn|)的第一矢量和与所述第一矢量频谱语音分量相同的频谱语音分量的第二矢量;

b)根据所述第一矢量频谱语音分量(|Yn|)来估计频谱噪声分量(λn)的矢量;

c)利用所述第一矢量频谱语音分量(|Yn|)、估计的频谱噪声分量(λn)的矢量和噪声抑制系数的矢量来计算信号噪声比;

d)根据所述信号噪声比来确定所述噪声抑制系数的矢量;

e)利用所述信号噪声比和所述噪声抑制系数的矢量来校正所述噪声抑制系数的矢量;以及f)以校正后的噪声抑制系数的矢量对所述频谱语音分量(|Yn|)的第二矢量进行加权。

16.根据权利要求15所述的方法,其特征在于还包括:根据估计的频谱噪声分量(λn)的矢量、所述噪声抑制系数的矢量和所述第一矢量频谱语音分量(|Yn|),确定语音对噪声关系(p),以及(d)包括:确定所述噪声抑制系数的下限值的矢量,并且选择所述下限值的矢量和所述噪声抑制系数的矢量中较大的一个作为所述校正后的噪声抑制系数。

17.根据权利要求16所述的方法,其特征在于所述语音对噪声关系表示所述第一矢量频谱语音分量(|Yn|)中语音部分出现的概率。

18.根据权利要求15所述的方法,其特征在于(e)包括:

e1)根据所述第一矢量频谱语音分量(|Yn|)、估计的频谱噪声分量(λn)的矢量、所述噪声抑制系数的矢量来确定语音功率估计的矢量;

e2)利用估计的频谱噪声分量(λn)的矢量和所述语音功率估计的矢量来计算第一部分校正因子(FU)的矢量;

e3)将第一部分校正因子(FU)的矢量与第二部分校正因子(FV)的矢量进行组合来产生组合校正因子(F)的矢量;以及e4)利用所述组合校正因子(F)的矢量来校正所述噪声抑制系数的矢量。

19.根据权利要求18所述的方法,其特征在于(e3)包括:根据pFV+(1-p)FU来组合所述第一校正因子和所述第二校正因子,其中p表示所述语音对噪声关系,以及FU和FV分别表示所述第一校正因子和所述第二校正因子。

20.一种用于抑制语音信号中的噪声的设备,包括:

转换器(2),将语音信号转换为频谱语音分量(|Yn|)的第一矢量和与所述第一矢量频谱语音分量(|Yn|)相同的频谱语音分量的第二矢量;

噪声抑制系数计算器(8),根据所述第一矢量频谱语音分量,确定噪声抑制系数的矢量;

语音对噪声关系计算器(24;710),根据所述第一矢量频谱语音分量(|Yn|)和所述噪声抑制系数的矢量,确定语音对噪声关系(p);

在后抑制系数计算器(25),根据所述语音对噪声关系(p)、所述第一矢量频谱语音分量(|Yn|)和所述噪声抑制系数的矢量,确定在后抑制系数的矢量;以及加权电路(26),以所述在后抑制系数的矢量对所述频谱语音分量(|Yn|)的第二矢量进行加权。

21.根据权利要求20所述的设备,其特征在于所述在后抑制系数计算器(25)根据所述第一矢量频谱语音分量(|Yn|),确定第一校正因子(FU),并根据所述第一校正因子(FU)和预定第二校正因子(FV),计算所述在后抑制系数,组合第一和第二校正因子,以产生组合校正因子(F);以及利用所述组合校正因子(F)对所述噪声抑制系数的矢量进行加权以确定所述在后抑制系数的矢量。

22.根据权利要求21所述的设备,其特征在于还包括:另一加权电路(10),以来自所述噪声抑制系数计算器(8)的所述噪声抑制系数的矢量对所述第一矢量频谱语音分量(|Yn|)进行加权以产生增强语音幅度谱分量的矢量,以及所述在后抑制系数计算器(25)利用所述增强语音幅度谱分量的矢量来确定所述第一校正因子(FU)。

23.根据权利要求21或22所述的设备,其特征在于还包括:噪声估计电路(5),根据所述频谱语音分量(|Yn|)的第一矢量,估计频谱噪声分量(λn)的矢量;以及所述在后抑制系数计算器(25)利用估计频谱噪声分量(λn)来确定所述第一校正因子(FU)。

24.根据权利要求21所述的设备,其特征在于所述在后抑制系数计算器(25)根据所述第一矢量频谱语音分量(|Yn|),确定所述第二校正因子(FV),以及利用所述第一和第二校正因子(FU,FV)来确定所述在后抑制系数的矢量。

25.根据权利要求21所述的设备,其特征在于所述在后抑制系数计算器(25)包括组合电路(251),根据所确定的语音对噪声关系(p),组合所述第一和第二校正因子(FU,FV)。

26.根据权利要求25所述的设备,其特征在于所述组合电路(251)根据pFV+(1-p)FU来组合所述第一校正因子和所述第二校正因子,其中p表示所述语音对噪声关系,以及FU和FV分别表示所述第一校正因子和所述第二校正因子。

27.根据权利要求20所述的设备,其特征在于所述语音对噪声关系表示所述频谱语音分量的第一矢量中语音部分出现的概率。

28.根据权利要求24所述的设备,其特征在于还包括:另一加权电路(10),利用所述噪声抑制系数的矢量对所述第一矢量频谱语音分量(|Yn|)进行加权,以便产生增强语音幅度谱分量的矢量;平方电路(21),对所述增强语音幅度谱分量的矢量进行平方;第一平均电路(22),平均平方后的增强语音幅度谱分量的矢量,以产生语音功率平均值;以及第二平均电路(23),平均估计频谱噪声分量(λn),以产生噪声功率平均值,以及语音对噪声关系计算器(24)包括:一对平滑电路(242a、242b),分别根据第一和第二平滑因子,平滑语音功率平均值,以产生第一平滑语音功率平均值和第二平滑语音功率平均值;

第一和第二函数值计算器(245a、245b),根据噪声功率平均值,产生第一函数值和第二函数值;

第一和第二索引计算器(246a、246b),根据所述第一平滑语音功率平均值,从所述第一函数值中产生第一索引,以及根据所述第二平滑语音功率平均值,从所述第二函数值中产生第二索引;以及加法器(247),对所述第一和第二索引求和,以产生表示所述语音对噪声关系的输出信号。

29.根据权利要求20所述的设备,其特征在于所述在后抑制系数计算器(25B)根据所述语音对噪声关系(p)确定噪声抑制系数的多个下限值;将所述噪声抑制系数的矢量与所述噪声抑制系数的所述下限值进行比较;以及根据比较结果,利用所述噪声抑制系数的所述多个下限值来确定所述后抑制系数的矢量。

30.根据权利要求29所述的设备,其特征在于所述在后抑制系数计算器(25B)根据第一校正因子下限值(NCLL)和第二校正因子下限值(SCLL)来确定所述噪声抑制系数的多个下限值。

31.根据权利要求30所述的设备,其特征在于所述在后抑制系数计算器(25B)根据所述语音对噪声关系(p),确定所述第一校正因子下限值(NCLL)和所述第二校正因子下限值(SCLL)。

32.根据权利要求20所述的设备,其特征在于还包括:

根据所述第一矢量频谱语音分量(|Yn|)来估计频谱噪声分量(λn)的矢量的装置;以及利用所述第一矢量频谱语音分量(|Yn|)和所述噪声抑制系数的矢量来确定增强语音幅度谱分量的矢量的装置,其中所述语音对噪声关系计算器(24)包括根据估计的频谱噪声分量(λn)的矢量和增强语音幅度谱分量的矢量来确定所述语音对噪声关系(p)的装置。

33.根据权利要求20到32任一个所述的设备,其特征在于所述在后抑制系数计算器(25)包括:确定所述后抑制系数的矢量的装置,从而当所述语音对噪声关系指示在所述第一矢量频谱语音分量(|Yn|)中语音部分出现的高概率时,噪声抑制较低。

34.一种用于抑制语音信号中的噪声的设备,包括:

转换器(2),将语音信号转换为频谱语音分量(|Yn|)的第一矢量和与所述第一矢量频谱语音分量(|Yn|)相同的频谱语音分量)的第二矢量;

噪声估计器(5),根据所述第一矢量频谱语音分量(|Yn|)来估计频谱噪声分量(λn)的矢量;

信号噪声比计算器(6,7A;7B),利用所述第一矢量频谱语音分量(|Yn|)、估计的频谱噪声分量(λn)的矢量和噪声抑制系数的矢量来计算信号噪声比;

噪声抑制系数计算器(8),根据所述信号噪声比来确定噪声抑制系数的矢量;

抑制系数校正器(9A;9B),利用所述信号噪声比来校正所述噪声抑制系数的矢量;以及加权电路(10),以校正后的噪声抑制系数的矢量对所述频谱语音分量(|Yn|)的第二矢量进行加权。

35.根据权利要求34所述的设备,其特征在于所述信号噪声比计算器(7A)包括:语音对噪声关系计算器(710),根据估计的频谱噪声分量(λn)的矢量、所述噪声抑制系数的矢量和频谱语音分量(|Yn|)的第一矢量,确定语音对噪声关系(p),以及所述抑制系数校正器(9A)根据所述语音对噪声关系(p),确定所述噪声抑制系数的下限值的矢量,并且选择所述下限值的矢量和所述噪声抑制系数的矢量中较大的一个作为所述校正后的噪声抑制系数

36.根据权利要求34所述的设备,其特征在于所述语音对噪声关系表示频谱语音分量的所述第一矢量中语音部分出现的概率。

37.根据权利要求34所述的设备,其特征在于所述信号噪声比计算器(6,7B)根据所述第一矢量频谱语音分量(|Yn|)、估计的频谱噪声分量(λn)的矢量、所述噪声抑制系数的矢量来确定语音功率估计的矢量;

其中所述抑制系数校正器(9B)利用估计的频谱噪声分量(λn)的矢量和所述语音功率估计的矢量来计算第一部分校正因子(FU)的矢量;将第一部分校正因子(FU)的矢量与第二部分校正因子(FV)的矢量进行组合来产生组合校正因子(F)的矢量;以及利用所述组合校正因子(F)的矢量来校正所述噪声抑制系数的矢量。

38.根据权利要求37所述的设备,其特征在于所述抑制系数校正器(9B)根据pFV+(1-p)FU来组合第一校正因子(FU)的所述矢量和第二校正因子(FV)的所述矢量,其中p表示所述语音对噪声关系,以及FU和FV分别表示所述第一校正因子和所述第二校正因子。

说明书 :

技术领域

本发明涉及一种用于抑制噪声语音信号中的噪声的方法和设备。

背景技术

噪声抑制是一种涉及利用频域信号估计输入噪声语音信号中所引入的噪声分量的功率谱并从噪声语音信号中减去估计功率谱的技术。通过连续地估计噪声分量,噪声抑制技术对于抑制非固定噪声也是有用的。在日本专利公开2002-204175中描述了这种噪声抑制。图1示出了此专利公开的噪声抑制器。如图所示,将噪声语音信号的样本提供给帧分解和窗口电路1,帧分解和窗口电路1将信号分割为具有K/2个样本的帧,其中K表示偶数。将这些帧与窗口函数w(t)相乘。通过对语音信号的第n个帧yn(t)(t=0,1,…,(K/2)-1)进行窗口操作,产生信号对于实数,采用对称窗口函数。对窗口函数进行设计,从而当噪声抑制系数为1时,输入和输出信号彼此一致(即,w(t)+w(t+K/2)=1)。如果对两个连续的帧进行这种窗口操作,则使用公知的汉明窗w(t):

将窗口语音帧提供给傅立叶变换转换器2,将语音帧转换为K个频谱语音分量的矢量Yn=(Yn(0),Yn(1),…,Yn(K-1))。将此谱语音分量矢量分为K个相位分量的矢量arg Yn=(arg Yn(0),arg Yn(1),…,arg Yn(K-1))和K个幅度分量的矢量|Yn|=(|Yn(0)|,|Yn(1)|,…,|Yn(K-1)|),将前者提供给乘法器10,而将后者馈入平方电路3,在K个乘法器30~3K-1中,取K个幅度谱语音分量的平方。平方值|Yn|2=(|Yn(0)|2,|Yn(1)|2,…,|Yn(K-1)|2)表示噪声语音的功率谱。将平方电路3的输出提供给功率谱加权电路4(图2),对K个频谱语音分量进行加权。
在图2中,如下实现此功率谱加权:首先,利用除法器阵列410~41K-1将K个语音功率分量|Yn|2除以K个噪声功率谱分量λn-1的矢量(在前一帧期间,在噪声估计电路5中估计出,并存储在存储器42中),计算谱信号噪声比,产生SNR值的矢量然后,通过非线性加权电路矢量430~43K-1,对这些SNR值进行非线性处理,每个非线性加权电路430~43K-1具有如下形式的非线性函数:
f2=1,f1af1-ba-b,a<f1<b0,b<f1
其中“a”和“b”是任意实数。当输入SNR值大于“b”时,每个非线性加权电路43产生等于0的加权值,而当SNR值小于“a”时,产生等于0的加权值,并取在0和1之间的与SNR值成反比的数值。最后,利用谱乘法器44,将输入的K个谱语音功率分量|Yn|2分别与K个加权因子相乘,以产生加权功率谱语音分量的矢量。将此加权功率谱语音分量的矢量提供给噪声估计电路5(图3),还从平方电路3将谱功率语音分量|Yn|2提供给噪声估计电路5。电路43所进行的非线性加权用于降低在消除噪声分量时对噪声语音功率谱的语音分量的不利影响。
在图3中,通过噪声计算器500~50K-1分别处理来自功率谱加权电路4的K个加权谱功率语音分量和来自平方电路3的非加权的K个谱功率语音分量。在每个噪声计算器50中,当门54响应于来自或门511的“1”导通时,加权分量通过寄存器更新决定电路51的门54到达移位寄存器55。当初始周期检测器512在噪声抑制器的初始启动时刻向或门511提供“1”时,或者当非加权的功率谱分量较低,表示是无语音信号或语音低电平信号时,发生此移位寄存器更新。在后一种情况下,比较器515在与由阈值计算器513在前一帧的时间间隔期间存储在存储器514中的决定阈值进行比较之后,将“1”提供给或门511。样本计数器59响应于从或门511输出的逻辑1递增其计数值,以确定在每个帧的时间间隔期间存储在移位寄存器55中的加权功率谱分量的个数。当计数值变得等于移位寄存器55的长度时,将计数器复位为零。在最小值选择器57中,将计数器59的输出与移位寄存器55的长度进行比较。最小值选择器57选择二者之中较小的一个作为数值M。加法器56计算在帧“n”期间存储在移位寄存器55中的M个分量Bn,0(k),Bn,1(k),…,Bn,M-1(k)的总和,并在除法电路58中除以数值M,以产生输出λn(k):
λn(k)=1MΣm=0M-1Bn,m(k)
由于样本计数器59的输出从启动噪声抑制器的时刻起单调增加,最初利用样本计数器输出来进行除法操作。随着处理的继续,样本计数器59的输出增加,并最终变得大于寄存器长度,此时利用寄存器长度作为除数来进行除法操作。当使用寄存器长度时,除法输出λn表示加权功率谱语音分量的总和的平均功率。将除法操作的商值λn提供给阈值计算器513,阈值计算器513将输入值与预定数或高阶多项式或非线性函数相乘,以产生在下一帧期间用在比较器515中的决定阈值。商λn是作为反馈信号提供给功率谱加权电路4并存储在其存储器42中以更新针对下一帧的加权功率谱噪声分量的估计噪声。
返回图1,在后验SNR(信号噪声比)计算器6中,将平方电路3的语音功率谱分量|Yn|2分别除以噪声估计电路5的估计噪声功率谱分量λn,以产生后验SNR值的矢量γn,然后将其提供给先验SNR估计电路7(图4)。
在图4中,在加法器70中,将每个后验SNR值γn与“-1”求和,产生矢量{γn(0)-1},{γn(1)-1},…,{γn(K-1)-1},在范围限制电路71中,利用最大值选择器710~71K-1对其范围加以限制。最大值选择器将其输入与数值“零”进行比较,并根据关系:如果x>0,则P[x]=x;如果x≤0,则P[x]=0,选择二者之中较大的一个,并将输出P[γn(k)-1]传递给乘法和加法电路770~77K-1。在帧时间间隔内,来自后验SNR计算器6的后验SNR值γn(k)也存储在存储器72中,然后,提供给乘法器75,作为前一帧的后验SNR值的矢量γn-1(0)~γn-1(K-1)。将这些前一帧的后验SNR值与从平方电路74提供的前一帧的平方校正噪声抑制系数的矢量相乘,以产生数值矢量并将其提供给乘法和加法电路770~77K-1,作为前一帧的估计SNR值的矢量。为了产生从噪声抑制系数校正器9接收校正噪声抑制系数的矢量在帧时间间隔内,将其存储在存储器73中,并在平方电路74中进行平方,以产生在每个乘法和加法电路77中,在乘法器771中,将来自相应的最大值选择器71的输入信号P[γn-1(k)-1]与因子(1-α)相乘(其中α是加权值),并在乘法器772中,将来自乘法电路75的前一帧的估计SNR值与加权值α相乘,并与乘法器771的输出求和,以产生估计先验SNR值其中将估计先验SNR值提供给噪声抑制系数计算器8(图5)和噪声抑制系数校正器9(图6)。
在图5中,除了来自先验SNR计算器7的估计先验SNR矢量以外,噪声抑制系数计算器8还接收来自后验SNR计算器6的后验SNR矢量γn=γn(0)~γn(K-1)。噪声抑制系数计算器8包括MMSE-STSA(最小平均序列误差短时间谱幅度)增益函数值计算器81和GLR(广义似然比)计算器82。对于每个谱分量,MMSE-STSA增益函数计算器81使用后验SNR值γn、先验SNR值和无语音概率“q”来计算MMSE-STSA增益函数Gn:
Gn=π2vnγnexp(-vn2)[(1+vn)I0(vn2)+vnI1(vn2)]
其中,I0(z)=零阶修正贝塞尔函数,
I1(z)=一阶修正贝塞尔函数,
vn=(ηnγn)/(1+ηn),以及
ηn=ξ^n/(1-q).
使用与计算器81中的后验和先验SNR以及无语音概率相同的数值,GLR计算器82如下计算K个广义似然比的矢量Λn:
Λn=1-qqexpvn1+ηn
在计算电路83中使用增益函数Gn和GLR值Λn以便向噪声抑制系数校正器9(图6)提供由下式给出的噪声抑制系数矢量
Gn=ΛnΛn+1Gn
在图6中,将噪声抑制系数和先验SNR值提供给噪声抑制系数校正电路910~91K-1。在比较器911中,将每个先验SNR值与阈值进行比较,以产生针对选择器912的控制信号,通过选择器912,根据先验SNR值相对于阈值的大小,将噪声抑制系数有选择地通过乘法器913或直通连接与最大值选择器914相连。当先验SNR值小于阈值时,选择器912切换到较低的位置,将噪声抑制系数与乘法器913相连,从而以校正值对其进行缩放。否则,选择器912切换到较高的位置,将噪声抑制系数直接与最大值选择器914相连。最大值选择器914将输入信号与下限校正值进行比较,并将二者之中较大的一个传递给乘法器10。
返回图1,乘法器10将校正噪声抑制系数与从傅立叶变换转换器2提供的语音幅度谱分量|Yn|相乘,以产生增强语音幅度谱分量在乘法器11中,将增强语音幅度谱分量与相位分量argYn相乘,以产生增强语音谱分量在逆傅立叶变换转换器12中,对增强语音分量进行逆傅立叶变换,以产生包含一系列K个时域分量的语音帧(t=0,1,…,K-1)。在帧合成13中,将连续两个语音帧的K/2个时域分量组合为增强语音样本,其形式为x^n(t)=xn-1(t+K/2)+xn(t).
但是,利用相同的算法来计算现有技术噪声抑制器的噪声抑制系数,而并未区分语音部分和噪声部分。结果,在语音部分中可能会发生语音失真,而在噪声部分中抑制不足。

发明内容

因此,本发明的目的是提供一种噪声抑制方法和设备,能够降低语音部分中的语音失真,同时在噪声部分中提供足够的噪声抑制。
根据本发明的第一方案,提出了一种抑制语音信号中的噪声的方法,包括:将语音信号转换为频谱语音分量的第一矢量和与所述第一矢量频谱语音分量相同的频谱语音分量的第二矢量;根据所述第一矢量频谱语音分量,确定噪声抑制系数的矢量;根据所述第一矢量频谱语音分量,确定语音对噪声关系;根据所确定的语音对噪声关系、所述第一矢量频谱语音分量和所述噪声抑制系数,确定在后抑制系数的矢量;以及以所述在后抑制系数的矢量对所述第二矢量频谱语音分量进行加权。
根据本发明的第二方案,提出了一种抑制语音信号中的噪声的方法,包括:将语音信号转换为频谱语音分量的第一矢量和与所述第一矢量频谱语音分量相同的频谱语音分量的第二矢量;根据所述第一矢量频谱语音分量,确定噪声抑制系数的矢量;根据所述第一矢量频谱语音分量,确定语音对噪声关系;根据所确定的语音对噪声关系,确定噪声抑制系数的多个下限值;将所述噪声抑制系数与所述噪声抑制系数的下限值进行比较,并根据所述比较的结果,产生在后抑制系数的矢量;以及以所述在后抑制系数的矢量对所述频谱语音分量的第二矢量进行加权。
根据本发明的第三方案,提出了一种抑制语音信号中的噪声的方法,包括:将语音信号转换为频谱语音分量的第一矢量和与所述频谱语音分量的第一矢量相同的频谱语音分量的第二矢量;根据所述第一矢量频谱语音分量,确定噪声抑制系数的矢量;以所述噪声抑制系数的矢量对所述第一矢量频谱语音分量进行加权;根据所述加权第一矢量频谱语音分量和所述噪声抑制系数的矢量,确定校正因子的矢量;以及以所述校正因子的矢量对所述噪声抑制系数的矢量进行加权;以及以噪声抑制系数的加权矢量对所述频谱语音分量的第二矢量进行加权。
根据本发明的第四方案,提出了一种用于抑制语音信号中的噪声的设备,包括:转换器,将语音信号转换为频谱语音分量的第一矢量和与所述频谱语音分量的第一矢量相同的频谱语音分量的第二矢量;噪声抑制系数计算器,根据所述第一矢量频谱语音分量,确定噪声抑制系数的矢量;语音对噪声关系计算器,根据所述第一矢量频谱语音分量,确定语音对噪声关系;在后抑制系数计算器,根据语音对噪声关系、所述第一矢量频谱语音分量和所述噪声抑制系数的矢量,确定在后抑制系数的矢量;以及加权电路,以所述在后抑制系数的矢量对所述频谱语音分量的第二矢量进行加权。
根据本发明的第五方案,提出了一种用于抑制语音信号中的噪声的设备,包括:转换器,将语音信号转换为频谱语音分量的第一矢量和与所述频谱语音分量的第一矢量相同的频谱语音分量的第二矢量;噪声抑制系数计算器,根据所述频谱语音分量的第一矢量,确定噪声抑制系数的矢量;语音对噪声关系计算器,根据所述频谱语音分量的第一矢量,确定语音对噪声关系;在后抑制系数计算器,根据语音对噪声关系,确定噪声抑制系数的多个下限值,将所述噪声抑制系数的矢量与所述噪声抑制系数的下限值进行比较,并根据所述比较的结果,产生在后抑制系数的矢量;以及加权电路,以所述在后抑制系数的矢量对所述频谱语音分量的第二矢量进行加权。
根据本发明的第六方案,提出了一种用于抑制语音信号中的噪声的设备,包括:转换器,将语音信号转换为频谱语音分量的第一矢量和与所述频谱语音分量的第一矢量相同的频谱语音分量的第二矢量;噪声抑制系数计算器,根据所述频谱语音分量的第一矢量,确定噪声抑制系数的矢量;计算器,以所述噪声抑制系数的矢量对所述频谱语音分量的第一矢量进行加权;抑制系数校正器,根据加权第一矢量频谱语音分量,计算第一部分校正因子的矢量,将所述第一部分校正因子的矢量与第二部分校正因子的矢量进行组合,以产生组合校正因子的矢量,并以所述组合校正因子的矢量对所述噪声抑制系数的矢量进行加权;以及加权电路,以抑制校正因子的矢量对所述频谱语音分量的第二矢量进行加权。

附图说明

将参照附图详细描述本发明,其中:
图1是现有技术语音信号噪声抑制器的方框图;
图2是图1所示的现有技术功率谱加权电路的方框图;
图3是图1所示的现有技术噪声估计电路的方框图;
图4是图1所示的现有技术先验SNR计算器的方框图;
图5是图1所示的现有技术噪声抑制系数计算器的方框图;
图6是图1所示的现有技术噪声抑制系数校正器的方框图;
图7是根据本发明第一实施例的语音信号噪声抑制器的方框图;
图8是图7所示的幅度谱校正器的方框图;
图9是图8所示的加权计算器的特性的曲线图;
图10是本发明第一实施例的修改的方框图;
图11是本发明第二实施例的噪声抑制器的方框图;
图12是本发明第二实施例的第一修改的方框图;
图13是本发明第二实施例的第二修改的方框图;
图14是根据本发明第三实施例的语音信号噪声抑制器的方框图;
图15是图14所示的先验SNR计算器的方框图;
图16是图14所示的噪声抑制系数校正器的方框图;
图17是本发明第三实施例的修改的方框图;
图18是图17所示的先验SNR计算器的方框图;
图19是图17所示的噪声抑制系数校正器的方框图;
图20是本发明第一实施例的另一修改的方框图;
图21是图20所示的幅度谱校正器的方框图;
图22是本发明第一实施例的另一修改的方框图;
图23是图22所示的语音出现概率计算器的方框图;
图24是图23所示的幅度谱校正器的方框图;
图25是图22所示的实施例的修改的方框图;以及
图26是图25所示的语音出现概率计算器的方框图。

具体实施方式

现在,参考图7,示出了根据本发明第一实施例的噪声抑制器。在图7中,与图1中相对应的元件以相同的参考数字表示,并省略了对其的描述。本发明的噪声抑制器与现有技术的区别在于:提供了语音幅度谱校正器20。幅度谱校正器20连接在噪声抑制系数校正器9和乘法器11之间,并接收来自乘法器10的增强语音幅度谱分量和来自噪声估计电路5的噪声分量λn。如下所述,这些输入分量是语音幅度谱校正器20用于产生针对语音部分的校正系数和针对非语音部分的校正系数从而产生组合系数F的主要信号。组合系数F用于修正噪声抑制系数以产生在后抑制系数的矢量将语音幅度分量|Yn|与在后抑制系数相乘,从而使噪声抑制量在语音部分较低,而在噪声部分较高。所得到的结果是语音部分中较小的语音失真和噪声部分中较小的残余噪声。语音幅度谱校正器20的细节如图8所示。
如图8所示,语音幅度谱校正器20包括平方电路21,用于对来自乘法器10的增强语音幅度谱分量进行平方,以产生K个增强语音幅度谱分量的矢量在平均电路22中,通过将谱分量的大小的总和除以整数K,对这些功率谱分量进行平均,并将其提供给语音出现概率计算器24和在后抑制系数计算器25。类似地,在平均电路23中,通过将其总和除以整数K,对来自噪声估计电路5的噪声分量λn进行平均,并将其提供给计算器24和25。
语音出现概率计算器24利用来自平均电路22的增强语音功率和来自平均电路23的估计噪声功率,产生表示语音与噪声之间的相互关系的输出。优选地,此语音对噪声关系以语音出现的概率来表示。
语音出现概率计算器24包括对数转换器240,用于对平均电路22的输出进行转换,将平均语音功率转换为对数,在乘10电路241中通过整数10进行缩放。按照这种方式,第n帧的增强语音功率En表示如下:
En=10log10(1KΣk=0K-1|Xn(K)|2)---(1)
另一方面,在对数转换器243中,将平均电路23的输出转换为对数,并在乘10电路244中通过整数10进行缩放,以产生表示第n帧的估计噪声功率Nn的输出:
Nn=10log10(1KΣk=0K-1λn(k))---(2)
确定增强语音功率En与估计噪声功率Nn之间的关系,并根据此关系,确定表示包含在输入信号中的语音功率量的索引。如果语音功率En大于噪声功率Nn,则索引取表示语音出现的概率“p”较高的数值。由于在大多数情况下,增强语音功率En和估计噪声功率Nn是非固定信号,在语音部分中可能会发生噪声功率Nn大于语音功率En的情况。这种情况也可以发生在噪声部分。因此,如果在索引计算中直接使用数值En和Nn,语音部分的概率“p”很可能包含错误。为了执行精确的索引计算,需要按照适当的方式来修改数值En和Nn。
为此,将增强语音功率En提供给具有类似结构的一对平滑电路242a和242b。在平滑电路242a中,通过在乘法器25a中将其与缩放因子(1-δ1)相乘,对增强语音功率En进行平滑,其中δ1表示第一平滑系数,产生输出(1-δ1)En。在加法器24b中,将输出(1-δ1)En与乘法器24c的输出相加,乘法器24c将平滑增强语音功率与平滑系数δ1相乘,此增强语音功率是由加法器25b产生并由延迟元件24d延迟了帧时间间隔的增强语音功率。因此,平滑电路242a从加法器24b产生以下输出:
E1,n=δ1En-1+(1-δ1)En---(3a)
按照类似的方式,平滑电路242b产生以下输出:
E2,n=δ2En-1+(1-δ2)En---(3b)
其中δ2是大于第一平滑系数δ1的第二平滑系数。因为平滑系数δ1比δ2的数值小,平滑电路242a对语音功率En的平滑效果小于平滑电路242b。将平滑电路242a和242b的输出分别提供给瞬时索引计算器246a和平均索引计算器246b。
另一方面,将估计噪声功率Nn提供给一对函数值计算器245a和245b,以根据用于动态范围压缩或扩展的线性或非线性函数或用于减小离散的平滑函数,分别产生第一函数值和第二函数值可以省略函数值计算,以减小计算量。用在计算器245a和245b中的函数的典型示例如下:
N^1,n=afcNn+bfc---(4a)
N^2,n=cfcNn+dfc---(4b)
其中afc、bfc、cfc、dfc是实数。
将函数值计算器245a和245b的输出分别提供给瞬时索引计算器246a和平均索引计算器246b,平滑增强语音功率和也已经从平滑电路242a和242b提供给瞬时索引计算器246a和平均索引计算器246b,从而根据以下关系产生索引I1,n和I2,n:
I1,n=aidx,E1,n/N^1,nθidxbidx,E1,n/N^1,n>θidx---(5a)
I2,n=aidx,E2,n/N^2,nθidxbidx,E2,n/N^2,n>θidx---(5b)
其中aidx、bidx、θidx是实数,而且aidx大于bidx。通过将一些常数值与上述关系的分母相加,可以避免离散。或者,也可以使用En与Nn之间的差或所述差的归一化数值。由于如上所述,平滑电路242a对语音功率En的平滑效果小于平滑电路242b,平滑电路242a的较少被平滑的输出适合于计算瞬时索引I1,n,而平滑电路242b的较多被平滑的输出适合于计算平均索引I2,n。
在加法器247中,对索引计算器246a和246b的输出求和,以产生用作语音出现概率“p”的输出。应当注意,代替使用加法器247,可以对等地使用加权和或乘积。
在后抑制系数计算器25的作用是根据由计算器24提供的语音出现概率“p”来计算在后抑制系数的矢量。如下所述,当概率“p”较低时,在后抑制系数计算器25利用包含更高比例的非语音部分校正因子的加权因子,产生低在后抑制系数的矢量。结果,可以进一步减少噪声部分中的残余噪声。与此相反,当概率“p”较高时,在后抑制系数计算器25利用包含更高比例的语音部分校正因子的加权因子,产生高在后抑制系数的矢量,等于或稍微大于由抑制系数校正器9提供的校正噪声抑制系数的矢量按照这种方式,当语音出现概率“p”较高时,可以避免对语音的过度抑制。
具体地,在后抑制系数计算器25包括非语音部分校正因子计算器250,利用平均电路22和23的输出以及由语音出现概率计算器24提供的语音出现概率“p”,产生非语音部分校正因子FU。
非语音部分校正因子计算器250包括混合器25a,按照由语音出现概率“p”确定的比例,将来自平均电路22的增强语音功率与存储在存储器25b中的平均语音功率进行混合。所存储的语音功率是混合器25a前一帧的输出,并在平滑电路25c中利用外部施加的平滑系数进行了平滑。
在混合器25a中,如果语音出现概率“p”相对较高,则将大部分的当前帧平均语音与小部分的前一帧平滑语音进行混合。如果语音出现概率“p”相对较低,则在混合器25a中,将大部分的前一帧平滑语音与小部分的当前帧平均语音进行混合。
因此,当概率“p”相对较低时,平滑电路25c的输入信号具有较高的已平滑前一帧的内容,因此实质上并不更新其输出信号。结果,平滑电路25c在噪声部分期间产生与语音部分期间所计算出的增强语音功率相同的增强语音功率。另一方面,如果概率“p”相对较高,平滑电路25c使用包含更多平均增强语音功率的信号来进行其对混合器25a的输出的平滑操作,因此对其输出进行更新。
平滑电路25c在非语音部分中不更新其输出而在语音部分中更新其输出的原因是按照从低音量到高音量的说话人音量范围测量输入语音信号。如果说话人在安静的环境下发出较响的声音,则所计算出的语音出现概率“p”的可靠性较高,如果说话人的声音在嘈杂的环境中较低,则概率“p”的可靠性较低。
在除法电路25d中,将来自平滑电路25c的平滑增强语音功率除以估计噪声分量的平均功率λn,以产生信号噪声比,在对数转换器25e中,将其转换为对数。由上述混合器25a的功能可知,当语音部分出现概率“p”较低时,平滑电路25c利用包含大量前一帧的平滑增强语音功率的信号来计算当前帧的平滑增强语音功率。因此,当概率“p”较低时,实质上并未更新平滑增强语音功率。结果,在噪声部分期间,平滑电路25c产生与语音部分期间所计算的相同的增强语音功率。另一方面,在语音出现概率“p”较高的部分中,平滑电路25c利用包含大量增强平均语音功率的信号来计算当前帧的平滑增强语音功率。
因此,除法电路25d的输出表示增强平均语音功率与估计噪声功率的比,即增强平均语音功率的信号噪声比。在乘10电路25f中,通过整数“10”对对数转换器25e的输出进行缩放,并将其提供给加权计算器25g。
根据如上获得的增强平均语音功率的SNR,加权计算器25g通过在计算中结合语音出现概率“p”的可靠性,计算表示要施加到非语音部分上的抑制量的校正因子。当增强平均语音功率的SNR较高时(即,当概率“p”的可靠性较高时),错误地抑制语音部分的可能性不大。因此,在这种情况下,将校正因子设置为较低数值,以增加抑制量。另一方面,当增强平均语音功率的SNR较低时(即,当概率“p”的可靠性较低时),错误地抑制语音部分的可能性较高。因此,为了防止在增强平均语音功率的SNR较高时错误地抑制语音部分,将校正因子设置为较高数值,以减小抑制量。
这种非语音出现SNR值的计算具有将语音出现概率的可靠性结合到非语音抑制系数中的作用。当非语音出现SNR值较高时,即当语音出现概率“p”的可靠性较高时,错误地抑制语音部分的可能性较小。在这种情况下,加权计算器25g的输出较低,以增加抑制度。另一方面,当非语音出现SNR值较低时,即当语音出现概率“p”的可靠性较低时,加权计算器25g的输出较高,以减小抑制度,以便防止错误地抑制语音部分。图9是示出了可以用于计算非语音抑制系数的非线性函数的典型示例的曲线图。在图9中,fcm表示输入值,而gcm表示由以下关系给出的输出值:
gcm=dcm,fcmacm(dcm-ccm)fcm+acmccm-bcmdcmacm-bcm,acm<fcmbcmccm,bcm<fcm---(6)
其中acm、bcm、ccm、dcm是正实数。图9所示的非线性函数表示随着输入值的增加,输出值减小。
在除10电路25h中,将按照上述方式获得的非语音抑制系数除以整数“10”,并提供给指数计算器25i,在指数计算器25i中,将除10电路25h的输出转换为表示非语音出现校正因子FU的指数值。
在后抑制系数计算器25包括组合系数计算器251,接收非语音部分校正因子FU、概率“p”和语音部分校正因子FV,并产生如下所示的组合系数F:
F=pFV+(1-p)FU                (7)
可以看到,如果概率“p”的数值较大,则语音出现校正因子FV占组合系数F中的大部分。组合系数F也可以根据以下等式获得:
F=pFSFC(FV)+(1-p)GSFC(FU)                (8)
其中FSFC和GSFC是不同的函数值。
在乘法器252中,以在后抑制系数F对由噪声抑制系数校正器9提供的噪声抑制系数进行加权,以产生在后抑制系数的矢量。
在谱乘法器26中,分别以在后抑制系数对语音幅度分量|Yn|进行加权,并将谱乘法器26的输出矢量提供给乘法器11。
以在后抑制系数加权语音幅度分量|Yn|的好处在于能够在语音部分中以相对较低的水平提供噪声抑制,而在噪声部分中以相对较高的水平提供噪声抑制。结果是在语音部分中较小的语音失真和在噪声部分中较小的残余噪声。
图10示出了图7的第一修改,其中在后抑制系数计算器25A是图8所示的在后抑制系数计算器25的修改形式。修改后的计算器25A还包括语音出现系数计算器253,接收平均电路22和23的输出并通过将估计噪声功率与增强语音功率进行比较,产生提供给组合系数计算器251的输出值FV。
当估计噪声功率大于增强语音功率(即SNR较低)时,FV取从1.0到作为估计噪声功率与增强语音功率的比的函数而确定的较高数值的范围内的数值。由于存在噪声抑制系数变得小于最优值的可能性,数值FV大于1.0的设置防止了噪声抑制系数对语音部分进行过度抑制。在这种情况下,大于1的输出值根据估计噪声功率与增强语音功率的比值而变化。另一方面,当估计噪声功率小于增强语音功率(即SNR较高)时,在语音部分期间不太可能发生过度抑制。在这种情况下,FV取适当确定的大于1.0的常数值,而与估计噪声功率与增强语音功率的比无关。
图11示出了本发明的第二实施例,其中将图8所示的在后抑制系数计算器25修改为在后抑制系数计算器25B。在本实施例中,计算器25B包括相同结构的多个谱在后抑制系数计算器2540~254K-1。每个谱在后抑制系数计算器254包括下限计算器255和最大值选择器256。将语音部分校正因子下限(SCLL)值和非语音部分校正因子下限(NCLL)值提供给下限计算器255,并根据由语音出现概率计算器24提供的概率值“p”,计算噪声抑制系数的下限值,从而使SCLL值对计算器255的输出值的贡献比例随着语音出现概率“p”而增加。可以使用等式(7)和(8)来确定语音因子下限的贡献因子。为了防止语音声音失真,将语音部分校正因子下限(SCLL)值设置为大于非语音部分校正因子下限(NCLL)值的数值。将下限计算器255的输出提供给最大值选择器256,同样将与谱在后抑制系数计算器254k相对应的一个校正噪声抑制系数提供给最大值选择器256。最大值选择器256选择两个输入值中较大的一个,并将所选的数值馈入谱乘法器27。
结果,将谱在后抑制系数提供给乘法器26,使其高于通过语音部分出现概率“p”而建立的下限值。由于按照这种方式建立的下限值在语音出现概率“p”较高时较大,能够防止由于过度抑制而可能发生在语音部分中的语音失真。另一方面,当语音出现概率“p”较低时,下限值较小。因此,能够优化施加到噪声部分上的噪声抑制量。
图12示出了第二实施例的修改,其中将图8所示的在后抑制系数计算器25修改为在后抑制系数计算器25C。在此修改中,计算器25C包括相同结构的多个谱在后抑制系数计算器2570~257K-1。每个谱在后抑制系数计算器257与图11所示的计算器254的不同之处在于:还包括语音部分校正因子下限(SCLL)计算器258和非语音部分校正因子下限(NCLL)计算器259。计算器258和259从噪声估计电路5接收估计噪声功率谱分量λn(0)~λn(K-1)中对应的一个以及从与其谱号相对应的平方电路21接收增强语音功率谱分量中对应的一个。语音因子下限计算器258根据增强语音分量与估计噪声谱样本λn(k)的信号噪声比,计算语音因子下限,其中k是0、1、…、K-1中的一个。类似地,非语音因子下限计算器259根据相同的信号噪声比,计算非语音因子下限值。将语音部分校正因子下限(SCLL)值和非语音部分校正因子下限(NCLL)值提供给下限计算器255。
为了减小语音部分中的语音失真,确定语音部分校正因子下限(SCLL)值,从而使其与SNR值相反地变化。为了减小非语音部分中的残余噪声并防止语音部分中的过度抑制,将非语音部分校正因子下限(NCLL)设置为小于语音部分校正因子下限(SCLL)值的数值。优选地,对计算器258和259进行设计,从而使其下限值之间的差在SNR相对较低时不超过某一临界值。如果所述差大于临界值,则语音和非语音部分之间的残余噪声的差异增加,将导致在语音部分中可以察觉的失真声音。相反地,当SNR较高时,由于语音声音的遮盖作用,语音部分中的残余噪声不易被察觉。与低SNR值的情况一样,语音和非语音部分之间不同的残余噪声不会成为语音部分中语音失真的贡献因子。因此,如果SNR较高,则设计计算器258和259在其输出值之间保持相对较大的差别,从而充分地减小非语音部分的残余噪声。根据语音部分校正因子下限(SCLL)值来确定非语音部分校正因子下限(NCLL)值。基本上,与语音部分校正因子下限(SCLL)值的情况一样,当SNR减小时,非语音部分校正因子下限(NCLL)值增加。
作为本发明第二实施例的修改,优选的是,计算器258和259使用估计噪声功率谱分量的平均值和增强语音功率分量的平均值来计算SNR值,如图13所示。在此修改中,在后抑制系数计算器25D只包括语音部分校正因子下限(SCLL)计算器258、非语音部分校正因子下限(NCLL)计算器259和下限计算器255中的一个矢量。将平均电路22和23的输出提供给计算器258和259,将下限计算器255的输出提供给最大值选择器2560~256K-1。语音出现概率计算器24的输出与所有最大值选择器256相连。
图14示出了本发明噪声抑制器的第三实施例,其中与图7对应的元件具有相同的参考数字。第三实施例与第一实施例的区别在于:利用先验SNR计算器7A和噪声抑制系数校正器9A来代替图7所示的幅度谱校正器20、以及图1所示的先验SNR计算器7和抑制系数校正器9。先验SNR计算器7A与现有技术计算器7的区别在于还接收平方电路3和噪声估计电路5的输出。
如图15详细所示,先验SNR计算器7A在结构上大体类似于图1所示的现有技术计算器7,不同之处在于还包括延迟元件78、乘法器79、语音出现概率计算器710和延迟元件711。在延迟元件78中,将来自平方电路3的语音功率谱分量|Yn|2延迟帧时间间隔,并提供给乘法器79,在乘法器79中,将其分别与由平方电路74提供的前一帧的校正噪声抑制系数相乘。因此,乘法器79产生输出将其提供给语音出现概率计算器710,作为对当前帧“n”的增强语音功率分量的估计。
在延迟元件711中,将来自噪声估计电路5的估计噪声功率分量λn延迟帧时间间隔,并提供给语音出现概率计算器710。按照这种方式,按照帧彼此对准语音出现概率计算器710的输入谱信号。语音出现概率计算器710在结构上与语音出现概率计算器24(图8)相同,用于产生语音出现概率“p”,并将其发送给噪声抑制系数校正器9A。
如图16所示,噪声抑制系数校正器9A包括相同结构的谱(噪声)抑制系数计算器1900~190K-1。每个计算器190k接收概率“p”和来自噪声抑制系数计算器8的对应噪声抑制系数和来自计算器7A的对应先验SNR每个计算器1900~190K-1均包括下限计算器191,按照先前参照谱在后抑制系数计算器2540~254K-1(图11)所描述的相同方式,根据概率“p”,从语音部分校正因子下限(SCLL)值和非语音部分校正因子下限(NCLL)值中计算下限值。在最大值选择器192中,将计算器191的输出与当选择器194切换到较高的位置时通过选择器194直接提供的抑制系数或当开关194处于较低的位置时在乘法器195中以校正值进行缩放的抑制系数进行比较。比较器193将先验SNR与阈值进行比较,并产生在SNR高于阈值时将选择器194切换到较高位置而在SNR低于阈值时将选择器194切换到较低位置的控制信号。最大值选择器192选择两个输入值中较大的一个,并将所选数值发送给乘法器10(图15)和后验SNR计算器7A的存储器73(图16)。
结果,将谱在后抑制系数提供给乘法器10,使其高于通过语音部分出现概率“p”而建立的下限值,并能够防止由于过度抑制而可能发生在语音部分中的语音失真。
图17示出了图14所示的第三实施例的修改,其中提供了先验SNR计算器7B和抑制系数校正器9B。如图18所示,除了向抑制系数校正器9B提供乘法器79的输出作为对当前帧“n”的增强语音功率分量的估计以外,先验SNR计算器7B等同于图15所示的计算器7A。除了语音出现概率值“p”和噪声抑制系数之外,抑制系数校正器9B还接收来自噪声估计电路5的估计噪声功率谱分量λn和来自先验SNR计算器7B的增强语音功率估计
如图19所示,除了包括非语音部分校正因子计算器196、组合系数计算器197和乘法器198来代替图16所示的下限计算器191和最大值选择器192以外,抑制系数校正器9B等同于图16所示的抑制系数校正器9A。
非语音部分校正因子计算器196利用概率值“p”、估计噪声功率谱分量λn和对增强语音功率样本的估计按照与利用来自平均电路22的增强语音功率谱分量的平均值的、如图8所示的非语音部分校正因子计算器250相类似的方式,计算非语音部分校正因子FU。具体地,非语音部分校正因子计算器196将增强语音功率估计看作确定非语音部分校正因子FU的主要因素。
将按照这种方式计算出的非语音部分校正因子FU提供给组合系数计算器197,也将语音部分校正因子FV提供给组合系数计算器197。计算器197与图8所示的计算器251相同,用于利用校正因子FU、FV和概率“p”来计算组合系数F。乘法器198将计算器197的输出与通过选择器194直接提供的非校正噪声抑制系数或通过乘法器195提供的校正噪声抑制系数相乘。
由于在乘法器198中以根据语音部分概率“p”而计算出的校正因子对噪声抑制系数进行校正,而且由于在先验SNR计算器7B中通过反馈环、利用校正抑制系数来更新对语音功率谱分量的估计,能够有效地进一步抑制噪声部分中的残余噪声。
图20示出了图7所示的第一实施例的另一修改,其中将图11所示的幅度谱校正器20修改为如图21所示的幅度谱校正器20A,以提取语音出现概率值“p”。本实施例的噪声抑制器还具有帧延迟元件14和加法器15。在延迟元件14中,将从幅度谱校正器20A中提取出的概率“p”延迟帧时间间隔,并从“1”中减去,以产生无语音概率q=1-p,将无语音概率q提供给噪声抑制系数计算器8(图5)。
也可以如图22所示,对本发明进行修改,其中在语音出现概率计算器16中,根据计算器7的先验SNR来计算语音出现概率“p”。语音出现概率计算器16的输出与幅度谱校正器20B和加法器15相连,在加法器15中,从“1”中减去概率“p”,以产生无语音概率“q”,并将无语音概率“q”提供给抑制系数计算器8。
如图23所示,语音出现概率计算器16包括平均电路160,通过对先验SNR值进行求和并将总和除以整数K来产生先验SNR值的平均值。在对数转换器161中,将先验SNR值的平均值转换为对数,并在乘法器162中与整数“10”相乘,以产生由下式给出的全波段先验SNRΞn:
Ξn=10log10(1KΣk=0K-1ξ^n(k))---(9)
在一对平滑电路163和164中,对全波段先验SNRΞn进行平滑,以根据等式(3a)和(3b),按照类似于先前参照图8所示的平滑电路242a和242b所描述的方式,产生一对第一和第二平滑先验SNR值和将第一和第二平滑先验SNR值和分别提供给瞬时索引计算器165和平均索引计算器166,以产生如下给出的索引信号I3,n和I4,n:
I3,n=aidx2,Ξ1,nθidx2bidx2,Ξ1,n>θidx2---(10a)
I4,n=aidx2,Ξ2,nθidx2bidx2,Ξ2,n>θidx2---(10b)
其中θidx2、aidx2、bidx2是实数,而且aidx2大于bidx2。索引信号主要根据平滑先验SNR的数值而变化。在加法器167中,对索引计算器165和166的输出求和,以产生作为语音出现概率“p”的输出。将计算器16的输出“p”提供给加法器15,从“1”中减去,以产生无语音概率“q”,应用于噪声抑制系数计算器8(图5)。此外,将语音出现概率计算器16的输出信号发送给幅度谱校正器20B(图24)。
如图24所示,除了仅包括在后抑制系数计算器25和乘法器26之外,幅度谱校正器20B类似于图21所示的幅度谱校正器20A。将概率“p”馈入所有的谱在后抑制系数计算器2540~254K-1。
可以如图25所示地修改图22所示的噪声抑制器,其中除了先验SNR值之外,还向语音出现概率计算器16A提供后验SNR值γn。
在图26中,语音出现概率计算器16A还包括平均电路168,用于计算后验SNR值γn的平均值。在SNR混合器169中,根据等式(11),将先验SNR的平均值与后验SNR的平均值组合在一起,以产生输出Ξmix(n):
Ξmix(n)=Fmix(ξn)ξn+(1-Fmix(ξn))γn---(11)
其中Fmix是先验SNR平均值的函数,并根据取0和1之间的范围内的实数值。将SNR混合器169的输出提供给对数转换器169。
等式(11)表明:当输入信号较少被噪声退化时,后验SNR的平均值成为SNR混合器169的输出中的主要部分。由于在输入信号的信号噪声比较高时,后验SNR值γn的准确度高于先验SNR值对于不同数值的信号噪声比,混合器169的输出具有比后验SNR值的平均值更高的准确度。因此,按照这种方式获得的语音部分概率“p”比图23所示的语音出现概率计算器16更为精确。
尽管已经对其中采用了MMSE-STSA(最小平均序列误差短时间谱幅度)公知技术的实施例进行了描述,也可以对等地使用如维纳滤波和谱相减等其他技术。