噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置转让专利

申请号 : CN200610141240.9

文献号 : CN101154383B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 丁沛何磊鄢翔赵蕤郝杰

申请人 : 株式会社东芝

摘要 :

本发明提供了噪声抑制方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。根据本发明的一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,通过以下步骤计算增益函数来进行所述对数谱最小均方误差估计:利用泰勒级数累加计算所述增益函数;利用数值积分计算所述增益函数;以及合并所述泰勒级数累加的结果和所述数值积分的结果。

权利要求 :

1.一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;

其中,用分段线性函数代替增益函数来进行所述对数谱最小均方误差估计。

2.根据权利要求1所述的噪声抑制方法,其中,利用预先设定的分割点将所述增益函数变换为所述分段线性函数,进行所述对数谱最小均方误差估计。

3.根据权利要求2所述的噪声抑制方法,其中,所述分段线性函数的所述预先设定的分割点通过以下步骤获得:计算所述增益函数的导数;

设定所述分段线性函数的初始分割点;

计算在所述初始分割点的每两个连续分割点之间的所述分段线性函数和所述增益函数之间的差别;

如果所述差别大于一阈值,在所述两个连续分割点之间插入一个新的分割点;以及重复所述计算差别的步骤及其之后的步骤,直到没有所述差别大于所述阈值。

4.根据权利要求1-3中的任意一项所述的噪声抑制方法,其中,所述对数谱最小均方误差估计通过以下公式进行:A^k=L(υk)Rk,其中υk=ξk1+ξkγk,其中表示噪声得到抑制的语音谱,Rk表示含噪声语音谱,ξk是根据噪声估计谱获得的先验信噪比,γk是根据噪声估计谱和含噪声语音谱获得的后验信噪比,L(υk)是分段线性函数,以及k表示第k个谱分量。

5.一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;

其中,通过以下步骤计算增益函数来进行所述对数谱最小均方误差估计:利用泰勒级数累加计算所述增益函数;

利用数值积分计算所述增益函数;以及

合并所述泰勒级数累加的结果和所述数值积分的结果;

其中,所述合并步骤包括:将所述泰勒级数累加的结果和所述数值积分的结果在它们之间的最接近处合并;

其中,所述合并步骤包括:

将所述泰勒级数累加的结果和所述数值积分的结果相减;

选择上述相减的结果中绝对值最小处的值作为阈值;以及根据所述阈值,合并所述泰勒级数累加的结果和所述数值积分的结果;

其中,所述合并步骤包括将小于所述阈值的所述泰勒级数累加的结果和大于所述阈值的所述数值积分的结果合并。

6.一种用于提取语音特征的方法,包括:

将含噪声语音变换成含噪声语音谱;

利用上述权利要求1-5中的任意一项所述的噪声抑制方法,降低所述含噪声语音谱的噪音;以及从所述噪声降低的语音谱提取语音特征。

7.根据权利要求6所述的提取语音特征的方法,其中,所述变换步骤包括快速傅立叶变换。

8.一种语音识别方法,包括:

利用上述权利要求6或7所述的提取语音特征的方法,提取语音特征;

以及

根据所述提取出的语音特征,识别语音。

9.一种训练语音模型的方法,包括:

利用上述权利要求6或7所述的提取语音特征的方法,提取语音特征;以及根据所述提取出的语音特征,训练所述语音模型。

10.一种用于含噪声语音谱的噪声抑制装置,包括:估计单元,根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;

其中,所述估计单元使用分段线性函数代替增益函数来进行所述对数谱最小均方误差估计。

11.根据权利要求10所述的噪声抑制装置,其中,利用预先设定的分割点将所述增益函数变换为所述分段线性函数,进行所述对数谱最小均方误差估计。

12.根据权利要求10或11所述的噪声抑制装置,其中,所述估计单元通过以下公式进行对数谱最小均方误差估计:A^k=L(υk)Rk,其中υk=ξk1+ξkγk,其中表示噪声得到抑制的语音谱,Rk表示含噪声语音谱,ξk是根据噪声估计谱获得的先验信噪比,γk是根据噪声估计谱和含噪声语音谱获得的后验信噪比,L(υk)是分段线性函数,以及k表示第k个谱分量。

13.一种用于含噪声语音谱的噪声抑制装置,包括:估计单元,根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;

其中,所述估计单元包括:

泰勒级数累加计算单元,利用泰勒级数累加计算所述增益函数;

数值积分计算单元,利用数值积分计算所述增益函数;以及合并单元,用于合并所述泰勒级数累加计算单元计算的结果和所述数值积分计算单元计算的结果;

其中,所述合并单元将所述泰勒级数累加计算单元计算的结果和所述数值积分计算单元计算的结果在它们之间的最接近处合并;

其中,所述合并单元包括:

减法单元,将所述泰勒级数累加计算单元计算的结果和所述数值积分计算单元计算的结果相减;以及选择单元,用于选择上述减法单元获得的结果中绝对值最小处的值作为阈值;

其中所述合并单元根据所述阈值,合并所述泰勒级数累加计算单元计算的结果和所述数值积分计算单元计算的结果;

其中,所述合并单元将小于所述阈值的所述泰勒级数累加计算单元计算的结果和大于所述阈值的所述数值积分计算单元计算的结果合并。

14.一种用于提取语音特征的装置,包括:

变换单元,将含噪声语音变换成含噪声语音谱;

根据上述权利要求10-13中的任意一项所述的噪声抑制装置,用于降低所述含噪声语音谱的噪音;以及提取单元,从所述噪声降低的语音谱提取所述语音特征。

15.根据权利要求14所述的提取语音特征的装置,其中,所述变换单元配置为通过快速傅立叶变换进行变换。

16.一种语音识别装置,包括:

根据上述权利要求14或15所述的提取语音特征的装置,用于提取语音特征;以及语音识别单元,根据所述提取出的语音特征,识别语音。

17.一种训练语音模型的装置,包括:

根据上述权利要求14或15所述的提取语音特征的装置,用于提取语音特征;以及模型训练单元,根据所述提取出的语音特征,训练所述语音模型。

说明书 :

技术领域

本发明总体涉及语音识别技术,具体地,涉及语音谱的噪声抑制技术。

背景技术

目前流行的语音识别系统对纯净语音能够获得非常高的识别精度,但由于噪声带来声学模型和声学特征之间的失配,在噪声环境下现有的语音识别系统的性能会急剧下降。
在噪声稳健性方面的工作主要集中在前端设计,目的是减少噪声带来的在语音特征空间的失配。最小均方误差(Minimum Mean-Square Error,MMSE)估计是一种语音增强算法,其能够有效地抑制背景噪声,从而提高输入信号的信噪比(Signal-to-Noise Ratio,SNR)。对于最小均方误差估计,在Y.Ephraim和D.Malah的文献″Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator″,IEEE Trans.Acoustic,Speech,and Signal Processing,Vol.ASSP-32,pp.1109-1121,1984中进行了详细的描述,其全部内容以引用方式包含于此,以供参考(下文中称为文献1)。在该文献中,利用MMSE估计对短时谱幅度(Short-Time Spectral Amplitude,STSA)进行了估计,并提出了利用MMSE STSA估计的系统,以及将该系统与广泛使用的基于Wiener滤波和减谱算法(Spectral Subtraction Algorithm)的系统进行了比较。
尽管在Y.Ephraim和D.Malah的文献中使用的谱的均方误差的失真测量在数学上易处理,并获得了很好的结果,但是它不是最理想的方式。众所周知,基于对数谱的均方误差的失真测量更适合于语音处理,例如在R.M.Gray,A.Buzo,A.H.Gray,Jr.和Y.Matsuyama的文献“Distortion measures for speech processing,”IEEE Trans.Acoust.,Speech,Signal processing,vol.ASSP-28,pp.367-376,Aug.1980中进行了详细的描述,其全部内容以引用方式包含于此,以供参考。因此,该失真测量广泛地用于语音分析和识别。
对于对数谱最小均方误差(LogMMSE)估计,在Y.Ephraim和D.Malah的文献“Speech enhancement using a minimum mean-square error l0g-spectral amplitude estimator”,IEEE Trans.Acoustic,Speech,and Signal Processing,Vol.ASSP-33,pp.443-445,1985中进行了详细的描述,其全部内容以引用方式包含于此,以供参考(下文中称为文献2)。LogMMSE优于MMSE,因为它能够获得更小的剩余噪声水平,同时不影响语音本身的质量。在LogMMSE增强算法中,采用泰勒级数累加或者数值积分来计算增益函数。
然而,在此构架中,存在以下两个问题:
1.泰勒级数累加只有当输入数值较小时计算精确,而数值积分只有在输入数值较大时计算精确。
2.利用泰勒级数累加或者数值积分计算增益函数的计算量很大。

发明内容

为了解决上述现有技术中存在的问题,本发明提供了噪声抑制方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。
根据本发明的一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,用分段线性函数代替增益函数来进行所述对数谱最小均方误差估计。
根据本发明的另一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,通过以下步骤计算增益函数来进行所述对数谱最小均方误差估计:利用泰勒级数累加计算所述增益函数;利用数值积分计算所述增益函数;以及合并所述泰勒级数累加的结果和所述数值积分的结果。
根据本发明的另一个方面,提供了一种用于提取语音特征的方法,包括:将含噪声语音变换成含噪声语音谱;利用上述的噪声抑制方法,降低所述含噪声语音谱的噪音;以及从所述噪声降低的语音谱提取语音特征。
根据本发明的另一个方面,提供了一种语音识别方法,包括:利用上述的提取语音特征的方法,提取语音特征;以及根据所述提取出的语音特征,识别语音。
根据本发明的另一个方面,提供了一种训练语音模型的方法,包括:利用上述的提取语音特征的方法,提取语音特征;以及根据所述提取出的语音特征,训练所述语音模型。
根据本发明的另一个方面,提供了一种用于含噪声语音谱的噪声抑制装置,包括:估计单元(estimation unit),根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,所述估计单元使用分段线性函数代替增益函数来进行所述对数谱最小均方误差估计。
根据本发明的另一个方面,提供了一种用于含噪声语音谱的噪声抑制装置,包括:估计单元(estimation unit),根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,所述估计单元包括:泰勒级数累加计算单元(Taylor series accumulation calculation unit),利用泰勒级数累加计算所述增益函数;数值积分计算单元(numeric integration calculation unit),利用数值积分计算所述增益函数;以及合并单元(combination unit),用于合并所述泰勒级数累加计算单元计算的结果和所述数值积分计算单元计算的结果。
根据本发明的另一个方面,提供了一种用于提取语音特征的装置,包括:变换单元(transforming unit),将含噪声语音变换成含噪声语音谱;
根据上述的噪声抑制装置,用于降低所述含噪声语音谱的噪音;以及提取单元(extracting unit),从所述噪声降低的语音谱提取所述语音特征。
根据本发明的另一个方面,提供了一种语音识别装置,包括:根据上述的提取语音特征的装置,用于提取语音特征;以及语音识别单元(speech recognition unit),根据所述提取出的语音特征,识别语音。
根据本发明的另一个方面,提供了一种训练语音模型的装置,包括:根据上述的提取语音特征的装置,用于提取语音特征;以及模型训练单元(model-training unit),根据所述提取出的语音特征,训练所述语音模型。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施例的噪声抑制方法的流程图;
图2A-2D示出了设置分段线性函数的分割点的过程的一个实例,其中
图2A示出了一个增益函数的曲线,图2B示出了增益函数的导数的曲线,
图2C示出了增益函数和分段线性函数之间的差别的曲线,以及图2D示出了分割后的分段线性函数的曲线;
图3是根据本发明的另一个实施例的噪声抑制方法的流程图;
图4A-4C示出了对泰勒级数累加和数值积分进行合并的一个实例,其中图4A示出了通过泰勒级数累加获得的增益函数,图4B示出了通过数值积分获得的增益函数,以及图4C示出了通过合并上述两种计算方法获得的增益函数;
图5示出了计算合并阈值的一个实例;
图6是根据本发明的另一个实施例的提取语音特征的方法的流程图;
图7是根据本发明的另一个实施例的语音识别方法的流程图;
图8是根据本发明的另一个实施例的训练语音模型的方法的流程图;
图9是根据本发明的另一个实施例的噪声抑制装置的方框图;
图10是根据本发明的另一个实施例的噪声抑制装置的方框图;
图11是根据本发明的另一个实施例的提取语音特征的装置的方框图;
图12是根据本发明的另一个实施例的语音识别装置的方框图;以及
图13是根据本发明的另一个实施例的训练语音模型的装置的方框图。

具体实施方式

为了便于后面实施例的理解,首先简要介绍一下最小均方误差(MMSE)估计以及对数谱最小均方误差(LogMMSE)估计的原理。
MMSE估计是一种语音增强算法,它利用背景噪声的估计谱,对含噪声语音谱中的噪声进行抑制,获得噪声得到抑制的语音谱。具体地,最小均方误差估计通过以下公式进行:
y(t)=x(t)+d(t),0≤t≤T                (1)
A^k=EAk|y(t),0tT---(2)
其中,y(t)表示包含语音信号x(t)和噪声信号d(t)的信号,Ak表示语音信号x(t)的第k个谱分量的振幅,表示通过Ak的MMSE估计得到的语音谱。通过推导得到:
A^k=CυkγkM(υk)Rk---(3)
其中υk=ξk1+ξkγk---(4)
其中表示噪声得到抑制的语音谱,Rk表示含噪声语音谱,C是常数,ξk是根据噪声估计谱获得的先验信噪比,γk是根据噪声估计谱和含噪声语音谱获得的后验信噪比,M(υk)是合流超几何函数,以及k表示第k个谱分量。具体细节参见上述Y.Ephraim和D.Malah的文献1。
LogMMSE估计也是一种语音增强算法,它能够获得更小的剩余噪声水平,同时不影响语音本身的质量。具体地,LogMMSE估计通过以下公式进行:
A^k=exp{ElnAk|y(t),0tT}---(5)
其中,与进行MMSE估计时使用的公式(1)不同的是,对语音信号x(t)的第k个谱分量的振幅Ak取对数。通过推导得到:
A^k=ξk1+ξkexp{12ke-ttdt}Rk
如下定义增益函数G(υk):
G(υk)A^kRk---(7)
其中υk=ξk1+ξkγk.
从而得到噪声得到抑制的语音谱为:
A^k=G(υk)Rk---(8)
具体细节参见上述Y.Ephraim和D.Malah的文献2。
下面就结合附图对本发明的各个实施例进行详细的说明。
图1是根据本发明的一个实施例的噪声抑制方法的流程图。如图1所示,首先,在步骤101,输入含噪声语音谱。含噪声语音谱是根据包含背景噪声和语音的声音数据,例如利用快速傅里叶变换得到的语音谱,因此是背景噪声和语音叠加在一起的语音谱。
接着,在步骤105,根据预先估计的噪声估计谱,对含噪声语音进行对数谱最小均方误差估计。噪声估计谱是对没有语音的背景噪声进行预先估计得到的。获得噪声估计谱的方式很多,例如,对多次采集的背景噪声谱进行平均等等,本发明对此并没有特别的限制。具体地,根据上述公式(8)进行对数谱最小均方误差估计,其中利用分段线性函数代替公式(8)中的增益函数G(υk),变换后的公式为:
A^k=L(υk)Rk---(9)
其中υk=ξk1+ξkγk,
其中表示噪声得到抑制的语音谱,Rk表示含噪声语音谱,ξk是根据噪声估计谱获得的先验信噪比,γk是根据噪声估计谱和含噪声语音谱获得的后验信噪比,L(υk)是分段线性函数,以及k表示第k个谱分量。
在本实施例中,可以利用预先设定分割点的分段线性函数L(υk)近似增益函数G(υk)。例如,可以通过以下步骤进行分段线性函数L(υk)近似增益函数G(υk)的过程。
具体地,图2A-2D示出了设置分段线性函数的分割点的过程的一个实例,其中图2A示出了一个增益函数G(v)的曲线,图2B示出了增益函数的导数的曲线,图2C示出了增益函数和分段线性函数之间的差别的曲线,以及图2D示出了分割后的分段线性函数L(v)的曲线。具体的分割过程如下。
首先,计算增益函数G(v)的导数,如图2B所述。为了方便,在本实例中,只取导数值在0.05-0.50范围内的曲线作为示例。
接着,设定分段线性函数L(v)的初始分割点,如图2B所述。例如在本实例中,初始分割点设在导数值为0.10、1.15、0.20、0.25、0.30、0.35、0.40、0.45处。
接着,计算在初始分割点的每两个连续分割点之间的分段线性函数L(v)和增益函数G(v)之间的差别,如图2C所示。
接着,将计算出的每两个连续分割点之间的函数值的差别与预先设定的阈值进行比较,例如,在本实例中,阈值设定为0.037。通过比较,如果差别大于0.037,则在两个连续分割点之间插入一个新的分割点,例如,在分割点0.10和0.15之间,例如在它们的中点处插入一个新的分割点。
重复上述计算差别的步骤及其之后的步骤,直到没有所述差别大于所述阈值。从而,得到如图2D所示的分段线性函数。
返回到图1,在利用分段线性函数L(υk)代替增益函数G(υk)进行对数谱最小均方误差估计之后,在步骤110,输出通过对数谱最小均方误差估计降低噪声的语音谱。
通过本实施例的噪声抑制方法,利用分段线性函数代替增益函数,极大地降低了对数谱最小均方误差估计的计算量,同时保持了噪声抑制性能。
在同一发明构思下,图3是根据本发明的另一个实施例的噪声抑制方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图3所示,首先,在步骤301,输入含噪声语音谱。含噪声语音谱是根据包含背景噪声和语音的声音数据,例如利用快速傅里叶变换得到的语音谱,因此是背景噪声和语音叠加在一起的语音谱。
接着,在步骤305,对含噪声语音进行对数谱最小均方误差估计。具体地,在该步骤中,利用公式(8),通过泰勒级数累加计算增益函数来进行对数谱最小均方误差估计,得到如图4A所示的曲线。本实施例中采用的泰勒级数累加方法可以是本领域的技术人员公知的任何方法,本发明对此并没有限制,在此不再赘述。
在图4A中可以看出,在输入变量较小时,通过泰勒级数累加获得的增益函数值很精确,而在输入变量较大时,计算出的增益函数值不精确。
接着,在步骤310,根据噪声估计谱,利用公式(8),通过数值积分计算增益函数来进行对数谱最小均方误差估计,得到如图4B所示的曲线。本实施例中采用的数值积分方法可以是本领域的技术人员公知的任何方法,本发明对此并没有限制,在此不再赘述。
在图4B中可以看出,与泰勒级数累加方法计算的结果相反,在输入变量较大时,通过数值积分获得的增益函数值很精确,而在输入变量较小时,计算出的增益函数值不精确。
接着,在步骤315,合并通过泰勒级数累加方法计算的结果和数值积分方法计算的结果。
具体地,可以将图4A中通过泰勒级数累加获得的增益函数值中不精确的部分利用通过数值积分获得的增益函数值替换,或者将图4B中通过数值积分获得的增益函数值中不精确的部分利用通过泰勒级数累加获得的增益函数值替换。此外,也可以在泰勒级数累加方法和数值积分方法都精确的范围内任意取一点(例如图4A和图4B中两条曲线的最接近处),作为合并阈值,将小于合并阈值的通过泰勒级数累加方法计算得到的增益函数值和大于合并阈值的通过数值积分方法计算得到的增益函数值合并。
优选,可以通过如下方法确定上述合并阈值。
首先,将通过泰勒级数累加方法计算的增益函数值和通过数值积分方法计算的增益函数值进行相减,然后可选地对相减得到的结果取绝对值并可选地作对数变换,得到如图3所示的曲线。然后,选择图3的曲线的最小值处对应的输入变量作为上述合并阈值。
在确定合并阈值后,将小于合并阈值的通过泰勒级数累加方法计算得到的增益函数值和大于合并阈值的通过数值积分方法计算得到的增益函数值合并,如图4A-4C所示,从而得到精确的增益函数值。
返回到图3,在通过合并泰勒级数累加方法和数值积分方法进行对数谱最小均方误差估计之后,在步骤320,输出通过对数谱最小均方误差估计降低噪声的语音谱。
通过本实施例的噪声抑制方法,通过合并泰勒级数累加方法和数值积分方法进行对数谱最小均方误差估计,能够得到理论上所预期的去除噪声的性能,从而弥补单独使用泰勒级数累加方法或数值积分方法计算不精确的缺点。
在同一发明构思下,图6是根据本发明的另一个实施例的提取语音特征的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图6所示,首先,在步骤601,输入含噪声语音,该含噪声语音包括说话人说出的语音和背景噪声。
接着,在步骤605,将所述含噪声语音变换成含噪声语音谱,例如通过快速傅立叶变换(Fast Fourier Transform,FFT)将时域上的语音变换成频域上的语音谱。
接着,在步骤610,利用上面根据图1和图2的实施例所述的噪声抑制方法,降低所述含噪声语音谱的噪音。所述噪声抑制方法是根据上述公式(9)进行对数谱最小均方误差估计,其中,利用分段线性函数代替了增益函数。具体的降噪过程与上述实施例中的相同,在此不再赘述。
此外,也可以利用上面根据图3至图5的实施例所述的噪声抑制方法,降低所述含噪声语音谱的噪音。所述噪声抑制方法是根据上述公式(8)进行对数谱最小均方误差估计,其中,通过合并泰勒级数累加方法和数值积分方法进行对数谱最小均方误差估计。具体的降噪过程与上述实施例中的相同,在此不再赘述。
最后,在步骤615,从噪声降低的语音谱中提取语音特征。具体地,可以通过Mel频率倒谱系数(Mel Frequency ceptral Coefficient,MFCC)或线性预测倒谱系数(Linear Predictive Cepstral Coefficient,LPCC)等常规方法提取语音特征,本发明对此没有特别限制。
通过以上的说明可知,本实施例的提取语音特征的方法可以在从含噪声语音谱中提取语音特征之前,通过上述公式(9)进行对数谱最小均方误差估计来降低噪声,其中利用分段线性函数代替增益函数,极大地降低了对数谱最小均方误差估计的计算量,同时保持了噪声抑制性能。因此,可以提高语音特征的质量。
此外,本实施例的提取语音特征的方法也可以在从含噪声语音谱中提取语音特征之前,通过上述公式(8)进行对数谱最小均方误差估计来降低噪声,其中通过合并泰勒级数累加方法和数值积分方法进行对数谱最小均方误差估计,能够得到理论上所预期的去除噪声的性能,从而弥补单独使用泰勒级数累加方法或数值积分方法计算不精确的缺点。因此,可以提高语音特征的质量。
在同一发明构思下,图7是根据本发明的另一个实施例的语音识别方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图7所示,首先,在步骤701,利用上面参考图6的实施例所述的提取语音特征的方法,提取语音特征。具体的提取过程与上述实施例中的相同,在此不再赘述。
然后,在步骤705,根据所述提取出的语音特征,进行语音识别。具体地,例如,将提取出的语音特征和预先训练好的模板进行比较,从而识别出所述语音的内容信息,本发明对此没有特别限制。
通过以上的说明可知,本实施例的语音识别方法可以在从含噪声语音谱中提取语音特征之前,通过上述公式(9)进行对数谱最小均方误差估计来降低噪声,其中利用分段线性函数代替增益函数,极大地降低了对数谱最小均方误差估计的计算量,同时保持了噪声抑制性能,从而可以提高语音特征的质量。因此,可以提高语音识别的性能。
此外,可选地,本实施例的语音识别方法也可以在从含噪声语音谱中提取语音特征之前,通过上述公式(8)进行对数谱最小均方误差估计来降低噪声,其中通过合并泰勒级数累加方法和数值积分方法进行对数谱最小均方误差估计,能够得到理论上所预期的去除噪声的性能,从而弥补单独使用泰勒级数累加方法或数值积分方法计算不精确的缺点。因此,可以提高语音识别的性能。
在同一发明构思下,图8是根据本发明的另一个实施例的训练语音模型的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图8所示,首先,在步骤801,利用上面参考图6的实施例所述的提取语音特征的方法,提取语音特征。具体的提取过程与上述实施例中的相同,在此不再赘述。
然后,在步骤805,根据所述提取出的语音特征,训练所述语音模型。
通过以上的说明可知,在本实施例的训练语音模型的方法中,可以在从含噪声语音谱中提取语音特征之前,通过上述公式(9)进行对数谱最小均方误差估计来降低噪声,其中利用分段线性函数代替增益函数,极大地降低了对数谱最小均方误差估计的计算量,同时保持了噪声抑制性能,从而可以提高语音特征的质量。因此,可以提高训练出的模型的质量。
此外,可选地,本实施例的训练语音模型的方法也可以在从含噪声语音谱中提取语音特征之前,通过上述公式(8)进行对数谱最小均方误差估计来降低噪声,其中通过合并泰勒级数累加方法和数值积分方法进行对数谱最小均方误差估计,能够得到理论上所预期的去除噪声的性能,从而弥补单独使用泰勒级数累加方法或数值积分方法计算不精确的缺点。因此,可以提高训练出的模型的质量。
在同一发明构思下,图9是根据本发明的一个实施例的噪声抑制装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图9所示,本实施例的用于含噪声语音谱的噪声抑制装置900包括对数谱最小均方误差估计单元(log-spectral minimum mean-square error estimation unit)901,其根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声。所述对数谱最小均方误差估计单元900利用分段线性函数代替增益函数,根据上述公式(9)进行对数谱最小均方误差估计,具体细节与上述参考图1和2的实施例中关于噪声抑制方法的描述相同,在此不再赘述。
本实施例的噪声抑制装置900还可以包括分割点保存单元905,用于保存所述分段线性函数的分割点;以及噪声估计保存单元910,用于保存对背景噪声进行预先估计获得的噪声估计。此外,所述噪声估计也可以从外部输入所述对数谱最小均方误差估计单元901。
通过以上的说明可知,由于本实施例的噪声抑制装置900利用分段线性函数代替增益函数,极大地降低了对数谱最小均方误差估计的计算量,同时保持了噪声抑制性能。
在同一发明构思下,图10是根据本发明的另一个实施例的噪声抑制装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图10所示,本实施例的用于含噪声语音谱的噪声抑制装置1000包括:对数谱最小均方误差估计单元(log-spectral minimum mean-square error estimation unit)1001,其根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声。具体细节与上述参考图3至图5的实施例中关于噪声抑制方法的描述相同,在此不再赘述。
具体地,对数谱最小均方误差估计单元1001还包括泰勒级数累加计算单元(Taylor series accumulation calculation unit)10011,其利用公式(8),通过泰勒级数累加计算增益函数来进行对数谱最小均方误差估计,得到如图4A所示的曲线。本实施例中采用的泰勒级数累加计算单元10011可以是本领域的技术人员公知的任何能够进行泰勒级数累加的装置,本发明对此并没有限制,在此不再赘述。
在图4A中可以看出,在输入变量较小时,由泰勒级数累加计算单元10011计算出的增益函数值很精确,而在输入变量较大时,计算出的增益函数值不精确。
此外,对数谱最小均方误差估计单元1001还包括数值积分计算单元(numeric integration calculation unit)10012,其利用公式(8),通过数值积分计算增益函数来进行对数谱最小均方误差估计,得到如图4B所示的曲线。本实施例中采用的数值积分计算单元10012可以是本领域的技术人员公知的任何能够进行数值积分的装置,本发明对此并没有限制,在此不再赘述。
在图4B中可以看出,与由泰勒级数累加计算单元10011计算出的结果相反,在输入变量较大时,由数值积分计算单元10012计算出的增益函数值很精确,而在输入变量较小时,计算出的增益函数值不精确。
此外,对数谱最小均方误差估计单元1001还包括合并单元(combination unit)10013,用于合并由泰勒级数累加计算单元10011计算出的结果和由数值积分计算单元10012计算出的结果。
具体地,可以将图4A中由泰勒级数累加计算单元10011计算出的增益函数值中不精确的部分利用由数值积分计算单元10012计算出的增益函数值替换,或者将图4B中由数值积分计算单元10012计算出的增益函数值中不精确的部分利用由泰勒级数累加计算单元10011计算出的增益函数值替换。此外,也可以在泰勒级数累加计算单元10011和数值积分计算单元10012都精确的范围内任意取一点(例如图4A和图4B中两条曲线的最接近处),作为合并阈值,将小于合并阈值的由泰勒级数累加计算单元10011计算出的增益函数值和大于合并阈值的由数值积分计算单元10012计算出的增益函数值合并。
优选,合并单元10013包括减法单元(subtraction unit),其将由泰勒级数累加计算单元10011计算出的增益函数值和由数值积分计算单元10012计算出的增益函数值进行相减;可选的绝对值运算单元(absolute operation unit),对减法单元得到的结果取绝对值;可选的对数运算单元(logarithmic operation unit),对绝对值运算单元得到的结果进行对数变换,得到如图3所示的曲线;以及选择单元(selection unit),选择图3的曲线的最小值处对应的输入变量作为上述合并阈值。
在确定合并阈值后,合并单元10013将小于合并阈值的由泰勒级数累加计算单元10011计算出的增益函数值和大于合并阈值的由数值积分计算单元10012计算出的增益函数值合并,如图4A-4C所示,从而得到精确的增益函数值。
通过本实施例的噪声抑制装置1000,通过泰勒级数累加计算单元10011、数值积分计算单元10012和合并单元10013合并泰勒级数累加方法和数值积分方法进行对数谱最小均方误差估计,能够得到理论上所预期的去除噪声的性能,从而弥补单独使用泰勒级数累加方法或数值积分方法计算不精确的缺点。
在同一发明构思下,图11是根据本发明的另一个实施例的提取语音特征的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图11所示,本实施例的用于提取语音特征的装置1100包括:输入单元(inputting unit)1501,输入含噪声语音;变换单元(transforming unit)1105,将所述含噪声语音变换成含噪声语音谱;上面所述的噪声抑制装置900或噪声抑制装置1000,用于降低所述含噪声语音谱的噪音;以及提取单元(extracting unit)1110,从所述噪声降低的语音谱提取所述语音特征。具体细节与上述参考图6的实施例中关于提取语音特征的方法的描述相同,在此不再赘述。
通过以上的说明可知,本实施例的提取语音特征的装置1100可以在从含噪声语音谱中提取语音特征之前,通过上述公式(9)进行对数谱最小均方误差估计来降低噪声,其中利用分段线性函数代替增益函数,极大地降低了对数谱最小均方误差估计的计算量,同时保持了噪声抑制性能。因此,可以提高语音特征的质量。
此外,本实施例的提取语音特征的装置1100也可以在从含噪声语音谱中提取语音特征之前,通过上述公式(8)进行对数谱最小均方误差估计来降低噪声,其中通过合并泰勒级数累加方法和数值积分方法进行对数谱最小均方误差估计,能够得到理论上所预期的去除噪声的性能,从而弥补单独使用泰勒级数累加方法或数值积分方法计算不精确的缺点。因此,可以提高语音特征的质量。
在同一发明构思下,图12是根据本发明的另一个实施例的语音识别装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图12所示,本实施例的语音识别装置1200包括:上面所述的提取语音特征的装置1100,用于提取语音特征;以及语音识别单元(speech recognition unit)1201,根据所述提取出的语音特征,进行语音识别。具体细节与上述参考图7的实施例中关于语音识别方法的描述相同,在此不再赘述。
通过以上的说明可知,本实施例的语音识别装置1200可以在从含噪声语音谱中提取语音特征之前,通过上述公式(9)进行对数谱最小均方误差估计来降低噪声,其中利用分段线性函数代替增益函数,极大地降低了对数谱最小均方误差估计的计算量,同时保持了噪声抑制性能。因此,可以提高语音识别的性能。
此外,本实施例的语音识别装置1200也可以在从含噪声语音谱中提取语音特征之前,通过上述公式(8)进行对数谱最小均方误差估计来降低噪声,其中通过合并泰勒级数累加方法和数值积分方法进行对数谱最小均方误差估计,能够得到理论上所预期的去除噪声的性能,从而弥补单独使用泰勒级数累加方法或数值积分方法计算不精确的缺点。因此,可以提高语音识别的性能。
在同一发明构思下,图13是根据本发明的另一个实施例的训练语音模型的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图13所示,本实施例的训练语音模型的装置1300包括:上面所述的提取语音特征的装置1100,用于提取语音特征;以及模型训练单元(model-training unit)1301,根据所述提取出的语音特征,训练所述语音模型。具体细节与上述参考图8的实施例中关于训练语音模型的方法的描述相同,在此不再赘述。
通过以上的说明可知,本实施例的训练语音模型的装置1300可以在从含噪声语音谱中提取语音特征之前,通过上述公式(9)进行对数谱最小均方误差估计来降低噪声,其中利用分段线性函数代替增益函数,极大地降低了对数谱最小均方误差估计的计算量,同时保持了噪声抑制性能,从而可以提高语音特征的质量。因此,可以提高训练出的模型的质量。
此外,可选地,本实施例的训练语音模型的装置1300也可以在从含噪声语音谱中提取语音特征之前,通过上述公式(8)进行对数谱最小均方误差估计来降低噪声,其中通过合并泰勒级数累加方法和数值积分方法进行对数谱最小均方误差估计,能够得到理论上所预期的去除噪声的性能,从而弥补单独使用泰勒级数累加方法或数值积分方法计算不精确的缺点。因此,可以提高训练出的模型的质量。
以上虽然通过一些示例性的实施例详细地描述了本发明的噪声抑制方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。