噪声门、声音采集装置及噪声消除方法转让专利

申请号 : CN200980146295.0

文献号 : CN102216984B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 田中良栗山直人

申请人 : 雅马哈株式会社

摘要 :

本发明提供了一种噪声门,能够输出仅仅消除了其中的恒定噪声而不会降低讲话者发言语音的质量的声音信号。声音采集装置(1)包括:FFT处理单元(11);噪声门(12);以及IFFT处理单元(13)。声音采集装置(1)通过FFT处理单元(11)将采集到的声音信号(NE′T)转换成频谱(NE′N)。噪声门(12)根据声音信号的频谱(NE′N)对恒定噪声的噪声谱(N′N)进行评估。如果声音信号的频谱(NE′N)关于噪声谱(N′N)的信号电平比小于阈值,则噪声门(12)在输出信号之前减小声音信号的信号电平(增益)。声音采集装置(1)输出音频信号(CO′T),该音频信号是在IFFT处理单元(13)中通过将从中消除了恒定噪声(N′N)的频谱(CO′N)进行反向变换而生成的。

权利要求 :

1.一种噪声门,包括:

输入单元,将音频信号的频谱输入到该输入单元;

评估单元,其根据输入到输入单元中的音频信号的频谱来评估噪声谱;以及输出单元,其计算所述音频信号的频谱与评估单元评估所得噪声谱之间的信号电平比并且输出音频信号的频谱,其中信号电平比低于预定阈值的频带中的信号电平被降低。

2.根据权利要求1所述的噪声门,其中通过与评估单元的评估误差相对应的值将用来与所述信号电平比进行比较的所述阈值设置为大于1的值。

3.一种声音采集装置,包括:

根据权利要求1或2所述的噪声门;

声音采集单元,其采集环境声音并生成音频信号;

变换单元,其将声音采集单元所生成的音频信号转换成频谱来作为频域的信号;以及逆变换单元,其将变换单元变换所得的频谱输入到所述噪声门的输入单元,并将所述噪声门的输出单元所输出的音频信号的频谱逆变换成音频信号来作为时域中的信号。

4.一种噪声消除方法,包括以下处理:

输入音频信号的频谱;

根据输入处理中所输入的音频信号的频谱来评估噪声谱;

计算音频信号的频谱与评估处理中评估所得噪声谱之间的信号电平比;以及输出音频信号的频谱,其中在所述计算处理中计算出的信号电平比低于预定阈值的频带中的信号电平被降低。

5.根据权利要求4所述的噪声消除方法,其中通过与评估处理中所使用的评估单元的评估误差相对应的值将用来与所述信号电平比进行比较的所述阈值设置为大于1的值。

说明书 :

噪声门、声音采集装置及噪声消除方法

技术领域

[0001] 本发明涉及用于消除音频信号中所含噪声的噪声门,还涉及声音采集装置及噪声消除方法。

背景技术

[0002] 现有技术的声音采集装置中提供有噪声门来作为用于消除噪声的单元(例如,专利文件1)。
[0003] 例如,专利文件1公开了一种噪声门装置,其按照用于放大音频信号的前置放大器的放大率来改变噪声门的阈值,并且消除低于该阈值的音频信号。
[0004] 现有技术文件
[0005] 专利文件
[0006] 专利文件1:JP-A-2006-50067

发明内容

[0007] 本发明要解决的问题
[0008] 然而,专利文件1中描述的噪声门装置消除了低于阈值的音频信号。因此,对于在该低于阈值的音频信号中包含了讲话者的发言语音的情况,会发生这样的问题,即,信号电平低于阈值的发言语音被噪声门消除了。
[0009] 考虑上述问题,本发明的目的是提供噪声门、声音采集装置及噪声消除方法,它们各自都能够容易地消除恒定噪声而不降低音频信号质量。
[0010] 解决问题的方式
[0011] 根据本发明的噪声门基于输入音频信号的频谱来对该输入音频信号中所含恒定噪声(以下称为恒定噪声)的噪声谱进行评估。该噪声门计算输入音频信号的频谱与评估所得噪声谱的信号电平比。噪声门输出其中一个频带中的信号电平被降低了的音频信号的频谱,该频带是所计算出的信号电平比低于预定阈值的频带。
[0012] 以此配置,噪声门输出了包括讲话者发言语音的音频信号的频谱,并抑制了恒定噪声所形成的音频信号的频谱中的信号电平,从而能够输出仅仅消除了其中的恒定噪声的音频信号而不会降低讲话者发言语音的质量。
[0013] 另外,可根据与评估单元的评估误差相对应的值将用来与信号电平比进行比较的阈值设置为大于1的值。由于噪声门使用评估所得恒定噪声来对将要与阈值进行比较的信号电平比进行计算,所以要考虑恒定噪声的评估误差。
[0014] 以此配置,即使在恒定噪声的信号电平被评估为低于实际值的值时,噪声门也能将该恒定噪声消除掉。
[0015] 另外,根据本发明的声音采集装置具有上述噪声门。声音采集装置把通过采集声音而生成的音频信号转换成频谱来作为频域的信号并将该频域的信号输出到噪声门。另外,声音采集装置还将从噪声门输出的音频信号的频谱逆变换成音频信号来作为时域的信号。
[0016] 以此配置,声音采集装置能够利用上述噪声门来将恒定噪声从采集到的音频信号中消除。因此,声音采集装置能够在不降低所采集到的讲话者发言语音质量的情况下输出声音。
[0017] 根据本发明的噪声消除方法包括以下处理:输出音频信号的频谱;根据输入处理中所输入的音频信号的频谱来评估噪声谱;计算音频信号的频谱与在评估处理中评估所得的噪声谱之间的信号电平比;以及输出其中一个频带中的增益被降低了的音频信号的频谱,该频带是计算处理中计算出的信号电平比低于预定阈值的频带。
[0018] 另外,可根据与评估处理中用到的评估单元的评估误差相对应的值将用来与信号电平比进行比较的阈值设置为大于1的值。
[0019] 发明的优点
[0020] 根据本发明的噪声门能够输出消除了恒定噪声的音频信号而不会降低讲话者发言语音的质量。

附图说明

[0021] 图1是示出声音采集装置的功能和结构的框图。
[0022] 图2是示出增益表的一个示例的示图。
[0023] 图3(A)、图3(B)和图3(C)是分别示出恒定噪声、音频信号和消除噪声后的音频信号的示例的示图。
[0024] 图4是示出增益表的另一个示例的示图。

具体实施方式

[0025] 下面将参考图1和图2来描述根据本发明的声音采集装置1。图1是示出声音采集装置1的功能和结构的框图。图2是示出增益表的一个示例的示图。声音采集装置1具有噪声门12(见图1)。声音采集装置1将采集到的音频信号NE′T转换成频谱NE′N。声音采集装置1使用噪声门12将音频信号NE′N中所含的恒定噪声N′N消除掉。此时,由噪声门12根据频谱NE′N对恒定噪声N′N进行评估。声音采集装置1输出音频信号CO′T,该音频信号CO′T是通过对消除了恒定噪声N′N之后的频谱CO′N关于时间轴进行逆变换的方式而生成的。同时在下面的描述中,时域中的结束符号用′T来指示,频域中的结束符号用′N来指示。
[0026] 首先参考图1和图2来描述声音采集装置1的功能和结构。如图1所示,声音采集装置1包括麦克风MIC、FFT处理单元11、噪声门12以及IFFT处理单元13。
[0027] 麦克风MIC通过采集环境声音来生成音频信号。麦克风MIC将所生成的音频信号NE′T输出到FFT处理单元11。
[0028] FFT处理单元11是快速傅立叶变换电路,其将作为时域信号的音频信号NE′T转换成作为频域信号的音频信号NE′N,并将该音频信号NE′N输出到噪声门12中的评估单元121和噪声消除单元122。
[0029] 噪声门12具有评估单元121和噪声消除单元122。
[0030] 评估单元121对从FFT处理单元11输入的音频信号NE′N中所包含的恒定噪声N′N进行评估处理。评估单元121随后在恒定噪声N′N的特定采样时间处获取频谱(以下称为音频谱)S(NE′N)并临时存储这些频谱。评估单元121根据上述获取并存储的多个时间的音频谱S(NE′N)来对恒定噪声N′N的特定采样时间处的频谱(以下称为噪声谱)S(N′N)进行评估。评估单元121将评估所得噪声谱S(N′N)输出到噪声消除单元122。
[0031] 例如,特定采样时间T处的噪声谱用S(N′N(T))表示,相同采样时间T处的音频谱用S(NE′N(T))表示,并且前一采样时间T-1处的噪声谱用S(N′N(T-1))表示。“α”和“β”作为遗忘常数例如被设置为α=0.9、β=0.1。噪声谱S(N′N(T))由以下公式1表示。
[0032] S(N′N(T))=αS(N′N(T-1))+βS(NE′N(T)) 公式1
[0033] 因此,通过基于音频谱来对噪声谱S(N′N(T))进行评估,能够评估出诸如背景噪声等之类的恒定噪声。评估单元121只有在麦克风MIC所采集到的音频信号处在低电平状态(安静状态)的情况下才对噪声谱执行评估处理。
[0034] 噪声消除单元122从FFT处理单元11所输入的音频信号NE′N中消除恒定噪声N′N,并将消除了噪声后的音频信号CO′N输出到IFFT处理单元13。具体来说,噪声消除单元122对音频谱S(NE′N)与评估单元121所输入的噪声谱S(N′N)之间的信号电平比进行计算。在计算出的信号电平比低于阈值的情况下,噪声消除单元122在信号电平比低于阈值的频带中减小音频谱S(NE′N)的增益并输出音频信号。
[0035] 例如,噪声消除单元122具有图2所示的增益表TBL。增益表TBL描述了音频谱S(NE′N)按照计算出的信号电平比的增益。增益表TBL使得音频谱S(NE′N)的增益在信号电平比等于或大于阈值的情况下为1,并使得音频谱S(NE′N)的增益在信号电平比小于阈值的情况下为0。在此情况下,消除了噪声后的音频信号CO′N在特定采样时间处的频谱S(CO′N)可由以下公式2表示。
[0036] S(CO′N)=(TBL(S(NE′N)/S(N′N))·S(NE′N) 公式2
[0037] 结果,在信号电平比等于或大于阈值的频带中,噪声消除单元122原样输出音频谱S(NE′N)而不改变该音频谱S(NE′N)的信号电平。除此之外,在信号电平比小于阈值的频带中,由于音频谱S(NE′N)被假设为噪声谱S(N′N),所以噪声消除单元122输出信号电平为零的音频谱S(NE′N)。
[0038] 另外,考虑恒定噪声N′N的评估误差,噪声消除单元122可将信号电平比的阈值设置为比信号电平比的阈值(1.0)稍大的值。由此,即使在恒定噪声N′N的信号电平由于恒定噪声N′N的评估误差的原因而被评估为低于实际电平的情况下,噪声消除单元122也能够消除该恒定噪声N′N。
[0039] IFFT处理单元13是快速逆傅立叶变换电路,其将作为频域信号的音频信号CO′N转换成作为时域信号的音频信号CO′T。
[0040] 通过上述配置,由于声音采集装置1能够保持音频信号的原样而不对具有讲话者发言语音的频带内的音频信号进行削弱,所以能够输出讲话者的发言语音而不降低其质量。
[0041] 参考图3(A)至图3(C)来描述作为噪声门12输出值的消除了噪声后的音频信号CO′N。图3(A)至图3(C)是分别示出恒定噪声、音频信号和消除恒定噪声后的音频信号的示例的示图。图3(A)指示了恒定噪声的信号电平,图3(B)指示了包括恒定噪声的音频信号的信号电平,以及图3(C)指示了消除恒定噪声后的音频信号的信号电平。
[0042] 声音采集装置1对图3(A)所示的恒定噪声N′N进行评估并生成如图3(B)所示的音频信号NE′N。当声音采集装置1仅仅简单地从音频信号NE′N中减去噪声N′N以此来从音频信号NE′N中消除恒定噪声N′N时,如图3(C)中的虚线所示,即使在具有讲话者发言语音的频带中,音频信号NE′N的信号电平被削弱了,从而声音采集装置1会输出降低了质量的声音。声音采集装置1还会发生这样的情况,即,由于恒定噪声N′N的评估误差而使恒定噪声N′N仍存在于音频信号NE′N中。在此情况下,由于在不具有讲话者发言语音的频带中信号电平显著变化,所以声音采集装置1会生成乐音噪声。
[0043] 在该实施例中,如图3(C)中的实线所示,由于声音采集装置1保留了具有讲话者发言语音的频带并且减小了在不具有讲话者发言语音的频带(只具有噪声的频带)中音频信号的信号电平(增益),所以声音采集装置1能够在不降低讲话者发言语音质量的前提下输出声音。另外,由于声音采集装置1根据音频信号NE′N与恒定噪声N′N之间的信号电平比确定了输出值CO′N,所以在不具有讲话者发言语音的频带中不易发生信号电平变化并且能够防止乐音噪声的发生。而且,由于声音采集装置1计算了音频信号NE′N与恒定噪声N′N之间的信号电平比,所以即使在讲话者发言语音的水平很低时也能检测出仅具有噪声的频带。
[0044] 在以上实施例中,声音采集装置1对具有讲话者发言语音的频带中的音频信号的信号电平进行保持,并使不具有讲话者发言语音的频带中的音频信号的信号电平(增益)设成0,随后输出音频信号。然而,声音采集装置1能够对具有讲话者发言语音的频带中的音频信号的信号电平进行保持,并能够使不具有讲话者发言语音的频带中的音频信号的信号电平(增益)减小为大于0的值。图4是示出增益表的另一示例的示图。在此情况下,例如如图4所示,声音采集装置1确定了在不具有讲话者发言语音的频带中的音频信号的增益为0.5,并通过用0.5乘音频信号的信号电平来输出不具有讲话者发言语音的频带中的音频信号。以此配置,由于在具有讲话者发言语音的频带中的恒定噪声并不明显,声音采集装置1能够自然地输出讲话者的语音。
[0045] 尽管参考特定实施例详细描述了本发明,但应当理解的是在不超出本发明精神和范围的情况下,本领域技术人员可进行各种变型和改变。本发明基于2008年11月21日提交的日本专利申请(JP-2008-298332),其内容通过引用结合于本文。
[0046] 工业实用性
[0047] 能够提供一种噪声门,该噪声门输出仅仅消除了其中的恒定噪声而不会降低讲话者发言语音的质量的音频信号。
[0048] 参考数字及标号的描述
[0049] 1 声音采集装置
[0050] 11 FFT处理单元
[0051] 12 噪声门
[0052] 121 评估单元
[0053] 122 噪声消除单元
[0054] 13 IFFT处理单元
[0055] MIC 麦克风