一种MP3压缩域音频自适应降噪方法转让专利

申请号 : CN201010215404.4

文献号 : CN101930746B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 余小清许雪琼张静刘军伟万旺根

申请人 : 上海大学

摘要 :

本发明涉及一种MP3压缩域音频自适应降噪方法。本方法直接基于MP3压缩域进行降噪。首先,对含有噪声的MP3音频数据提取MDCT系数,基于MDCT谱能量特征对MP3音频进行活性检测,区分出活性音频段和静音段。同时,在从MP3压缩音频数据中提取MDCT系数后,根据MDCT系数的稀疏特性,采用正态反高斯(NIG)分布函数对MDCT系数进行先验统计建模。然后根据贝叶斯理论,设计基于NIG先验概率模型的最大后验概率估计器,得到相应音频段的衰减因子。在衰减噪声部分,利用衰减因子对音频段的噪声进行衰减,并根据静音段音频的衰减权重自适应地调整衰减的迭代次数以实现降噪。实验结果表明,采用本发明的降噪算法能有效去除MP3音频中的噪声,提高压缩音频的信噪比,且降噪后的MP3音频质量良好。

权利要求 :

1.一种MP3压缩域音频自适应降噪方法,其特征在于:首先从MP3压缩音频中提取体现原始音频频域特性的MDCT系数,然后分析MDCT系数的稀疏统计特性,采用正态反高斯NIG分布函数对MDCT系数进行先验建模,再利用贝叶斯准则设计基于正态反高斯NIG先验概率模型的最大后验概率估计器,得到相应音频段的衰减因子;最后在降噪部分,利用MDCT谱能量特征检测MP3音频中的静音段,并通过检测出的静音段的衰减权重自适应控制衰减噪声的迭代次数,由此实现对MP3压缩音频的自适应降噪;

具体操作步骤如下:

1)、含有噪声的MP3压缩音频的预处理,包括对MP3帧头进行解码、边信息获取、获取主数据和缩放因子、哈夫曼解码和反量化;

2)、提取MDCT系数,并进行幅值映射处理:从反量化后的MP3帧中找出每一帧两个粒度的MDCT系数,对两个颗粒的MDCT系数按频率点求平均,构建每帧音频的MDCT谱系数,并将MDCT系数的幅值范围映射到0-L之间;

3)、对MDCT系数的分布进行先验建模并构造最大后验概率估计器:分别对不含噪声的MDCT系数和含有噪声的MDCT系数的分布情况进行分析,获得不含噪声的MDCT系数的统计特性;根据MDCT系数的稀疏统计特性,利用正态反高斯NIG分布函数对MDCT系数进行先验建模;根据贝叶斯最大后验概率准则,设计基于NIG先验分布模型的噪声衰减估计器;

4)、静音段检测:提取基于MDCT系数的谱能量特征,根据MDCT谱能量特征参数检测MP3音频中的静音段;

5)、自适应迭代估计:利用步骤3)中的估计器对含有噪声的MP3进行估计,并通过步骤

4)中检测到的静音段的衰减因子自适应地调整迭代估计的次数;

所述步骤3)中对MDCT系数的分布进行先验建模并构造最大后验概率估计器具体步骤如下:①、分析MDCT的分布特性;

②、计算MDCT系数的概率分布函数;

通过步骤①的分析得到MDCT的分布具有稀疏特性后,采用正态反高斯分布函数模拟MDCT系数的分布,得到MDCT概率分布函数表示为:式中: Kλ(·)是索引为λ的第二阶修正贝

塞尔函数,K1(·)是索引为1的第二阶修正贝塞尔函数,

0≤|β|<α,δ>0,-∞<μ<∞;其中,α为衰减因子,δ为尺度因子,μ为均值,β为倾斜因子;

③、分析衰减因子α、尺度因子δ,均值μ,倾斜因子β四个参数对正态反高斯分布特性的影响;

④、参数估计

采用步骤②中的正态反高斯分布函数来拟合MDCT系数的概率分布,需要对决定正态T反高斯分布形状的四个参数[α,δ,β,μ] 进行估计:A)、计算方差 均值μ,倾斜因子β

假设加入的噪声为零均值高斯白噪声,含噪音频的前几帧为纯噪声帧,由纯噪声帧估计噪声MDCT系数的方差 并对含有噪声的MDCT系数计算均值μ,MP3音频信号的MDCT系数呈对称分布,因此,假设倾斜因子β=0;

B)、计算衰减因子α、尺度因子δ

采用NIG分布模型的偏斜系数和峭度系数来估计衰减因子α和尺度因子δ;不含噪声的MDCT系数的NIG分布模型的偏斜系数为 峭度系数为 其中相应的衰减因子α、尺度因子δ通过如下式子进行估计:其中, 分别为含有噪声的MDCT系数的2至4阶累积量,参数C1,C2为衰减因子α、尺度因子δ的权值,通过选择合适的C1,C2值,使NIG能有效地拟合MDCT系数的分布;

C)、估计衰减因子和尺度因子的权值C1、C2

对不同音频类型,不同信噪比条件下,统计C1、C2取不同值时对MDCT系数分布的拟合误差,最后得到最佳的值C1=0.1,C2=0.1;故有衰减因子α、尺度因子δ的估计式为:⑤、根据贝叶斯最大后验概率准则,设计基于NIG先验分布模型的噪声衰减函数:式中, Kλ(·)是索引

为λ的第二阶修正贝塞尔函数,为对含有噪声的MP3音频数据y进行衰减得到的无噪MP3音频数据;

相应,可得到含有噪声的MP3音频的衰减因子为:

2.根据权利要求1所述的一种MP3压缩域音频自适应降噪方法,其特征在于:所述步骤1)中的进行MP3压缩音频预处理具体步骤如下:①、同步数据流和帧头信息的获取;

A)、根据MP3编码格式,从MP3数据流中搜索同步信息;

B)、根据同步信息,找到MP3数据流中各帧数据的起始位置;

C)、确定数据帧的起始位置后,获取帧头信息Head;

②、从解码得到的帧头信息中获取边信息

A)、根据MP3帧头的编码格式,确定MP3帧头中边信息的起始位置;

B)、从MP3帧头信息Head中获取边信息Side;

③、提取MP3主数据和缩放因子

A)、根据边信息Side计算主数据的长度L;

B)、根据帧头信息Head中主数据的偏移量,确定MP3主数据的起始位置;

C)、从当前帧中获取总长度为L的主数据D;

D)、从主数据D中提取缩放因子Scale;

④、对MP3主数据流进行哈夫曼解码和反量化

A)、根据边信息Side确定哈夫曼解码数据的起始和结束位置;

B)、对MP3主数据D进行哈夫曼解码,得到32*18维的哈夫曼解码结果F[32,18];

C)、对哈夫曼解码结果F[32,18]中的数据进行反量化。

3.根据权利要求2所述的一种MP3压缩域音频自适应降噪方法,其特征在于:所述步骤2)中的MDCT系数提取及幅值映射处理具体步骤如下:①、构建每帧音频的修正离散余弦变换MDCT系数

A)、分配用于存放一帧MP3音频两个粒度的MDCT系数的n*576大小的存储空间MDCT0[n,576],MDCT1[n,576],其中n为MP3音频的帧数;

B)、从数组F中分别找到同一帧音频两个粒度的MDCT系数,按频率从低到高的原则重新排列,得到MDCT0[i,j],MDCT1[i,j];

C)、计算同一帧音频中两个粒度相同频率点处的MDCT系数的平均值,作为这一帧音频的MDCT系数值M[i,j];

其中,MDCT0[i,j],MDCT1[i,j]分别为第i帧音频的第0个粒度和第1个粒度的第j个MDCT谱值;M[i,j]为第i帧音频的第j个平均MDCT谱值;

②、MDCT系数幅值范围映射:将MDCT系数的幅值在0-1的范围线性映射到0-P之间,便于研究MDCT系数的统计分布和相应的拟合函数:式中x′ij为幅值映射后的第i帧音频的第j个MDCT谱值,M[i,j]为由①得到的第i帧音频的第j个平均MDCT谱值,Mmin为最小的MDCT谱系数,Mmax为最大的MDCT谱系数,P为映射后的最大幅值。

4.根据权利要求1所述的一种MP3压缩域音频自适应降噪方法,其特征在于:所述步骤4)静音段检测具体步骤如下:①、提取基于MDCT系数的谱特征

其中,EM(i)为第i帧音频的MDCT谱能量,M(i,j)为第i帧音频的第j个MDCT谱均值,N为一帧音频的MDCT系数的点数N=576,对整个MP3音频段,音频段各帧的MDCT谱能量组成相应的特征矢量EM=[EM(0),EM(1),...,EM(N-1)],即EM为音频段的MDCT谱能量包络;

②、根据MDCT谱能量特征调整判决门限

A)、初始化判决门限,以整个信号的MDCT谱能量包络的均值作为初始判决门限Lth式中,EM(i)为第i帧音频的MDCT谱能量,N表示音频段的帧数,Lth为初始判决门限;

B)、门限调整:将音频段的MDCT谱包络EM中所有小于判决门限Lth的帧做为噪声帧处理,有EMnoise(i)=EM(i) if EM(i)<Lth式中,EMnoise(i)表示第i帧音频的MDCT谱能量值为噪声帧的MDCT谱能量值,初始化噪声谱序列的均值和均方差,分别记为Lnoise和Snoise,式中,EMnoise(i)表示第i个噪声帧的MDCT谱能量值,Lnoise、Snoise分别为噪声能量序列的均值和均方差,M为噪声段的帧数;

在得到噪声帧能量序列的均值Lnoise和均方差Snoise基础上,重新调整判决门限Lth,Lth=C0×(Lnoise+C1×Snoise)其中,C0和C1为经验常数,实验中取C0=1.001,C1值取在1.5~2.0之间调整;调整完判决门限值Lth后,再重新区分噪声和语音帧,并重新计算噪声谱能量序列的均值Lnoise和均方差Snoise,然后调整判决门限值;如此重复至判决门限稳定;

③、活性端点的融合

A)、根据门限判断静音帧/非静音帧

Etype[i]为第i帧音频的类型,EM[i]为第i帧音频的MDCT谱能量值;音频类型Etype[i]值为0表示静音帧,类型Etype[i]值为1表示活性音频帧;

B)、计算静音段中所包含的帧数FN;

C)、若FN<10,该段为连续活性音频段间的停顿,合并入对应的音频段中。

5.根据权利要求1所述的一种MP3压缩域音频自适应降噪方法,其特征在于:所述步骤5)自适应迭代估计具体步骤如下:①、由步骤3)中的步骤⑤得到的衰减函数对步骤4)中检测到的静音段计算静音段的衰减值;

②、计算步骤①中静音段的平均衰减值

③、使用步骤3)中得到的衰减函数对含有噪声的MP3音频的MDCT系数进行衰减;

④、由静音段的平均衰减值 自适应调整迭代估计的次数:重复以上步骤①、②、③,当满足以下条件下,停止迭代,降噪完成:为静音段的平均衰减值,amin为整段音频的最小衰减因子,可以通过MDCT系数的高频段获得,C用于控制余留分量,取C=0.001。

说明书 :

一种MP3压缩域音频自适应降噪方法

技术领域

[0001] 本发明涉及一种MP3压缩域音频自适应降噪方法,主要是在不同高斯白噪声条件下,对含有噪声的MP3音频,直接在MP3压缩域实现对MP3音频的自适应降噪处理的方法。

背景技术

[0002] 音频降噪技术,是指利用信号处理和模式识别的方法,从含有噪声的音频中将噪声去除,使去除噪声后的音频有较高的信噪比和较好的质量。音频降噪是音频信号处理领域需要解决的关键技术之一。
[0003] 互联网以及各种数据库中存在的大量音频数据都是以压缩格式存储,如何对压缩域中的音频数据进行处理已成为音频研究领域的一大热点。国内外学者已针对压缩音频的分割、分类、检索算法进行了大量的研究,并且能获得与非压缩音频处理相近的实验结果。但在压缩音频中混有噪声的情况下,音频分类检索算法的精度却受到严重的影响。通常,先对含有噪声的压缩域音频解压缩,再进行降噪处理,耗费的时间较多,这必然降低对压缩音频进行各种处理的效率。因此,研究如何直接基于压缩域实现音频的降噪处理,以最小计算代价实现降噪来提高压缩域音频的检索效率显得尤为重要。
[0004] 在对音频进行压缩处理时考虑了人耳的听觉掩蔽特性,通过第二心理声学模型来选择修正的离散余弦变换(MDCT)的窗函数。同时,MDCT变换也是FFT变换的一种修正,且MDCT系数具有稀疏特性。因此,我们可以从压缩域音频中提取MDCT系数,然后试图寻找一种能拟合稀疏分布的模型函数用于对MDCT系数进行先验建模,然后构建滤波器,实现对压缩域音频的降噪处理。本发明正是采用上述的方法,从MPEG1标准声音第三层压缩技术MP3压缩域音频中提取MDCT系数,采用正态反高斯函数对MDCT系数的分布进行先验建模,构建最大后验概率估计函数,实现压缩域音频的降噪。
[0005] 本发明所提出的降噪方法解决了MP3压缩域中含有噪声的音频降噪问题,可进一步应用于MP3音频的语音识别和分类检索系统中。

发明内容

[0006] 本发明的目的在于提供一种MP3压缩域音频自适应降噪方法,通过从MP3音频提取MDCT系数,对MDCT系数的分布进行先验建模,并构建估计器,实现对含有噪声的MP3音频进行降噪处理。
[0007] 本发明解决其技术问题采用的技术方案为:先从MP3音频数据中提取MDCT系数,再对MDCT系数进行先验概率建模,然后构造噪声衰减估计器。同时,对MP3音频进行静音段检测,根据静音段的衰减比重来调整对含噪音频段进行噪声衰减的程度。
[0008] 本发明解决其技术问题采用的技术方案还可以进一步完善。首先从MP3音频数据中提取MDCT系数,再分析MDCT系数的特性,根据MDCT系数的特性选择适用于对MDCT系数分布进行先验概率建模的正态反高斯分布函数,然后根据贝叶斯最大后验概率理论来构造噪声衰减估计器。同时,利用MDCT谱能量特征对MP3音频进行静音段检测,根据静音段的衰减比重来调整降噪处理时对噪声衰减的程度。该方法具体包括如下步骤:
[0009] 1)、含有噪声的MP3压缩音频的预处理,包括对MP3帧头进行解码、边信息获取、获取主数据和缩放因子、哈夫曼解码和反量化四个部分;
[0010] 2)、提取MDCT系数,并进行幅值映射处理:从反量化后的MP3帧中找出每一帧两个粒度的MDCT系数,对两个颗粒的MDCT系数按频率点求平均,构建每帧音频的MDCT谱系数,并将MDCT系数的幅值范围映射到0-L之间;
[0011] 3)、对MDCT系数的分布进行先验建模并构造最大后验概率估计器:分别对不含噪声的MDCT系数和含有噪声的MDCT系数的分布情况进行分析,获得不含噪声的MDCT系数的统计特性。根据MDCT系数的稀疏统计特性,利用正态反高斯(NIG)分布函数对MDCT系数进行先验建模。根据贝叶斯最大后验概率准则,推导出基于NIG先验分布模型的估计器。
[0012] 4)、静音段检测:提取基于MDCT系数的谱能量特征,根据能量特征参数检测MP3音频中的静音段;
[0013] 5)、自适应迭代估计:利用3)中的估计器对含有噪声的MP3进行估计,并通过4)中检测到的静音段的衰减因子自适应地调整迭代估计的次数。
[0014] 本发明有益的效果是:直接基于MP3压缩域对MP3音频进行降噪处理,比传统的将MP3压缩音频解码为非压缩的wave音频再进行降噪处理的方法而言,本发明提出的方法更简单,且节省计算时间;研究MP3音频的MDCT系数的分布特性,选择适用于对MDCT系数的分布进行先验建模的函数,实验结果表明所选择的函数能有效的拟合MDCT系数的分布;并且,基于MDCT系数的先验概率分布函数设计的噪声衰减估计器能有效地实现MP3压缩音频的降噪;同时,利用MDCT谱能量特征检测MP3音频中的静音段,再由静音段的衰减因子自适应控制衰减噪声的程度,不仅能有效的解决降噪过程中过衰减或欠衰减导致引入音频噪声的问题,而且降噪后的音频具有良好的效果。

附图说明

[0015] 图1是本发明方法的流程图。

具体实施方式

[0016] 本发明一种MP3压缩域音频自适应降噪方法的一个优选实施例结合附图说明如下:一种MP3压缩域音频自适应降噪方法共分为五步:
[0017] 第一步:含有噪声的MP3压缩音频的预处理
[0018] 含有噪声的MP3压缩音频的预处理,包括对MP3帧头进行解码、边信息获取、读取主数据和缩放因子、哈夫曼解码和反量化四个部分。
[0019] 1、同步数据流和帧头信息的获取
[0020] A)、根据MP3编码格式,从MP3数据流中搜索同步信息;
[0021] B)、根据同步信息,找到MP3数据流中各帧数据的起始位置;
[0022] C)、确定数据帧的起始位置后,获取帧头信息Head;
[0023] 2、边信息的获取
[0024] A)、根据MP3帧头的编码格式,确定MP3帧头中边信息的起始位置;
[0025] B)、从MP3帧头信息Head中获取边信息Side;
[0026] 3、MP3主数据和缩放因子的读取
[0027] A)、根据边信息Side计算主数据的长度L;
[0028] B)、根据帧头信息Head中主数据的偏移量,确定MP3主数据的起始位置;
[0029] C)、从当前帧中获取总长度为L的主数据D;
[0030] D)、从主数据D中提取缩放因子Scale;
[0031] 4、哈夫曼解码和反量化
[0032] A)、根据边信息Side确定哈夫曼解码数据的起始和结束位置;
[0033] B)、对MP3主数据D进行哈夫曼解码,得到32*18维的哈夫曼解码结果F[32,18];
[0034] C)、对哈夫曼解码结果F[32,18]中的数据进行反量化。
[0035] 第二步:MDCT系数提取及幅值映射处理
[0036] 1、构建每帧音频的修正离散余弦变换MDCT系数
[0037] A)、分配用于存放一帧MP3音频两个粒度的MDCT系数的n*576大小的存储空间MDCT0[n,576],MDCT1[n,576]中,其中n为MP3音频的帧数;
[0038] B)、从数组F中分别找到同一帧音频两个粒度的MDCT系数,按频率从低到高的原则重新排列,得到MDCT0[i,j],MDCT1[i,j]中;
[0039] C)、计算同一帧音频中两个粒度相同频率点处的MDCT系数的平均值,作为这一帧音频的MDCT系数值M[i,j];
[0040]
[0041] 其中,MDCT0[i,j],MDCT1[i,j]分别第i帧音频的第0个粒度和第1个粒度的第j个MDCT谱值。M[i,j]为第i帧音频的第j个平均MDCT谱值。
[0042] 2、MDCT系数幅值范围映射
[0043] 将MDCT系数的幅值在0-1的范围线性映射到0-P之间,便于研究MDCT系数的统计分布和相应的拟合函数
[0044]
[0045] 式中,x′ij为幅值映射后的第i帧音频的第j个MDCT谱值,M[i,j]为由1中得到的第i帧音频的第j个平均MDCT谱值,Mmin为最小的MDCT谱系数,Mmax为最大的MDCT谱系数,P为映射后的最大幅值。
[0046] 第三步:MDCT系数的先验建模和最大后验概率估计器
[0047] 1、分析MDCT的分布特性
[0048] 2、计算MDCT系数的概率分布函数
[0049] 通过1的分析得到MDCT的分布具有稀疏特性后,采用正态反高斯分布函数模拟MDCT系数的分布,得到MDCT概率分布函数表示为:
[0050]
[0051] 式中, Kλ(·)是索引为λ的第二阶修正贝塞尔函数,K1(·)是索引为1的第二阶修正贝塞尔函数,
0≤|β|<α,δ>0,-∞<μ<∞。其中,α为衰减因子,δ为
尺度因子,μ为均值,β为倾斜因子。
[0052] 3、分析参数[α,δ,β,μ]T对正态反高斯分布特性的影响
[0053] 4、参数估计
[0054] 采用2中的正态反高斯分布函数来拟合MDCT系数的概率分布,需要对参数[α,Tδ,β,μ] 进行估计。
[0055] A)、计算方差 均值μ,倾斜因子β假设加入的噪声为零均值高斯白噪声,含噪音频的前几帧为纯噪声帧,由纯噪声帧估计噪声MDCT系数的方差 并对含有噪声的MDCT系数计算均值μ。MP3音频信号的MDCT系数呈对称分布,因此,假设倾斜因子β=0。
[0056] B)、计算衰减因子α、尺度因子δ
[0057] 不含噪声的MDCT系数的NIG分布模型的偏斜系数为 峭度系数为其中 相应的衰减因子α、尺度因子δ可通过如下式子进行估
计:
[0058]
[0059]
[0060] 其中, 分别 为含 有噪 声的MDCT 系数 的2至4阶 累积 量,C1,C2为用于控制衰减因子α、尺度因子δ的幅值,使NIG能
有效地拟合MDCT系数的分布。
[0061] C)、估计参数C1和C2
[0062] 对不同音频类型,不同信噪比条件下,统计C1、C2不同取值对MDCT系数分布的模拟误差,最后得到最佳的值C1=0.1,C2=0.1;故有衰减因子α、尺度因子δ的估计式为:
[0063]
[0064]
[0065] 5、设计衰减估计器
[0066] 根据贝叶斯最大后验概率准则,设计基于NIG先验分布模型的估计函数:
[0067]
[0068] 式中, Kλ(·)是索引为λ的第二阶修正贝塞尔函数,为对含有噪声的MP3音频数据y进行衰减得到的无噪MP3音频数据。
[0069] 相应,可得到含有噪声的MP3音频的衰减因子为:
[0070]
[0071] 第四步:静音段检测
[0072] 1、MDCT谱特征的提取
[0073] MDCT系数的谱能量计算如下:
[0074]
[0075] 其中,EM(i)为第i帧音频的MDCT谱能量,M(i,j)为第i帧音频的第j个MDCT谱均值,N为一帧音频的MDCT系数的点数N=576。对整个MP3音频段,音频段各帧的MDCT谱能量组成相应的特征矢量EM=[EM(0),EM(1),...EM(N-1)],即EM为音频段的MDCT谱能量包络。
[0076] 2、判决门限的调整
[0077] A)、初始化判决门限,以整个信号的MDCT谱能量包络的均值作为初始判决门限Lth[0078]
[0079] 式中,EM(i)为第i帧音频的MDCT谱能量,N表示音频段的帧数,Lth为初始判决门限。
[0080] B)、门限调整:将音频段的MDCT谱包络EM中所有小于判决门限Lth的帧做为噪声帧处理,有
[0081] EMnoise(i)=EM(i)if EM(i)<Ith
[0082] 式中,EMnoise(i)表示第i帧音频的MDCT谱能量值为噪声帧的MDCT谱能量值。
[0083] 初始化噪声谱序列的均值和均方差,分别记为Lnoise和Snoise,
[0084]
[0085]
[0086] 式中,EMnoise(i)表示第i个噪声帧的MDCT谱能量值,Lnoise、Snoise分别为噪声能量序列的均值和均方差,M为噪声段的帧数。
[0087] 在得到噪声帧能量序列的均值Lnoise和均方差Snoise基础上,重新调整判决门限Lth。
[0088] Lth=C0×(Lnoise+C1×Snoise)
[0089] 其中,C0和C1为经验常数,实验中取C0=1.001,C1值取在1.5~2.0之间调整。调整完判决门限值Lth后,再重新区分噪声和语音帧,并重新计算噪声谱能量序列的均值Lnoise和均方差Snoise,然后调整判决门限值。如此重复至判决门限稳定。
[0090] 3、活性端点的融合
[0091] A)、根据门限判断静音帧/非静音帧
[0092]
[0093] 其中,Etype[i]为第i帧音频的类型,EM[i]为第i帧音频的MDCT谱能量值;音频类型Etype[i]值为0表示静音帧,类型Etype[i]值为1表示活性音频帧。
[0094] B)、计算静音段中所包含的帧数FN;
[0095] C)、若FN<10,该段为连续活性音频段间的停顿,合并入对应的音频段中;
[0096] 第五步:自适应迭代衰减
[0097] 1、由第三步得到的衰减函数对第四步中检测到的静音段计算静音段的衰减值;
[0098] 2、计算1中静音段的平均衰减值
[0099] 3、使用第三步得到的衰减函数对含有噪声的MP3音频的MDCT系数进行衰减;
[0100] 4、由静音段的平均衰减值 自适应调整迭代估计的次数:重复步骤1、2、3,当满足下面条件,则停止迭代,降噪完成:
[0101]
[0102] 其中, 为静音段的平均衰减值,amin为整段音频的最小衰减因子,可以通过MDCT系数的高频段获得。C用于控制余留分量,取C=0.001,见附图1。
[0103] 实验结果
[0104] 本实验使用了中央电视台广播音频资料进行了试验。音频资料的格式为MP3,采样频率为44.1KHz。音频类型有:语音、音乐、语音和音乐混合的音频。每种类型的音频各选择20首。分别对各种类型的音频加入不同程度的高斯白噪声,采用本研究提出的自适应降噪算法对含有噪声的MP3音频进行处理。降噪处理后的信噪比SNR采用的计算方法为:
[0105]
[0106] 其中,x(n)为不含噪声的MP3音频解码得到的PCM数据, 为降噪处理后的MP3音频解码得到的PCM数据。降噪处理前后的信噪比SNR对比结果如表1所示:
[0107] 表1:对MP3音频降噪前后的信噪比SNR对比
[0108]MP3音频信号 降噪前的SNR 降噪后的SNR 平均信噪比增益
音乐1 -5db 8.11db 13.11db
音乐2 0db 11.40db 11.40db
音乐3 5db 14.89db 9.89db
音乐4 10db 17.93db 7.93db
音乐5 15db 22.57db 7.57db
语音1 -5db 8.12db 13.12db
语音2 0db 10.78db 10.78db
音乐+语音1 -5db 6.26db 11.26db
音乐+语音2 0db 9.13db 9.13db
[0109] 大量的统计实验表明,本发明的基于MP3压缩域音频的降噪方法能直接基于MP3压缩域,有效实现对不同类型的含有噪声的MP3音频进行降噪处理。降噪处理后的MP3音频的信噪比得到很大提高,并且处理后的音频有良好的听觉感知效果。本研究解决了直接基于MP3压缩域音频的降噪问题,也为MP3音频分类检索的抗噪算法研究提出了一个新的思路。