基于多频带信号重构的生态声音识别方法转让专利

申请号 : CN201310472342.9

文献号 : CN103474066B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李应欧阳桢

申请人 : 福州大学

摘要 :

本发明涉及一种基于多频带信号重构的生态声音识别方法,首先,使用OMP稀疏分解作第一阶段重构,保留前景声音的主体结构;其次,将前阶段分解的剩余分量按频带划分,根据前景声音和背景噪声的频率分布,对重构信号进行自适应补偿,完成第二阶段重构;最后,根据支撑集原子时频信息和频域信息提取复合抗噪特征,使用深信度网对生态声音在不同环境和信噪比情境下进行分类识别。本发明采用二次重构不仅能抑制噪声,并且提高了对前景声音的重构精度,在自然环境下具有较好的噪声鲁棒性。

权利要求 :

1.一种基于多频带信号重构的生态声音识别方法,其特征在于,包括以下步骤:S01:分别对纯净声音和测试带噪声音进行OMP稀疏分解,对应输出纯净声音和测试带噪声音的重构信号和OMP特征;

S02:对纯净声音提取包括OMP特征在内的复合特征并进行DBN模型训练;

S03:提取测试带噪声音进行OMP稀疏分解后的残余信号的功率谱并进行多频带补偿;

S04:提取测试带噪声音进行OMP稀疏分解后的重构信号的功率谱,并结合所述步骤S03中进行多频带补偿后的残余信号的功率谱进行二次重构;

S05:对所述步骤S04中二次重构后的信号进行提取包括OMP特征在内的复合特征;

S06:对所述步骤S02中进行DBN模型训练后提取的复合特征和所述步骤S05中提取的包括OMP特征在内的复合特征进行DBN模型分类,输出测试带噪声音所属的生态声音类别;

假设待分解带噪声音信号f,长度为N,进行稀疏分解之前,首先构造过完备原子字典D=(gγ)γ∈Γ,时频原子gγ是Gabor原子,由参数组γ=(s,u,v,w)定义,平移因子u定义一个原子gγ的中心位置,伸缩因子s,频率因子v和相位因子w定义其波形,其离散化时频j j -j -j+1参数γ=(s,u,v,w)=(a,paΔu,ka Δv,iΔw),其中,0<j≤log2N,0≤p≤N2 ,j+1

0≤k<2 ,0≤i≤12,a=2,Δu=1/2,Δv=π,Δw=π/6;所述步骤S01具体步骤包括:S011:初始化信号残差R0y'=f,迭代次数k=1,最大迭代次数L;

S012:从过完备原子字典D中选出第k次迭代与信号残差最为相关的原子gγk,

0<α≤1;

S013:判断||Rky'||<ε,ε>0是否成立,ε为设定的残余信号阈值,若||Rky'||<ε成立,则转步骤S016结束分解,若不成立,继续分解;

S014:利用Gram-Schmidt方法将gγk关于已选原子集gγp,0<p≤k正交化得到投影Pk并分别计算新的近似重构信号y'=Pkf和残差Rk+1y'=f-y';

S015:若还未达到最大迭代次数,设置k=k+1,返回步骤S012继续迭代,否则转步骤S016;

S016:通过逐次分解得到一系列原子,输出第L次近似原子展开式其中Pn为用于重构信号的原子支撑集进行加权组合的展开系数;

所述提取包括OMP特征在内的复合特征具体方法为:提取包括OMP特征、MFCCs特征和基音特征的复合特征;其中,提取OMP特征的方法是利用OMP分解每一帧声音信号,获得表示该帧信号的支撑集前L个原子时频参数组中伸缩因子s和频率因子v的均值和标准差,构成4维OMP特征, 其中,λ为信号的帧索引,i为表示该帧信号的原子索引,L为原子数,σ为伸缩因子s和频率因子v的标准差;

选取MFCCs补充OMP特征使用,首先采用24阶Mel滤波器组,对重构信号作离散傅里叶变换后得到12维MFCCs静态特征,再加上对数能量作为其第13维特征;

选取PITCH补充OMP特征使用,采用循环平均幅度差函数法获得每帧对应的1维PITCH特征;

所述DBN模型训练包括两个步骤,第一步采用无监督逐层贪心的策略进行预训练,将已标记好的生态声音特征初始化DBN最底层的可见层节点的状态值,这样使得具体特征逐渐抽象化;第二步使用正确标注信息有监督的训练BP网络,并将修正信息自顶向下的传播至每一层RBM进行微调。

2.根据权利要求1所述的基于多频带信号重构的生态声音识别方法,其特征在于:RBM网络采用Contrastive Divergence准则作为自训练策略,每层均由一个可视层V和隐层H组成,通过自底向上的层间加权连接组合多个RBM,用隐层单元的输出作为上层RBM可视层的输入,从而构建一个DBN框架,RBM包含三个参数,分别是可见层和隐层之间的权值W,以及各自偏置量b和c,因此对DBN分类器训练的过程转化为对RBM参数的求解,假设可视层和隐层的节点值分别为vi和hj,可视层V每一个节点置1的概率为P(vi=

1), 同理,隐层H每一个节点置1的概率为P(hj=1),

权值W的更新规则Δwij∝data-reconstruct,其中,data表示已知样本集可视层节点vi与隐层节点未知hj的联合概率分布的期望值,reconstruct为通过已知样本信息更新隐层单元,可视层单元再重构后的联合概率分布的期望值。

3.根据权利要求1所述的基于多频带信号重构的生态声音识别方法,其特征在于:前景声音在频谱上的分布并不是均匀的,为了确定其主频结构,将第一次重构得到的功率2

谱|Y'(λ,j)|平均划分为M个线性子频带,对声音帧λ,计算在频带i上的能量比例其中,K是FFT系数的阶,FFTλ,p为帧λ的第p个FFT系数。

4.根据权利要求1所述的基于多频带信号重构的生态声音识别方法,其特征在于:确定一个阈值γ,当能量比例超过阈值时,则子带i处于主频范围内,前景声音频率因子α(λ)设定较高的权重,而在主频范围之外,相应设定较低的权重,即,噪声频率因子β(λ)表征当前子频带噪声影响的程度高低,可以利用前阶段重构的信号作为先验信息估计出噪声,再计算帧λ第i子带的功率谱信噪比 帧λ第i子带的噪声频率因子通过求解前景声音频率因子α(λ)和噪声

2 2

频率因子β(λ)进行多频带增益,得到第二次重构的声音功率谱|Y(λ,j)|≈|Y(λ,j)|

2 2 2

=|Y'(λ,j)|+α(λ)β(λ)(|F(λ,j)|-|Y'(λ,j)|),当重构的前景声音功率谱超过原噪声音功率谱时,用 进行更新。

说明书 :

基于多频带信号重构的生态声音识别方法

技术领域

[0001] 本发明涉及一种基于多频带信号重构的生态声音识别方法。

背景技术

[0002] 生态声音识别是对自然环境中各种声音信号进行抽取特征并作辨识。通过分析和识别环境中包含的音频信息,可以用于入侵监测、物种勘察等。在实际环境中,大量的非平稳噪声对声音识别产生干扰。因此,抗噪的生态声音识别具有重要的现实意义。
[0003] 目前音频信号处理中,语音控制与说话人识别技术相对较多,而生态环境声音的研究相对较少。常用的是频域特征Mel频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCCs)以及时频域的短时傅立叶变换和小波变换等,结合高斯混合模型(GMM)或隐马尔科夫模型(HMM)进行识别分类。由于生态声音随机性较大且并非都是结构化的,所以以上方法对其不一定有效。为了解决上述问题,一些新的工作被提出,例如:Khunarsal等人提出利用声谱图模式匹配方法对短时环境声音结合KNN分类器进行识别;Zhang等人使用改进的MFCCs作为特征并使用GMM对昆虫声音分类识别;Lee等人使用谱图形态特征进行建模,对连续型鸟叫进行分类识别;Raju等人提取基音,共振峰和短时能量特征集并结合支持向量机(SVM)对包括猫狗狮子在内的19种动物声音进行分类识别。
[0004] 用上述方法识别生态声音存在的常见问题在于,面对不确定结构的声音信号,设计合适的分类器较难。判别式模型如支持向量机(SVM)和传统的神经网络等,能够较好的对非线性可分类进行建模,但在高维特征及类别数量较多时,分类效果还不如GMM或HMM。此外,在噪声环境下,尤其是低信噪比时识别能力骤降。目前常用的去噪方法有谱减法,维纳滤波等。谱减去噪易引入音乐噪声从而导致信号失真。滤波去噪在获得信号和噪声统计特性的前提下可以实现最优滤波,但是在自然环境中噪声复杂多变,这些先验信息往往无法得到,所以应用范围较为有限。
[0005] 基于匹配追踪(MatchingPursuit,MP)重构信号的去噪方法是利用声音的稀疏性,将信号分解重构进行自适应表示,并不需要先验的获得待检测信号和噪声的统计特性,因此能够适用于不同场景多种信号。然而在实际应用中,信号和噪声会发生重叠,尽可能的降低噪声是以增加信号失真为代价,所以去噪算法必须在降低噪声和信号失真之间进行权衡。然而,简单利用MP稀疏去噪也存在一定的局限性。MP分解过程中,从过完备字典空间搜索最优原子的计算复杂度较高。现有做法是限制字典大小,或通过智能算法在减少分解次数的同时尽量获得与原信号相关度高的原子。但是重构信号后的剩余分量中不全是噪音,还包括部分有效声音。若是单纯为了提高重构精度而增加分解次数,一方面增加了新的计算量,另一方面也无法抑制噪声,后续识别效果较差。

发明内容

[0006] 有鉴于此,本发明的目的是提供一种基于多频带信号重构的生态声音识别方法。
[0007] 本发明采用以下方案实现:一种基于多频带信号重构的生态声音识别方法,其特征在于,包括以下步骤:
[0008] S01:分别对纯净声音和测试带噪声音进行OMP稀疏分解,对应输出纯净声音和测试带噪声音的重构信号和OMP特征;
[0009] S02:对纯净声音提取包括OMP特征在内的复合特征并进行DBN模型训练;
[0010] S03:提取测试带噪声音进行OMP稀疏分解后的残余信号的功率谱并进行多频带补偿;
[0011] S04:提取测试带噪声音进行OMP稀疏分解后的重构信号的功率谱,并结合所述步骤S03中进行多频带补偿后的残余信号的功率谱进行二次重构;
[0012] S05:对所述步骤S04中二次重构后的信号进行提取包括OMP特征在内的复合特征;
[0013] S06:对所述步骤S02中进行DBN模型训练后提取的复合特征和所述步骤S05中提取的包括OMP特征在内的符合特征进行DBN模型分类,输出测试带噪声音所属的生态声音类别。
[0014] 在本发明一实施例中,假设待分解带噪声音信号f,长度为N,进行稀疏分解之前,首先构造过完备原子字典D=(gγ)γ∈Γ,时频原子gγ是Gabor原子,由参数组γ=(s,u,v,w)定义,平移因子u定义一个原子gγ的中心位置,伸缩因子s,频率因子v和相位因子w定义j j -j其波形,其离散化时频参数γ=(s,u,v,w)=(a,paΔu,ka Δv,iΔw),其中,00≤p≤N2 ,0≤k<2 ,0≤i≤12,a=2,Δu=1/2,Δv=π,Δw=π/6;所述步骤S01具体步骤包括:
[0015] S011:初始化信号残差R0y'=f,迭代次数k=1,最大迭代次数L;
[0016] S012:从过完备原子字典D中选出第k次迭代与信号残差最为相关的原子gγk,[0017] S013:判断||Rky'||<ε,ε>0是否成立,ε为设定的残余信号阈值,若||Rky'||<ε成立,则转步骤S016结束分解,若不成立,继续分解;
[0018] S014:利用Gram-Schmidt方法将gγk关于已选原子集gγp,0
[0019] S015:若还未达到最大迭代次数,设置k=k+1,返回步骤S012继续迭代,否则转步骤S016;
[0020] S016:通过逐次分解得到一系列原子,输出第L次近似原子展开式
[0021] 在本发明一实施例中,所述提取包括OMP特征在内的复合特征具体方法为:提取包括OMP特征、MFCCs特征和基音特征的复合特征;其中,提取OMP特征的方法是利用OMP分解每一帧声音信号,获得表示该帧信号的支撑集前L个原子时频参数组中伸缩因子s和频率因子v的均值和标准差,构成4维OMP特征, 其中,λ为信号的帧索引,i为表示该帧信号的原子索引,L为原子数。
[0022] 在本发明一实施例中,选取MFCCs补充OMP特征使用,首先采用24阶Mel滤波器组,对重构信号作离散傅里叶变换后得到12维MFCCs静态特征,再加上对数能量作为其第13维特征。
[0023] 在本发明一实施例中,选取PITCH补充OMP特征使用,采用循环平均幅度差函数法获得每帧对应的1维PITCH特征。
[0024] 在本发明一实施例中,所述DBN模型训练包括两个步骤,第一步采用无监督逐层贪心的策略进行预训练,将已标记好的生态声音特征初始化DBN最底层的可见层节点的状态值,这样使得具体特征逐渐抽象化;第二步使用正确标注信息有监督的训练BP网络,并将修正信息自顶向下的传播至每一层RBM进行微调。
[0025] 在本发明一实施例中,RBM网络采用ContrastiveDivergence准则作为自训练策略,每层均由一个可视层V和隐层H组成,通过自底向上的层间加权连接组合多个RBM,用隐层单元的输出作为上层RBM可视层的输入,从而构建一个DBN框架,RBM包含三个参数,分别是可见层和隐层之间的权值W,以及各自偏置量b和c,因此对DBN分类器训练的过程转化为对RBM参数的求解,假设可视层和隐层的节点值分别为vi和hj,可视层V每一个节点置1的概率为 同理,隐层H每一个节点置1的概率为P(hj=1), 权值W的更新规则Δwij∝data-
reconstruct,其中,data表示已知样本集可视层节点vi与隐层节点未知hj的联合概率分布的期望值,reconstruct为通过已知样本信息更新隐层单元,可视层单元再重构后的联合概率分布的期望值。
[0026] 在本发明一实施例中,前景声音在频谱上的分布并不是均匀的,为了确定其主频2
结构,将第一次重构得到的功率谱|Y'(λ,j)|平均划分为M个线性子频带,对声音帧λ,计算在频带i上的能量比例 其中,K是FFT系数的阶,FFTλ,p
为帧λ的第p个FFT系数。
[0027] 在本发明一实施例中,确定一个阈值γ,当能量比例超过阈值时,则子带i处于主频范围内,前景声音频率因子α(λ)设定较高的权重,而在主频范围之外,相应设定较低的权重,即, 噪声频率因子β(λ)表征当前子频带噪声影响的程度高低,可以利用前阶段重构的信号作为先验信息估计出噪声,再计算帧λ第i子带的功率谱信噪比 帧λ第i子带的
噪声频率因子 通过求解前景声音频率因子
α(λ)和噪声频率因子β(λ)进行多频带增益,得到第二次重构的声音功率谱|Y(λ,j)
2 2 2 2 2
|≈|Y(λ,j)| =|Y'(λ,j)|+α(λ)β(λ)(|F(λ,j)|-|Y'(λ,j)|),当重构的前景声音功率谱超过原噪声音功率谱时,用 进行更新。
[0028] 本发明采用二次重构不仅能抑制噪声,并且提高了对前景声音的重构精度。与目前常用的Mel频率倒谱系数(MFCC)与SVM的方法相比,该方法在自然环境下具有较好的噪声鲁棒性。
[0029] 为使本发明的目的、技术方案及优点更加清楚明白,以下将通过具体实施例和相关附图,对本发明作进一步详细说明。

附图说明

[0030] 图1是本发明基于OMP多频带信号重构流程图。
[0031] 图2a是纯净画眉叫声的波形图。
[0032] 图2b是纯净画眉叫声的声谱图。
[0033] 图2c是图2a添加信噪比为10dB流水噪声的波形图。
[0034] 图2d是图2b添加信噪比为10dB流水噪声的声谱图。
[0035] 图2e是图2d稀疏度为10的一次重构声谱图。
[0036] 图2f是图2d稀疏度为30的一次重构声谱图。
[0037] 图2g是二次重构的波形图。
[0038] 图2h是二次重构的声谱图。
[0039] 图3是本发明DBN识别分类流程图。

具体实施方式

[0040] 本发明提出了一种基于多频带信号重构的生态声音识别方法,并构建了基于深度学习的分类识别框架。首先,使用OMP稀疏分解作第一阶段重构,保留前景声音的主体结构;其次,将前阶段分解的剩余分量按频带划分,根据前景声音和背景噪声的频率分布,对重构信号进行自适应补偿,完成第二阶段重构;最后,根据支撑集原子时频信息和频域信息提取复合抗噪特征,使用深信度网(DBN)对生态声音在不同环境和信噪比情境下进行分类识别。如图1所示,具体包括以下步骤:
[0041] S01:分别对纯净声音和测试带噪声音进行OMP稀疏分解,对应输出纯净声音和测试带噪声音的重构信号和OMP特征;
[0042] S02:对纯净声音提取包括OMP特征在内的复合特征并进行DBN模型训练;
[0043] S03:提取测试带噪声音进行OMP稀疏分解后的残余信号的功率谱并进行多频带补偿;
[0044] S04:提取测试带噪声音进行OMP稀疏分解后的重构信号的功率谱,并结合所述步骤S03中进行多频带补偿后的残余信号的功率谱进行二次重构;
[0045] S05:对所述步骤S04中二次重构后的信号进行提取包括OMP特征在内的复合特征;
[0046] S06:对所述步骤S02中进行DBN模型训练后提取的复合特征和所述步骤S05中提取的包括OMP特征在内的符合特征进行DBN模型分类,输出测试带噪声音所属的生态声音类别。
[0047] OMP算法是压缩感知(CompressedSensing,CS)过程中的一种贪婪重构算法,是在匹配追踪(MatchingPursuit,MP)算法基础上提出的,该算法改进之处在于每次分解从字典中挑选出的原子,称之为最优原子,先利用Gram-Schmidt方法与已选择原子集合进行正交化处理以保证迭代的最优性,从而减少迭代次数。在相同精度要求的前提下,使用OMP算法重构的信号稀疏度更高,收敛速度更快,利用OMP对生态声音去噪是利用信号稀疏性的特征,将待提取的有用信息作为稀疏成分,而将噪声作为去除稀疏成分后的残差成分。噪声具有一定随机性,由于字典中不包含随机的原子,故其相关性较低。根据CS理论,对带噪声音信号进行低维投影,当观测维数足够包含有用信息时,噪声不具有稀疏性。残差部分的噪声成分在重构时无法恢复,从而实现去噪的目的。将声音信号映射到原子字典进行分解,每轮分解得到与原信号内积最大,即相关度最高的原子,通过迭代提取出的原子越多,信号残差就越小,最后加权组合原子得到原信号的最佳重构。
[0048] 假设待分解带噪声音信号f,长度为N,进行稀疏分解之前,首先构造过完备原子字典D=(gγ)γ∈Γ,时频原子gγ是Gabor原子,由参数组γ=(s,u,v,w)定义,平移因子u定义一个原子gγ的中心位置,伸缩因子s,频率因子v和相位因子w定义其波形,其离散j j -j -j+1化时频参数γ=(s,u,v,w)=(a,paΔu,ka Δv,iΔw),其中,00≤k<2 ,0≤i≤12,a=2,Δu=1/2,Δv=π,Δw=π/6;OMP稀疏分解具体步骤包括:
[0049] S011:初始化信号残差R0y'=f,迭代次数k=1,最大迭代次数L;
[0050] S012:从过完备原子字典D中选出第k次迭代与信号残差最为相关的原子gγk,[0051] S013:判断||Rky'||<ε,ε>0是否成立,ε为设定的残余信号阈值,若||Rky'||<ε成立,则转步骤S016结束分解,若不成立,继续分解;
[0052] S014:利用Gram-Schmidt方法将gγk关于已选原子集gγp,0
[0053] S015:若还未达到最大迭代次数,设置k=k+1,返回步骤S012继续迭代,否则转步骤S016;
[0054] S016:通过逐次分解得到一系列原子,输出第L次近似原子展开式
[0055] OMP分解的过程是按照能量的大小和相关程度的高低依次在每轮迭代中选择最优原子,这些被选择的最优原子组成重构信号的支撑集。噪声具有一定的随机性,由于字典中不包含随机的原子,故其相关性较低。对于有色噪声,利用纯净声音和背景噪声稀疏度不同的原理,根据CS理论,对带噪声音信号进行低维投影,当观测维数足够包含有用信息时,噪声不具有稀疏性。这就保证了在前期重构时,残差部分的噪声成分无法恢复,有效声音的主体结构被保留下来。将声音信号映射到原子字典进行分解,每轮分解得到与原信号内积最大,即相关度最高的原子。通过迭代提取出的原子越多,信号残差就越小,最后加权组合原子得到原信号的最佳重构。
[0056] 所述提取包括OMP特征在内的复合特征具体方法为:提取包括OMP特征、MFCCs特征和基音特征的复合特征;其中,提取OMP特征的方法是利用OMP分解每一帧声音信号,获得表示该帧信号的支撑集前L个原子时频参数组中伸缩因子s和频率因子v的均值和标准差,构成4维OMP特征, 其中,λ为信号的帧索引,i为表示该帧信号的原子索引,L为原子数。
[0057] 选取MFCCs补充OMP特征使用,首先采用24阶Mel滤波器组,对重构信号作离散傅里叶变换后得到12维MFCCs静态特征,再加上对数能量作为其第13维特征。
[0058] 选取PITCH补充OMP特征使用,采用循环平均幅度差函数法获得每帧对应的1维PITCH特征。
[0059] 所述DBN模型训练包括两个步骤,第一步采用无监督逐层贪心的策略进行预训练,将已标记好的生态声音特征初始化DBN最底层的可见层节点的状态值,这样使得具体特征逐渐抽象化;第二步使用正确标注信息有监督的训练BP网络,并将修正信息自顶向下的传播至每一层RBM进行微调。
[0060] RBM网络采用Contrastive Divergence准则作为自训练策略,每层均由一个可视层V和隐层H组成,通过自底向上的层间加权连接组合多个RBM,用隐层单元的输出作为上层RBM可视层的输入,从而构建一个DBN框架,RBM包含三个参数,分别是可见层和隐层之间的权值W,以及各自偏置量b和c,因此对DBN分类器训练的过程转化为对RBM参数的求解,假设可视层和隐层的节点值分别为vi和hj,可视层V每一个节点置1的概率为P(vi=1), 同理,隐层H每一个节点置1的概率为P(hj=1),权值W的更新规则Δwij∝data-reconstruct,其
中,data表示已知样本集可视层节点vi与隐层节点未知hj的联合概率分布的期望值,reconstruct为通过已知样本信息更新隐层单元,可视层单元再重构后的vihj联合概率分布的期望值。
[0061] 假设加性噪声与待识别的前景声是不相关的,则带噪声音信号f(t)表示为f(t)=y(t)+n(t),其中,t为时间索引,y(t)是纯净的前景声音,n(t)为背景噪声,对f(t)进行快速傅里叶变换后得到幅度谱为F(λ,j),其中λ为帧索引,j为频率索引,功率谱2 2 2 2
|F(λ,j)|分解为前景声音功率谱|Y(λ,j)| 和噪声功率谱|N(λ,j)| ,即,|F(λ,j)|
2 2
=|Y(λ,j)|+|N(λ,j)|;带噪声音信号通过OMP稀疏分解,得到相关度较高的前有限个原
2
子线性加权组合进行第一次重构。与原信号相比,重构的前景声音功率谱|Y(λ,j)|≈(1-
2 2
δ(λ))|Y'(λ,j)|+δ(λ)|F(λ,j)|实际上并不是完整的,可以认为缺失的信号与噪音共同存在于剩余分量中,其中,δ(λ)为本文引入的增益因子,表征第λ帧的缺失量与原信号的比例关系。实验表明,前景声音与噪音在频谱上的分布共同影响该比例的变化。前景声音的残余分量在其主要频率分布(下文简称主频)范围内的存在概率相对与其他要高一些,而噪声影响较大的频带中,前景声音的残余分量存在概率相对较小。因此,增益因子可以细分为前景声频率因子α(λ)和噪声频率因子β(λ),即:δ(λ)=α(λ)β(λ)。
[0062] 前景声音在频谱上的分布并不是均匀的,为了确定其主频结构,将第一次重构得2
到的功率谱|Y'(λ,j)|平均划分为M个线性子频带,对声音帧λ,计算在频带i上的能量比例 其中,K是FFT系数的阶,FFTλ,p为帧λ的第p个FFT
系数。
[0063] 确定一个阈值γ,当能量比例超过阈值时,则子带i处于主频范围内,前景声音频率因子α(λ)设定较高的权重,而在主频范围之外,相应设定较低的权重,即,噪声频率因子β(λ)表征当前子频带噪声影响的程度高低,可以利用前阶段重构的信号作为先验信息估计出噪声,再计算帧λ第i子带的功率谱信噪比 帧λ第i子带的噪声频率因子
通过求解前景声音频率因子α(λ)和噪声
频率因子β(λ)进行多频带增益,得到第二次重构的声音功率谱|Y(λ,j)|2≈|Y(λ,j)|
2=|Y'(λ,j)|2+α(λ)β(λ)(|F(λ,j)|2-|Y'(λ,j)|2),当重构的前景声音功率谱超过原噪声音功率谱时,用 进行更新。
[0064] 生态声音识别的精准度,很大程度上依赖于减噪消噪的有效性。针对生态场景中复杂多变的非平稳噪声,使用OMP稀疏分解并重构带噪声音信号的方法,能够保留前景声音的主体结构。为了保证后续特征提取的有效性,较高的信号重构精度是前提。而提高信号重构精度,最直接的方法是通过增加分解次数,一方面增加了计算复杂度,另一方面在重构过程中无法分离噪声成分。本文使用多频带补偿的方法从OMP分解的剩余分量中有区别的提取信号分量,用于补偿第一阶段的重构信号,从而自适应的进行二次重构。之后,提取复合抗噪时频特征用于构建DBN模型,高效的对生态声音分类识别,具体流程描述如下。
[0065] 预处理及第一阶段OMP重构:
[0066] 对所有声音样本做归一化处理,采用Hamming窗进行平滑后分帧,帧长取23ms(512个样本点),帧移取11。6ms(256个样本点)。图2a和图2b是一段包含三个有效音节的画眉声音信号波形图和频谱图。以此为例,在混入信噪比为10dB流水噪声后,从图
2c和图2d中可以看出,噪声在频谱上的分布并不是均匀的,且对原信号造成较大程度的干扰。根据公式
对每一帧信号进行稀疏分解后重构,图2e和图2f分别是稀疏度为10和30的重构信号频谱图。很明显可以看出,稀疏度提高后,带噪信号的整体还原程度有一定程度的提升,但噪声成分不可避免的也进行了重构。而稀疏度较低的重构信号,主体结构仍然保留,与原始信号相关度较低的噪声成分得到很大程度的削弱,画眉叫声不完整的部分则需要进行下一步多频带重构。
[0067] 第二阶段多频带重构:
[0068] 根据前景画眉叫声和背景流水噪声的频率分布,将频谱平均划分为8个线性子频带。对OMP重构信号做频谱分析,根据公式 计算得到画眉叫声的主频带为2000Hz-3000Hz,则该频带内的剩余分量将得到较高的加权补偿,也可以称作“更重视”的部分。反之,其余频带可以认为是“被忽略”的部分。接着,还是利用OMP分解得到的重构信号作为先验信息,计算各子频带功率谱信噪比。信噪比高的部分,即噪声能量较高的频带,进一步利用较低权值进行削弱。通过两阶段的自适应重构,噪声得到较高程度的抑制。图2g和图2h是画眉信号通过两阶段的自适应重构,得到最终的信号波形图和声谱图。相比较图2c和图2d,也说明了多频带自适应重构能够较为有效降噪。
[0069] 复合特征提取:
[0070] 本发明选取的Gabor原子是由调制的高斯窗函数构成。由于高斯型函数在时域和频域都是局部化的,其局部特性保证了原子时频参数能够较好的刻画信号的非平稳时变特性。通过OMP分解,获得表示该段信号的前10个原子时频参数组中伸缩因子s和频率因子v的均值和标准差,构成4维OMP特征。由于第一次重构信号并不能完备的表征原声音的信息,所以单独使用OMP时频特征的识别效果并不理想。由于动物叫声存在不同的基音周期范围,因此使用基音频率(PITCH)作为特征对生态声音具有一定的区分性。本发明在进行二次自适应重构后,使用短时能量和过零率对重构信号进行端点检测,对非静音帧提取MFCCs和结合OMP特征组成复合特征。
[0071] MFCCs特征的获取分为以下几个步骤,首先采用24阶Mel波器组,经离散傅里叶变换(DFT)后得到12维MFCCs静态特征,再加上对数能量作为其第13维特征。另外,采用循环平均幅度差函数(CAMDF)法获得每帧对应的1维PITCH特征。
[0072] 预训练DBN模型的过程是将已标记好的生态声音特征初始化DBN最底层的可见层节点状态值,经过逐层无监督的训练受限玻尔兹曼机(RBM)模型得到特征向量,作为末端BP网络的输入值。接着,使用正确标注信息有监督的训练BP网络,将错误信息反向传播至底层RBM模型,微调整个DBN模型。具体流程如图3所示。
[0073] DBN的分类能力同时受RBM隐层层数和各层节点数量影响。增加隐层数能够提高DBN对特征向量的分类精度,但学习时间也随之增加。增加节点数提高DBN网络的逼近能力,但节点数过多又会降低网络的泛化能力,所以最佳的隐层数和节点数配置将通过实验确定。
[0074] 上列较佳实施例,对本发明的目的、技术方案和优点进行了进一步详细说明,所应理解的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。