一种基于语谱图纹理特征的音频场景识别方法转让专利

申请号 : CN202010091722.8

文献号 : CN111276158A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 徐翘楚汪斌陈淑聪姜飞龙朱海滨李兴隆张奥毛凌航

申请人 : 嘉兴学院

摘要 :

本发明涉及一种基于语谱图纹理特征的音频场景识别方法;本发明的具体步骤是:步骤(1)、将输入音频集随机划分成训练音频和测试音频;步骤(2)、将输入训练音频和测试音频提取出语谱图;步骤(3)、采用二维Gabor滤波器对训练音频和测试音频的语谱图进行变换;步骤(4)、对变换的语谱图求取不同像素距离和不同方向的灰度共生矩阵;步骤(5)、对四个方向的灰度共生矩阵计算二阶矩、熵、对比度和均匀度并组合成特征向量;步骤(6)、将训练音频提取特征向量合并音频场景类别输入到支持向量机进行训练,得到训练好的支持向量机;步骤(7)、将测试音频提取特征向量,送到训练好的支持向量机测试得到音频场景类别。

权利要求 :

1.一种基于语谱图纹理特征的音频场景识别方法,其特征在于该方法的具体步骤是:步骤(1):将输入音频集随机划分成训练音频和测试音频;

步骤(2):将输入训练音频和测试音频提取出语谱图,并进行规范化处理;

步骤(3):采用二维Gabor滤波器对训练音频和测试音频的语谱图进行变换,具体如下:建立L个二维Gabor滤波器,二维Gabor滤波器有M个尺度和N个方向。因此有L=M×N;若输入音频语谱图为D(x,y),x=1,2,...,W,y=1,2,...,H;其中W和H分别为语谱图的宽度和高度;经过二维Gabor滤波后,得到Gabor系数为G(m,n,i,j),其中m为Gabor系数的尺度索引;n为Gabor系数的方向索引;0≤m≤M-1,0≤n≤N-1;

L个二维Gabor滤波器的设计步骤如下:

对于二维离散Gabor滤波器,有如下公式:

x′=x cosθn+y sinθn

y′=y cosθn-x sinθn

θn=2πn/N,其中n=0,1,...,N-1,fm=a-mfmax,其中 fmax为最高频率,m=0,

1,...,M-1;

构造L=M×N个Gabor滤波器后,将输入音频频谱图经过L个Gabor滤波器进行滤波,得到Gabor系数G(m,n,x,y),计算公式如下:G(m,n,x,y)=D(x,y)*f(x,y,fm,θn)其中,D(x,y)为输入音频语谱图,f(x,y,fm,θn)为第m个尺度和第n个方向的Gabor滤波器,符号*为卷积操作,G(x,y,m,n)为音频语谱图经Gabor滤波后得到的Gabor滤波结果;

步骤(4):求取Gabor滤波结果G(m,n,x,y)的幅度,采用公式如下:其中,A(m,n,x,y)为Gabor滤波结果幅度;RE(G(m,n,x,y))为Gabor滤波结果G(x,y,m,n)的实部;IM(G(m,n,x,y))为Gabor滤波结果G(x,y,m,n)的虚部;

步骤(5):对音频频谱图的不同尺度的Gabor滤波结果幅度A(m,n,x,y)求取像素距离d=1,方向为θ=0°,θ=45°,θ=90°和θ=135°四个方向的灰度共生矩阵,具体是:将Gabor滤波结果幅度A(m,n,x,y)的取值归一化到[0,255]范围,同时计算方向为θ=

0°,θ=45°,θ=90°和θ=135°四个方向的灰度共生矩阵,记为CM0(p,q)、CM45(p,q)、CM90(p,q)和CM135(p,q),其中0≤p≤255,0≤q≤255;

步骤(6):计算得到四个方向灰度共生矩阵的归一化矩阵,具体计算公式如下:步骤(7):对四个方向的灰度共生矩阵计算二阶矩、熵、对比度和均匀度,计算方法如下:二阶矩计算公式为:

其中θ=0°,45°,90°,135°;

熵计算公式为:

其中θ=0°,45°,90°,135°;

对比度计算公式为:

其中θ=0°,45°,90°,135°;

均匀度计算公式为:

其中θ=0°,45°,90°,135°;

步骤(8):将四个方向的二阶矩,熵,对比度和均匀度组合成特征向量,公式如下:F={WM0,WM45,WM90,WM135,WE0,WE45,WE90,WE135,WC0,WC45,WC90,WC135,WH0,WH45,WH90,WH135}步骤(9):将特征向量F合并音频场景类别送到支持向量机中进行训练,得到训练后的支持向量机;

步骤(10):将测试音频同样按步骤(1)到步骤(8)提取出特征向量F,送到训练后的支持向量机中进行测试,得到音频场景分类结果。

说明书 :

一种基于语谱图纹理特征的音频场景识别方法

(一).技术领域

[0001] 本发明属于音频处理领域,涉及一种音频场景识别方法,尤其涉及一种基于语谱图纹理特征的音频场景识别方法。(二).背景技术
[0002] 音频场景识别是即根据录制的环境音频信号判定当前所处的场景类别,它广泛应用于监控、智能手机和可穿戴设备领域,从音频监控设备、智能手机和可穿戴设备中录制的音频信号中监测到音频场景能帮助感知外部环境,与视频相比,音频信号有易于存储、便于分析、监控设备成本低廉和隐私保护更好等优点。传统的音频场景识别方法常提取音频信号的功率谱密度、梅尔倒谱系数(MFCC)等特征,并使用K近邻分类、隐马尔可夫模型等分类方法进行分类,Aucounturier从音频帧中提取MFCC作为特征,采用高斯混合模型(GMM)建模特征分布,并采用KL(Kullback-Leibler)距离进行音频场景识别;Chit[Chit.K.M,Lin K.Z,et al,Audio-Based Action Scene Classification Using HMM-SVM Algorithm,International Journal of Advanced Research in Computing Engineering and Technology,2013,2(4):]采用隐马尔可夫模型和支持向量机进行音频场景识别;Valenti[Valenti.M,Squartini.S,et al,A Convolutional Neural Network Approach for Acoustic Scene Classfication,International Joint Conference on Neural Networks,IEEE,2017.]将深度学习应用于音频场景识别中,采用卷积神经网络进行音频场景识别;Wang[Wang.Y,Neves.L,Audio-based Multimedia Event Detection using Deep Recurrent Neural Networks,IEEE International Conference on Acoustics,Speech and Signal Processing, IEEE,2016:2742-2746.]采用循环神经网络进行音频场景识别;但这些方法主要针对音频帧直接提取特征,并采用音频特征进行场景识别,忽略了音频数据的语谱图和变换域特征;针对该缺点,本发明提出一种新的音频场景识别方法,该方法先从音频数据中提取出语谱图,再将语谱图进行Gabor变换,并提取出Gabor变换的灰度共生矩阵二阶矩、熵、对比度和均匀度作为场景识别特征,充分考虑了语谱图的变换域特征,提高了音频场景识别精度。
(三).发明内容
[0003] 本发明的目的是提供一种新的音频场景识别方法,本发明采用的具体步骤是:
[0004] 步骤(1):将输入音频集随机划分成训练音频和测试音频;
[0005] 步骤(2):将输入训练音频和测试音频提取出语谱图,并进行规范化处理,具体步骤如下:
[0006] 步骤(2.1):对输入训练音频和测试音频进行分帧、加窗并进行离散傅里叶变换;采用公式如下:
[0007]
[0008] 其中,x为输入练音频和测试音频帧的帧号,z(x,m)为分帧后的输入训练音频和测试音频第x帧的数据,η(m)为汉明窗函数,M为一个音频帧的样本个数;Y(k)为第x帧音频的频谱;
[0009] 步骤(2.2):求取音频频谱Y(k)的幅值,采用公式如下:
[0010] D(x,y)=|Y(x,y)|
[0011] 其中,|·|为求取幅度操作,D(x,y)为输入音频的语谱图;
[0012] 步骤(2.3):对语谱图Z进行归范化处理,规范化到[0,255]范围,得到规范化语谱图K,采用公式如下:
[0013]
[0014] 其中,m1为语谱图Z的最小值,m2为语谱图Z的最大值;
[0015] 步骤(3):采用二维Gabor滤波器对训练音频和测试音频的语谱图进行变换,具体如下:
[0016] 建立L个二维Gabor滤波器,二维Gabor滤波器有M个尺度和N个方向。因此有 L=M×N;若输入音频语谱图为D(x,y),x=1,2,...,W,y=1,2,...,H;其中W和H分别为语谱图的宽度和高度;经过二维Gabor滤波后,得到Gabor系数为G(m,n,i,j),其中m为 Gabor系数的尺度索引;n为Gabor系数的方向索引;0≤m≤M-1,0≤n≤N-1;
[0017] L个二维Gabor滤波器的设计步骤如下:
[0018] 对于二维离散Gabor滤波器,有如下公式:
[0019]
[0020] x′=x cosθn+y sinθn
[0021] y′=y cosθn-x sinθn
[0022] θn=2πn/N,其中n=0,1,...,N-1,fm=a-mfmax,其中 fmax为最高频率, m=0,1,...,M-1;
[0023] 构造L=M×N个Gabor滤波器后,将输入音频频谱图经过L个Gabor滤波器进行滤波,得到Gabor系数G(m,n,x,y),计算公式如下:
[0024] G(m,n,x,y)=D(x,y)*f(x,y,fm,θn)
[0025] 其中,D(x,y)为输入音频语谱图,f(x,y,fm,θn)为第m个尺度和第n个方向的Gabor 滤波器,符号*为卷积操作,G(x,y,m,n)为音频语谱图经Gabor滤波后得到的Gabor滤波结果;
[0026] 步骤(4):求取Gabor滤波结果G(m,n,x,y)的幅度,采用公式如下:
[0027]
[0028] 其中,A(m,n,x,y)为Gabor滤波结果幅度;RE(G(m,n,x,y))为Gabor滤波结果G(x,y,m,n)的实部;IM(G(m,n,x,y))为Gabor滤波结果G(x,y,m,n)的虚部;
[0029] 步骤(5):对音频频谱图的不同尺度的Gabor滤波结果幅度A(m,n,x,y)求取像素距离 d=1,方向为θ=0°,θ=45°,θ=90°和θ=135°四个方向的灰度共生矩阵,具体是:
[0030] 将Gabor滤波结果幅度A(m,n,x,y)的取值归一化到[0,255]范围,同时计算方向为θ=0°,θ=45°,θ=90°和θ=135°四个方向的灰度共生矩阵,记为CM0(p,q)、CM45(p,q)、 CM90(p,q)和CM135(p,q),其中0≤p≤255,0≤q≤255;
[0031] 步骤(6):计算得到四个方向灰度共生矩阵的归一化矩阵,具体计算公式如下:
[0032]
[0033]
[0034] 步骤(7):对四个方向的灰度共生矩阵计算二阶矩、熵、对比度和均匀度,计算方法如下:
[0035] 二阶矩计算公式为:
[0036] 其中θ=0°,45°,90°,135°;
[0037] 熵计算公式为:
[0038] 其中θ=0°,45°,90°,135°;
[0039] 对比度计算公式为:
[0040] 其中θ=0°,45°,90°,135°;
[0041] 均匀度计算公式为:
[0042] 其中θ=0°,45°,90°,135°;
[0043] 步骤(8):将四个方向的二阶矩,熵,对比度和均匀度组合成特征向量,公式如下:
[0044]
[0045] 步骤(9):将特征向量F合并音频场景类别送到支持向量机中进行训练,得到训练后的支持向量机;
[0046] 步骤(10):将测试音频同样按步骤(1)到步骤(8)提取出特征向量F,送到训练后的支持向量机中进行测试,得到音频场景分类结果。
[0047] 与现有技术相比,本发明所提供的基于语谱图纹理特征的音频场景识别方法,利用语谱图的纹理特征与音频场景相关的特性,对语谱图进行多尺度和多方向的Gabor变换,对Gabor 变换系数提取出灰度共生矩阵,并计算灰度共生矩阵的二阶矩、熵、对比度和均匀度作为特征向量,将特征向量送入支持向量回归机中进行训练和测试,得到音频场景类别;该方法充分利用音频语谱图的纹理特征进行音频场景识别,提高了音频场景识别精度。
(四).附图说明
[0048] 图1为基于语谱图纹理特征的音频场景识别方法流程图。(五).具体实施方式
[0049] 以下结合附图和实施实例对本发明详细说明:本发明采用TUT Acoustic scenes 2016音频场景数据库,该数据库包含15种场景,音频样本采用双声道格式,共1170个样本,
15种场景,每个音频样本为30秒的音频片段;
[0050] 步骤(1):将输入音频集随机划分成训练音频和测试音频,其中80%为训练音频,20%为测试音频;
[0051] 步骤(2):将输入训练音频和测试音频提取出语谱图;具体步骤如下:
[0052] 步骤(2.1):对输入训练音频和测试音频进行分帧、加窗并进行离散傅里叶变换;采用公式如下:
[0053]
[0054] 其中,x为输入练音频和测试音频帧的帧号,z(x,m)为分帧后的输入训练音频和测试音频第x帧的数据,η(m)为汉明窗函数,M为一个音频帧的样本个数;Y(k)为第x帧音频的频谱;
[0055] 步骤(2.2):求取音频频谱Y(k)的幅值,采用公式如下:
[0056] D(x,y)=|Y(x,y)|
[0057] 其中,|·|为求取幅度操作,D(x,y)为输入音频的语谱图;
[0058] 步骤(2.3):对语谱图Z进行归范化处理,规范化到[0,2551范围,得到规范化语谱图K,采用公式如下:
[0059]
[0060] 其中,m1为语谱图Z的最小值,m2为语谱图Z的最大值;
[0061] 步骤(3):采用二维Gabor滤波器对训练音频和测试音频的语谱图进行变换,具体如下:
[0062] 建立L个二维Gabor滤波器,二维Gabor滤波器有M个尺度和N个方向,其中M取值为3,N取值为4;因此有L=M×N=12;若输入音频语谱图为D(x,y),x=1,2,...,W, y=1,
2,...,H;其中W和H分别为语谱图的宽度和高度;经过二维Gabor滤波后,得到Gabor 系数为G(m,n,i,j),其中m为Gabor系数的尺度索引;n为Gabor系数的方向索引; 0≤m≤M-1,0≤n≤N-1;
[0063] L个二维Gabor滤波器的设计步骤如下:
[0064] 对于二维离散Gabor滤波器,有如下公式:
[0065]
[0066] x′=x cosθn+y sinθn
[0067] y′=y cosθn-x sinθn
[0068] θn=2πn/N,其中n=0,1,...,N-1,fm=a-mfmax,其中 fmax为最高频率, m=0,1,...,M-1;
[0069] 构造L=M×N个Gabor滤波器后,将输入音频频谱图经过L个Gabor滤波器进行滤波,得到Gabor系数G(m,n,x,y),计算公式如下:
[0070] G(m,n,x,y)=D(x,y)*f(x,y,fm,θn)
[0071] 其中,D(x,y)为输入音频语谱图,f(x,y,fm,θn)为第m个尺度和第n个方向的Gabor 滤波器,符号*为卷积操作,G(x,y,m,n)为音频语谱图经Gabor滤波后得到的Gabor滤波结果;
[0072] 步骤(4):求取Gabor滤波结果G(m,n,x,y)的幅度,采用公式如下:
[0073]
[0074] 其中,A(m,n,x,y)为Gabor滤波结果幅度;RE(G(m,n,x,y))为Gabor滤波结果 G(x,y,m,n)的实部;IM(G(m,n,x,y))为Gabor滤波结果G(x,y,m,n)的虚部;
[0075] 步骤(5):对音频频谱图的不同尺度的Gabor滤波结果幅度A(m,n,x,y)求取像素距离 d=1,方向为θ=0°,θ=45°,θ=90°和θ=135°四个方向的灰度共生矩阵,具体是:
[0076] 将Gabor滤波结果幅度A(m,n,x,y)的取值归一化到[0,255]范围,同时计算方向为θ=0°,θ=45°,θ=90°和θ=135°四个方向的灰度共生矩阵,记为CM0(p,q)、CM45(p,q)、CM90(p,q)和CM135(p,q),其中0≤p≤255,0≤q≤255;
[0077] 步骤(6):计算得到四个方向灰度共生矩阵的归一化矩阵,具体计算公式如下:
[0078]
[0079]
[0080] 步骤(7):对四个方向的灰度共生矩阵计算二阶矩、熵、对比度和均匀度,计算方法如下:
[0081] 二阶矩计算公式为:
[0082] 其中θ=0°,45°,90°,135°;
[0083] 熵计算公式为:
[0084] 其中θ=0°,45°,90°,135°;
[0085] 对比度计算公式为:
[0086] 其中θ=0°,45°,90°,135°;
[0087] 均匀度计算公式为:
[0088] 其中θ=0°,45°,90°,135°,其中k取值为1;
[0089] 步骤(8):将四个方向的二阶矩,熵,对比度和均匀度组合成特征向量,公式如下:
[0090]
[0091] 步骤(9):将特征向量F合并音频类别送到支持向量机中进行训练,得到训练后的支持向量机;
[0092] 步骤(10):将测试音频同样按步骤(1)到步骤(8)提取出特征向量F,送到训练后的支持向量机中进行测试,得到分类的音频类别;以上步骤中支持向量机采用中国台湾大学开发的libsvm支持向量机工具包进行训练和测试。