音频数据处理方法、装置、计算机设备以及存储介质转让专利
申请号 : CN201911155938.X
文献号 : CN111028860B
文献日 : 2021-08-06
发明人 : 毛光亮 , 陈茂华 , 曾剑锋
申请人 : 深圳市康冠智能科技有限公司
摘要 :
权利要求 :
1.一种音频数据处理方法,其特征在于,所述方法包括:对原始音频数据进行重采样;
将重采样后的音频数据转换为重叠帧,其中,所述重叠帧的重叠长度设置为大于等于
1/2原帧长且小于等于3/4原帧长;
使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;
将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;
采用下述公式对离散音频数据进行归一化处理:其中absoluteSpectrogram表示绝对值离散音频数据,max Amp表示最大振幅,min Amp表示最小振幅;
将鲁棒性特征与预设模板鲁棒性特征进行特征匹配,其中所述预设模板鲁棒特征包括声强、响度、音高、基音周期或基音频率中的一种或多种;
若所述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;
若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据;
所述对原始音频数据进行重采样,包括:确定对所述原始音频数据的重采样频率,所述重采样频率为采样帧与每秒帧数值的乘积;
按照所确定的重采样频率对所述原始音频数据进行重采样。
2.如权利要求1所述的方法,其特征在于,所述按照所确定的重采样频率对所述原始音频数据进行重采样包括:确定所述重采样频率,并通过线性插值法对所述原始音频数据进行重采样;
所述将重采样后的音频数据转换为重叠帧,包括:将重采样后的音频数据分割成相同帧长的多个音频数据帧;
将相邻的两个音频数据帧按照预定的重叠长度进行重叠,获得所述重叠帧。
3.如权利要求1所述的方法,其特征在于,所述使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据,包括:
使用预定窗长的Hanming窗乘以重叠帧中的每一音频数据帧,得到加权处理后的重叠帧;
采用快速傅里叶变换算法对经过加权处理后的重叠帧中的每一音频数据帧进行傅里叶变换,得到离散音频数据。
4.如权利要求1所述的方法,其特征在于,所述将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征,包括:
将获得的离散音频数据转换为[0,1]内的归一化的音频数据;
采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;
所述将鲁棒性特征与预设模板鲁棒性特征进行特征匹配,包括:若所提取的鲁棒性特征只包括一种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征,则判定鲁棒性特征与预设模板鲁棒性特征相匹配;若所提取的鲁棒性特征只包括一种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征,则判定鲁棒性特征与预设模板鲁棒性特征不匹配;若所提取的鲁棒性特征包括多种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征,则判定鲁棒性特征与预设模板鲁棒性特征相匹配;若所提取的鲁棒性特征包括多种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征,则判定鲁棒性特征与预设模板鲁棒性特征不匹配。
5.一种音频数据处理装置,其特征在于,所述装置包括:重采样单元,用于对原始音频数据进行重采样;
转换单元,用于将重采样后的音频数据转换为重叠帧,其中,所述重叠帧的重叠长度设置为大于等于1/2原帧长且小于等于3/4原帧长;
加权处理单元,用于使用Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;
处理提取单元,用于将获得的离散音频数据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;
采用下述公式对离散音频数据进行归一化处理:其中absoluteSpectrogram表示绝对值离散音频数据,max Amp表示最大振幅,min Amp表示最小振幅;
匹配单元,用于将鲁棒性特征与预设模板鲁棒性特征进行特征匹配,其中所述预设模板鲁棒特征包括声强、响度、音高、基音周期或基音频率中的一种或多种;
第一判定单元,用于若所述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;
第二判定单元,用于若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据;
所述重采样单元,包括:
确定单元,用于确定对所述原始音频数据的重采样频率,所述重采样频率为采样帧与每秒帧数值的乘积;
重采样子单元,用于按照所确定的重采样频率对所述原始音频数据进行重采样。
6.如权利要求5所述的装置,其特征在于,所述按照所确定的重采样频率对所述原始音频数据进行重采样包括:确定所述重采样频率,并通过线性插值法对所述原始音频数据进行重采样;
所述转换单元,包括:
分割单元,用于将重采样后的音频数据分割成相同帧长的多个音频数据帧;
重叠单元,用于将相邻的两个音频数据帧按照预定的重叠长度进行重叠,获得所述重叠帧。
7.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1‑4任一项所述的音频数据处理方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如权利要求1‑4任一项所述的音频数据处理方法。
说明书 :
音频数据处理方法、装置、计算机设备以及存储介质
技术领域
背景技术
都是噪音环境,例如工厂,由于有噪音渗入喇叭所回放的声音中,导致在对音频进行处理
(例如音频识别)时,大部分的音频识别都是靠人为的主观意识进行判断才能够完成,这种
传统的处理方式无法在噪音环境中完成,严重影响了音频处理的准确性,降低音频测试的
效率。
发明内容
实现如上所述的音频数据处理方法。
或者一个以上的处理器执行,以实现如上所述的音频数据处理方法。
Hanming窗对所述重叠帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执
行快速离散傅里叶变换,得到离散音频数据;将获得的离散音频数据进行归一化处理,再采
用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;将鲁棒性特
征与预设模板鲁棒性特征进行特征匹配;若所述鲁棒性特征与预设模板鲁棒性特征不匹
配,判定所述原始音频数据为异常音频数据;若所述鲁棒性特征与预设模板鲁棒性特征匹
配,判定所述原始音频数据为正常音频数据。本发明能够提高音频处理的准确性以及音频
测试的效率。
附图说明
通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例,都属于本发明保护的范围。
体、步骤、操作、元素、组件和/或其集合的存在或添加。
下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
方法应用于终端中,其中终端可以是智能手机、平板电脑、笔记本电脑或者台式电脑等具有
通信功能的电子设备。作为一应用,如图1所示,该音频数据处理方法应用于终端20中,该终
端20从服务器10中获取待处理的原始音频数据并执行处理操作,并将处理结果显示给用
户。
可以通过Android系统从服务器中获得,该原始PCM音频数据也可以从发出音频数据的设备
喇叭输出端口获得,例如,在TV主板上会有一个音频输出端口来接收音频数据输出设备所
输出的音频数据,更具体的,该原始PCM音频数据在系统的声卡播放前进行截取,并且该原
始PCM音频数据不需要通过麦克风进行收集。从服务器中获得原始PCM音频数据之后,需要
对原始PCM音频数据进行重采样,所谓重采样指的是根据需求改变从服务器中获得的原始
PCM音频数据的采样频率,本实施例通过规定重采样频率从而实现对原始PCM音频数据的重
采样,重采样频率可以根据实际需要的采样帧和FPS(Frames Per Second,每秒传输帧数)
进行确定,例如,本实施例规定数据的采样帧为2048个,FPS(Frames Per Second,每秒传输
帧数)为5,所以为了拥有5FPS和2048个采样点的帧,则规定重采样频率为10240,也就是说
重采样频率等于实际需要的采样帧和FPS的乘积,具体的采样帧和FPS可以根据实际采样需
求进行确定,在此不作进一步限制;在确定重采样频率之后,通过线性插值法对原始PCM音
频数据进行重采样,具体的线性插值方法可以从现有的线性插值方法中选取,此处不再赘
述。
式。
如,在实际应用中需要拥有2048个采样帧以及5FPS,其中,5FPS指的是每秒5帧,则重采样频
率为2048*5=10240;在实际应用中需要拥有1048个采样帧以及2FPS,其中,2FPS指的是每
秒2帧,则重采样频率为1048*2=2096;在实际应用中需要拥有3048个采样帧以及6FPS,其
中,6FPS指的是每秒6帧,则重采样频率为3048*6=18288;本实施例中具体的采样帧和FPS
可以根据用户实际的采样需求进行确定,在此不作进一步限制。
邻的两个帧两两进行重叠,即后一帧音频数据帧都有前一帧音频数据帧的一部分数据;在
本实施例中,重叠部分的重叠长度设置为大于等于1/2原帧长且小于等于3/4原帧长,设置
长度比较大的重叠可以保证即使在最坏情况下,所要识别的音频段的子声纹仍然非常类似
于模板段的子声纹。更具体的,本实施例中所设置的重叠部分的重叠长度可以根据实际情
况进行设置,只要实际设置的重叠长度设置为大于等于1/2原帧长且小于等于3/4原帧长即
可,具体的重叠长度在此不作进一步限制。
段的声纹仍然非常类似于模板音频数据的声纹。
帧。例如设置分割帧长为2帧,可以将一份8帧的音频数据等分为4个相同帧长的音频数据
帧;设置分割时长为3帧,可以将一份9帧的音频数据等分为3个相同帧长的音频数据帧;设
置分割时长为4帧,可以将一份20帧的音频数据等分为5个相同帧长的音频数据帧,具体的
分割帧长可以根据实际需要进行设置,在此不限进一步限制。
帧长且小于等于3/4原帧长,设置长度比较大的重叠可以保证即使在最坏情况下,所要识别
的音频段的子声纹仍然非常类似于模板段的子声纹。更具体的,本实施例中所设置的重叠
部分的重叠长度可以根据实际情况进行设置,只要实际设置的重叠长度设置为大于等于1/
2原帧长且小于等于3/4原帧长即可,具体的重叠长度在此不作进一步限制。
处理时,不可能对无限长的数字音频数据进行测量和运算,而是取其有限的时间片段进行
分析,具体的做法是从数字音频数据中截取一个时间片段,然后用截取的数字音频数据时
间片段进行周期延拓处理,得到虚拟的无限长的音频数据,然后就可以对数字音频数据进
行傅里叶变换、相关分析等数学处理。当无限长的音频数据被截断以后,其频谱发生了畸
变,原来集中在f(0)处的能量被分散到两个较宽的频带中去了,我们将这种现象称之为频
谱能量泄漏,为了减少频谱能量泄漏,本实施例采用截取函数对数字音频数据进行截断,截
断函数称为窗函数,简称为窗。本实施例所采用的窗函数为Hanming窗,对于分割成帧长为N
的多个音频数据帧,相邻两个帧之间的重叠长度为L,对重叠帧中的每一音频数据帧x(i,n)
进行加窗,用窗长为N的Hanming窗乘以每一音频数据帧x(i,n)从而实现对重叠帧的加权处
理,进行加窗后的音频数据帧记为xW(i,n),计算公式如下:xW(i,n)=x(i,n)(0.54‑0.46cos
(2πn/(N‑1))),n=0~N‑1,π=3.14159,N>1;对每一音频数据帧使用上述加权处理计算公
式进行加窗处理便会得到加权处理后的重叠帧。
换算法对每一音频数据帧进行傅里叶变换,将时域信号转换为频域信号XW(i,k),将加权处
理后的每一音频数据帧根据以下快速离散傅里叶公式计算傅里叶变换:
k=0~N,N>1,其中,k表示频域中的第k条谱线;对每一音
频数据帧使用上述快速离散傅里叶公式计算傅里叶变换便会得到离散音频数据。
(i,n)(0.54‑0.46cos(2πn/(N‑1))),n=0~N‑1,π=3.14159,N>1;对每一音频数据帧使用
上述加权处理计算公式进行加窗处理便会得到加权处理后的重叠帧。
用快速离散傅里叶变换算法对每一音频数据帧进行傅里叶变换,将时域信号转换为频域信
号XW(i,k),将加权处理后的每一音频数据帧根据以下快速离散傅里叶公式计算傅里叶变
换: k=0~N,N>1,其中,k表示频域中的第k条谱线;对每一
音频数据帧使用上述快速离散傅里叶公式计算傅里叶变换便会得到离散音频数据。
最小振幅,应用以下公式,通过对数归一化方法进行归一化处理,从而将离散音频数据转换
为[0,1]内的归一化的音频数据:diff=log10(max Amp/min Amp),音谱数据=(log10
(absoluteSpectrogram/min Amp))/diff,其中,absoluteSpectrogram表示绝对值音谱数
据,max Amp表示最大振幅,min Amp表示最小振幅。采用预设轻量级音频分析库提取归一化
处理后的离散音频数据中的鲁棒性特征,所谓鲁棒性特征指的是无论信号的强弱都能保持
不变的特性,至少在一定程度上保持不变,类似于人的声纹。本实施例采用预设轻量级音频
分析库提取归一化处理后的离散音频数据中的鲁棒性特征,该预设轻时级音频分析库使用
现有的轻量级音频分析库musicg,具体的提取方法可以从现有的轻量级音频分析库musicg
提供的提取代码来实现,此处不再赘述。其中,所提取的鲁棒性特征可以包括声强、响度、音
高、基音周期或基音频率中的一种或多种,当然,鲁棒性特征还可以包括信噪比、谐噪比、频
率微扰、振幅围绕等其他特征,具体的特征本申请不做限定。
的比率;T越小,概率Pf就越小。另一方面,T的一个小值会对误报概率Pn产生负面影响,T的
小值会对误报概率Pn产生负面影响;这个阀值T的选择,我们假设声纹提取过程中产生的随
机的IID(独立且恒等分布)位。IID位错误的数量将有一个二项分布(n,p),其中n等于被抽
取的位个数,p(=0.5)是一个“0”或“1”位被抽取的概率码。
音频数据:diff=log10(max Amp/min Amp),音谱数据=(log10(absoluteSpectrogram/min
Amp))/diff,其中,absoluteSpectrogram表示绝对值音谱数据,max Amp表示最大振幅,min
Amp表示最小振幅。
一定程度上保持不变,类似于人的声纹。本实施例采用预设轻量级音频分析库提取归一化
处理后的离散音频数据中的鲁棒性特征,该预设轻时级音频分析库使用现有的轻量级音频
分析库musicg,具体的提取方法可以从现有的轻量级音频分析库musicg提供的提取代码来
实现,此处不再赘述。
等其他特征,具体的预设模板鲁棒性特征在本申请不做限定。若所提取的鲁棒性特征只包
括一种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征,则说明鲁
棒性特征与预设模板鲁棒性特征相匹配;若所提取的鲁棒性特征只包括一种特征,并且所
提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征,则说明鲁棒性特征与预设模
板鲁棒性特征不匹配;若所提取的鲁棒性特征包括多种特征,并且所提取的鲁棒性特征在
预设模板鲁棒性特征存在相同的特征,则说明鲁棒性特征与预设模板鲁棒性特征相匹配;
若所提取的鲁棒性特征包括多种特征,并且所提取的鲁棒性特征在预设模板鲁棒性特征不
存在相同的特征,则说明鲁棒性特征与预设模板鲁棒性特征不匹配。
征不匹配,判定原始音频数据为异常音频数据;若所提取的鲁棒性特征包括多种特征,并且
所提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征,则说明鲁棒性特征与预设
模板鲁棒性特征不匹配,判定原始音频数据为异常音频数据。
相匹配,判定原始音频数据为正常音频数据;若所提取的鲁棒性特征包括多种特征,并且所
提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征,则说明鲁棒性特征与预设模板
鲁棒性特征相匹配,判定原始音频数据为正常音频数据。
每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;将获得的离散音频数据进
行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒
性特征;将鲁棒性特征与预设模板鲁棒性特征进行特征匹配;若所述鲁棒性特征与预设模
板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;若所述鲁棒性特征与预设
模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据。本发明能够提高音频处理
的准确性以及音频测试的效率。
104、匹配单元105、第一判定单元106、第二判定单元107。
帧进行加权处理,再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变
换,得到离散音频数据;处理提取单元104,用于将获得的离散音频数据进行归一化处理,再
采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征;匹配单元
105,用于将鲁棒性特征与预设模板鲁棒性特征进行特征匹配;第一判定单元106,用于若所
述鲁棒性特征与预设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;第
二判定单元107,用于若所述鲁棒性特征与预设模板鲁棒性特征匹配,判定所述原始音频数
据为正常音频数据。
据进行重采样。
定的重叠长度进行重叠,获得所述重叠帧。
于采用快速傅里叶变换算法对经过加权处理后的重叠帧中的每一音频数据帧进行傅里叶
变换,得到离散音频数据。
分析库提取归一化处理后的离散音频数据中的鲁棒性特征。
中的每一音频数据帧执行快速离散傅里叶变换,得到离散音频数据;将获得的离散音频数
据进行归一化处理,再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的
鲁棒性特征;将鲁棒性特征与预设模板鲁棒性特征进行特征匹配;若所述鲁棒性特征与预
设模板鲁棒性特征不匹配,判定所述原始音频数据为异常音频数据;若所述鲁棒性特征与
预设模板鲁棒性特征匹配,判定所述原始音频数据为正常音频数据。本发明能够提高音频
处理的准确性以及音频测试的效率。
电子装置。参照图12,该计算机设备500包括通过系统总线501连接的处理器502、非易失性
存储介质503、内存储器504和网络接口505。其中,该计算机设备500的非易失性存储介质
503可存储操作系统5031和计算机程序5032,该计算机程序5032被执行时,可使得处理器
502执行一种音频数据处理方法。该计算机设备500的处理器502用于提供计算和控制能力,
支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序
5032的运行提供环境,该计算机程序被处理器执行时,可使得处理器502执行一种音频数据
处理方法。计算机设备500的网络接口505用于进行网络通信。本领域技术人员可以理解,图
12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所
应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部
件,或者组合某些部件,或者具有不同的部件布置。
者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备仅包括存储器
及处理器,在这样的实施例中,存储器及处理器的结构及功能与图12所示实施例一致,在此
不再赘述。
行,以实现以下步骤:
Circuit,专用集成电路)来实现。
换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利
要求的保护范围为准。