音频数据处理方法、装置、计算机设备以及存储介质转让专利

申请号 : CN201911155938.X

文献号 : CN111028860B

文献日 : 2021-08-06

本发明实施例公开了一种音频数据处理方法、装置、计算机设备以及存储介质，所述方法包括：对原始音频数据进行重采样；将重采样后的音频数据转换为重叠帧；使用Hanming窗对重叠帧进行加权处理，再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据；将获得的离散音频数据进行归一化处理，再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征；将鲁棒性特征与预设模板鲁棒性特征进行特征匹配；若鲁棒性特征与预设模板鲁棒性特征不匹配，判定原始音频数据为异常音频数据，否则判定原始音频数据为正常音频数据。本发明能够提高音频处理的准确性以及音频测试的效率。

1.一种音频数据处理方法，其特征在于，所述方法包括：对原始音频数据进行重采样；

将重采样后的音频数据转换为重叠帧，其中，所述重叠帧的重叠长度设置为大于等于

1/2原帧长且小于等于3/4原帧长；

使用Hanming窗对所述重叠帧进行加权处理，再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据；

将获得的离散音频数据进行归一化处理，再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征；

采用下述公式对离散音频数据进行归一化处理：其中absoluteSpectrogram表示绝对值离散音频数据，max Amp表示最大振幅，min Amp表示最小振幅；

将鲁棒性特征与预设模板鲁棒性特征进行特征匹配，其中所述预设模板鲁棒特征包括声强、响度、音高、基音周期或基音频率中的一种或多种；

若所述鲁棒性特征与预设模板鲁棒性特征不匹配，判定所述原始音频数据为异常音频数据；

若所述鲁棒性特征与预设模板鲁棒性特征匹配，判定所述原始音频数据为正常音频数据；

所述对原始音频数据进行重采样，包括：确定对所述原始音频数据的重采样频率，所述重采样频率为采样帧与每秒帧数值的乘积；

按照所确定的重采样频率对所述原始音频数据进行重采样。

2.如权利要求1所述的方法，其特征在于，所述按照所确定的重采样频率对所述原始音频数据进行重采样包括：确定所述重采样频率，并通过线性插值法对所述原始音频数据进行重采样；

所述将重采样后的音频数据转换为重叠帧，包括：将重采样后的音频数据分割成相同帧长的多个音频数据帧；

将相邻的两个音频数据帧按照预定的重叠长度进行重叠，获得所述重叠帧。

3.如权利要求1所述的方法，其特征在于，所述使用Hanming窗对所述重叠帧进行加权处理，再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据，包括：

使用预定窗长的Hanming窗乘以重叠帧中的每一音频数据帧，得到加权处理后的重叠帧；

采用快速傅里叶变换算法对经过加权处理后的重叠帧中的每一音频数据帧进行傅里叶变换，得到离散音频数据。

4.如权利要求1所述的方法，其特征在于，所述将获得的离散音频数据进行归一化处理，再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征，包括：

将获得的离散音频数据转换为[0，1]内的归一化的音频数据；

采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征；

所述将鲁棒性特征与预设模板鲁棒性特征进行特征匹配，包括：若所提取的鲁棒性特征只包括一种特征，并且所提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征，则判定鲁棒性特征与预设模板鲁棒性特征相匹配；若所提取的鲁棒性特征只包括一种特征，并且所提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征，则判定鲁棒性特征与预设模板鲁棒性特征不匹配；若所提取的鲁棒性特征包括多种特征，并且所提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征，则判定鲁棒性特征与预设模板鲁棒性特征相匹配；若所提取的鲁棒性特征包括多种特征，并且所提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征，则判定鲁棒性特征与预设模板鲁棒性特征不匹配。

5.一种音频数据处理装置，其特征在于，所述装置包括：重采样单元，用于对原始音频数据进行重采样；

转换单元，用于将重采样后的音频数据转换为重叠帧，其中，所述重叠帧的重叠长度设置为大于等于1/2原帧长且小于等于3/4原帧长；

加权处理单元，用于使用Hanming窗对所述重叠帧进行加权处理，再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据；

处理提取单元，用于将获得的离散音频数据进行归一化处理，再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征；

采用下述公式对离散音频数据进行归一化处理：其中absoluteSpectrogram表示绝对值离散音频数据，max Amp表示最大振幅，min Amp表示最小振幅；

匹配单元，用于将鲁棒性特征与预设模板鲁棒性特征进行特征匹配，其中所述预设模板鲁棒特征包括声强、响度、音高、基音周期或基音频率中的一种或多种；

第一判定单元，用于若所述鲁棒性特征与预设模板鲁棒性特征不匹配，判定所述原始音频数据为异常音频数据；

第二判定单元，用于若所述鲁棒性特征与预设模板鲁棒性特征匹配，判定所述原始音频数据为正常音频数据；

所述重采样单元，包括：

确定单元，用于确定对所述原始音频数据的重采样频率，所述重采样频率为采样帧与每秒帧数值的乘积；

重采样子单元，用于按照所确定的重采样频率对所述原始音频数据进行重采样。

6.如权利要求5所述的装置，其特征在于，所述按照所确定的重采样频率对所述原始音频数据进行重采样包括：确定所述重采样频率，并通过线性插值法对所述原始音频数据进行重采样；

所述转换单元，包括：

分割单元，用于将重采样后的音频数据分割成相同帧长的多个音频数据帧；

重叠单元，用于将相邻的两个音频数据帧按照预定的重叠长度进行重叠，获得所述重叠帧。

7.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1‑4任一项所述的音频数据处理方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现如权利要求1‑4任一项所述的音频数据处理方法。

音频数据处理方法、装置、计算机设备以及存储介质

技术领域

[0001] 本发明涉及计算机技术领域，尤其涉及一种音频数据处理方法、装置、计算机设备以及存储介质。

背景技术

[0002] 目前，市面上存在的音频处理技术，由于需要通过将音频数据进行喇叭回放之后才能完成音频处理，这种处理方式需要静音环境才能够顺利进行，但是，现实中的很多场景
都是噪音环境，例如工厂，由于有噪音渗入喇叭所回放的声音中，导致在对音频进行处理
(例如音频识别)时，大部分的音频识别都是靠人为的主观意识进行判断才能够完成，这种
传统的处理方式无法在噪音环境中完成，严重影响了音频处理的准确性，降低音频测试的
效率。

发明内容

[0003] 有鉴于此，本发明实施例提供一种音频数据处理方法、装置、计算机设备以及存储介质，能够提高音频处理的准确性以及音频测试的效率。

[0004] 一方面，本发明实施例提供了一种音频数据处理方法，该方法包括：

[0005] 对原始音频数据进行重采样；

[0006] 将重采样后的音频数据转换为重叠帧；

[0007] 使用Hanming窗对所述重叠帧进行加权处理，再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据；

[0008] 将获得的离散音频数据进行归一化处理，再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征；

[0009] 将鲁棒性特征与预设模板鲁棒性特征进行特征匹配；

[0010] 若所述鲁棒性特征与预设模板鲁棒性特征不匹配，判定所述原始音频数据为异常音频数据；

[0011] 若所述鲁棒性特征与预设模板鲁棒性特征匹配，判定所述原始音频数据为正常音频数据。

[0012] 另一方面，本发明实施例提供了一种音频数据处理装置，所述装置包括：

[0013] 重采样单元，用于对原始音频数据进行重采样；

[0014] 转换单元，用于将重采样后的音频数据转换为重叠帧；

[0015] 加权处理单元，用于使用Hanming窗对所述重叠帧进行加权处理，再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据；

[0016] 处理提取单元，用于将获得的离散音频数据进行归一化处理，再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征；

[0017] 匹配单元，用于将鲁棒性特征与预设模板鲁棒性特征进行特征匹配；

[0018] 第一判定单元，用于若所述鲁棒性特征与预设模板鲁棒性特征不匹配，判定所述原始音频数据为异常音频数据；

[0019] 第二判定单元，用于若所述鲁棒性特征与预设模板鲁棒性特征匹配，判定所述原始音频数据为正常音频数据。

[0020] 又一方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时
实现如上所述的音频数据处理方法。

[0021] 再一方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个
或者一个以上的处理器执行，以实现如上所述的音频数据处理方法。

[0022] 本发明实施例提供一种音频数据处理方法、装置、计算机设备以及存储介质，其中方法包括：对原始音频数据进行重采样；将重采样后的音频数据转换为重叠帧；使用
Hanming窗对所述重叠帧进行加权处理，再对加权处理后的重叠帧中的每一音频数据帧执
行快速离散傅里叶变换，得到离散音频数据；将获得的离散音频数据进行归一化处理，再采
用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征；将鲁棒性特
征与预设模板鲁棒性特征进行特征匹配；若所述鲁棒性特征与预设模板鲁棒性特征不匹
配，判定所述原始音频数据为异常音频数据；若所述鲁棒性特征与预设模板鲁棒性特征匹
配，判定所述原始音频数据为正常音频数据。本发明能够提高音频处理的准确性以及音频
测试的效率。

附图说明

[0023] 为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普
通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0024] 图1是本发明实施例提供的一种音频数据处理方法的应用场景示意图；

[0025] 图2是本发明实施例提供的一种音频数据处理方法的示意流程图；

[0026] 图3是本发明实施例提供的一种音频数据处理方法的另一示意流程图；

[0027] 图4是本发明实施例提供的一种音频数据处理方法的另一示意流程图；

[0028] 图5是本发明实施例提供的一种音频数据处理方法的另一示意流程图；

[0029] 图6是本发明实施例提供的一种音频数据处理方法的另一示意流程图；

[0030] 图7是本发明实施例提供的一种音频数据处理装置的示意性框图；

[0031] 图8是本发明实施例提供的一种音频数据处理装置的另一示意性框图；

[0032] 图9是本发明实施例提供的一种音频数据处理装置的另一示意性框图；

[0033] 图10是本发明实施例提供的一种音频数据处理装置的另一示意性框图；

[0034] 图11是本发明实施例提供的一种音频数据处理装置的另一示意性框图；

[0035] 图12是本发明实施例提供的一种计算机设备的结构组成示意图。

具体实施方式

[0036] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发
明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例，都属于本发明保护的范围。

[0037] 应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整
体、步骤、操作、元素、组件和/或其集合的存在或添加。

[0038] 还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上
下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

[0039] 还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

[0040] 请参阅图1和图2，图1为本发明实施例提供的一种音频数据处理方法的应用场景示意图，图2为本发明实施例提供的一种音频数据处理方法的流程示意图。该音频数据处理
方法应用于终端中，其中终端可以是智能手机、平板电脑、笔记本电脑或者台式电脑等具有
通信功能的电子设备。作为一应用，如图1所示，该音频数据处理方法应用于终端20中，该终
端20从服务器10中获取待处理的原始音频数据并执行处理操作，并将处理结果显示给用
户。

[0041] 请参阅图2，图2为本发明实施例提供的一种音频数据处理方法的示意流程图。如图2所示，该方法包括以下步骤S101～S107。

[0042] S101，对原始音频数据进行重采样。

[0043] 在本发明实施例中，所述原始音频数据指的是原始PCM(Pulse Code Modulation，脉冲编码调制)音频数据，该原始PCM音频数据可以从服务器中获取，该原始PCM音频数据也
可以通过Android系统从服务器中获得，该原始PCM音频数据也可以从发出音频数据的设备
喇叭输出端口获得，例如，在TV主板上会有一个音频输出端口来接收音频数据输出设备所
输出的音频数据，更具体的，该原始PCM音频数据在系统的声卡播放前进行截取，并且该原
始PCM音频数据不需要通过麦克风进行收集。从服务器中获得原始PCM音频数据之后，需要
对原始PCM音频数据进行重采样，所谓重采样指的是根据需求改变从服务器中获得的原始
PCM音频数据的采样频率，本实施例通过规定重采样频率从而实现对原始PCM音频数据的重
采样，重采样频率可以根据实际需要的采样帧和FPS(Frames Per Second，每秒传输帧数)
进行确定，例如，本实施例规定数据的采样帧为2048个，FPS(Frames Per Second，每秒传输
帧数)为5，所以为了拥有5FPS和2048个采样点的帧，则规定重采样频率为10240，也就是说
重采样频率等于实际需要的采样帧和FPS的乘积，具体的采样帧和FPS可以根据实际采样需
求进行确定，在此不作进一步限制；在确定重采样频率之后，通过线性插值法对原始PCM音
频数据进行重采样，具体的线性插值方法可以从现有的线性插值方法中选取，此处不再赘
述。

[0044] 需要说明的是，本实施例中所述的原始PCM音频数据可以是TV码流的音频数据，该格式的音频数据没有经过任何的压缩，该格式的音频数据是系统的声卡直接支持的数据格
式。

[0045] 请参阅图3，所述步骤S101包括步骤S201～S202：

[0046] S201，确定对所述原始音频数据的重采样频率。

[0047] 在本发明实施例中，原始音频数据的重采样频率可以根据实际需要的采样帧和FPS进行确定，具体的，原始音频数据的重采样频率等于实际需要的采样帧和FPS的乘积，例
如，在实际应用中需要拥有2048个采样帧以及5FPS，其中，5FPS指的是每秒5帧，则重采样频
率为2048*5＝10240；在实际应用中需要拥有1048个采样帧以及2FPS，其中，2FPS指的是每
秒2帧，则重采样频率为1048*2＝2096；在实际应用中需要拥有3048个采样帧以及6FPS，其
中，6FPS指的是每秒6帧，则重采样频率为3048*6＝18288；本实施例中具体的采样帧和FPS
可以根据用户实际的采样需求进行确定，在此不作进一步限制。

[0048] S202，按照所确定的重采样频率对所述原始音频数据进行重采样。

[0049] 在本发明实施例中，在确定重采样频率之后，通过线性插值法对原始PCM音频数据进行重采样，具体的线性插值方法可以从现有的线性插值方法中选取，此处不再赘述。

[0050] S102，将重采样后的音频数据转换为重叠帧。

[0051] 在本发明实施例中，将重采样后的音频数据转换为重叠帧，需要将重采样后的音频数据进行分段为多个音频数据帧，再把相邻的两个帧重叠起来，即按照分段的顺序将相
邻的两个帧两两进行重叠，即后一帧音频数据帧都有前一帧音频数据帧的一部分数据；在
本实施例中，重叠部分的重叠长度设置为大于等于1/2原帧长且小于等于3/4原帧长，设置
长度比较大的重叠可以保证即使在最坏情况下，所要识别的音频段的子声纹仍然非常类似
于模板段的子声纹。更具体的，本实施例中所设置的重叠部分的重叠长度可以根据实际情
况进行设置，只要实际设置的重叠长度设置为大于等于1/2原帧长且小于等于3/4原帧长即
可，具体的重叠长度在此不作进一步限制。

[0052] 需要说明的是，通过重叠帧在识别过程中使用的帧边界与预计算声纹中使用的帧边界相差5.8毫秒(11.6/2＝5.8)，大的重叠可以确保即使在最坏情况下，所要识别的音频
段的声纹仍然非常类似于模板音频数据的声纹。

[0053] 请参阅图4，所述步骤S103包括步骤S301～S302：

[0054] S301，将重采样后的音频数据分割成相同帧长的多个音频数据帧。

[0055] 在本发明实施例中，可以将重采样后的音频数据按照相同的分割帧长划分为多个音频数据帧，即按照相同的分割帧长对音频数据进行等分，得到多个相同帧长的音频数据
帧。例如设置分割帧长为2帧，可以将一份8帧的音频数据等分为4个相同帧长的音频数据
帧；设置分割时长为3帧，可以将一份9帧的音频数据等分为3个相同帧长的音频数据帧；设
置分割时长为4帧，可以将一份20帧的音频数据等分为5个相同帧长的音频数据帧，具体的
分割帧长可以根据实际需要进行设置，在此不限进一步限制。

[0056] S302，将相邻的两个音频数据帧按照预定的重叠长度进行重叠，获得所述重叠帧。

[0057] 在本发明实施例中，将相邻的音频数据帧进行重叠，即后一帧音频数据帧都有前一帧音频数据帧的一部分数据；在本实施例中，重叠部分的重叠长度设置为大于等于1/2原
帧长且小于等于3/4原帧长，设置长度比较大的重叠可以保证即使在最坏情况下，所要识别
的音频段的子声纹仍然非常类似于模板段的子声纹。更具体的，本实施例中所设置的重叠
部分的重叠长度可以根据实际情况进行设置，只要实际设置的重叠长度设置为大于等于1/
2原帧长且小于等于3/4原帧长即可，具体的重叠长度在此不作进一步限制。

[0058] S103，使用Hanming窗对所述重叠帧进行加权处理，再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据。

[0059] 在本发明实施例中，数字音频数据处理的主要数学工具是傅里叶变换，而傅里叶变换是研究整个时间域和频率域的关系。不过，当运用计算机实现工程测试数字音频数据
处理时，不可能对无限长的数字音频数据进行测量和运算，而是取其有限的时间片段进行
分析，具体的做法是从数字音频数据中截取一个时间片段，然后用截取的数字音频数据时
间片段进行周期延拓处理，得到虚拟的无限长的音频数据，然后就可以对数字音频数据进
行傅里叶变换、相关分析等数学处理。当无限长的音频数据被截断以后，其频谱发生了畸
变，原来集中在f(0)处的能量被分散到两个较宽的频带中去了，我们将这种现象称之为频
谱能量泄漏，为了减少频谱能量泄漏，本实施例采用截取函数对数字音频数据进行截断，截
断函数称为窗函数，简称为窗。本实施例所采用的窗函数为Hanming窗，对于分割成帧长为N
的多个音频数据帧，相邻两个帧之间的重叠长度为L，对重叠帧中的每一音频数据帧x(i,n)
进行加窗，用窗长为N的Hanming窗乘以每一音频数据帧x(i,n)从而实现对重叠帧的加权处
理，进行加窗后的音频数据帧记为xW(i,n)，计算公式如下：xW(i,n)＝x(i,n)(0.54‑0.46cos
(2πn/(N‑1)))，n＝0～N‑1，π＝3.14159，N＞1；对每一音频数据帧使用上述加权处理计算公
式进行加窗处理便会得到加权处理后的重叠帧。

[0060] 对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据，具体的，对每一音频数据帧执行快速离散傅里叶变换，即采用快速离散傅里叶变
换算法对每一音频数据帧进行傅里叶变换，将时域信号转换为频域信号XW(i,k)，将加权处
理后的每一音频数据帧根据以下快速离散傅里叶公式计算傅里叶变换：
k＝0～N，N＞1，其中，k表示频域中的第k条谱线；对每一音
频数据帧使用上述快速离散傅里叶公式计算傅里叶变换便会得到离散音频数据。

[0061] 请参阅图5，所述步骤S103包括步骤S401～S402：

[0062] S401，使用预定窗长的Hanming窗乘以重叠帧中的每一音频数据帧，得到加权处理后的重叠帧。

[0063] 在本发明实施例中，使用窗长为N的Hanming窗乘以每一音频数据帧x(i,n)从而实现对重叠帧的加权处理，进行加窗后的音频数据帧记为xW(i,n)，计算公式如下：xW(i,n)＝x
(i,n)(0.54‑0.46cos(2πn/(N‑1)))，n＝0～N‑1，π＝3.14159，N＞1；对每一音频数据帧使用
上述加权处理计算公式进行加窗处理便会得到加权处理后的重叠帧。

[0064] S402，采用快速傅里叶变换算法对经过加权处理后的重叠帧中的每一音频数据帧进行傅里叶变换，得到离散音频数据。

[0065] 在本发明实施例中，对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据，具体的，对每一音频数据帧执行快速离散傅里叶变换，即采
用快速离散傅里叶变换算法对每一音频数据帧进行傅里叶变换，将时域信号转换为频域信
号XW(i,k)，将加权处理后的每一音频数据帧根据以下快速离散傅里叶公式计算傅里叶变
换： k＝0～N，N＞1，其中，k表示频域中的第k条谱线；对每一
音频数据帧使用上述快速离散傅里叶公式计算傅里叶变换便会得到离散音频数据。

[0066] S104，将获得的离散音频数据进行归一化处理，再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征。

[0067] 在本发明实施例中，将获得的离散音频数据进行归一化处理，即将获得的离散音频数据转换为[0，1]内的归一化的音频数据，具体的，通过获取离散音频数据的最大振幅和
最小振幅，应用以下公式，通过对数归一化方法进行归一化处理，从而将离散音频数据转换
为[0，1]内的归一化的音频数据：diff＝log10(max Amp/min Amp)，音谱数据＝(log10
(absoluteSpectrogram/min Amp))/diff，其中，absoluteSpectrogram表示绝对值音谱数
据，max Amp表示最大振幅，min Amp表示最小振幅。采用预设轻量级音频分析库提取归一化
处理后的离散音频数据中的鲁棒性特征，所谓鲁棒性特征指的是无论信号的强弱都能保持
不变的特性，至少在一定程度上保持不变，类似于人的声纹。本实施例采用预设轻量级音频
分析库提取归一化处理后的离散音频数据中的鲁棒性特征，该预设轻时级音频分析库使用
现有的轻量级音频分析库musicg，具体的提取方法可以从现有的轻量级音频分析库musicg
提供的提取代码来实现，此处不再赘述。其中，所提取的鲁棒性特征可以包括声强、响度、音
高、基音周期或基音频率中的一种或多种，当然，鲁棒性特征还可以包括信噪比、谐噪比、频
率微扰、振幅围绕等其他特征，具体的特征本申请不做限定。

[0068] 需要说明的是，两个派生声纹块之间的汉明距离(即位错误数)低于一定的阀值T，则声明两个音频数据相似，这个阀值T直接决定了误报率Pf，即音频数据被错误声明位相等
的比率；T越小，概率Pf就越小。另一方面，T的一个小值会对误报概率Pn产生负面影响，T的
小值会对误报概率Pn产生负面影响；这个阀值T的选择，我们假设声纹提取过程中产生的随
机的IID(独立且恒等分布)位。IID位错误的数量将有一个二项分布(n,p)，其中n等于被抽
取的位个数，p(＝0.5)是一个“0”或“1”位被抽取的概率码。

[0069] 请参阅图6，所述步骤S104包括步骤S501～S502：

[0070] S501，将获得的离散音频数据转换为[0，1]内的归一化的音频数据。

[0071] 在本发明实施例中，通过获取离散音频数据的最大振幅和最小振幅，应用以下公式，通过对数归一化方法进行归一化处理，从而将离散音频数据转换为[0，1]内的归一化的
音频数据：diff＝log10(max Amp/min Amp)，音谱数据＝(log10(absoluteSpectrogram/min
Amp))/diff，其中，absoluteSpectrogram表示绝对值音谱数据，max Amp表示最大振幅，min
Amp表示最小振幅。

[0072] S502，采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征。

[0073] 在本发明实施例中，采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征，所谓鲁棒性特征指的是无论信号的强弱都能保持不变的特性，至少在
一定程度上保持不变，类似于人的声纹。本实施例采用预设轻量级音频分析库提取归一化
处理后的离散音频数据中的鲁棒性特征，该预设轻时级音频分析库使用现有的轻量级音频
分析库musicg，具体的提取方法可以从现有的轻量级音频分析库musicg提供的提取代码来
实现，此处不再赘述。

[0074] S105，将鲁棒性特征与预设模板鲁棒性特征进行特征匹配。

[0075] 在本发明实施例中，预设模板鲁棒性特征可以预先设置包括声强、响度、音高、基音周期或基音频率中的一种或多种，当然，还可以包括信噪比、谐噪比、频率微扰、振幅围绕
等其他特征，具体的预设模板鲁棒性特征在本申请不做限定。若所提取的鲁棒性特征只包
括一种特征，并且所提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征，则说明鲁
棒性特征与预设模板鲁棒性特征相匹配；若所提取的鲁棒性特征只包括一种特征，并且所
提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征，则说明鲁棒性特征与预设模
板鲁棒性特征不匹配；若所提取的鲁棒性特征包括多种特征，并且所提取的鲁棒性特征在
预设模板鲁棒性特征存在相同的特征，则说明鲁棒性特征与预设模板鲁棒性特征相匹配；
若所提取的鲁棒性特征包括多种特征，并且所提取的鲁棒性特征在预设模板鲁棒性特征不
存在相同的特征，则说明鲁棒性特征与预设模板鲁棒性特征不匹配。

[0076] S106，若所述鲁棒性特征与预设模板鲁棒性特征不匹配，判定所述原始音频数据为异常音频数据。

[0077] 在本发明实施例中，若所提取的鲁棒性特征只包括一种特征，并且所提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征，则说明鲁棒性特征与预设模板鲁棒性特
征不匹配，判定原始音频数据为异常音频数据；若所提取的鲁棒性特征包括多种特征，并且
所提取的鲁棒性特征在预设模板鲁棒性特征不存在相同的特征，则说明鲁棒性特征与预设
模板鲁棒性特征不匹配，判定原始音频数据为异常音频数据。

[0078] S107，若所述鲁棒性特征与预设模板鲁棒性特征匹配，判定所述原始音频数据为正常音频数据。

[0079] 在本发明实施例中，若所提取的鲁棒性特征只包括一种特征，并且所提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征，则说明鲁棒性特征与预设模板鲁棒性特征
相匹配，判定原始音频数据为正常音频数据；若所提取的鲁棒性特征包括多种特征，并且所
提取的鲁棒性特征在预设模板鲁棒性特征存在相同的特征，则说明鲁棒性特征与预设模板
鲁棒性特征相匹配，判定原始音频数据为正常音频数据。

[0080] 由以上可见，本发明实施例对原始音频数据进行重采样；将重采样后的音频数据转换为重叠帧；使用Hanming窗对所述重叠帧进行加权处理，再对加权处理后的重叠帧中的
每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据；将获得的离散音频数据进
行归一化处理，再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒
性特征；将鲁棒性特征与预设模板鲁棒性特征进行特征匹配；若所述鲁棒性特征与预设模
板鲁棒性特征不匹配，判定所述原始音频数据为异常音频数据；若所述鲁棒性特征与预设
模板鲁棒性特征匹配，判定所述原始音频数据为正常音频数据。本发明能够提高音频处理
的准确性以及音频测试的效率。

[0081] 请参阅图7，对应上述一种音频数据处理方法，本发明实施例还提出一种音频数据处理装置，该装置100包括：重采样单元101、转换单元102、加权处理单元103、处理提取单元
104、匹配单元105、第一判定单元106、第二判定单元107。

[0082] 其中，所述重采样单元101，用于对原始音频数据进行重采样；转换单元102，用于将重采样后的音频数据转换为重叠帧；加权处理单元103，用于使用Hanming窗对所述重叠
帧进行加权处理，再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变
换，得到离散音频数据；处理提取单元104，用于将获得的离散音频数据进行归一化处理，再
采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征；匹配单元
105，用于将鲁棒性特征与预设模板鲁棒性特征进行特征匹配；第一判定单元106，用于若所
述鲁棒性特征与预设模板鲁棒性特征不匹配，判定所述原始音频数据为异常音频数据；第
二判定单元107，用于若所述鲁棒性特征与预设模板鲁棒性特征匹配，判定所述原始音频数
据为正常音频数据。

[0083] 请参阅图8，所述重采样单元101，包括：确定单元101a，用于确定对所述原始音频数据的重采样频率；重采样子单元101b，用于按照所确定的重采样频率对所述原始音频数
据进行重采样。

[0084] 请参阅图9，所述转换单元102，包括：分割单元102a，用于将重采样后的音频数据分割成相同帧长的多个音频数据帧；重叠单元102b，用于将相邻的两个音频数据帧按照预
定的重叠长度进行重叠，获得所述重叠帧。

[0085] 请参阅图10，所述加权处理单元103，包括：计算单元103a，用于使用预定窗长的Hanming窗乘以重叠帧中的每一音频数据帧，得到加权处理后的重叠帧；执行单元103b，用
于采用快速傅里叶变换算法对经过加权处理后的重叠帧中的每一音频数据帧进行傅里叶
变换，得到离散音频数据。

[0086] 请参阅图11，所述处理提取单元104，包括：数据转换单元104a，用于将获得的离散音频数据转换为[0，1]内的归一化的音频数据；提取子单元104b，用于采用预设轻量级音频
分析库提取归一化处理后的离散音频数据中的鲁棒性特征。

[0087] 由以上可见，本发明实施例通过对原始音频数据进行重采样；将重采样后的音频数据转换为重叠帧；使用Hanming窗对所述重叠帧进行加权处理，再对加权处理后的重叠帧
中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据；将获得的离散音频数
据进行归一化处理，再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的
鲁棒性特征；将鲁棒性特征与预设模板鲁棒性特征进行特征匹配；若所述鲁棒性特征与预
设模板鲁棒性特征不匹配，判定所述原始音频数据为异常音频数据；若所述鲁棒性特征与
预设模板鲁棒性特征匹配，判定所述原始音频数据为正常音频数据。本发明能够提高音频
处理的准确性以及音频测试的效率。

[0088] 上述音频数据处理装置与上述音频数据处理方法一一对应，其具体的原理和过程与上述实施例所述方法相同，不再赘述。

[0089] 上述音频数据处理装置可以实现为一种计算机程序的形式，计算机程序可以在如图12所示的计算机设备上运行。

[0090] 图12为本发明一种计算机设备的结构组成示意图。该设备可以是终端，其中，终端可以是智能手机、平板电脑、笔记本电脑以及台式电脑等具有通信功能和语音输入功能的
电子装置。参照图12，该计算机设备500包括通过系统总线501连接的处理器502、非易失性
存储介质503、内存储器504和网络接口505。其中，该计算机设备500的非易失性存储介质
503可存储操作系统5031和计算机程序5032，该计算机程序5032被执行时，可使得处理器
502执行一种音频数据处理方法。该计算机设备500的处理器502用于提供计算和控制能力，
支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序
5032的运行提供环境，该计算机程序被处理器执行时，可使得处理器502执行一种音频数据
处理方法。计算机设备500的网络接口505用于进行网络通信。本领域技术人员可以理解，图
12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所
应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部
件，或者组合某些部件，或者具有不同的部件布置。

[0091] 其中，所述处理器502执行所述计算机程序时实现如下操作：

[0092] 对原始音频数据进行重采样；

[0093] 将重采样后的音频数据转换为重叠帧；

[0094] 使用Hanming窗对所述重叠帧进行加权处理，再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据；

[0095] 将获得的离散音频数据进行归一化处理，再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征；

[0096] 将鲁棒性特征与预设模板鲁棒性特征进行特征匹配；

[0097] 若所述鲁棒性特征与预设模板鲁棒性特征不匹配，判定所述原始音频数据为异常音频数据；

[0098] 若所述鲁棒性特征与预设模板鲁棒性特征匹配，判定所述原始音频数据为正常音频数据。

[0099] 在一个实施例中，所述对原始音频数据进行重采样，包括：

[0100] 确定对所述原始音频数据的重采样频率；

[0101] 按照所确定的重采样频率对所述原始音频数据进行重采样。

[0102] 在一个实施例中，所述将重采样后的音频数据转换为重叠帧，包括：

[0103] 将重采样后的音频数据分割成相同帧长的多个音频数据帧；

[0104] 将相邻的两个音频数据帧按照预定的重叠长度进行重叠，获得所述重叠帧。

[0105] 在一个实施例中，所述使用Hanming窗对所述重叠帧进行加权处理，再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据，包括：

[0106] 使用预定窗长的Hanming窗乘以重叠帧中的每一音频数据帧，得到加权处理后的重叠帧；

[0107] 采用快速傅里叶变换算法对经过加权处理后的重叠帧中的每一音频数据帧进行傅里叶变换，得到离散音频数据。

[0108] 在一个实施例中，所述将获得的离散音频数据进行归一化处理，再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征，包括：

[0109] 将获得的离散音频数据转换为[0，1]内的归一化的音频数据；

[0110] 采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征。

[0111] 本领域技术人员可以理解，图12中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或
者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备仅包括存储器
及处理器，在这样的实施例中，存储器及处理器的结构及功能与图12所示实施例一致，在此
不再赘述。

[0112] 本发明提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执
行，以实现以下步骤：

[0113] 对原始音频数据进行重采样；

[0114] 将重采样后的音频数据转换为重叠帧；

[0115] 使用Hanming窗对所述重叠帧进行加权处理，再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据；

[0116] 将获得的离散音频数据进行归一化处理，再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征；

[0117] 将鲁棒性特征与预设模板鲁棒性特征进行特征匹配；

[0118] 若所述鲁棒性特征与预设模板鲁棒性特征不匹配，判定所述原始音频数据为异常音频数据；

[0119] 若所述鲁棒性特征与预设模板鲁棒性特征匹配，判定所述原始音频数据为正常音频数据。

[0120] 在一个实施例中，所述对原始音频数据进行重采样，包括：

[0121] 确定对所述原始音频数据的重采样频率；

[0122] 按照所确定的重采样频率对所述原始音频数据进行重采样。

[0123] 在一个实施例中，所述将重采样后的音频数据转换为重叠帧，包括：

[0124] 将重采样后的音频数据分割成相同帧长的多个音频数据帧；

[0125] 将相邻的两个音频数据帧按照预定的重叠长度进行重叠，获得所述重叠帧。

[0126] 在一个实施例中，所述使用Hanming窗对所述重叠帧进行加权处理，再对加权处理后的重叠帧中的每一音频数据帧执行快速离散傅里叶变换，得到离散音频数据，包括：

[0127] 使用预定窗长的Hanming窗乘以重叠帧中的每一音频数据帧，得到加权处理后的重叠帧；

[0128] 采用快速傅里叶变换算法对经过加权处理后的重叠帧中的每一音频数据帧进行傅里叶变换，得到离散音频数据。

[0129] 在一个实施例中，所述将获得的离散音频数据进行归一化处理，再采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征，包括：

[0130] 将获得的离散音频数据转换为[0，1]内的归一化的音频数据；

[0131] 采用预设轻量级音频分析库提取归一化处理后的离散音频数据中的鲁棒性特征。

[0132] 本发明前述的存储介质包括：磁碟、光盘、只读存储记忆体(Read‑Only Memory，ROM)等各种可以存储程序代码的介质。

[0133] 本发明所有实施例中的单元可以通过通用集成电路，例如CPU(Central Processing Unit，中央处理器)，或通过ASIC(Application Specific Integrated
Circuit，专用集成电路)来实现。

[0134] 本发明实施例音频数据处理方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

[0135] 本发明实施例音频数据处理装置中的单元可以根据实际需要进行合并、划分和删减。

[0136] 以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替
换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利
要求的保护范围为准。

音频数据处理方法、装置、计算机设备以及存储介质转让专利

申请号 : CN201911155938.X

文献号 : CN111028860B

文献日 : 2021-08-06

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 毛光亮 , 陈茂华 , 曾剑锋

申请人 : 深圳市康冠智能科技有限公司

摘要 :

权利要求 :

说明书 :