一种音频处理方法及装置转让专利

申请号 : CN201610201636.1

文献号 : CN107293308B

文献日 : 2019-06-07

本发明实施例提供一种音频处理方法及装置，其中的方法可包括：获取目标音频的N(N≥1的自然数)帧音频数据；提取所述N帧音频数据中每帧音频数据的音频特征参数；根据所述音频特征参数，将所述N帧音频数据映射至K(K≥1的自然数)个聚类，形成K维特征向量；基于所述K维特征向量，计算所述目标音频与M(M≥2的自然数)个预设类别音频之间的相似度，并将相似度满足预设条件的类别确定为所述目标音频的类别。采用本发明实施例可自动准确地确定目标音频的类别，分类速度快，节省人力成本。

1.一种音频处理方法，其特征在于，包括：

获取目标音频的N(N≥1的自然数)帧音频数据；

提取所述N帧音频数据中每帧音频数据的音频特征参数；

根据所述音频特征参数，将所述N帧音频数据映射至K(K≥1的自然数)个聚类，形成K维特征向量；

利用支持向量机SVM模型中M个第一分类器中的每个第一分类器对所述K维特征向量进行计算处理，获得M个所述目标音频与所述第一分类器的正样本所对应的预设类别音频之间的相似度；

判断所述M个相似度中大于预设阈值的相似度个数；

若所述相似度个数为X个(X≥2且X≤M的自然数)，则查找所述X个相似度所对应的X个目标预设类别；

将所述X个目标预设类别两两组合，形成X(X-1)/2个预设类别对；

利用所述X(X-1)/2个预设类别对中每个预设类别对所对应的SVM模型的第二分类器对所述K维特征向量进行计算处理，获得所述目标音频的类别。

2.如权利要求1所述的方法，其特征在于，所述根据所述音频特征参数，将所述N帧音频数据映射至K个聚类，形成K维特征向量，包括：针对每帧音频数据，基于所述音频数据的音频特征参数，计算该帧音频数据与预设硬聚类K-Means模型的K个中心点中每个中心点之间的欧式距离；

将欧式距离最小的中心点确定为该音频数据映射的聚类；

根据所述K个中心点中每个中心点映射的音频数据帧数，确定K维特征向量。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：若所述相似度个数为一个，则将相似度大于所述预设阈值的预设类别确定为所述目标音频的类别。

4.如权利要求1所述的方法，其特征在于，所述利用所述X(X-1)/2个预设类别对中每个预设类别对所对应的SVM模型的第二分类器对所述K维特征向量进行计算处理，获得所述目标音频的类别，包括：将所述K维特征向量输入所述X(X-1)/2个预设类别对中每个预设类别对所对应的SVM模型的第二分类器进行计算处理，获得X(X-1)个相似度，所述X(X-1)个相似度中包含所述第二分类器的正样本所对应的预设类别音频之间的相似度和所述第二分类器的负样本所对应的预设类别音频之间的相似度；

将所述相似度最大的第二分类器的预设类别确定为所述目标音频的类别。

5.如权利要求4所述的方法，其特征在于，所述M个第一分类器为根据M个所述预设类别的样本音频所对应的特征向量训练得到，一个所述第一分类器为一个预设类别的样本音频所对应的特征向量与所述M个预设类别中除该预设类别外的样本音频所对应的特征向量训练得到；

所述第二分类器为根据所述M个预设类别的样本音频所对应的特征向量中中两两类别组合训练得到。

6.如权利要求5所述的方法，其特征在于，所述样本音频所对应的特征向量为利用所述预设K-Means模型对所述样本音频的音频特征参数处理后得到。

7.一种音频处理装置，其特征在于，包括：

获取模块，用于获取目标音频的N(N≥1的自然数)帧音频数据；

提取模块，用于提取所述N帧音频数据中每帧音频数据的音频特征参数；

映射模块，用于根据所述音频特征参数，将所述N帧音频数据映射至K(K≥1的自然数)个聚类，形成K维特征向量；

确定模块，用于基于所述K维特征向量，计算所述目标音频与M(M≥2的自然数)个预设类别音频之间的相似度，并将相似度满足预设条件的类别确定为所述目标音频的类别；

所述确定模块包括：

第二计算单元，用于利用支持向量机SVM模型中M个第一分类器中的每个第一分类器对所述K维特征向量进行计算处理，获得M个所述目标音频与所述第一分类器的正样本所对应的预设类别音频之间的相似度；

第二确定单元，用于判断所述M个相似度中大于预设阈值的相似度个数；

若所述相似度个数为X个(X≥2且X≤M的自然数)，则查找所述X个相似度所对应的X个目标预设类别；

将所述X个目标预设类别两两组合，形成X(X-1)/2个预设类别对；

利用所述X(X-1)/2个预设类别对中每个预设类别对所对应的SVM模型的第二分类器对所述K维特征向量进行计算处理，获得所述目标音频的类别。

8.如权利要求7所述的装置，其特征在于，所述映射模块包括：第一计算单元，用于针对每帧音频数据，基于所述音频数据的音频特征参数，计算该帧音频数据与预设硬聚类K-Means模型的K个中心点中每个中心点之间的欧式距离；

第一确定单元，用于将欧式距离最小的中心点确定为该音频数据映射的聚类；

所述第一确定单元还用于根据所述K个中心点中每个中心点映射的音频数据帧数，确定K维特征向量。

9.如权利要求8所述的装置，其特征在于，所述第二确定单元还用于：若所述相似度个数为一个，则将相似度大于所述预设阈值的预设类别确定为所述目标音频的类别。

10.如权利要求7所述的装置，其特征在于，所述第二确定单元还用于，将所述K维特征向量输入所述X(X-1)/2个预设类别对中每个预设类别对所对应的SVM模型的第二分类器进行计算处理，获得X(X-1)个相似度，所述X(X-1)个相似度中包含所述第二分类器的正样本所对应的预设类别音频之间的相似度和所述第二分类器的负样本所对应的预设类别音频之间的相似度；

将所述相似度最大的第二分类器的预设类别确定为所述目标音频的类别。

11.如权利要求10所述的装置，其特征在于，所述M个第一分类器为根据M个所述预设类别的样本音频所对应的特征向量训练得到，一个所述第一分类器为一个预设类别的样本音频所对应的特征向量与所述M个预设类别中除该预设类别外的样本音频所对应的特征向量训练得到；

所述第二分类器为根据所述M个预设类别的样本音频所对应的特征向量中中两两类别组合训练得到。

12.如权利要求11所述的装置，其特征在于，所述样本音频所对应的特征向量为利用所述预设K-Means模型对所述样本音频的音频特征参数处理后得到。

一种音频处理方法及装置

技术领域

[0001] 本发明涉及多媒体技术领域，具体涉及一种音频处理方法及装置。

背景技术

[0002] 随着多媒体技术的发展，互联网上各种音乐精彩纷呈，为了能够让用户快速查找到自己喜欢类别的音乐，通常会为每一首音乐进行分类，例如，流行音乐、摇滚音乐以及网络歌曲等等。现有的音乐流派分类多是人工的，具体实施的时候，同一首音乐经过多个专业的音乐标注人员进行标注，再将标注的结果投票作为该音乐的流派类别。可见，使用该方法人力成本非常大，另外，每年有海量的新音乐需要出版，这样的流派划分速度是完全满足不了音乐的流派分类需求的。

发明内容

[0003] 本发明实施例提供一种音频处理方法及装置，可自动准确地确定目标音频的类别，分类速度快，节省人力成本。

[0004] 本发明第一方面提供一种音频处理方法，包括：

[0005] 获取目标音频的N(N≥1的自然数)帧音频数据；

[0006] 提取所述N帧音频数据中每帧音频数据的音频特征参数；

[0007] 根据所述音频特征参数，将所述N帧音频数据映射至K(K≥1的自然数)个聚类，形成K维特征向量；

[0008] 基于所述K维特征向量，计算所述目标音频与M(M≥2的自然数)个预设类别音频之间的相似度，并将相似度满足预设条件的类别确定为所述目标音频的类别。

[0009] 本发明第二方面提供一种音频处理装置，包括：

[0010] 获取模块，用于获取目标音频的N(N≥1的自然数)帧音频数据；

[0011] 提取模块，用于提取所述N帧音频数据中每帧音频数据的音频特征参数；

[0012] 映射模块，用于根据所述音频特征参数，将所述N帧音频数据映射至K(K≥1的自然数)个聚类，形成K维特征向量；

[0013] 确定模块，用于基于所述K维特征向量，计算所述目标音频与M(M≥2的自然数)个预设类别音频之间的相似度，并将相似度满足预设条件的类别确定为所述目标音频的类别。

[0014] 实施本发明实施例，具有如下有益效果：

[0015] 本发明实施例，获取目标音频的N帧音频数据，提取该N帧音频数据的音频特征参数，根据音频特征参数，将N帧音频数据映射至K个聚类，形成K维特征向量，基于该K维特征向量，计算目标音频与M个预设类别音频之间的相似度，并将相似度满足预设条件的类别确定为目标音频的类别，这种方式可自动准确地确定目标音频的类别，分类速度快，节省人力成本。

附图说明

[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0017] 图1为本发明实施例提供的一种音频处理方法的流程图；

[0018] 图2为本发明实施例提供的另一种音频处理方法的流程图；

[0019] 图3为本发明实施例提供的SVM模型的分类器结构示意图；

[0020] 图4为本发明实施例提供的一种音乐流派分类流程图；

[0021] 图5为本发明实施例提供的一种音频处理装置的结构示意图；

[0022] 图6为本发明实施例提供的一种映射模块的结构示意图；

[0023] 图7为本发明实施例提供的一种确定模块的结构示意图。

具体实施方式

[0024] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0025] 下面将结合附图1-附图4，对本发明实施例提供的音频处理方法进行详细介绍。

[0026] 请参照图1，为本发明实施例提供的一种音频处理方法的流程图；该方法可包括以下步骤S100-步骤S103。

[0027] S100，获取目标音频的N(N≥1的自然数)帧音频数据；

[0028] 本发明实施例中，目标音频可以是待分类的音乐，获取目标音频的N帧音频数据的获取方式可以是，按帧提取，且N帧音频数据为目标音频的部分或者全部，这里以目标音频为音乐进行举例说明，帧长一般为20毫秒，相邻两帧间大概有10毫秒的重叠，对于每一首音乐，为了便于操作，均选取第30秒到第90秒的60秒数据进行提取，之所以选择从第30秒开始选取是因为，开头可能有静音、纯音乐等不利于分类的内容存在。而选取60秒的数据是因为，60秒已经足以表明该音乐的流派类别。这样，对于每一首音乐，大概获取6000帧音频数据，即是N＝6000。

[0029] S101，提取所述N帧音频数据中每帧音频数据的音频特征参数；

[0030] 本发明实施例中，提取N帧音频数据中每帧音频数据的音频特征参数，音频特征参数用于表示该目标音频中该帧音频数据的语音特征，可选的，音频特征参数包括Mel频率倒谱系数(Mel Frequency Cepstral Coefficients，MFCC)及其一系列统计量。

[0031] S102，根据所述音频特征参数，将所述N帧音频数据映射至K(K≥1的自然数)个聚类，形成K维特征向量；

[0032] 本发明实施例中，根据每帧音频数据的音频特征参数，将该N帧音频数据映射至K个聚类，每个聚类可能包括0帧音频数据，也可能包括至少一帧音频数据，这样根据K个聚类中每个聚类的音频数据帧数，可以形成K维特征向量，例如，N＝100，K＝3，N帧音频数据映射至K个聚类的音频数据帧数分别为50、20和30，则该K维特征向量为(50，20，30)。

[0033] 可选的，将N帧音频数据映射至K个聚类的映射方式可以是采取硬聚类K-Means算法进行聚类，预先通过多种类别音频的训练数据训练出K-Means背景模型，该K-Means背景模型包括K个中心点，基于每帧音频数据的音频特征参数，计算该帧音频数据与各个中心点之间的欧式距离，从而确定该帧音频数据映射至K个中心点中某一个中心点，K个中心点中每个中心点所映射的音频数据帧数可以确定K维特征向量。

[0034] S103，基于所述K维特征向量，计算所述目标音频与M(M≥2的自然数)个预设类别音频之间的相似度，并将相似度满足预设条件的类别确定为所述目标音频的类别。

[0035] 本发明实施例中，通过上述映射处理，将目标音频各帧的音频特征参数映射至一个K维特征向量，完成了单帧到全局的映射过程。基于该K维特征向量，计算目标音频与M个预设类别音频之间的相似度，并将相似度满足预设条件的类别确定为目标音频的类别，例如，将相似度大于或者等于预设阈值的类别确定为目标音频的类别。

[0036] 可选的，计算相似度的过程可以是采用支持向量机(Support Vector Machine，SVM)模型计算目标音频与预设M个预设类别音频之间的相似度，M即是训练该SVM模型所采用的音频类别，通过SVM模型所得到的M个可信阈值，即是该目标音频与M个预设类别音频之间的M个相似度。

[0037] 本发明实施例，获取目标音频的N帧音频数据，提取该N帧音频数据的音频特征参数，根据音频特征参数，将N帧音频数据映射至K个聚类，形成K维特征向量，基于该K维特征向量，计算目标音频与M个预设类别音频之间的相似度，并将相似度满足预设条件的类别确定为目标音频的类别，这种方式可自动准确地确定目标音频的类别，分类速度快，节省人力成本。

[0038] 请参照图2，为本发明实施例提供的另一种音频处理方法的流程图，该方法可以包括如下步骤：

[0039] S200，获取目标音频的N(N≥1的自然数)帧音频数据；

[0040] S201，提取所述N帧音频数据中每帧音频数据的音频特征参数；

[0041] 本发明实施例步骤S200-S201请参照图1的实施例步骤S100-S101，在此不再赘述。

[0042] S202，针对每帧音频数据，基于所述音频数据的音频特征参数，计算该帧音频数据与预设硬聚类K-Means模型的K个中心点中每个中心点之间的欧式距离；

[0043] 本发明实施例中，预设K-Means模型为预先根据样本音频数据训练获得，需要说明的是，训练K-Means模型的训练数据，需要充分的多样性，即包含的类别越多越好，数量越多越好且各个类别间的数量要尽量保持平衡。

[0044] 训练预设K-Means模型的方式可以是，这里以音频数据为音乐为例进行说明，随机选取大约时长50小时左右的音乐(该50小时左右的音乐包括了各个类别的音乐，其中每首音乐提取60秒样本进行训练)，将该50小时左右的音乐以帧为单位进行分析，分别提取上述50小时左右的音乐中每帧音频数据的MFCC特征及MFCC的一系列统计量作为音频特征参数，并作为下一步K-Means模型的训练数据。

[0045] 训练K-Means模型：指定K和使用欧式距离，使用上述训练数据进行聚类训练，具体的训练方式可以参照K-Means模型训练，训练结束后，得到包含K个中心点的K-Means模型。

[0046] 当需要测试目标音频的类别时，针对目标音频的每帧音频数据，基于该帧音频数据的音频特征参数，计算该帧音频数据与上述训练得到的预设K-Means模型的K个中心点中每个中心点之间的欧式距离，欧式距离的计算方式可以参照K-Means模型中欧式距离的计算方式，在此不再赘述。

[0047] S203，将欧式距离最小的中心点确定为该音频数据映射的聚类；

[0048] 本发明实施例中，分别计算目标音频的每一帧音频数据和这K个中心点的欧式距离，取距离最近的中心点向量索引作为该帧音频数据的特征值，即是该音频数据映射的聚类。这样若采用的是一首音乐6000帧音频数据进行分析，则每一首音乐有大概6000个特征值。这6000个特征值聚类在K个中心点的各个中心点上，这样就完成了单帧到全局的映射。比如，某一首音乐的6000个特征值里面，第X个中心点聚类有Y帧音频数据。

[0049] S204，根据所述K个中心点中每个中心点映射的音频数据帧数，确定K维特征向量。

[0050] 本发明实施例中，根据该K个中心点中每个中心点映射的音频数据帧数，可以确定一个K维特征向量，例如第X个中心点聚类有Y帧音频数据，则第X个中心点的数值为Yx。最终表征该音乐的特征向量即为：

[0051] Y1,Y2,Y3,……Yk

[0052] 因为有6000帧音频数据，因此这K个Y之和为6000。

[0053] S205，利用支持向量机SVM模型中M个第一分类器中的每个第一分类器对所述K维特征向量进行计算处理，获得M个所述目标音频与所述第一分类器的正样本所对应的预设类别音频之间的相似度；

[0054] 本发明实施例中，该SVM模型为根据预设训练数据训练得到，至于训练SVM模型中分类器的数据为，针对流派的M个类别，每个类别准备N个样本音频，总计共M*N个训练样本音频。

[0055] 该SVM模型的M个第一分类器为根据该M个预设类别的样本音频所对应的特征向量训练得到，一个第一分类器为一个预设类别的样本音频所对应的特征向量与该M个预设类别中除该预设类别外的样本音频所对应的特征向量训练得到；需要说明的是，本发明是采用线性核的SVM进行训练。

[0056] 如图3所示，针对第一级的每一个类别，分别选取该类的样本音频所对应的特征向量作为正样本，由前面可知，此时有N个正样本；然后再从其他的M-1个类别中，每个类别随机抽取N/(M-1)个样本作为负样本，即共N个负样本。这样得到的训练数据，正负样本均衡，训练效果比较理想。由此，使用得到的M份包含正负样本的训练数据，分别训练M个二分类器，这样就完成了第一级的第一分类器的分类训练。

[0057] 需要说明的是，所述样本音频所对应的特征向量为利用所述预设K-Means模型对所述样本音频的音频特征参数处理后得到。

[0058] 将该目标音频的K维特征向量分别作为该M个第一分类器中每个第一分类器的输入进行计算处理，每个第一分类器均有该第一分类器的正样本所对应的预设类别，如图3所示，第一个第一分类器C1vs Other所对应的预设类别为C1；每个第一分类器对K维特征向量处理之后均会输出一个可信阈值(即是目标音频与该第一分类器的类别之间的相似度)。

[0059] 这样通过M个第一分类器的处理，可以得到M个分类结果和相似度，相似度记为T1,T2,T3……Tm。注意这M个相似度分别对应的是M个分类器中正样本所对应类别的相似度，负样本所对应类别的相似度不予考虑。

[0060] S206，根据所述M个相似度与预设阈值的比较结果确定所述目标音频的类别。

[0061] 本发明实施例中，根据该M个相似度与预设阈值的比较结果确定目标音频的类别，可选的，将上述的M个相似度按大到小进行排序，将相似度Tx>Th(根据经验指定的预设阈值Th)所对应的类别标记为该目标音频的类别。

[0062] 可选的，根据M个相似度与预设阈值的比较结果确定目标音频的类别的确定方式可以包括以下步骤一～步骤六；

[0063] 步骤一，判断所述M个相似度中大于预设阈值的相似度个数；

[0064] 具体的，通常为了更加准确地确定目标音频的类别，以及限制该目标音频所属类别的个数，判断M个相似度中大于预设阈值的相似度个数，根据大于预设阈值的相似度个数进一步确定目标音频的类别，下面以两种可选的情况进行阐述。

[0065] 步骤二，若为一个，则将相似度大于所述预设阈值的预设类别确定为所述目标音频的类别；

[0066] 步骤三，若为X个(X≥2且X≤M的自然数)，则查找所述X个相似度所对应的X个目标预设类别；

[0067] 步骤四，将所述X个目标预设类别两两组合，形成X(X-1)/2个预设类别对；

[0068] 步骤五，将所述K维特征向量输入所述X(X-1)/2个预设类别对中每个预设类别对所对应的SVM模型的第二分类器进行计算处理，获得X(X-1)个相似度，所述X(X-1)个相似度中包含所述第二分类器的正样本所对应的预设类别音频之间的相似度和所述第二分类器的负样本所对应的预设类别音频之间的相似度；

[0069] 步骤六，将所述相似度最大的第二分类器的预设类别确定为所述目标音频的类别。

[0070] 具体的，如果有多个相似度大于预设阈值Th，假如X个，则将这X个相似度所对应的预设类别记下，然后再将这些预设类别，两两组合，找出其所对应的第二分类器；再使用这些第二分类器再分行一次分类。

[0071] 需要说明的是，所述第二分类器为预先根据所述M个预设类别的样本音频所对应的特征向量中两两类别组合训练得到。第二分类器采用一对一的二分类器，即分别只选取两个预设类别的训练数据进行训练。排列组合后，就可以得到M*(M-1)/2个第二分类器。

[0072] 将该K维特征向量分别作为对应的第二分类器进行计算处理，最后输出X(X-1)个相似度，所述X(X-1)个相似度中包含该第二分类器的正样本所对应的预设类别音频之间的相似度和该第二分类器的负样本所对应的预设类别音频之间的相似度。

[0073] 将各个第二分类器的输出结果按照从大到小进行排序，最终将得分最高的阈值所对应的类别标记为该目标音频的类别。需要说明的是，若某个第二分类器的正样本所对应的相似度最大，则该目标音频的类别为正样本所对应的类别，若某个第二分类器的负样本对应的相似度最大，则该目标音频的类别为负样本所对应的类别。

[0074] 本发明实施例，获取目标音频的N帧音频数据，提取该N帧音频数据的音频特征参数，根据音频特征参数，将N帧音频数据映射至K个聚类，形成K维特征向量，基于该K维特征向量，计算目标音频与M个预设类别音频之间的相似度，并将相似度满足预设条件的类别确定为目标音频的类别，这种方式可自动准确地确定目标音频的类别，分类速度快，节省人力成本。

[0075] 请参照图4，为本发明实施例提供的一种音乐流派划分示意图，如图所示，目标音频为MP3音乐，首先将该MP3音乐进行预处理，比如进行音频帧数据的提取，然后提取MFCC特征等一系列统计量，再利用K-Means特征聚合处理。

[0076] 若该MP3音乐为用于训练SVM模型的训练数据，则可以将通过K-Means特征聚合处理后的数据进行拆分(拆分方式是基于MP3音乐的类别)，并进行SVM训练，得到SVM模型。

[0077] 若该MP3音乐为用于测试用的数据，即是确定该MP3音乐的类别，则将通过K-Means特征聚合处理后的数据输入SVM模型，得到置信阈值(相似度)，从而最终确定MP3音乐的分类。

[0078] 下面将结合附图5-附图7，对本发明实施例提供的一种音频处理装置进行详细介绍。

[0079] 请参照图5，为本发明实施例提供的一种音频处理装置的结构示意图，如图所示，该音频处理装置包括获取模块100、提取模块101、映射模块102以及确定模块103；

[0080] 获取模块100，用于获取目标音频的N(N≥1的自然数)帧音频数据；

[0081] 本发明实施例中，目标音频可以是待分类的音乐，获取模块100获取目标音频的N帧音频数据的获取方式可以是，按帧提取，且N帧音频数据为目标音频的部分或者全部，这里以目标音频为音乐进行举例说明，帧长一般为20毫秒，相邻两帧间大概有10毫秒的重叠，对于每一首音乐，为了便于操作，均选取第30秒到第90秒的60秒数据进行提取，之所以选择从第30秒开始选取是因为，开头可能有静音、纯音乐等不利于分类的内容存在。而选取60秒的数据是因为，60秒已经足以表明该音乐的流派类别。这样，对于每一首音乐，大概获取6000帧音频数据，即是N＝6000。

[0082] 提取模块101，用于提取所述N帧音频数据中每帧音频数据的音频特征参数；

[0083] 本发明实施例中，提取模块101提取N帧音频数据中每帧音频数据的音频特征参数，音频特征参数用于表示该目标音频中该帧音频数据的语音特征，可选的，音频特征参数包括Mel频率倒谱系数(Mel Frequency Cepstral Coefficients，MFCC)及其一系列统计量。

[0084] 映射模块102，用于根据所述音频特征参数，将所述N帧音频数据映射至K(K≥1的自然数)个聚类，形成K维特征向量；

[0085] 本发明实施例中，映射模块102根据每帧音频数据的音频特征参数，将该N帧音频数据映射至K个聚类，每个聚类可能包括0帧音频数据，也可能包括至少一帧音频数据，这样根据K个聚类中每个聚类的音频数据帧数，可以形成K维特征向量，例如，N＝100，K＝3，N帧音频数据映射至K个聚类的音频数据帧数分别为50、20和30，则该K维特征向量为(50，20，30)。

[0086] 可选的，将N帧音频数据映射至K个聚类的映射方式可以是采取硬聚类K-Means算法进行聚类，预先通过多种类别音频的训练数据训练出K-Means背景模型，该K-Means背景模型包括K个中心点，基于每帧音频数据的音频特征参数，计算该帧音频数据与各个中心点之间的欧式距离，从而确定该帧音频数据映射至K个中心点中某一个中心点，K个中心点中每个中心点所映射的音频数据帧数可以确定K维特征向量。

[0087] 可选的，如图6所示，映射模块102可以包括第一计算单元1020和第一确定单元1021；

[0088] 第一计算单元1020，用于针对每帧音频数据，基于所述音频数据的音频特征参数，计算该帧音频数据与预设硬聚类K-Means模型的K个中心点中每个中心点之间的欧式距离；

[0089] 本发明实施例中，预设K-Means模型为预先根据样本音频数据训练获得，需要说明的是，训练K-Means模型的训练数据，需要充分的多样性，即包含的类别越多越好，数量越多越好且各个类别间的数量要尽量保持平衡。

[0090] 训练预设K-Means模型的方式可以是，这里以音频数据为音乐为例进行说明，随机选取大约时长50小时左右的音乐(该50小时左右的音乐包括了各个类别的音乐，其中每首音乐提取60秒样本进行训练)，将该50小时左右的音乐以帧为单位进行分析，分别提取上述50小时左右的音乐中每帧音频数据的MFCC特征及MFCC的一系列统计量作为音频特征参数，并作为下一步K-Means模型的训练数据。

[0091] 训练K-Means模型：指定K和使用欧式距离，使用上述训练数据进行聚类训练，具体的训练方式可以参照K-Means模型训练，训练结束后，得到包含K个中心点的K-Means模型。

[0092] 当需要测试目标音频的类别时，针对目标音频的每帧音频数据，第一计算单元1020基于该帧音频数据的音频特征参数，计算该帧音频数据与上述训练得到的预设K-Means模型的K个中心点中每个中心点之间的欧式距离，欧式距离的计算方式可以参照K-Means模型中欧式距离的计算方式，在此不再赘述。

[0093] 第一确定单元1021，用于将欧式距离最小的中心点确定为该音频数据映射的聚类；

[0094] 本发明实施例中，分别计算目标音频的每一帧音频数据和这K个中心点的欧式距离，第一确定单元1021取距离最近的中心点向量索引作为该帧音频数据的特征值，即是该音频数据映射的聚类。这样若采用的是一首音乐6000帧音频数据进行分析，则每一首音乐有大概6000个特征值。这6000个特征值聚类在K个中心点的各个中心点上，这样就完成了单帧到全局的映射。比如，某一首音乐的6000个特征值里面，第X个中心点聚类有Y帧音频数据。

[0095] 所述第一确定单元1021还用于根据所述K个中心点中每个中心点映射的音频数据帧数，确定K维特征向量。

[0096] 本发明实施例中，第一确定单元1021根据该K个中心点中每个中心点映射的音频数据帧数，可以确定一个K维特征向量，例如第X个中心点聚类有Y帧音频数据，则第X个中心点的数值为Yx。最终表征该音乐的特征向量即为：

[0097] Y1,Y2,Y3,……Yk

[0098] 因为有6000帧音频数据，因此这K个Y之和为6000。

[0099] 确定模块103，用于基于所述K维特征向量，计算所述目标音频与M(M≥2的自然数)个预设类别音频之间的相似度，并将相似度满足预设条件的类别确定为所述目标音频的类别。

[0100] 本发明实施例中，通过上述映射处理，将目标音频各帧的音频特征参数映射至一个K维特征向量，完成了单帧到全局的映射过程。确定模块103基于该K维特征向量，计算目标音频与M个预设类别音频之间的相似度，并将相似度满足预设条件的类别确定为目标音频的类别，例如，将相似度大于或者等于预设阈值的类别确定为目标音频的类别。

[0101] 可选的，计算相似度的过程可以是采用支持向量机(Support Vector Machine，SVM)模型计算目标音频与预设M个预设类别音频之间的相似度，M即是训练该SVM模型所采用的音频类别，通过SVM模型所得到的M个可信阈值，即是该目标音频与M个预设类别音频之间的M个相似度。

[0102] 可选的，如图7所示，确定模块103可以包括第二计算单元1030和第二确定单元1031；

[0103] 第二计算单元1030，用于利用支持向量机SVM模型中M个第一分类器中的每个第一分类器对所述K维特征向量进行计算处理，获得M个所述目标音频与所述第一分类器的正样本所对应的预设类别音频之间的相似度；

[0104] 本发明实施例中，该SVM模型为根据预设训练数据训练得到，至于训练SVM模型中分类器的数据为，针对流派的M个类别，每个类别准备N个样本音频，总计共M*N个训练样本音频。

[0105] 该SVM模型的M个第一分类器为根据该M个预设类别的样本音频所对应的特征向量训练得到，一个第一分类器为一个预设类别的样本音频所对应的特征向量与该M个预设类别中除该预设类别外的样本音频所对应的特征向量训练得到；需要说明的是，本发明是采用线性核的SVM进行训练。

[0106] 如图3所示，针对第一级的每一个类别，分别选取该类的样本音频所对应的特征向量作为正样本，由前面可知，此时有N个正样本；然后再从其他的M-1个类别中，每个类别随机抽取N/(M-1)个样本作为负样本，即共N个负样本。这样得到的训练数据，正负样本均衡，训练效果比较理想。由此，使用得到的M份包含正负样本的训练数据，分别训练M个二分类器，这样就完成了第一级的第一分类器的分类训练。

[0107] 需要说明的是，所述样本音频所对应的特征向量为利用所述预设K-Means模型对所述样本音频的音频特征参数处理后得到。

[0108] 将该目标音频的K维特征向量分别作为该M个第一分类器中每个第一分类器的输入进行计算处理，每个第一分类器均有该第一分类器的正样本所对应的预设类别，如图3所示，第一个第一分类器C1vs Other所对应的预设类别为C1；每个第一分类器对K维特征向量处理之后均会输出一个可信阈值(即是目标音频与该第一分类器的类别之间的相似度)。

[0109] 这样通过M个第一分类器的处理，可以得到M个分类结果和相似度，相似度记为T1,T2,T3……Tm。注意这M个相似度分别对应的是M个分类器中正样本所对应类别的相似度，负样本所对应类别的相似度不予考虑。

[0110] 第二确定单元1031，用于根据所述M个相似度与预设阈值的比较结果确定所述目标音频的类别。

[0111] 具体可选的，所述第二确定单元1031具体用于：

[0112] 判断所述M个相似度中大于预设阈值的相似度个数；

[0113] 若为一个，则将相似度大于所述预设阈值的预设类别确定为所述目标音频的类别；

[0114] 若为X个(X≥2且X≤M的自然数)，则查找所述X个相似度所对应的X个目标预设类别；

[0115] 将所述X个目标预设类别两两组合，形成X(X-1)/2个预设类别对；

[0116] 将所述K维特征向量输入所述X(X-1)/2个预设类别对中每个预设类别对所对应的SVM模型的第二分类器进行计算处理，获得X(X-1)个相似度，所述X(X-1)个相似度中包含所述第二分类器的正样本所对应的预设类别音频之间的相似度和所述第二分类器的负样本所对应的预设类别音频之间的相似度；

[0117] 将所述相似度最大的第二分类器的预设类别确定为所述目标音频的类别。

[0118] 本发明实施例中，根据该M个相似度与预设阈值的比较结果确定目标音频的类别，可选的，将上述的M个相似度按大到小进行排序，将相似度Tx>Th(根据经验指定的预设阈值Th)所对应的类别标记为该目标音频的类别。

[0119] 具体的，通常为了更加准确地确定目标音频的类别，以及限制该目标音频所属类别的个数，判断M个相似度中大于预设阈值的相似度个数，根据大于预设阈值的相似度个数进一步确定目标音频的类别，下面以两种可选的情况进行阐述。

[0120] 具体的，如果有多个相似度大于预设阈值Th，假如X个，则将这X个相似度所对应的预设类别记下，然后再将这些预设类别，两两组合，找出其所对应的第二分类器；再使用这些第二分类器再分行一次分类。

[0121] 需要说明的是，所述第二分类器为预先根据所述M个预设类别的样本音频所对应的特征向量中两两类别组合训练得到。第二分类器采用一对一的二分类器，即分别只选取两个预设类别的训练数据进行训练。排列组合后，就可以得到M*(M-1)/2个第二分类器。

[0122] 将该K维特征向量分别作为对应的第二分类器进行计算处理，最后输出X(X-1)个相似度，所述X(X-1)个相似度中包含该第二分类器的正样本所对应的预设类别音频之间的相似度和该第二分类器的负样本所对应的预设类别音频之间的相似度。

[0123] 将各个第二分类器的输出结果按照从大到小进行排序，最终将得分最高的阈值所对应的类别标记为该目标音频的类别。需要说明的是，若某个第二分类器的正样本所对应的相似度最大，则该目标音频的类别为正样本所对应的类别，若某个第二分类器的负样本对应的相似度最大，则该目标音频的类别为负样本所对应的类别。

[0124] 本发明实施例，获取目标音频的N帧音频数据，提取该N帧音频数据的音频特征参数，根据音频特征参数，将N帧音频数据映射至K个聚类，形成K维特征向量，基于该K维特征向量，计算目标音频与M个预设类别音频之间的相似度，并将相似度满足预设条件的类别确定为目标音频的类别，这种方式可自动准确地确定目标音频的类别，分类速度快，节省人力成本。

[0125] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，附图5-附图7所示音频处理装置对应的程序可存储在音频处理装置的可读存储介质内，并被该音频处理装置中的至少一个处理器执行，以实现上述音频处理方法，该方法包括图1-图2中方法实施例所述的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

[0126] 以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

一种音频处理方法及装置转让专利

申请号 : CN201610201636.1

文献号 : CN107293308B

文献日 : 2019-06-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 金星明 , 李科 , 吴永坚 , 黄飞跃

申请人 : 腾讯科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :