音频处理方法、装置及存储介质转让专利

申请号 : CN201910190418.6

文献号 : CN109903773B

文献日 : 2021-01-08

本申请公开了一种音频处理方法、装置及存储介质，所述方法包括：获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段，并对所述训练样本进行特征提取，以提取出所述训练样本的音频特征，然后将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型，并基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征，可以在不要求干声的情况下，有效识别出音色特征，提升了音色特征识别的高效性、鲁棒性及准确性。

1.一种音频处理方法，其特征在于，所述方法包括：

获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段；

对所述训练样本进行特征提取，以提取出所述训练样本的音频特征；

将所述训练样本的音频特征经过多个卷积层和池化层进行逐层抽象处理；

在每一所述池化层上分别接入一全连接层，并将每一所述池化层处理后的音频数据输入对应的全连接层进行处理，以得到每一所述全连接层的输出项；

对每一所述全连接层的输出项进行导数监督模型训练，以生成处理模型；

基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征。

2.如权利要求1所述的音频处理方法，其特征在于，所述获取训练样本，包括：选取多个歌手的歌曲组，其中，每个歌手对应的歌曲组包括多个歌曲，所述歌曲为单人演唱歌曲；

获取每一所述歌曲组的多个歌曲对应的带时间戳的歌词，基于所述歌词的时间戳截取每一所述歌曲组的多个歌曲对应的演唱片段，以获取包含有与多个歌手对应的多个演唱片段组的训练样本，其中，每一所述演唱片段组分别对应同一歌手的多个演唱片段。

3.如权利要求2所述的音频处理方法，其特征在于，所述基于所述歌词的时间戳截取每一所述歌曲组的多首歌曲对应的演唱片段，还包括：对所述演唱片段进行掐头去尾处理。

4.如权利要求2所述的音频处理方法，其特征在于，所述对所述训练样本进行特征提取，以提取出所述训练样本的音频特征，包括：将所述训练样本中每一所述演唱片段的时域信号转换为频域信号，并提取出所述频域信号的频谱特征，以获取所述训练样本的音频特征。

5.如权利要求4所述的音频处理方法，其特征在于，所述将所述训练样本中每一所述演唱片段的时域信号转换为频域信号，并提取出所述频域信号的频谱特征，以获取所述训练样本的音频特征，包括：对所述训练样本中每一所述演唱片段进行短时傅里叶变换，并对所述短时傅里叶变换后得到的频域信号进行梅尔尺度变换，以获取与每一所述演唱片段对应的梅尔频谱特征。

6.如权利要求1-5任一项所述的音频处理方法，其特征在于，所述将所述训练样本的音频特征经过多个卷积层和池化层进行逐层抽象处理，还包括：通过每一所述池化层对所述训练样本的音频特征进行池化处理和编码处理，以得到定长的音频数据。

7.如权利要求1-5任一项所述的音频处理方法，其特征在于，所述对每一所述全连接层的输出项进行导数监督模型训练，以生成处理模型，包括：基于三元组损失函数对每一所述全连接层的输出项进行导数监督模型训练，以得到训练后的参考模型的优化参数；

根据所述优化参数生成所述处理模型。

8.一种音频处理装置，其特征在于，所述装置包括：

获取模块，用于获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段；

提取模块，用于对所述训练样本进行特征提取，以提取出所述训练样本的音频特征；

训练模块，用于将所述训练样本的音频特征经过多个卷积层和池化层进行逐层抽象处理，在每一所述池化层上分别接入一全连接层，并将每一所述池化层处理后的音频数据输入对应的全连接层进行处理，以得到每一所述全连接层的输出项，对每一所述全连接层的输出项进行导数监督模型训练，以生成处理模型；

处理模块，用于基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征。

9.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的音频处理方法中的步骤。

音频处理方法、装置及存储介质

技术领域

[0001] 本申请实施例涉及音频处理领域，具体涉及一种音频处理方法、装置及存储介质。

背景技术

[0002] i-vector(identity vector)特征是一种在语音中广泛使用的音色特征向量，是反映说话人声学差异的一种重要特征，在目前的说话人是吧和说话人验证中具有一定的有效性。

[0003] 但是，基于i-vector的语音识别方法具有以下缺点：第一，人在唱歌和说话时音色是有一定变化的，i-vector主要针对说话时的语音，在歌唱的情况下适配性不好；第二，i-vector依赖于干声数据，对干扰较敏感，对数据质量要求较高，在很多场景下无法有效识别。

发明内容

[0004] 本申请实施例提供一种音频处理方法、装置及存储介质，可以有效识别出音色特征，提升了音色特征识别的高效性、鲁棒性及准确性。

[0005] 本申请实施例提供一种音频处理方法，所述方法包括：

[0006] 获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段；

[0007] 对所述训练样本进行特征提取，以提取出所述训练样本的音频特征；

[0008] 将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型；

[0009] 基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征。

[0010] 在本申请实施例所述的音频处理方法中，所述获取训练样本，包括：

[0011] 选取多个歌手的歌曲组，其中，每个歌手对应的歌曲组包括多个歌曲，所述歌曲为单人演唱歌曲；

[0012] 获取每一所述歌曲组的多个歌曲对应的带时间戳的歌词，基于所述歌词的时间戳截取每一所述歌曲组的多个歌曲对应的演唱片段，以获取包含有与多个歌手对应的多个演唱片段组的训练样本，其中，每一所述演唱片段组分别对应同一歌手的多个演唱片段。

[0013] 在本申请实施例所述的音频处理方法中，所述基于所述歌词的时间戳截取每一所述歌曲组的多首歌曲对应的演唱片段，还包括：

[0014] 对所述演唱片段进行掐头去尾处理。

[0015] 在本申请实施例所述的音频处理方法中，所述对所述训练样本进行特征提取，以提取出所述训练样本的音频特征，包括：

[0016] 将所述训练样本中每一所述演唱片段的时域信号转换为频域信号，并提取出所述频域信号的频谱特征，以获取所述训练样本的音频特征。

[0017] 在本申请实施例所述的音频处理方法中，所述将所述训练样本中每一所述演唱片段的时域信号转换为频域信号，并提取出所述频域信号的频谱特征，以获取所述训练样本的音频特征，包括：

[0018] 对所述训练样本中每一所述演唱片段进行短时傅里叶变换，并对所述短时傅里叶变换后得到的频域信号进行梅尔尺度变换，以获取与每一所述演唱片段对应的梅尔频谱特征。

[0019] 在本申请实施例所述的音频处理方法中，所述将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型，包括：

[0020] 将所述训练样本的音频特征经过多个卷积层和池化层进行逐层抽象处理；

[0021] 在每一所述池化层上分别接入一全连接层，并将每一所述池化层处理后的音频数据输入对应的全连接层进行处理，以得到每一所述全连接层的输出项；

[0022] 对每一所述全连接层的输出项进行导数监督模型训练，以生成处理模型。

[0023] 在本申请实施例所述的音频处理方法中，所述将所述训练样本的音频特征经过多个卷积层和池化层进行逐层抽象处理，还包括：

[0024] 通过每一所述池化层对所述训练样本的音频特征进行池化处理和编码处理，以得到定长的音频数据。

[0025] 在本申请实施例所述的音频处理方法中，所述对每一所述全连接层的输出项进行导数监督模型训练，以生成处理模型，包括：

[0026] 基于三元组损失函数对每一所述全连接层的输出项进行导数监督模型训练，以得到训练后的所述参考模型的优化参数；

[0027] 根据所述优化参数生成所述处理模型。

[0028] 本申请实施例还提供一种音频处理装置，所述装置包括：

[0029] 获取模块，用于获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段；

[0030] 提取模块，用于对所述训练样本进行特征提取，以提取出所述训练样本的音频特征；

[0031] 训练模块，用于将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型；

[0032] 处理模块，用于基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征。

[0033] 本申请实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，执行本申请实施例所提供的任一种所述的音频处理方法中的步骤。

[0034] 本申请实施例通过获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段，并对所述训练样本进行特征提取，以提取出所述训练样本的音频特征，然后将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型，并基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征，可以在不要求干声的情况下，有效识别出音色特征，提升了音色特征识别的高效性、鲁棒性及准确性。

附图说明

[0035] 为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0036] 图1为本申请实施例提供的一种音频处理装置的系统示意图。

[0037] 图2为本申请实施例提供的一种音频处理方法的流程示意图。

[0038] 图3为本申请实施例提供的一种音频处理方法的另一流程示意图。

[0039] 图4为本申请实施例提供的参考模型的网络拓扑结构图。

[0040] 图5为本申请实施例提供的编码层的网络拓扑结构图。

[0041] 图6为本申请实施例提供的一种音频处理装置的结构示意图。

[0042] 图7为本申请实施例提供的一种音频处理装置的另一结构示意图。

[0043] 图8为本申请实施例提供的一种服务器的结构示意图。

[0044] 图9为本申请实施例提供的一种终端的结构示意图。

具体实施方式

[0045] 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

[0046] 本申请中的术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

[0047] 在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

[0048] i-vector(identity vector)特征是一种在语音中广泛使用的音色特征向量，是反映说话人声学差异的一种重要特征，在目前的说话人是吧和说话人验证中具有一定的有效性。

[0049] 但是，基于i-vector的语音识别方法具有以下缺点：第一，人在唱歌和说话时音色是有一定变化的，i-vector主要针对说话时的语音，在歌唱的情况下适配性不好；第二，i-vector依赖于干声数据，对干扰较敏感，对数据质量要求较高，在很多场景下无法有效识别。另外i-vector特征需要的数据需要手动收据，其收集代价巨大，参数调整困难、准确率较低。

[0050] 因而，本申请实施例提供了一种音频处理方法、装置及存储介质，基于深度学习网络进行模型训练，将从训练样本中提取的音频特征输入参考模型中进行学习训练，以得到训练后的所述参考模型的优化参数，且根据所述优化参数生成处理模型，然后基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征，可以在背景音干扰的情况下，有效识别出演唱片段中的音色特征，提升了音色特征识别的高效性、鲁棒性及准确性。

[0051] 本申请实施例提供的音频处理方法，可实现在音频处理装置中，该音频处理装置具体可以集成在电子设备或其他具有音视频数据处理功能的设备中，电子设备包括但不限于智能电视，智能音箱等设备。

[0052] 请参阅图1，图1为本申请实施例提供的一种音频处理装置的系统示意图。该音频处理装置主要用于：预先获取训练样本，然后从训练样本中提取音频特征，再将提取的音频特征输入参考模型中进行学习训练，以生成处理模型，若接收到待测音频，则通过所述处理模型对所述待测音频进行音频处理，以获取待测音频的音色特征，在背景音干扰的情况下，有效识别出演唱片段中的音色特征，提升了音色特征识别的高效性、鲁棒性及准确性。

[0053] 需要说明的是，参考模型的训练过程可以在服务器端也可以在电子设备端完成。当参考模型的训练过程、实际检测过程都在服务器端完成时，需要使用由训练后的参考模型形成的处理模型时，可以将待测音频以及待测音频对应的音频特征输入到服务器，服务器实际检测完成后，将获取到待测音频的音色特征发送至电子设备端。

[0054] 当参考模型的训练过程、实际检测过程都在电子设备端完成时，需要使用由训练后的参考模型形成的处理模型时，可以将待测音频以及待测音频对应的音频特征输入到电子设备，电子设备实际检测完成后，获取到待测音频的音色特征。

[0055] 当参考模型的训练过程在服务器端完成，参考模型的实际检测过程在电子设备端完成时，需要使用由训练后的参考模型形成的处理模型时，可以将待测音频以及待测音频对应的音频特征输入到电子设备，电子设备实际检测完成后，获取到待测音频的音色特征。可选的，可以将训练好的处理模型文件(model文件)移植到电子设备上，若需要对输入的待测音频进行音频检测，则将待测音频输入到训练好的处理模型文件(model文件)，通过计算即可得到待测音频的音色特征。

[0056] 以下将分别进行详细说明，以下各个实施例的描述先后顺序并不构成对具体实施先后顺序的限定。

[0057] 请参阅图2至图5，图2及图3均为本申请实施例提供的一种音频处理方法的流程示意图，图4为本申请实施例提供的参考模型的网络拓扑结构图，图5为本申请实施例提供的编码层的网络拓扑结构图。所述方法包括：

[0058] 步骤101，获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段。

[0059] 在一些实施例中，所述获取训练样本，包括：

[0060] 选取多个歌手的歌曲组，其中，每个歌手对应的歌曲组包括多个歌曲，所述歌曲为单人演唱歌曲；

[0061] 获取每一所述歌曲组的多个歌曲对应的带时间戳的歌词，基于所述歌词的时间戳截取每一所述歌曲组的多个歌曲对应的演唱片段，以获取包含有与多个歌手对应的多个演唱片段组的训练样本，其中，每一所述演唱片段组分别对应同一歌手的多个演唱片段。

[0062] 在一些实施例中，所述基于所述歌词的时间戳截取每一所述歌曲组的多首歌曲对应的演唱片段，还包括：

[0063] 对所述演唱片段进行掐头去尾处理。

[0064] 例如，本申请实施例不依赖于干声数据，其中，在同一人的多段带伴奏演唱录音中，伴奏、旋律等外部特征均不同，只有人的音色是不变性特征。在大数据的学习中，无关特征可以借由学习互相对冲，最后留下的不变性特征即为音色特征。

[0065] 在获取训练样本时，需进行数据的筛选，以准备待训练的参考模型需要的音频数据。其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段。其中，不同歌手对应的演唱片段组中的演唱片段个数可以相同，也可以不同。同一歌手的多个演唱片段的音频长度可以相同，也可以不同。

[0066] 比如，获取多个歌手的演唱片段组，每个演唱片段组可以包含相同个数的演唱片段。选取N个歌手，每个歌手选取M首歌曲，获得N*M个音频数据，其中，要求所有歌曲为单人演唱歌曲。获取这些音频数据对应的带时间戳歌词，即可以随时间滚动的歌词，然后基于歌词的时间戳截取音频数据中对应的演唱部分。为避免歌词时间戳不准带来的误差，可适当进行掐头去尾处理。经过以上步骤，可以获得N个歌手的若干个演唱片段，每个歌手都有一组演唱片段与其对应。

[0067] 其中，获取到的音频数据的训练样本，可以是未经压缩的数据，这样电子设备端或者服务器端就避免了解压缩的操作，以此保证较高的声音还原度，且提高了数据处理效率。

[0068] 步骤102，对所述训练样本进行特征提取，以提取出所述训练样本的音频特征。

[0069] 在一些实施例中，可以将所述训练样本中每一所述演唱片段的时域信号转换为频域信号，并提取出所述频域信号的频谱特征，以获取所述训练样本的音频特征。

[0070] 具体的，对所述训练样本中每一所述演唱片段进行短时傅里叶变换，并对所述短时傅里叶变换后得到的频域信号进行梅尔尺度变换，以获取与每一所述演唱片段对应的梅尔频谱特征。

[0071] 例如，音色特征可以由梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)表示，为减少信息损耗，在本申请实施例中，可以让模型自主学习所需的音频特征。因此，可以对数据筛选得到的音频数据进行短时傅里叶变换(STFT)变换，并变换到梅尔频域。具体的，对所述训练样本中每一所述演唱片段进行短时傅里叶变换，并对所述短时傅里叶变换后得到的频域信号进行梅尔尺度变换，以获取与每一所述演唱片段对应的梅尔频谱特征。这样，每个演唱片段对应的梅尔频谱特征就是一个[t，d]的矩阵，t为时间长度，每个演唱片段的时间长度可以不一致。d为特征长度，即为梅尔刻度上的频谱能量，例如，d可以取值为128。其中，该矩阵包含的特征包括音色、音调、背景音乐等特征。

[0072] 步骤103，将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型。

[0073] 其中，模型训练的基本思路是，同一歌手的不同演唱片段为相同音色，不同歌手的不同演唱片段为不同音色。

[0074] 在一些实施例中，如图3所示，步骤103可以通过步骤1031至步骤1033来实现，具体为：

[0075] 步骤1031，将所述训练样本的音频特征经过多个卷积层和池化层进行逐层抽象处理。

[0076] 步骤1032，在每一所述池化层上分别接入一全连接层，并将每一所述池化层处理后的音频数据输入对应的全连接层进行处理，以得到每一所述全连接层的输出项。

[0077] 步骤1033，对每一所述全连接层的输出项进行导数监督模型训练，以生成处理模型。

[0078] 如图4所示，在输入端输入步骤102中获取到的音频特征，输入的音频特征依次经过卷积层1、卷积层2和池化层1进行逐层抽象处理后，从池化层1中输出的音频数据输入到全连接层1中进行处理，且全连接层1中的输出项再经过导数监督模型进行训练。而经过池化层1处理后的数据还再依次经过卷积层3、卷积层4和池化层2进行逐层抽象处理，从池化层2中输出的音频数据输入到全连接层2中进行处理，且全连接层2中的输出项再经过导数监督模型进行训练。而经过池化层2处理后的数据还再依次经过卷积层5、卷积层6和池化层3进行逐层抽象处理，从池化层3中输出的音频数据输入到全连接层3中进行处理，且全连接层3中的输出项再经过导数监督模型进行训练。而经过池化层3处理后的数据还再依次经过卷积层7、卷积层8和池化层4进行逐层抽象处理，从池化层4中输出的音频数据输入到全连接层4中进行处理，且全连接层4中的输出项再经过导数监督模型进行训练。而经过池化层4处理后的数据还再依次经过局部连接层9和局部连接层10进行处理，从局部连接层10的输出项再经过导数监督模型进行训练。

[0079] 其中，上述的卷积层为1D卷积层，而局部连接层等价于不进行权值共享的1D卷积层。全连接层是上一层所有神经元和下一层所有神经元进行两两连接，例如，上一层所有神经元为m个，下一层所有神经元为n个，则全连接层会有m*n个连接权；而局部连接层的上层每个神经元只和下层部分神经元连接。例如，上一层1号神经元只和下一层1，2，3号神经元连接，与其他神经元都不发生关系，局部连接层降低了参数量，强化了“局部相关”的概念，这种设置的主要目的是降低参数量的同时保证一定的特征混合能力。

[0080] 其中，不同的全连接层位于模型的不同位置，可以代表不同抽象程度的特征。从距离角度来看，靠近输入端的全连接输出，带有更多的基础特征，例如带有音调高低，声音大小等基础特征。经过逐层池化，一些低等的基础特征被融合成为有抽象度高的高等的目标特征，例如音色特征。不同抽象程度的特征携带的基础特征有差别，而不同抽象程度的特征都有特定作用，可以通过逐层抽象处理来抽取出来。

[0081] 在一些实施例中，所述将所述训练样本的音频特征经过多个卷积层和池化层进行逐层抽象处理，还包括：

[0082] 通过每一所述池化层对所述训练样本的音频特征进行池化处理和编码处理，以得到定长的音频数据。

[0083] 其中，由于输入的音频特征可能存在长短不一的情况，因此池化层不是简单地最大值池化，而是池化处理与编码处理的两步集合。在池化处理过程中，数据遵循通常的最大值池化方法进行池化。而在编码过程中，可以通过入图5所示的编码层进行定长编码，以将变长输入编码为定长，以得到定长的音频数据，从而可以与全连接层顺利连接。

[0084] 如图5所示的编码层，该编码层是一个注意力机制，输入的音频特征经过滤波器组N(N filters)学习得到N通道的数据，如图所示得到的是一个2D图像，而输入的数据经过第一滤波器(1filter)处理后得到一个向量。2D图像就像是普通的卷积层一样是一个负责“特征学习”的组件，而向量学习的是每个时间步上数据的重要程度。

[0085] 具体的，2D图像仍然是一轴为时间t及另一轴为特征d的图像特征，与输入数据的图像特征是一致的。而1filter输出的向量经过softmax激化函数处理后，得到一个长度为t的向量，其中每个数字都是0-1之间的数且其和为1，这个向量学习的是各个时间上数据的重要程度。

[0086] 获取到上述的N通道的数据及向量后，可以在乘积单元中用向量对矩阵的每行做逐元素乘，起到注意力机制的作用，那么2D图像的矩阵中原来各个时间步平权的特征就变成了各个时间步的带权特征。

[0087] 最后，在求和单元中沿时间轴将带权特征进行累加，以得到带权特征沿时间加权的结果。求和单元的输出数据的长度是固定的，因此达到定长化的目的。

[0088] 在一些实施例中，所述对每一所述全连接层的输出项进行导数监督模型训练，以生成处理模型，包括：

[0089] 基于三元组损失函数对每一所述全连接层的输出项进行导数监督模型训练，以得到训练后的所述参考模型的优化参数；

[0090] 根据所述优化参数生成所述处理模型。

[0091] 其中，所述处理模型可以由训练后的参考模型与其对应的优化参数组成，训练样本的音频特征经过训练后的所述参考模型处理后得到的输出数据，作为该处理模型的处理结果。

[0092] 例如，模型以三元组(triplet)为损失函数进行成对训练。例如，随机选取歌手i的演唱片段a作为基准正样本，选取歌手i的其他演唱片段p作为正样本，选取歌手j的演唱片段n作为负样本，构成三元组(a，p，n)。损失函数需要最小化a和p的距离，同时最大化a和n的距离。其中，损失函数可以定义为：

[0093] L＝max(d(a，p)-d(a，n)+margin，0)；

[0094] 其中，d为某种距离度量函数，比如欧氏距离或余弦相似度导数。

[0095] 通过不断生成三元组对，即可训练整个模型，在训练过程中不断的对参考模型进行参数的优化，最终生成符合需求的处理模型。其中，这样的三元组的可能数目可以设置很多个，以此来降低或避免过拟合的风险。

[0096] 例如，基准正样本a、为正样本p及负样本n的来源是步骤101中获取到的歌手的演唱片段。例如，选取周杰伦的青花瓷片段为基准正样本a，选取周杰伦的双节棍片段为正样本，选取陈奕迅的十年片段为负样本。

[0097] 步骤104，基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征。

[0098] 参考模型训练完毕后生成了处理模型，处理模型的使用可以分为两步：

[0099] 第一步，音色模板库的建立：可以将不同人(如明星、歌手等)的声音通过处理模型建立一个音色模板库，其中，该音色模板库中包含有多个音色模板，每一音色模板为一个向量。

[0100] 第二步，当遇到新的查询请求时，即需对待测音频进行查询时，将待测音频输入处理模型中以获取到所述待测音频的音色特征，然后将所述待测音频的音色特征与音色模板库内的所有音色模板进行比对，选取距离最小的一个音色模板作为与所述待测音频最相近的音色特征。

[0101] 例如，音色模板库中的每一音色模板对应一个人的音色特征，其用于表示某个明星或歌手的音色特征，以此作为某个明星或歌手的音色模板存储在音色模板库中，以便在查询时调出该音色模板与待查询音频的音色特征进行比对，比对出该音色模板与待查询音频的音色特征是否相同或相近，以确认待测音频中的明星或歌手是否与音色模板中的明星或歌手为同一人。

[0102] 上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

[0103] 本申请实施例提供的音频处理方法，通过获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段，并对所述训练样本进行特征提取，以提取出所述训练样本的音频特征，然后将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型，并基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征，可以在不要求干声的情况下，利用音频的无关信息对冲的策略从带背景的演唱歌曲中提取到声音的音色特征，规避了i-vector等手动特征数据收集代价巨大，参数调整困难、准确率低等问题，提升了音色特征识别的高效性、鲁棒性及准确性。

[0104] 本申请实施例还提供一种音频处理装置，如图6至图7所示，图6至图7均为本申请实施例提供的一种音频处理装置的结构示意图。所述音频处理装置40可以包括获取模块41，提取模块42，训练模块43，以及处理模块44。

[0105] 其中，所述获取模块41，用于获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段；

[0106] 所述提取模块42，用于对所述训练样本进行特征提取，以提取出所述训练样本的音频特征；

[0107] 所述训练模块43，用于将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型；

[0108] 所述处理模块44，用于基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征。

[0109] 在一些实施例中，所述获取模块41，用于：

[0110] 选取多个歌手的歌曲组，其中，每个歌手对应的歌曲组包括多个歌曲，所述歌曲为单人演唱歌曲；

[0111] 获取每一所述歌曲组的多个歌曲对应的带时间戳的歌词，基于所述歌词的时间戳截取每一所述歌曲组的多个歌曲对应的演唱片段，以获取包含有与多个歌手对应的多个演唱片段组的训练样本，其中，每一所述演唱片段组分别对应同一歌手的多个演唱片段。

[0112] 在一些实施例中，所述获取模块41在基于所述歌词的时间戳截取每一所述歌曲组的多首歌曲对应的演唱片段时，还用于对所述演唱片段进行掐头去尾处理。

[0113] 在一些实施例中，所述提取模块42，用于将所述训练样本中每一所述演唱片段的时域信号转换为频域信号，并提取出所述频域信号的频谱特征，以获取所述训练样本的音频特征。

[0114] 在一些实施例中，所述提取模块42，具体用于对所述训练样本中每一所述演唱片段进行短时傅里叶变换，并对所述短时傅里叶变换后得到的频域信号进行梅尔尺度变换，以获取与每一所述演唱片段对应的梅尔频谱特征。

[0115] 在一些实施例中，如图7所示，所述训练模块43，包括：

[0116] 抽象处理单元431，用于将所述训练样本的音频特征经过多个卷积层和池化层进行逐层抽象处理；

[0117] 全连接处理单元432，用于在每一所述池化层上分别接入一全连接层，并将每一所述池化层处理后的音频数据输入对应的全连接层进行处理，以得到每一所述全连接层的输出项；

[0118] 训练单元433，用于对每一所述全连接层的输出项进行导数监督模型训练，以生成处理模型。

[0119] 在一些实施例中，所述抽象处理单元431，还用于通过每一所述池化层对所述训练样本的音频特征进行池化处理和编码处理，以得到定长的音频数据。

[0120] 在一些实施例中，所述训练单元433，用于：

[0121] 基于三元组损失函数对每一所述全连接层的输出项进行导数监督模型训练，以得到训练后的所述参考模型的优化参数；

[0122] 根据所述优化参数生成所述处理模型。

[0123] 上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

[0124] 本申请实施例提供的音频处理装置40，通过获取模块41获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段，并通过提取模块42对所述训练样本进行特征提取，以提取出所述训练样本的音频特征，然后训练模块43再将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型，然后处理模块44基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征，可以在不要求干声的情况下，有效识别出音色特征，提升了音色特征识别的高效性、鲁棒性及准确性

[0125] 本申请实施例还提供一种服务器，如图8所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

[0126] 该服务器可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图8中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

[0127] 处理器501是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

[0128] 存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

[0129] 服务器还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

[0130] 该服务器还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

[0131] 尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

[0132] 获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段；

[0133] 对所述训练样本进行特征提取，以提取出所述训练样本的音频特征；

[0134] 将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型；

[0135] 基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征。

[0136] 以上操作具体可参见前面的实施例，在此不作赘述。

[0137] 由上可知，本实施例提供的服务器，通过获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段，并对所述训练样本进行特征提取，以提取出所述训练样本的音频特征，然后将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型，并基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征，可以在不要求干声的情况下，有效识别出音色特征，提升了音色特征识别的高效性、鲁棒性及准确性。

[0138] 相应的，本申请实施例还提供一种终端，如图9所示，该终端可以包括射频(RF，Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图9中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

[0139] RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，General Packet Radio Service)、码分多址(CDMA，Code Division MultipleAccess)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long Term Evolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

[0140] 存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

[0141] 输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器608，并能接收处理器608发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

[0142] 显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图9中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

[0143] 终端还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

[0144] 音频电路606、扬声器，传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如另一终端，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与终端的通信。

[0145] WiFi属于短距离无线传输技术，终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块607，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

[0146] 处理器608是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

[0147] 终端还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

[0148] 尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

[0149] 获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段；

[0150] 对所述训练样本进行特征提取，以提取出所述训练样本的音频特征；

[0151] 将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型；

[0152] 基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征。

[0153] 以上操作具体可参见前面的实施例，在此不作赘述。

[0154] 由上可知，本实施例提供的终端，通过获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段，并对所述训练样本进行特征提取，以提取出所述训练样本的音频特征，然后将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型，并基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征，可以在不要求干声的情况下，有效识别出音色特征，提升了音色特征识别的高效性、鲁棒性及准确性。

[0155] 本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

[0156] 为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种音频处理方法中的步骤。例如，该指令可以执行如下步骤：

[0157] 获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段；

[0158] 对所述训练样本进行特征提取，以提取出所述训练样本的音频特征；

[0159] 将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型；

[0160] 基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征。

[0161] 以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

[0162] 其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

[0163] 由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任音频处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种音频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

[0164] 以上对本申请实施例所提供的一种音频处理方法、装置及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

音频处理方法、装置及存储介质转让专利

申请号 : CN201910190418.6

文献号 : CN109903773B

文献日 : 2021-01-08

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王征韬

申请人 : 腾讯音乐娱乐科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :