基于人工智能的音频处理方法和装置转让专利

申请号 : CN201710031469.5

文献号 : CN106847294B

文献日 : 2018-11-30

相似专利: 请登录后查看

本申请公开了基于人工智能的音频处理方法和装置。该方法的一具体实施方式包括：转换待处理音频为待处理图片；提取待处理图片的内容特征；根据风格特征和待处理图片的内容特征确定目标图片，风格特征从模板音频转换成的模板图片中得到；将目标图片转换为处理后的音频。该实施方式在不改变待处理音频的内容的同时，实现了处理后的音频带有模板音频风格的处理效果，提高了音频处理的效率和灵活性。

1.一种基于人工智能的音频处理方法，其特征在于，所述方法包括：转换待处理音频为待处理图片；

提取所述待处理图片的内容特征；

根据风格特征和所述待处理图片的内容特征确定目标图片，所述风格特征从模板音频转换成的模板图片中得到；

将所述目标图片转换为处理后的音频；

其中，所述根据风格特征和所述待处理图片的内容特征确定目标图片，包括：提取初始目标图片的内容特征和风格特征；

根据所述待处理图片的内容特征，和所述初始目标图片的内容特征确定内容损失函数；

根据所述模板图片的风格特征，和所述初始目标图片的风格特征确定风格损失函数；

根据所述内容损失函数和所述风格损失函数确定总损失函数；

根据所述总损失函数调整所述初始目标图片，得到目标图片。

2.根据权利要求1所述的方法，其特征在于，所述转换待处理音频为待处理图片，包括：按照预设时间间隔将所述待处理音频切分为音频片段；

将所述音频片段的声波图、频谱图或语谱图确定为待处理图片。

3.根据权利要求1所述的方法，其特征在于，所述提取所述待处理图片的内容特征，包括：将所述待处理图片输入预先训练的卷积神经网络，所述卷积神经网络用于提取图像特征；

将所述卷积神经网络中至少一个卷积层输出的矩阵，作为所述待处理图片的内容特征。

4.根据权利要求1所述的方法，其特征在于，所述风格特征是经由以下步骤确定的：将所述模板图片输入预先训练的卷积神经网络，所述卷积神经网络用于提取图像特征；

将所述卷积神经网络中至少一个卷积层输出的矩阵作为所述模板图片的风格特征。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述根据风格特征和所述待处理图片的内容特征确定目标图片，包括：将所述待处理图片的内容特征导入预设的风格迁移模型，获取所述风格迁移模型的输出作为目标图片。

6.根据权利要求1所述的方法，其特征在于，所述内容损失函数根据所述待处理图片的内容特征和所述初始目标图片的内容特征的均方差得到。

7.根据权利要求1所述的方法，其特征在于，所述风格损失函数根据以下步骤确定：根据所述模板图片的风格特征和所述初始目标图片的风格特征，分别确定所述模板图片的格拉姆矩阵和所述初始目标图片的格拉姆矩阵；

根据所述模板图片的格拉姆矩阵和所述初始目标图片的格拉姆矩阵的均方差，确定所述风格损失函数。

8.根据权利要求1所述的方法，其特征在于，所述总损失函数根据加权后的所述内容损失函数和加权后的所述风格损失函数之和得到。

9.根据权利要求1所述的方法，其特征在于，所述根据所述总损失函数调整所述初始目标图片，得到目标图片，进一步包括：基于梯度下降法和所述总损失函数调整所述初始目标图片，使得所述总损失函数取得极小值；

将所述总损失函数的极小值对应的调整后的图片作为目标图片。

10.一种基于人工智能的音频处理装置，其特征在于，所述装置包括：第一转换单元，用于转换待处理音频为待处理图片；

提取单元，用于提取所述待处理图片的内容特征；

确定单元，用于根据风格特征和所述待处理图片的内容特征确定目标图片，所述风格特征从模板音频转换成的模板图片中得到；

第二转换单元，用于将所述目标图片转换为处理后的音频；

其中，所述确定单元包括：

提取子单元，用于提取初始目标图片的内容特征和风格特征；

内容损失函数确定子单元，用于根据所述待处理图片的内容特征，和所述初始目标图片的内容特征确定内容损失函数；

风格损失函数确定子单元，用于根据所述模板图片的风格特征，和所述初始目标图片的风格特征确定风格损失函数；

总损失函数确定子单元，用于根据所述内容损失函数和所述风格损失函数确定总损失函数；

调整子单元，用于根据所述总损失函数调整所述初始目标图片，得到目标图片。

11.根据权利要求10所述的装置，其特征在于，所述第一转换单元包括：切分子单元，用于按照预设时间间隔将所述待处理音频切分为音频片段；

待处理图片确定子单元，用于将所述音频片段的声波图、频谱图或语谱图确定为待处理图片。

12.根据权利要求10所述的装置，其特征在于，所述提取单元包括：输入子单元，用于将所述待处理图片输入预先训练的卷积神经网络，所述卷积神经网络用于提取图像特征；

内容特征确定子单元，用于将所述卷积神经网络中至少一个卷积层输出的矩阵，作为所述待处理图片的内容特征。

13.根据权利要求10所述的装置，其特征在于，所述装置还包括：风格特征确定单元，用于将所述模板图片输入预先训练的卷积神经网络，所述卷积神经网络用于提取图像特征；将所述卷积神经网络中至少一个卷积层输出的矩阵作为所述模板图片的风格特征。

14.根据权利要求10-13中任一项所述的装置，其特征在于，所述确定单元进一步用于：将所述待处理图片的内容特征导入预设的风格迁移模型，获取所述风格迁移模型的输出作为目标图片。

15.根据权利要求10所述的装置，其特征在于，所述内容损失函数确定子单元进一步用于：根据所述待处理图片的内容特征和所述初始目标图片的内容特征的均方差得到所述内容损失函数。

16.根据权利要求10所述的装置，其特征在于，所述风格损失函数确定子单元进一步用于：根据所述模板图片的风格特征和所述初始目标图片的风格特征，分别确定所述模板图片的格拉姆矩阵和所述初始目标图片的格拉姆矩阵；

根据所述模板图片的格拉姆矩阵和所述初始目标图片的格拉姆矩阵的均方差，确定所述风格损失函数。

17.根据权利要求10所述的装置，其特征在于，所述总损失函数确定子单元进一步用于：根据加权后的所述内容损失函数和加权后的所述风格损失函数之和得到所述总损失函数。

18.根据权利要求10所述的装置，其特征在于，所述调整子单元进一步用于：基于梯度下降法和所述总损失函数调整所述初始目标图片，使得所述总损失函数取得极小值；

将所述总损失函数的极小值对应的调整后的图片作为目标图片。

基于人工智能的音频处理方法和装置

技术领域

[0001] 本申请涉及计算机技术领域，具体涉及音频处理领域，尤其涉及基于人工智能的音频处理方法和装置。

背景技术

[0002] 人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

[0003] 目前的对音频的处理主要有以下两种，一种是通过改变音频的基频或者共振峰对音频进行处理；另一种是语音合成，进行语音合成时，首先要采集带标注的模板音频的数据，然后基于采集到的数据训练模型，模型的输入为文本，因此需要先对待合成的音频首先要进行语音识别，再将识别出的文本输入训练好的模型生成音频。上述第一种方法对音频的处理缺乏灵活性，不能实现很好的处理效果，第二种方法所需样本音频数据量大，且处理时需要先将待处理音频转换为文本，处理效率低。

发明内容

[0004] 本申请的目的在于提出一种改进的基于人工智能的音频处理方法和装置，来解决以上背景技术部分提到的技术问题。

[0005] 第一方面，本申请提供了一种基于人工智能的音频处理方法，该方法包括：转换待处理音频为待处理图片；提取待处理图片的内容特征；根据风格特征和待处理图片的内容特征确定目标图片，风格特征从模板音频转换成的模板图片中得到；将目标图片转换为处理后的音频。

[0006] 在一些实施例中，转换待处理音频为待处理图片，包括：按照预设时间间隔将待处理音频切分为音频片段；将音频片段的声波图、频谱图或语谱图确定为待处理图片。

[0007] 在一些实施例中，提取待处理图片的内容特征，包括：将待处理图片输入预先训练的卷积神经网络，卷积神经网络用于提取图像特征；将卷积神经网络中至少一个卷积层输出的矩阵，作为待处理图片的内容特征。

[0008] 在一些实施例中，风格特征是经由以下步骤确定的：将模板图片输入预先训练的卷积神经网络，卷积神经网络用于提取图像特征；将卷积神经网络中至少一个卷积层输出的矩阵作为模板图片的风格特征。

[0009] 在一些实施例中，根据风格特征和待处理图片的内容特征确定目标图片，包括：将待处理图片的内容特征导入预设的风格迁移模型，获取风格迁移模型的输出作为目标图片。

[0010] 在一些实施例中，根据风格特征和待处理图片的内容特征确定目标图片，包括：提取初始目标图片的内容特征和风格特征；根据待处理图片的内容特征，和初始目标图片的内容特征确定内容损失函数；根据模板图片的风格特征，和初始目标图片的风格特征确定风格损失函数；根据内容损失函数和风格损失函数确定总损失函数；根据总损失函数调整初始目标图片，得到目标图片。

[0011] 在一些实施例中，内容损失函数根据待处理图片的内容特征和初始目标图片的内容特征的均方差得到。

[0012] 在一些实施例中，风格损失函数根据以下步骤确定：根据模板图片的风格特征和初始目标图片的风格特征，分别确定模板图片的格拉姆矩阵和初始目标图片的格拉姆矩阵；根据模板图片的格拉姆矩阵和初始目标图片的格拉姆矩阵的均方差，确定风格损失函数。

[0013] 在一些实施例中，总损失函数根据加权后的内容损失函数和加权后的风格损失函数之和得到。

[0014] 在一些实施例中，根据总损失函数调整初始目标图片，得到目标图片，进一步包括：基于梯度下降法和总损失函数调整初始目标图片，使得总损失函数取得极小值；将总损失函数的极小值对应的调整后的图片作为目标图片。

[0015] 第二方面，本申请提供了一种基于人工智能的音频处理的装置，该装置包括：第一转换单元，用于转换待处理音频为待处理图片；提取单元，用于提取待处理图片的内容特征；确定单元，用于根据风格特征和待处理图片的内容特征确定目标图片，风格特征从模板音频转换成的模板图片中得到；第二转换单元，用于将目标图片转换为处理后的音频。

[0016] 在一些实施例中，第一转换单元包括：切分子单元，用于按照预设时间间隔将待处理音频切分为音频片段；待处理图片确定子单元，用于将音频片段的声波图、频谱图或语谱图确定为待处理图片。

[0017] 在一些实施例中，提取单元包括：输入子单元，用于将待处理图片输入预先训练的卷积神经网络，卷积神经网络用于提取图像特征；内容特征确定子单元，用于将卷积神经网络中至少一个卷积层输出的矩阵，作为待处理图片的内容特征。

[0018] 在一些实施例中，装置还包括：风格特征确定单元，用于将模板图片输入预先训练的卷积神经网络，卷积神经网络用于提取图像特征；将卷积神经网络中至少一个卷积层输出的矩阵作为模板图片的风格特征。

[0019] 在一些实施例中，确定单元进一步用于：将待处理图片的内容特征导入预设的风格迁移模型，获取风格迁移模型的输出作为目标图片。

[0020] 在一些实施例中，确定单元包括：提取子单元，用于提取初始目标图片的内容特征和风格特征；内容损失函数确定子单元，用于根据待处理图片的内容特征，和初始目标图片的内容特征确定内容损失函数；风格损失函数确定子单元，用于根据模板图片的风格特征，和初始目标图片的风格特征确定风格损失函数；总损失函数确定子单元，用于根据内容损失函数和风格损失函数确定总损失函数；调整子单元，用于根据总损失函数调整初始目标图片，得到目标图片。

[0021] 在一些实施例中，内容损失函数确定子单元进一步用于：根据待处理图片的内容特征和初始目标图片的内容特征的均方差得到内容损失函数。

[0022] 在一些实施例中，风格损失函数确定子单元进一步用于：根据模板图片的风格特征和初始目标图片的风格特征，分别确定模板图片的格拉姆矩阵和初始目标图片的格拉姆矩阵；根据模板图片的格拉姆矩阵和初始目标图片的格拉姆矩阵的均方差，确定风格损失函数。

[0023] 在一些实施例中，总损失函数确定子单元进一步用于：根据加权后的内容损失函数和加权后的风格损失函数之和得到总损失函数。

[0024] 在一些实施例中，其特征在于，调整子单元进一步用于：基于梯度下降法和总损失函数调整初始目标图片，使得总损失函数取得极小值；将总损失函数的极小值对应的调整后的图片作为目标图片。

[0025] 本申请提供的音频处理方法和装置，通过转换待处理音频为待处理图片，而后提取待处理图片的内容特征，之后根据风格特征和待处理图片的内容特征确定目标图片，最后将目标图片转换为处理后的音频，在不改变待处理音频的内容的同时，实现了处理后的音频带有模板音频风格的处理效果，提高了音频处理的效率和灵活性。

附图说明

[0026] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

[0027] 图1是本申请可以应用于其中的示例性系统架构图；

[0028] 图2是根据本申请的音频处理方法的一个实施例的示意性流程图；

[0029] 图3A是根据本申请的音频处理方法的应用场景中待处理图片的示意图；

[0030] 图3B是根据本申请的音频处理方法的应用场景中风格图片的示意图；

[0031] 图3C是根据本申请的音频处理方法的应用场景中目标图片的示意图；

[0032] 图3D是根据本申请的音频处理方法的应用场景中语谱图的示意图；

[0033] 图4是根据本申请的音频处理方法的又一个实施例的示意性流程图；

[0034] 图5是根据本申请的音频处理的装置的一个实施例的示例性结构图；

[0035] 图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

[0036] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

[0037] 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

[0038] 图1示出了可以应用本申请的音频处理方法或音频处理的装置的实施例的示例性系统架构100。

[0039] 如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105、106。网络104用以在终端设备101、102、103和服务器105、106之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

[0040] 用户110可以使用终端设备101、102、103通过网络104与服务器105、106交互，以接收或发送数据等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如游戏类应用、社交平台软件网页浏览器应用、搜索引擎类应用、购物类应用、即时通信工具、邮箱客户端等。

[0041] 终端设备101、102、103可以是各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。终端设备101、102、103可以获取用户输入的待处理音频，转换待处理音频为待处理图片，而后提取待处理图片的内容特征，之后根据风格特征和待处理图片的内容特征确定目标图片，并将目标图片转换为处理后的音频，最后输出处理后的音频。终端设备101、102、103也可以获取用户输入的待处理音频，而后将其交由后台服务器处理，最后可以输出服务器返回的处理后的音频。

[0042] 服务器105、106可以是提供各种服务的服务器，例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以转换接收到的待处理音频为待处理图片，而后提取待处理图片的内容特征，之后根据风格特征和待处理图片的内容特征确定目标图片，并将目标图片转换为处理后的音频，最后可以将处理后的音频反馈给终端设备。

[0043] 需要说明的是，本申请实施例所提供的音频处理方法可以由服务器105、106执行，也可以由终端设备101、102、103执行，相应地，音频处理的装置可以设置于服务器105、106中，也可以设置于终端设备101、102、103中。

[0044] 应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

[0045] 继续参考图2，示出了根据本申请的音频处理方法的一个实施例的流程200。该的音频处理方法，包括以下步骤：

[0046] 步骤201，转换待处理音频为待处理图片。

[0047] 在本实施例中，音频处理方法运行于其上的电子设备(例如图1所示的终端或服务器)，可以转换待处理音频为待处理图片。待处理音频可以是用户通过具有录音功能的终端录制的，也可以是已存储在本地或云端的一段音频。待处理图片可以是待处理音频的声波图、频谱图、语谱图，或基于声波图、频谱图或语谱图进行图形变换得到的图片，上述图片可以基于数字音频编辑器得到。

[0048] 在本实施例的一些可选实现方式中，转换待处理音频为待处理图片，可以包括：按照预设时间间隔将待处理音频切分为音频片段；将音频片段的声波图、频谱图或语谱图确定为待处理图片。通过切分操作一方面可以避免单次处理的数据量过大所导致的卡顿，另一方面切分得到的待处理图片大小一致便于后续处理。

[0049] 步骤202，提取待处理图片的内容特征。

[0050] 在本实施例中，上述电子设备可以提取步骤201中转换得到的待处理图片的内容特征。内容特征可以用于体现待处理图片的轮廓、线条、色彩等。

[0051] 在本实施例的一些可选实现方式中，提取待处理图片的内容特征，可以包括：将待处理图片输入预先训练的卷积神经网络(CNN，Convolutional Neural Network)，卷积神经网络用于提取图像特征；将卷积神经网络中至少一个卷积层输出的矩阵，作为待处理图片的内容特征。卷积神经网络是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。它包括卷积层和池层。卷积神经网络可以通过多层卷积提取物体的抽象特征完成物体识别。所以，可以通过卷积神经网络来提取待处理图片的内容特征。预先训练的卷积神经网络可以使用目视图像生成器(VGG，Visual Graphics Generator)模型，深度残差网络(ResNet，Deep Residual Network)模型等用于提取图像特征的模型。

[0052] 在本实施例的一些可选实现方式中，还可以通过小波变换等方式提取待处理图片的内容特征。

[0053] 步骤203，根据风格特征和待处理图片的内容特征确定目标图片。

[0054] 在本实施例中，上述电子设备可以根据风格特征和步骤202中提取的待处理图片的内容特征确定目标图片。风格特征从模板音频转换成的模板图片中得到，模板音频可以是预置的，用户可以根据喜好进行选择，例如模板音频可以是一段明星的语音，或一段卡通人物的声音。模板音频也可以是用户自定义的一段音频。目标图片可以是综合了模板图片的风格特征和待处理图片的内容特征的图片。

[0055] 在本实施例的一些可选实现方式中，风格特征可以是经由以下步骤确定的：将模板图片输入预先训练的卷积神经网络，卷积神经网络用于提取图像特征；可以将卷积神经网络中至少一个卷积层输出的矩阵作为模板图片的风格特征。模板图片输入的卷积神经网络与待处理图片输入的卷积神经网络可以相同也可以不同。经过多层卷积抽象之后的图片会丢弃像素级的特征，而保留了高级的绘画风格，即高卷积层的输出相对于低卷积层的输出更加抽象，所以可以用其提取风格特征。

[0056] 在本实施例的一些可选实现方式中，根据风格特征和待处理图片的内容特征确定目标图片，可以包括：将待处理图片的内容特征导入预设的风格迁移模型，获取风格迁移模型的输出作为目标图片。风格迁移模型可以是一个生成对抗网络(GAN，Generative Adversarial Network)模型，生成对抗网络包含一个生成模型和一个判别模型。训练时固定一方，更新另一个模型的参数，交替迭代。用于模型训练的损失函数可以根据待处理图片的内容特征和模板图片的风格特征确定。风格迁移模型还可以基于艾施可米(Ashikhmin)算法等风格迁移算法实现。

[0057] 在本实施例的一些可选实现方式中，根据风格特征和待处理图片的内容特征确定目标图片，可以包括：提取初始目标图片的内容特征和风格特征；根据待处理图片的内容特征，和初始目标图片的内容特征确定内容损失函数；根据模板图片的风格特征，和初始目标图片的风格特征确定风格损失函数；根据内容损失函数和风格损失函数确定总损失函数；根据总损失函数调整初始目标图片，得到目标图片。

[0058] 在本实施例的一些可选实现方式中，内容损失函数可以根据待处理图片的内容特征和初始目标图片的内容特征的均方差得到。内容损失函数也可以根据其他能表征待处理图片的内容特征和初始目标图片的内容特征之间差异的计算方式得到。

[0059] 在本实施例的一些可选实现方式中，风格损失函数可以根据以下步骤确定：根据模板图片的风格特征和初始目标图片的风格特征，分别确定模板图片的格拉姆矩阵和初始目标图片的格拉姆矩阵；根据模板图片的格拉姆矩阵和初始目标图片的格拉姆矩阵的均方差，确定风格损失函数。基于格拉姆矩阵确定风格函数的意义在于使不同风格间的差异性更加突出。风格损失函数可以根据模板图片的风格特征和初始目标图片的风格特征相关联程度确定，由于风格特征可理解为矩阵，所以也可以风格损失函数可以基于矩阵距离确定。

[0060] 在本实施例的一些可选实现方式中，总损失函数可以根据加权后的内容损失函数和加权后的风格损失函数之和得到。通过调节内容损失函数权重和风格损失函数权重的大小，可以决定目标图片更注重风格还是更强调内容。

[0061] 在本实施例的一些可选实现方式中，可以根据总损失函数调整初始目标图片，得到目标图片，进一步包括：基于梯度下降法和总损失函数调整初始目标图片，使得总损失函数取得极小值；将总损失函数的极小值对应的调整后的图片作为目标图片。梯度下降法(gradient descent)是一个最优化算法，通常也称为最速下降法，常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型。

[0062] 在本实施例的一些可选实现方式中，初始目标图片可以包括白噪声图片、空白图片或待处理图片。在调整初始目标图片以确定目标图片的过程中，初始目标图片相当于总损失函数的一个自变量，调整的目的即通过迭代求得总损失函数取得极小值时的目标图片，初始目标图片相当于迭代的一个初始值，可能会影响迭代次数但对最终结果产生影响的可能性较小。

[0063] 步骤204，将目标图片转换为处理后的音频。

[0064] 在本实施例中，上述电子设备可以将步骤203中确定的目标图片转换为处理后的音频。与步骤201相似，上述电子设备同样可以基于一些数字音频编辑器将目标图片转换为处理后的音频。此外，上述电子设备可以将处理后的音频保存至本地、上传到云端或发送至其他电子设备，还可以直接输出处理后的音频。

[0065] 继续参考图3A、图3B、图3C、图3D，在根据本申请的音频处理方法的应用场景中，用户可以使用终端设备录入一段音频或任意选定一段音频作为待处理音频，运行有音频处理方法的设备接收到这段音频后，开始处理音频，处理所用到的模板音频可以是用户自定义的也可以是默认的模板音频。处理后的音频为待处理音频和模板音频的融合，其内容特征与待处理音频的内容特征相近，但风格特征与模板音频的风格特征相近。例如，用户输入一段自己的语音，处理后的音频不改变其说话的内容，但变换后听起来带有模板音频所体现的类似“北京腔”、“台湾腔”的腔调。用户可以使用运行有音频处理方法的设备融合自己和明星的声音，或者将男女朋友的声音变换到一起给亲朋好友发送祝福语等。由于音频处理的效果不易展示，因此这里以图片的处理类比音频的处理，以产生直观的视觉效果。图3A为待处理图片，即提供内容特征的图片；图3B为模板图片，即提供风格特征的图片；图3C为目标图片，即风格迁移后的图片，目标图片内容特征与待处理图片的内容特征相近，风格特征与模板图片的风格特征相近；图3D为音频片段的语谱图，可以对音频片段的语谱图，声波图或频谱图进行风格迁移，后再将风格迁移后的语谱图，声波图或频谱图转为音频，即得到了处理后的音频。

[0066] 本申请的上述实施例提供的方法通过综合待处理音频转换的待处理图片的内容特征和模板音频转换的模板图片的风格特征，在不改变待处理音频的内容的同时，实现了处理后的音频带有模板音频风格的处理效果，提高了音频处理的效率和灵活性。

[0067] 请参考图4，图4是根据本实施例的音频处理方法的又一个实施例的流程示意图。

[0068] 在图4中，该音频处理方法400，包括以下步骤：

[0069] 步骤401，转换待处理音频为待处理图片。

[0070] 在本实施例中，音频处理方法运行于其上的电子设备(例如图1所示的终端或服务器)，可以转换待处理音频为待处理图片。

[0071] 步骤402，提取待处理图片的内容特征。

[0072] 在本实施例中，上述电子设备可以提取步骤401中转换得到的待处理图片的内容特征。内容特征可以用于体现待处理图片的轮廓、线条、色彩等。具体的，可以将待处理图片输入预先训练的卷积神经网络，将卷积神经网络中至少一个卷积层输出的矩阵，作为待处理图片的内容特征。

[0073] 步骤403，提取初始目标图片的内容特征和风格特征。

[0074] 在本实施例中，上述电子设备可以提取初始目标图片的内容特征和风格特征。可以将初始目标图片输入预先训练的卷积神经网络，以获取其内容特征和风格特征，用于提取初始目标图片的卷积神经网络最好与用于提取待处理图片的卷积神经网络一致，用于提取初始目标图片的内容特征的卷积神经网络最好与用于提取待处理图片的内容特征的卷积神经网络一致，并使用相同卷积层的输出矩阵作为内容特征。同样，用于提取初始目标图片的风格特征的卷积神经网络最好与用于提取模板图片的风格特征的卷积神经网络一致，并使用相同卷积层的输出矩阵作为风格特征。

[0075] 由于在一个卷积网络中会有很多卷积核，所以会有很多输出矩阵。同时，也存在很多卷积层，可以使用加权平均后的多个卷积层的输出矩阵作为内容特征或风格特征，具体权重可根据需要设置。由于风格特征与内容特征相比较为抽象，所以确定风格特征的卷积层，总体高于确定内容特征的卷积层。

[0076] 步骤404，根据待处理图片的内容特征，和初始目标图片的内容特征确定内容损失函数。

[0077] 在本实施例中，上述电子设备可以根据步骤402提取的待处理图片的内容特征，和步骤403提取的初始目标图片的内容特征确定内容损失函数。内容损失函数可以根据待处理图片的内容特征和初始目标图片的内容特征的均方差得到，也可以根据其他能表征待处理图片的内容特征和初始目标图片的内容特征之间差异的计算方式得到。由于卷积神经网络提取特征时将图片分成了若干卷积片，所以确定内容损失函数要针对初始目标图片和待处理图片中相同位置的分片进行。例如，可以计算初始目标图片和待处理图片中相同位置的分片的输出矩阵的均方差，再综合各个分片的计算结果作为损失函数的值。

[0078] 步骤405，根据模板图片的风格特征，和初始目标图片的风格特征确定风格损失函数。

[0079] 在本实施例中，上述电子设备可以根据模板图片的风格特征，和步骤403提取的初始目标图片的风格特征确定风格损失函数。模板图片的风格特征可以是预先提取好的，也可以是在获取到用户确定的模板音频后提取的。可以基于初始目标图片和待处理图片中各个相同位置的分片的输出矩阵的距离，确定损失函数。为了使不同风格间的差异性更加突出，也可以分别确定模板图片的风格特征的格拉姆矩阵和初始目标图片的风格特征的格拉姆矩阵，风格特征的格拉姆矩阵可以是同一卷积层中不同卷积片的内积。再基于所确定的格拉姆矩阵来确定损失函数。同时，也可以加权平均多个卷积层输出的初始目标图片和待处理图片的格拉姆矩阵的距离，以确定损失函数，具体权重可根据需要设置。

[0080] 步骤406，根据内容损失函数和风格损失函数确定总损失函数。

[0081] 在本实施例中，上述电子设备可以根据步骤404确定的内容损失函数和步骤405确定的风格损失函数确定总损失函数。总损失函数可以根据加权后的内容损失函数和加权后的风格损失函数之和得到。通过调节内容损失函数权重和风格损失函数权重的大小，可以决定目标图片更注重风格还是更强调内容。

[0082] 步骤407，根据总损失函数调整初始目标图片，得到目标图片。

[0083] 在本实施例中，上述电子设备可以根据步骤406确定的总损失函数调整初始目标图片，得到目标图片。调整初始目标图片是一个迭代的过程，可将初始目标图片各个像素点的值理解为总损失函数的自变量，可以通过梯度下降法对总损失函数中初始目标图片各个像素的值求导，调整的目的即通过迭代求得总损失函数取得极小值时的目标图片。

[0084] 步骤408，将目标图片转换为处理后的音频。

[0085] 在本实施例中，上述电子设备可以将步骤407中得到的目标图片基于一些数字音频编辑器转换为处理后的音频。处理后的音频可以保存至本地、上传到云端或发送至其他电子设备。

[0086] 本申请的上述实施例提供的方法通过卷积神经网络进行特征的提取，并综合内容特征和风格特征确定损失函数，通过迭代得到目标图像，实现了更好的音频融合的效果。

[0087] 进一步参考图5，作为对上述方法的实现，本申请提供了一种基于人工智能的音频处理的装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

[0088] 如图5所示，本实施例的基于人工智能的音频处理的装置500包括：第一转换单元510、提取单元520、确定单元530、第二转换单元540，其中，第一转换单元510，用于转换待处理音频为待处理图片；提取单元520，用于提取待处理图片的内容特征；确定单元530，用于根据风格特征和待处理图片的内容特征确定目标图片，风格特征从模板音频转换成的模板图片中得到；第二转换单元540，用于将目标图片转换为处理后的音频。

[0089] 在本实施例中，第一转换单元510、提取单元520、确定单元530、第二转换单元540的具体处理可以参考图2对应实施例步骤201、步骤202、步骤203和步骤204的详细描述，在此不再赘述。

[0090] 在本实施例的一些可选实现方式中，第一转换单元510包括：切分子单元511，用于按照预设时间间隔将待处理音频切分为音频片段；待处理图片确定子单元512，用于将音频片段的声波图、频谱图或语谱图确定为待处理图片。

[0091] 在本实施例的一些可选实现方式中，提取单元520包括：输入子单元521，用于将待处理图片输入预先训练的卷积神经网络，卷积神经网络用于提取图像特征；内容特征确定子单元522，用于将卷积神经网络中至少一个卷积层输出的矩阵，作为待处理图片的内容特征。

[0092] 在本实施例的一些可选实现方式中，装置还包括：风格特征确定单元550，用于将模板图片输入预先训练的卷积神经网络，卷积神经网络用于提取图像特征；将卷积神经网络中至少一个卷积层输出的矩阵作为模板图片的风格特征。

[0093] 在本实施例的一些可选实现方式中，确定单元530进一步用于：将待处理图片的内容特征导入预设的风格迁移模型，获取风格迁移模型的输出作为目标图片。

[0094] 在本实施例的一些可选实现方式中，确定单元530包括：提取子单元531，用于提取初始目标图片的内容特征和风格特征；内容损失函数确定子单元532，用于根据待处理图片的内容特征，和初始目标图片的内容特征确定内容损失函数；风格损失函数确定子单元533，用于根据模板图片的风格特征，和初始目标图片的风格特征确定风格损失函数；总损失函数确定子单元534，用于根据内容损失函数和风格损失函数确定总损失函数；调整子单元535，用于根据总损失函数调整初始目标图片，得到目标图片。

[0095] 在本实施例的一些可选实现方式中，内容损失函数确定子单元532进一步用于：根据待处理图片的内容特征和初始目标图片的内容特征的均方差得到内容损失函数。

[0096] 在本实施例的一些可选实现方式中，风格损失函数确定子单元533进一步用于：根据模板图片的风格特征和初始目标图片的风格特征，分别确定模板图片的格拉姆矩阵和初始目标图片的格拉姆矩阵；根据模板图片的格拉姆矩阵和初始目标图片的格拉姆矩阵的均方差，确定风格损失函数。

[0097] 在本实施例的一些可选实现方式中，总损失函数确定子单元534进一步用于：根据加权后的内容损失函数和加权后的风格损失函数之和得到总损失函数。

[0098] 在本实施例的一些可选实现方式中，调整子单元535进一步用于：基于梯度下降法和总损失函数调整初始目标图片，使得总损失函数取得极小值；将总损失函数的极小值对应的调整后的图片作为目标图片。

[0099] 从图5中可以看出，本实施例中的音频处理方法的装置500在转换待处理音频为待处理图片的基础上，根据风格特征和待处理图片的内容特征确定目标图片，最后将目标图片转换为处理后的音频。由此，本实施例可以综合待处理音频转换的待处理图片的内容特征和模板音频转换的模板图片的风格特征，在不改变待处理音频的内容的同时，实现了处理后的音频带有模板音频风格的处理效果，提高了音频处理的效率和灵活性。

[0100] 下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。

[0101] 如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的

[0102] 程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

[0103] 以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口606。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

[0104] 特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。

[0105] 附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分，所述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

[0106] 描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括第一转换单元、提取单元、确定单元、第二转换单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一转换单元还可以被描述为“转换待处理音频为待处理图片的单元”。

[0107] 作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：转换待处理音频为待处理图片；提取待处理图片的内容特征；根据风格特征和待处理图片的内容特征确定目标图片，风格特征从模板音频转换成的模板图片中得到；将目标图片转换为处理后的音频。

[0108] 以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

基于人工智能的音频处理方法和装置转让专利

申请号 : CN201710031469.5

文献号 : CN106847294B

文献日 : 2018-11-30

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王知践

申请人 : 百度在线网络技术(北京)有限公司

摘要 :

权利要求 :

说明书 :