一种音乐匹配方法、装置、终端及存储介质转让专利

申请号 : CN201911128158.6

文献号 : CN110839173A

文献日 : 2020-02-25

本发明实施例公开了一种音乐匹配方法、装置、终端及存储介质。该方法包括：获取目标视频，以及，分别获取多个待匹配音乐的待匹配音频特征；提取出目标视频的视频视觉特征和原始音频特征，并根据视频视觉特征和原始音频特征生成目标视频特征；根据目标视频特征和多个待匹配音频特征间的匹配程度，从多个待匹配音频特征中筛选出至少一个已匹配音频特征，并将与已匹配音频特征对应的待匹配音乐作为已匹配音乐。本发明实施例的技术方案，在无需用户预先试听全部的背景音乐的情况下，可直接根据视频内容自动匹配出背景音乐，且客观的量化的匹配方式从多个待匹配音乐中筛选出真正适合于目标视频的背景音乐，由此提高了背景音乐的匹配效率和匹配效果。

1.一种音乐匹配方法，其特征在于，包括：

获取目标视频，以及，分别获取多个待匹配音乐的待匹配音频特征；

提取出所述目标视频的视频视觉特征和原始音频特征，并根据所述视频视觉特征和所述原始音频特征生成目标视频特征；

根据所述目标视频特征和多个所述待匹配音频特征间的匹配程度，从多个所述待匹配音频特征中筛选出至少一个已匹配音频特征，并将与所述已匹配音频特征对应的待匹配音乐作为已匹配音乐。

2.根据权利要求1所述的方法，其特征在于，所述提取出所述目标视频的视频视觉特征，包括：将所述目标视频输入至已训练完成的视频视觉提取模型，提取出所述目标视频的视频视觉特征，其中，所述视频视觉提取模型包括视频解析模块、第一卷积神经网络模块和循环神经网络模块，所述视频解析模块用于提取出所述目标视频中的目标视频数据并将所述目标视频数据解析为多帧目标图像。

3.根据权利要求2所述的方法，其特征在于，还包括：

获取历史视频和所述历史视频中的历史视频数据的第一历史分类结果，将所述历史视频和所述第一历史分类结果作为一组第一训练样本；

基于多个所述第一训练样本对第一原始神经网络模型进行训练，得到所述视频视觉提取模型，其中，所述第一原始神经网络模型包括所述视频解析模块、所述第一卷积神经网络模块、所述循环神经网络模块和第一分类模块，所述第一分类模块用于对所述循环神经网络模块输出的历史视觉特征进行处理，得到所述历史视觉特征的第一预测分类结果。

4.根据权利要求1所述的方法，其特征在于，所述提取出所述目标视频的原始音频特征，包括：将所述目标视频输入至已训练完成的音频特征提取模型，提取出所述目标视频的原始音频特征，其中，所述音频特征提取模型包括音频转换模块和第二卷积神经网络模块，所述音频转换模块用于提取出所述目标视频中的目标音频数据并将所述目标音频数据转换为声谱图。

5.根据权利要求4所述的方法，其特征在于，还包括：

获取历史音频和所述历史音频的第二历史分类结果，将所述历史音频和所述第二历史分类结果作为一组第二训练样本；

基于多个所述第二训练样本对第二原始神经网络模型进行训练，得到所述音频特征提取模型，其中，所述第二原始神经网络模型包括所述音频转换模块、所述第二卷积神经网络模块和第二分类模块，所述第二分类模块用于对所述第二卷积神经网络模块输出的历史音频特征进行处理，得到所述历史音频特征的第二预测分类结果。

6.根据权利要求1所述的方法，其特征在于，所述根据所述视频视觉特征和所述原始音频特征生成目标视频特征，包括：对视频视觉特征和原始音频特征进行拼接处理，得到目标拼接特征；

将目标拼接特征输入至已训练完成的多层感知机中，得到目标视频特征。

7.根据权利要求6所述的方法，其特征在于，还包括：

获取历史拼接特征和与所述历史拼接特征对应的待推荐音频特征，将所述历史拼接特征和所述待推荐音频特征作为一组第三训练样本，并基于多个所述第三训练样本对第三原始神经网络模型进行训练，得到所述多层感知机。

8.一种音乐匹配装置，其特征在于，包括：

获取模块，用于获取目标视频，以及，分别获取多个待匹配音乐的待匹配音频特征；

生成模块，用于提取出所述目标视频的视频视觉特征和原始音频特征，并根据所述视频视觉特征和所述原始音频特征生成目标视频特征；

匹配模块，用于根据所述目标视频特征和多个所述待匹配音频特征间的匹配程度，从多个所述待匹配音频特征中筛选出至少一个已匹配音频特征，并将与所述已匹配音频特征对应的待匹配音乐作为已匹配音乐。

9.一种终端，其特征在于，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的音乐匹配方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的音乐匹配方法。

一种音乐匹配方法、装置、终端及存储介质

技术领域

[0001] 本发明实施例涉及计算机应用技术领域，尤其涉及一种音乐匹配方法、装置、终端及存储介质。

背景技术

[0002] 目前，各种短视频应用已成为移动互联网中较为热门的应用类别，用户可以随时随地的拍摄短视频，并将其上传到互联网上来与其它用户一起分享。

[0003] 在短视频中，除视频主角的实际表演外，背景音乐也经常成为吸引用户观看短视频的一个重要因素。因此，若可以为短视频匹配上合适的背景音乐，则可以吸引更多的用户来观看短视频，由此提高短视频的播放量。

[0004] 针对于此，短视频制作软件多是会提供大量的背景音乐，以使视频制作者从这大量的背景音乐中人工选择出合适的背景音乐。但是，这种人工匹配背景音乐的实现方式的效率较低，且无法保证视频制作者的喜好能够被大众所喜欢，实际应用的效果不佳。

发明内容

[0005] 本发明实施例提供了一种音乐匹配方法、装置、终端及存储介质，以实现根据视频内容自动匹配出合适的背景音乐的效果。

[0006] 第一方面，本发明实施例提供了一种音乐匹配方法，可以包括：

[0007] 获取目标视频，以及，分别获取多个待匹配音乐的待匹配音频特征；

[0008] 提取出目标视频的视频视觉特征和原始音频特征，并根据视频视觉特征和原始音频特征生成目标视频特征；

[0009] 根据目标视频特征和多个待匹配音频特征间的匹配程度，从多个待匹配音频特征中筛选出至少一个已匹配音频特征，并将与已匹配音频特征对应的待匹配音乐作为已匹配音乐。

[0010] 可选的，提取出目标视频的视频视觉特征，可以包括：

[0011] 将目标视频输入至已训练完成的视频视觉提取模型，提取出目标视频的视频视觉特征，其中，视频视觉提取模型包括视频解析模块、第一卷积神经网络模块和循环神经网络模块，视频解析模块用于提取出目标视频中的目标视频数据并将目标视频数据解析为多帧目标图像。

[0012] 可选的，在上述方法的基础上，该方法还可包括：

[0013] 获取历史视频和历史视频中的历史视频数据的第一历史分类结果，将历史视频和第一历史分类结果作为一组第一训练样本；

[0014] 基于多个第一训练样本对第一原始神经网络模型进行训练，得到视频视觉提取模型，其中，第一原始神经网络模型包括视频解析模块、第一卷积神经网络模块、循环神经网络模块和第一分类模块，第一分类模块用于对循环神经网络模块输出的历史视觉特征进行处理，得到历史视觉特征的第一预测分类结果。

[0015] 可选的，提取出目标视频的原始音频特征，可以包括：

[0016] 将目标视频输入至已训练完成的音频特征提取模型，提取出目标视频的原始音频特征，其中，音频特征提取模型包括音频转换模块和第二卷积神经网络模块，音频转换模块用于提取出目标视频中的目标音频数据并将目标音频数据转换为声谱图。

[0017] 可选的，在上述方法的基础上，该方法还可包括：

[0018] 获取历史音频和历史音频的第二历史分类结果，将历史音频和第二历史分类结果作为一组第二训练样本；

[0019] 基于多个第二训练样本对第二原始神经网络模型进行训练，得到音频特征提取模型，其中，第二原始神经网络模型包括音频转换模块、第二卷积神经网络模块和第二分类模块，第二分类模块用于对第二卷积神经网络模块输出的历史音频特征进行处理，得到历史音频特征的第二预测分类结果。

[0020] 可选的，根据视频视觉特征和原始音频特征生成目标视频特征，可以包括：

[0021] 对视频视觉特征和原始音频特征进行拼接处理，得到目标拼接特征；

[0022] 将目标拼接特征输入至已训练完成的多层感知机中，得到目标视频特征。

[0023] 可选的，在上述方法的基础上，该方法还可包括：

[0024] 获取历史拼接特征和与历史拼接特征对应的待推荐音频特征，将历史拼接特征和待推荐音频特征作为一组第三训练样本，并基于多个第三训练样本对第三原始神经网络模型进行训练，得到多层感知机。

[0025] 第二方面，本发明实施例还提供了一种音乐匹配装置，该装置可以包括：

[0026] 获取模块，用于获取目标视频，以及，分别获取多个待匹配音乐的待匹配音频特征；

[0027] 生成模块，用于提取出目标视频的视频视觉特征和原始音频特征，并根据视频视觉特征和原始音频特征生成目标视频特征；

[0028] 匹配模块，用于根据目标视频特征和多个待匹配音频特征间的匹配程度，从多个待匹配音频特征中筛选出至少一个已匹配音频特征，并将与已匹配音频特征对应的待匹配音乐作为已匹配音乐。

[0029] 第三方面，本发明实施例还提供了一种终端，该终端可以包括：

[0030] 一个或多个处理器；

[0031] 存储器，用于存储一个或多个程序；

[0032] 当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本发明任意实施例所提供的音乐匹配方法。

[0033] 第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明任意实施例所提供的音乐匹配方法。

[0034] 本发明实施例的技术方案，针对可获取的目标视频，根据提取出的目标视频的视频视觉特征和原始音频特征，生成可以从整体上表征目标视频的语义信息的目标视频特征，视频视觉特征和原始音频特征的综合考虑可以更加全面的捕获目标视频中的语义信息，且目标视频特征的预先生成可以简化后续的特征匹配过程；在得到目标视频的量化处理结果后，结合可直接获取的待匹配音乐的量化处理结果，可以从多个待匹配音乐中筛选出至少一个已匹配音乐，该量化处理方式可以为任一应用场景精准且快速地匹配出背景音乐，应用范围较为广泛。上述技术方案，在无需用户预先试听全部的背景音乐素材的情况下，可以直接根据视频内容自动匹配出背景音乐，且客观的量化的匹配方式可以从多个待匹配音乐中筛选出真正适合于目标视频的背景音乐，由此显著提高了背景音乐的匹配效率和匹配效果。

附图说明

[0035] 图1是本发明实施例一中的一种音乐匹配方法的流程图；

[0036] 图2a是本发明实施例一中的视频视觉提取模型的结构示意图；

[0037] 图2b是本发明实施例一中的第一原始神经网络模型的结构示意图；

[0038] 图3a是本发明实施例一中的音频特征提取模型的结构示意图；

[0039] 图3b是本发明实施例一中的第二原始神经网络模型的结构示意图；

[0040] 图4是本发明实施例二中的一种音乐匹配方法的流程图；

[0041] 图5是本发明实施例二中的一种音乐匹配方法的特征拼接的示意图；

[0042] 图6是本发明实施例二中的一种音乐匹配方法的优选实施例图；

[0043] 图7是本发明实施例三中的一种音乐匹配装置的结构框图；

[0044] 图8是本发明实施例四中的一种终端的结构示意图。

具体实施方式

[0045] 下面结合附图和实施例对本发明作进一步详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

[0046] 实施例一

[0047] 图1是本发明实施例一中提供的一种音乐匹配方法的流程图。本实施例可适用于根据视频内容自动匹配背景音乐的情况。该方法可以由本发明实施例提供的音乐匹配装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在各种用户终端或服务器上。

[0048] 参见图1，本发明实施例的方法具体包括如下步骤：

[0049] S110、获取目标视频，以及，分别获取多个待匹配音乐的待匹配音频特征。

[0050] 其中，目标视频可以是已拍摄完成的视频，比如短视频、电视剧、电影、动画片等等，此时，本发明实施例的音乐匹配方法可以是为已拍摄完成的视频匹配背景音乐；目标视频可以是从现实环境中实时获取的视频，比如商场视频、晚会视频、话剧视频等等，此时，本发明实施例的音乐匹配方法可以是为现实环境匹配现场播放的背景音乐；当然，目标视频也可以是其余场景中涉及到的匹配背景音乐的视频，在此未做具体限定。

[0051] 多个待匹配音乐可以是背景音乐库中预先存储的音乐，每个待匹配音乐的待匹配音频特征也可以是从待匹配音乐中预先提取的已存储的音频特征，这样设置的好处在于，在对待匹配音乐进行一次处理得到待匹配音频特征后，针对每个目标视频，只需对目标视频进行处理后得到目标视频特征，无需再对待匹配音乐进行任何处理，即可实现目标视频特征和多个待匹配音频特征间的匹配处理，处理效率更高。

[0052] S120、提取出目标视频的视频视觉特征和原始音频特征，并根据视频视觉特征和原始音频特征生成目标视频特征。

[0053] 其中，每个目标视频可以包括目标视频数据和目标音频数据，当从目标视频数据中提取出视频视觉特征，且从目标音频数据中提取出原始音频特征后，可以根据视频视觉特征和原始音频特征生成目标视频特征，该目标视频特征可以是一个用于从整体上表征目标视频的语义信息的特征。

[0054] 需要说明的是，一方面，目标视频特征生成的好处在于，可以结合预先提取的已存储的待匹配音频特征，直接进行目标视频特征和多个待匹配音频特征间的匹配处理，无需再对视频视觉特征、原始音频特征与待匹配音频特征做进一步的合并处理或是其它处理，在匹配性能上有极大的提升。另一方面，相对于单纯参考目标视频的视频视觉特征，综合参考目标视频的视频视觉特征和原始音频特征，可以更加全面的捕获目标视频中的语义信息，这可以提高后续的音乐匹配的精确度。

[0055] 具体的，针对提取出目标视频的视频视觉特征，目标视频数据可以认为是由一帧一帧的目标图像按照时间顺序排列而得，则视频视觉特征的提取方案可能涉及到图像识别技术比如图像特征提取，也可能涉及到目标图像在时间序列上的变化解析。示例性的，可以基于方向梯度直方图(Histogram of Oriented Gradient，HOG)、尺度不变特征转换(Scale-invariant feature transform，，SIFT)、卷积神经网络等等识别图像，也可以基于隐马尔可夫模型(Hidden Markov Model，HMM)、循环神经网络如长短期记忆网络(Long Short-Term Memory,LSTM)等等解析目标图像在时间序列上的变化。

[0056] 类似的，提取出目标视频的原始音频特征，相当于提取出目标视频中的目标音频数据的原始音频特征，目标音频数据可以认为是由音调和时序构成，则原始音频特征的提取方案可以通过声谱图转换将目标音频数据转换为一个类似于目标图像的二维向量数据，在此基础上，再利用上述方案进行原始音频特征提取的操作。实际上，上述待匹配音乐的待匹配音频特征也可以基于类似方案预先提取得到，这样一来，针对每个目标视频，只需对目标视频进行处理后得到目标视频特征即可，无需再对待匹配音乐进行任何处理，效率更高。

[0057] 也就是说，在对目标视频中的目标视频数据进行视频取帧、图像特征提取、序列特征处理后，可以将目标视频数据处理成一段一维特征向量。类似的，在对目标视频中的目标音频数据进行信息转换、特征处理后，可以将目标音频数据也处理成一段一维特征向量。在此基础上，根据这两段一维特征向量可以生成目标视频特征，该目标视频特征是对目标视频的量化处理结果。

[0058] S130、根据目标视频特征和多个待匹配音频特征间的匹配程度，从多个待匹配音频特征中筛选出至少一个已匹配音频特征，并将与已匹配音频特征对应的待匹配音乐作为已匹配音乐。

[0059] 其中，上述步骤得到的目标视频特征可以从整体上表征目标视频的语义信息，在此基础上，根据目标视频特征和多个待匹配音频特征间的匹配程度，可以从多个待匹配音频特征中筛选出至少一个已匹配音频特征，该已匹配音频特征对应的已匹配音乐是与目标视频的匹配程度比较高的背景音乐。需要说明的是，目标视频特征和多个待匹配音频特征间的匹配过程可以理解为一个相似度的计算过程，比如，可以基于余弦相似度或者其他方式分别计算目标视频特征和每个待匹配音频特征间的相似度。

[0060] 在此基础上，若已匹配音乐的数量是一个，可以将该已匹配音乐直接推荐给用户作为目标视频的背景音乐；若已匹配音乐的数量是至少两个，可以将这至少两个已匹配音乐推荐给用户，以由用户从这至少两个已匹配音乐中筛选出可作为目标视频的背景音乐的已匹配音乐。

[0061] 本发明实施例的技术方案，针对可获取的目标视频，根据提取出的目标视频的视频视觉特征和原始音频特征，生成可以从整体上表征目标视频的语义信息的目标视频特征，视频视觉特征和原始音频特征的综合考虑可以更加全面的捕获目标视频中的语义信息，且目标视频特征的预先生成可以简化后续的特征匹配过程；在得到目标视频的量化处理结果后，结合可直接获取的待匹配音乐的量化处理结果，可以从多个待匹配音乐中筛选出至少一个已匹配音乐，该量化处理方式可以为任一应用场景精准且快速地匹配出背景音乐，应用范围较为广泛。上述技术方案，在无需用户预先试听全部的背景音乐素材的情况下，可以直接根据视频内容自动匹配出背景音乐，且客观的量化的匹配方式可以从多个待匹配音乐中筛选出真正适合于目标视频的背景音乐，由此显著提高了背景音乐的匹配效率和匹配效果。

[0062] 一种可选的技术方案，提取出目标视频的视频视觉特征，或是说，提取出目标视频中的目标视频数据的视频视觉特征，具体可以包括：将目标视频输入至已训练完成的视频视觉提取模型，提取出目标视频的视频视觉特征，其中，视频视觉提取模型可以包括视频解析模块、第一卷积神经网络模块和循环神经网络模块，该视频解析模块可以用于提取出目标视频中的目标视频数据并将目标视频数据解析为多帧目标图像。

[0063] 其中，目标视频数据可以认为是由一帧一帧的目标图像按照时间顺序排列而得，在对目标视频数据进行视频取帧、图像特征提取、序列特征处理等操作后，可以将目标视频数据处理成一段一维特征向量。因此，针对已训练完成的视频视觉提取模型，其可以包括用于将目标视频中的目标视频数据解析为多帧目标图像的视频解析模块、用于提取目标图像中的图像特征的第一卷积神经网络模块和用于对图像特征进行时序分析的循环神经网络模块。

[0064] 为了更好地理解上述视频视觉提取模型的具体工作过程，示例性的，参见图2a，针对已输入至视频视觉提取模型的目标视频，首先，将目标视频输入至视频解析模块以得到多帧目标图像，比如，目标图像1、目标图像2和目标图像3，该多帧目标图像以图像序列的形式呈现；其次，将序列化的每帧目标图像依次输入至同一个第一卷积神经网络(Convolutional Neural Network，CNN)模块，得到该目标图像的特征向量，比如，将目标图像1输入至第一CNN模块，得到特征向量1，将目标图像2输入至第一CNN模块，得到特征向量
2，将目标图像3输入至第一CNN模块，得到特征向量3；再次，按照时序关系将各个特征向量依次输入至循环神经网络(Recurrent Neural Network，RNN)模块，得到可以从整体上表征目标视频的语义信息的视频视觉特征，比如，将特征向量1输入至RNN模块以得到特征向量
11，将特征向量2和特征向量11一起输入至RNN模块以得到特征向量21，将特征向量3和特征向量21一起输入至RNN模块以得到视频视觉特征。也就是说，第一CNN模块和RNN模块均可复用，且RNN模块是时序性的可用于语义分析的模块，其可按照时序关系依次对每帧目标图像的语义进行分析，由此得到由多帧目标图像构成的目标视频的语义。

[0065] 在此基础上，可选的，上述视频视觉提取模型，可以通过如下步骤预先训练得到：获取历史视频和历史视频中的历史视频数据的第一历史分类结果，将历史视频和第一历史分类结果作为一组第一训练样本；基于多个第一训练样本对第一原始神经网络模型进行训练，得到视频视觉提取模型，其中，第一原始神经网络模型包括视频解析模块、第一卷积神经网络模块、循环神经网络模块和第一分类模块，第一分类模块用于对循环神经网络模块输出的历史视觉特征进行处理，得到历史视觉特征的第一预测分类结果。

[0066] 其中，如图2b所示，针对已输入至第一原始神经网络模型的历史视频，首先，在历史视频依次经过视频解析模块、第一CNN模块、RNN模块后，可以得到历史视觉特征；其次，为验证从历史视频中提取出的历史视觉特征的准确度，将历史视觉特征输入至第一分类模块以得到历史视觉特征的第一预测分类结果，该第一预测分类结果即为该历史视觉特征的分类标签；再次，将第一预测分类结果和历史视频中的历史视频数据的第一历史分类结果进行对比，由此验证该历史视觉特征的准确度。

[0067] 需要说明的是，1)第一分类模块可以是任意一种分类器，而且，由于第一分类模块的作用是验证历史视觉特征的准确度，则在模型训练结束后，第一分类模块无需保留在视频视觉提取模型中。2)第一分类模块的分类数量和分类内容的选择都会直接影响循环神经网络模块输出的历史视觉特征，比如，若第一预测分类结果是电视剧、电影、MV和纪录片，则历史视觉特征和视频类型的关联性较大；第一预测分类结果是开心、伤心和痛苦，则历史视觉特征和视频情绪的关联性较大。3)将第一预测分类结果作为分类标签的好处在于，第一预测分类结果的维度较低即数据量较少，训练速度较快；而且，第一预测分类结果是人工设置的分类标签，更符合人工的思维方式，准确度有所保证。

[0068] 一种可选的技术方案，提取出目标视频的原始音频特征，或是说，提取出目标视频中的目标音频数据的原始音频特征，具体可以包括：将目标视频输入至已训练完成的音频特征提取模型，提取出目标视频的原始音频特征，其中，音频特征提取模型包括音频转换模块和第二卷积神经网络模块，音频转换模块用于提取出目标视频中的目标音频数据并将目标音频数据转换为声谱图。

[0069] 其中，目标音频数据可以认为是由音调和时序构成的数据，在对目标音频数据进行信息转换、特征处理等操作后，可以将目标音频数据处理成一段一维特征向量。因此，针对已训练完成的音频特征提取模型，其可以包括用于将目标音频数据转换为声谱图的音频转换模块和用于提取声谱图中的图像特征的第二卷积神经网络模块，该声谱图是一个类似于目标图像的二维向量数据。

[0070] 为了更好地理解上述音频特征提取模型的具体工作过程，示例性的，参见图3a，针对已输入至音频特征提取模型的目标视频，首先，将目标视频输入至音频转换模块以得到声谱图，比如，基于傅里叶变换将目标视频中的目标音频数据转换为声谱图；其次，将声谱图输入至第二卷积神经网络模块，得到该声谱图的原始音频特征。

[0071] 在此基础上，可选的，上述音频特征提取模型，可以通过如下步骤预先训练得到：获取历史音频和历史音频的第二历史分类结果，将历史音频和第二历史分类结果作为一组第二训练样本；基于多个第二训练样本对第二原始神经网络模型进行训练，得到音频特征提取模型，其中，第二原始神经网络模型包括音频转换模块、第二卷积神经网络模块和第二分类模块，第二分类模块用于对第二卷积神经网络模块输出的历史音频特征进行处理，得到历史音频特征的第二预测分类结果。

[0072] 其中，如图3b所示，针对已输入至第二原始神经网络模型的历史音频，首先，若音频转换模块的输入数据已是音频数据，则音频转换模块仅需将输入数据转换为声谱图，否则，音频转换模块需先提取出输入数据中的音频数据再将音频数据转换为声谱图，比如，先提取历史视频中的历史音频数据再将历史音频数据转换为声谱图；其次，在声谱图经由第二CNN模块得到历史音频特征后，为验证从历史音频中提取出的历史音频特征的准确度，将历史音频特征输入至第二分类模块以得到历史音频特征的第二预测分类结果，该第二预测分类结果即为该历史音频特征的分类标签；再次，将第二预测分类结果和历史音频的第二历史分类结果进行对比，由此验证该历史视觉特征的准确度。

[0073] 需要说明的是，1)第二分类模块可以是任意一种分类器，而且，由于第二分类模块的作用是验证历史音频特征的准确度，则在模型训练结束后，第二分类模块无需保留在音频特征提取模型中。2)第二分类模块的分类数量和分类内容的选择都会直接影响第二卷积神经网络模块输出的历史音频特征，比如，若第二预测分类结果是英文、粤语和国语，则历史音频特征和音频语言类型的关联性较大；第二预测分类结果是开心、伤心和痛苦，则历史音频特征和音频情绪的关联性较大。3)将第二预测分类结果作为分类标签的好处在于，第二预测分类结果的维度较低即数据量较少，训练速度较快；而且，第二预测分类结果是人工设置的分类标签，更符合人工的思维方式，准确度有所保证。

[0074] 实施例二

[0075] 图4是本发明实施例二中提供的一种音乐匹配方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中，可选的，根据视频视觉特征和原始音频特征生成目标视频特征，具体可包括：对视频视觉特征和原始音频特征进行拼接处理，得到目标拼接特征；将目标拼接特征输入至已训练完成的多层感知机中，得到目标视频特征。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

[0076] 参见图4，本实施例的方法具体可以包括如下步骤：

[0077] S210、获取目标视频，以及，分别获取多个待匹配音乐的待匹配音频特征。

[0078] S220、提取出目标视频的视频视觉特征和原始音频特征，对视频视觉特征和原始音频特征进行拼接处理，得到目标拼接特征，并将目标拼接特征输入至已训练完成的多层感知机中，得到目标视频特征。

[0079] 其中，为了从整体上表征目标视频的语义信息，可以对视频视觉特征和原始音频特征进行拼接处理得到目标拼接特征，该目标拼接特征同时包括目标视频中的画面信息和语音信息，如图5所示。由上可知，目标拼接特征是视频视觉特征和原始音频特征拼接处理后的结果，则该目标拼接特征的向量长度必定大于原始音频特征的向量长度。

[0080] 考虑到后续需要根据目标视频特征(即，处理后的目标拼接特征)和多个待匹配音频特征间的匹配程度，从多个待匹配音频特征中筛选出至少一个已匹配音频特征，待匹配音频特征的向量长度和原始音频特征的向量长度相一致，那么，可以对目标拼接特征进行进一步处理，比如，可以将目标拼接特征输入至已训练完成的多层感知机中，得到目标视频特征，该目标视频特征的向量长度与待匹配音频特征的向量长度相一致，这样方便实现二者的相似度匹配。

[0081] 需要说明的是，上述多层感知机可以起到对拼接处理后的目标拼接特征进行降维，以输出匹配对应已匹配音频特征的目标视频特征的作用。因此，在此基础上，可选的，上述多层感知机，可以通过如下步骤预先训练得到：获取历史拼接特征和与历史拼接特征对应的待推荐音频特征，将历史拼接特征和待推荐音频特征作为一组第三训练样本，并基于多个第三训练样本对第三原始神经网络模型进行训练，得到多层感知机。

[0082] 其中，待推荐音频特征可以是人工选择的与历史视频匹配度最高的背景音乐的音频特征，历史拼接特征可以是由历史视觉特征和历史音频特征构成，该历史视觉特征和历史音频特征均是从历史视频中提取出来的。示例性的，以短视频为例，若可同时得到短视频中未经处理的历史视频和背景音乐，针对那些流行程度比较高的短视频，可从其未经处理的历史视频中提取出历史视觉特征和历史音频特征以得到历史拼接特征，并从其未经处理的背景音乐中提取出待推荐音频特征，由此作为正向的第三训练样本来对第三原始神经网络模型进行训练。类似的，针对那些流行程度比较低的短视频，可提取相应的特征向量作为反向的第三训练样本来对第三原始神经网络模型进行训练。这样一来，经过多层感知机处理后的目标视频特征与人工选择的待推荐特征的匹配程度较高。

[0083] S230、根据目标视频特征和多个待匹配音频特征间的匹配程度，从多个待匹配音频特征中筛选出至少一个已匹配音频特征，并将与已匹配音频特征对应的待匹配音乐作为已匹配音乐。

[0084] 本发明实施例的技术方案，通过对视频视觉特征和原始音频特征进行拼接处理，并将拼接处理后的目标拼接特征输入至已训练完成的多层感知机中，该多层感知机可以对目标拼接特征进行降维处理，且提高目标拼接特征和已匹配音频特征间的相似度，该已匹配音频特征是与目标视频匹配的已匹配音乐的音频特征，由此提高了自动获得的已匹配音乐的精准度。

[0085] 需要说明的是，上文所述的“第一”、“第二”和“第三”仅仅是用于区分各个名词概念，并非是对各个名词概念的具体限定。比如，以原始神经网络模型为例，“第一原始神经网络模型”、“第二原始神经网络模型”以及“第三原始神经网络模型”中的“第一”、“第二”以及“第三”仅仅是用于区分各个原始神经网络模型，并非对各原始神经网络模型的内容的具体限定。

[0086] 为了更好地理解上述步骤的具体实现过程，上述音乐匹配方法的具体实现过程可以如图6所示。示例性的，在视频视觉提取模型、音频特征提取模型和多层感知机训练完成后，可以将背景音乐库中的全部的待匹配音乐输入至音频特征提取模型中，分别获取每个待匹配音乐的待匹配音频特征，将这些待匹配音频特征以及待匹配音频特征和待匹配音乐间的对应关系存储起来。

[0087] 在实际应用中，针对每个目标视频，将目标视频分别输入至视频视觉提取模型和音频特征提取模型中，得到视频视觉特征和原始音频特征；对视频视觉特征和原始音频特征进行拼接处理得到目标拼接特征，并将目标拼接特征输入至多层感知机中，得到可以从整体上表征目标视频的语义信息的目标视频特征；将目标视频特征和已存储的多个待匹配应音频特征进行相似度计算以得到它们间的匹配程度，将匹配程度较高的几个待匹配应音频特征作为已匹配音频特征，并将这些已匹配音频特征对应的待匹配音乐作为已匹配音乐，这些已匹配音乐就是推荐给目标视频的背景音乐。因此，上述方法可为目标视频自动推荐与目标视频匹配的且受大众喜欢的背景音乐，由此提高了目标视频的受欢迎程度。

[0088] 实施例三

[0089] 图7为本发明实施例三提供的音乐匹配装置的结构框图，该装置用于执行上述任意实施例所提供的音乐匹配方法。该装置与上述各实施例的音乐匹配方法属于同一个发明构思，在音乐匹配装置的实施例中未详尽描述的细节内容，可以参考上述音乐匹配方法的实施例。参见图7，该装置具体可包括：获取模块310、生成模块320和匹配模块330。

[0090] 其中，获取模块310，用于获取目标视频，以及，分别获取多个待匹配音乐的待匹配音频特征；

[0091] 生成模块320，用于提取出目标视频的视频视觉特征和原始音频特征，并根据视频视觉特征和原始音频特征生成目标视频特征；

[0092] 匹配模块330，用于根据目标视频特征和多个待匹配音频特征间的匹配程度，从多个待匹配音频特征中筛选出至少一个已匹配音频特征，并将与已匹配音频特征对应的待匹配音乐作为已匹配音乐。

[0093] 可选的，生成模块320，具体可以包括：

[0094] 视频视觉特征提取单元，用于将目标视频输入至已训练完成的视频视觉提取模型，提取出目标视频的视频视觉特征，其中，视频视觉提取模型包括视频解析模块、第一卷积神经网络模块和循环神经网络模块，视频解析模块用于提取出目标视频中的目标视频数据并将目标视频数据解析为多帧目标图像。

[0095] 可选的，在上述装置的基础上，该装置还可包括：

[0096] 第一训练样本获取模块，用于获取历史视频和历史视频中的历史视频数据的第一历史分类结果，将历史视频和第一历史分类结果作为一组第一训练样本；

[0097] 视频视觉提取模型训练模块，用于基于多个第一训练样本对第一原始神经网络模型进行训练，得到视频视觉提取模型，其中，第一原始神经网络模型包括视频解析模块、第一卷积神经网络模块、循环神经网络模块和第一分类模块，第一分类模块用于对循环神经网络模块输出的历史视觉特征进行处理，得到历史视觉特征的第一预测分类结果。

[0098] 可选的，生成模块320，具体可以包括：

[0099] 原始音频特征提取单元，用于将目标视频输入至已训练完成的音频特征提取模型，提取出目标视频的原始音频特征，其中，音频特征提取模型包括音频转换模块和第二卷积神经网络模块，音频转换模块用于提取出目标视频中的目标音频数据并将目标音频数据转换为声谱图。

[0100] 可选的，在上述装置的基础上，该装置还可包括：

[0101] 第二训练样本获取模块，用于获取历史音频和历史音频的第二历史分类结果，将历史音频和第二历史分类结果作为一组第二训练样本；

[0102] 音频特征提取模型训练模块，用于基于多个第二训练样本对第二原始神经网络模型进行训练，得到音频特征提取模型，其中，第二原始神经网络模型包括音频转换模块、第二卷积神经网络模块和第二分类模块，第二分类模块用于对第二卷积神经网络模块输出的历史音频特征进行处理，得到历史音频特征的第二预测分类结果。

[0103] 可选的，生成模块320，可以包括：

[0104] 特征拼接单元，用于对视频视觉特征和原始音频特征进行拼接处理，得到目标拼接特征；

[0105] 特征生成单元，用于将目标拼接特征输入至已训练完成的多层感知机中，得到目标视频特征。

[0106] 可选的，在上述装置的基础上，该装置还可包括：

[0107] 多层感知机训练模块，用于获取历史拼接特征和与历史拼接特征对应的待推荐音频特征，将历史拼接特征和待推荐音频特征作为一组第三训练样本，并基于多个第三训练样本对第三原始神经网络模型进行训练，得到多层感知机。

[0108] 本发明实施例三提供的音乐匹配装置，通过获取模块和生成模块相互配合，针对可获取的目标视频，根据提取出的目标视频的视频视觉特征和原始音频特征，生成可以从整体上表征目标视频的语义信息的目标视频特征，视频视觉特征和原始音频特征的综合考虑可以更加全面的捕获目标视频中的语义信息，且目标视频特征的预先生成可以简化后续的特征匹配过程；匹配模块在得到目标视频的量化处理结果后，结合可直接获取的待匹配音乐的量化处理结果，可以从多个待匹配音乐中筛选出至少一个已匹配音乐，该量化处理方式可以为任一应用场景精准且快速地匹配出背景音乐，应用范围较为广泛。上述装置，在无需用户预先试听全部的背景音乐素材的情况下，可以直接根据视频内容自动匹配出背景音乐，且客观的量化的匹配方式可以从多个待匹配音乐中筛选出真正适合于目标视频的背景音乐，由此显著提高了背景音乐的匹配效率和匹配效果。

[0109] 本发明实施例所提供的音乐匹配装置可执行本发明任意实施例所提供的音乐匹配方法，具备执行方法相应的功能模块和有益效果。

[0110] 值得注意的是，上述音乐匹配装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

[0111] 实施例四

[0112] 图8为本发明实施例四提供的一种终端的结构示意图，如图8所示，该终端包括存储器410、处理器420、输入装置430和输出装置440。终端中的处理器420的数量可以是一个或多个，图8中以一个处理器420为例；终端中的存储器410、处理器420、输入装置430和输出装置440可以通过总线或其它方式连接，图8中以通过总线450连接为例。

[0113] 存储器410作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的音乐匹配方法对应的程序指令/模块(例如，音乐匹配装置中的获取模块310、生成模块320和匹配模块330)。处理器420通过运行存储在存储器410中的软件程序、指令以及模块，从而执行终端的各种功能应用以及数据处理，即实现上述的音乐匹配方法。

[0114] 存储器410可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器410可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器410可进一步包括相对于处理器420远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

[0115] 输入装置430可用于接收输入的数字或字符信息，以及产生与装置的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

[0116] 实施例五

[0117] 本发明实施例五提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种音乐匹配方法，该方法包括：

[0118] 获取目标视频，以及，分别获取多个待匹配音乐的待匹配音频特征；

[0119] 提取出目标视频的视频视觉特征和原始音频特征，并根据视频视觉特征和原始音频特征生成目标视频特征；

[0120] 根据目标视频特征和多个待匹配音频特征间的匹配程度，从多个待匹配音频特征中筛选出至少一个已匹配音频特征，并将与已匹配音频特征对应的待匹配音乐作为已匹配音乐。

[0121] 当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的音乐匹配方法中的相关操作。

[0122] 通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。依据这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

[0123] 注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

一种音乐匹配方法、装置、终端及存储介质转让专利

申请号 : CN201911128158.6

文献号 : CN110839173A

文献日 : 2020-02-25

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 潘一汉 , 金明 , 董慧智

申请人 : 上海极链网络科技有限公司

摘要 :

权利要求 :

说明书 :