一种基于视频多维特征智能推荐背景音乐的方法及系统转让专利

申请号 : CN201910917089.0

文献号 : CN110704682B

文献日 : 2022-03-18

本发明公开一种基于视频多维特征智能推荐背景音乐的方法，包括以下步骤：获取待配乐视频，提取所述待配乐视频的视频特征后进行标签化处理，输出所述待配乐视频的视频特征标签，按照预设的映射关系提取与所述视频特征标签所映射的音乐风格作为推荐风格；计算各视频特征标签的权重，根据所述推荐风格从预设的音乐素材库中提取背景音乐，并将所提取的背景音乐按照相对应的权重进行排列，生成背景音乐推荐列表。本发明基于待配乐视频的视频特征标签为用户推荐背景音乐，使用户无需从音乐素材库自行挑选背景音乐，提高工作效率。

1.一种基于视频多维特征智能推荐背景音乐的方法，其特征在于，包括以下步骤：获取待配乐视频，提取所述待配乐视频的视频特征后进行标签化处理，输出所述待配乐视频的视频特征标签，按照预设的映射关系提取与所述视频特征标签所映射的音乐风格作为推荐风格，所述视频特征包括图像特征、声纹特征和/或文本特征；

计算各视频特征标签的权重，根据所述推荐风格从预设的音乐素材库中提取背景音乐，并将所提取的背景音乐按照相对应的权重进行排列，生成背景音乐推荐列表；

计算各视频特征标签的权重的具体步骤为：获取各视频特征标签的准确率、获取各视频特征标签对应的视频特征在待配乐视频中时长的占比、获取各视频特征标签对应推荐风格的重合度，计算各视频特征标签的准确率、占比和重合度的乘积作为所述视频特征标签的权重，其中准确率为识别视频特征标签的识别算法的准确率。

2.根据权利要求1所述的一种基于视频多维特征智能推荐背景音乐的方法，其特征在于，获取各视频特征标签对应推荐风格的重合度的具体步骤为：统计所有推荐风格，获得推荐风格的类别数量以及各推荐风格被推荐的次数；

将视频特征标签对应的推荐风格的被推荐次数进行加运算，获得被推荐总次数，计算被推荐总次数占所述推荐风格类别数量的比例作为重合度。

3.根据权利要求1或2所述的一种基于视频多维特征智能推荐背景音乐的方法，其特征在于，获取待配乐视频，提取所述待配乐视频的视频特征后进行标签化处理，输出所述待配乐视频的视频特征标签后还包括标签剔除步骤，具体步骤为：获取视频特征标签的准确率，将所述准确率与预设的准确率阈值相比较，当所述准确率小于预设的准确率阈值时，剔除相对应的视频特征标签。

4.根据权利要求1或2所述的一种基于视频多维特征智能推荐背景音乐的方法，其特征在于，所述获取待配乐视频，提取所述待配乐视频的视频特征后进行标签化处理，输出所述待配乐视频的视频特征标签的具体步骤为：获取待配乐视频，将所述待配乐视频进行分解，获得图像特征、声纹特征和/或文本特征；

标签化处理所述图像特征，输出与图像特征相对应的背景色标签、人脸标签和/或物体标签；

标签化处理所述声纹特征，输出与声纹特征相对应的声音标签；

标签化处理所述文本特征，输出与文本特征相对应的突发事件标签和/或情感类型标签。

5.一种基于视频多维特征智能推荐背景音乐的系统，其特征在于，包括：特征处理模块，用于获取待配乐视频，提取所述待配乐视频的视频特征后进行标签化处理，输出所述待配乐视频的视频特征标签，所述视频特征包括图像特征、声纹特征和/或文本特征；

风格推荐模块，用于按照预设的映射关系提取与所述视频特征标签所映射的音乐风格作为推荐风格；

权重计算模块，用于计算各视频特征标签的权重；

音乐推荐模块，用于根据所述推荐风格从预设的音乐素材库中提取背景音乐，并将所提取的背景音乐按照相对应的权重进行排列，生成背景音乐推荐列表；

所述权重计算模块，用于获取各视频特征标签的准确率、获取各视频特征标签对应的视频特征在待配乐视频中时长的占比、获取各视频特征标签对应推荐风格的重合度，计算各视频特征标签的准确率、占比和重合度的乘积作为所述视频特征标签的权重，其中准确率为识别视频特征标签的识别算法的准确率。

6.根据权利要求5所述的一种基于视频多维特征智能推荐背景音乐的系统，其特征在于，所述权重计算模块包括准确率计算单元、占比计算单元、重合度计算单元和权重计算单元；

所述重合度计算单元被配置为：

统计所有推荐风格，获得推荐风格的类别数量以及各推荐风格被推荐的次数；

将视频特征标签对应的推荐风格的被推荐次数进行加运算，获得被推荐总次数，计算被推荐总次数占所述推荐风格类别数量的比例作为重合度。

7.根据权利要求5或6所述的一种基于视频多维特征智能推荐背景音乐的系统，其特征在于，特征处理模块包括特征提取单元、标签处理单元和标签剔除单元；

所述标签剔除单元被配置为：

获取视频特征标签的准确率，将所述准确率与预设的准确率阈值相比较，当所述准确率小于预设的准确率阈值时，剔除相对应的视频特征标签。

8.根据权利要求5或6所述的一种基于视频多维特征智能推荐背景音乐的系统，其特征在于：

所以特征处理模块包括特征提取单元和标签处理单元；

所述特征提取单元，用于获取待配乐视频，将所述待配乐视频进行分解，获得图像特征、声纹特征和/或文本特征；

所述标签处理单元被配置为：

标签化处理所述图像特征，输出与图像特征相对应的背景色标签、人脸标签和/或物体标签；

标签化处理所述声纹特征，输出与声纹特征相对应的声音标签；

标签化处理所述文本特征，输出与文本特征相对应的突发事件标签和/或情感类型标签。

一种基于视频多维特征智能推荐背景音乐的方法及系统

技术领域

[0001] 本发明涉及视频生成技术领域，尤其涉及一种基于视频多维特征智能推荐背景音乐的方法及系统。

背景技术

[0002] 现今在制作视频时会为视频添加背景音乐，而添加背景音乐的工作往往需要用户自主选择，从所提供的音乐库中挑选出合适的背景音乐，此时用户需要耗费大量时间，工作
效率低。用户还通过随机选择的方式挑选背景音乐，但随机挑选的背景音乐往往与视频不
适配，影响观看者感官。

[0003] 综上，需要对现有技术做进一步改进。

发明内容

[0004] 本发明针对现有技术中的缺点，提供了一种基于视频多维特征智能推荐背景音乐的方法及系统。

[0005] 为了解决上述技术问题，本发明通过下述技术方案得以解决：

[0006] 一种基于视频多维特征智能推荐背景音乐的方法，包括以下步骤：

[0007] 获取待配乐视频，提取所述待配乐视频的视频特征后进行标签化处理，输出所述待配乐视频的视频特征标签，按照预设的映射关系提取与所述视频特征标签所映射的音乐
风格作为推荐风格，所述视频特征包括图像特征、声纹特征和/或文本特征；

[0008] 计算各视频特征标签的权重，根据所述推荐风格从预设的音乐素材库中提取背景音乐，并将所提取的背景音乐按照相对应的权重进行排列，生成背景音乐推荐列表。

[0009] 作为一种可实施方式，计算各视频特征标签的权重的具体步骤为：

[0010] 获取各视频特征标签的准确率、获取各视频特征标签对应的视频特征在待配乐视频中时长的占比、获取各视频特征标签对应推荐风格的重合度，计算各视频特征标签的准
确率、占比和重合度的乘积作为所述视频特征标签的权重。

[0011] 作为一种可实施方式，获取各视频特征标签对应推荐风格的重合度的具体步骤为：

[0012] 统计所有推荐风格，获得推荐风格的类别数量以及各推荐风格被推荐的次数；

[0013] 将视频特征标签对应的推荐风格的被推荐次数进行加运算，获得被推荐总次数，计算被推荐总次数占所述推荐风格类别数量的比例作为重合度。

[0014] 作为一种可实施方式，获取待配乐视频，提取所述待配乐视频的视频特征后进行标签化处理，输出所述待配乐视频的视频特征标签后还包括标签剔除步骤，具体步骤为：

[0015] 获取视频特征标签的准确率，将所述准确率与预设的准确率阈值相比较，当所述准确率小于预设的准确率阈值时，剔除相对应的视频特征标签。

[0016] 作为一种可实施方式，所述获取待配乐视频，提取所述待配乐视频的视频特征后进行标签化处理，输出所述待配乐视频的视频特征标签的具体步骤为：

[0017] 获取待配乐视频，将所述待配乐视频进行分解，获得图像特征、声纹特征和/或文本特征；

[0018] 标签化处理所述图像特征，输出与图像特征相对应的背景色标签、人脸标签和/或物体标签；

[0019] 标签化处理所述声纹特征，输出与声纹特征相对应的声音标签；

[0020] 标签化处理所述文本特征，输出与文本特征相对应的突发事件标签和/或情感类型标签。

[0021] 本发明还提出一种基于视频多维特征智能推荐背景音乐的系统，包括：

[0022] 特征处理模块，用于获取待配乐视频，提取所述待配乐视频的视频特征后进行标签化处理，输出所述待配乐视频的视频特征标签，所述视频特征包括图像特征、声纹特征
和/或文本特征；

[0023] 风格推荐模块，用于按照预设的映射关系提取与所述视频特征标签所映射的音乐风格作为推荐风格；

[0024] 权重计算模块，用于计算各视频特征标签的权重；

[0025] 音乐推荐模块，用于根据所述推荐风格从预设的音乐素材库中提取背景音乐，并将所提取的背景音乐按照相对应的权重进行排列，生成背景音乐推荐列表。

[0026] 作为一种可实施方式，其特征在于：

[0027] 所述权重计算模块，用于获取各视频特征标签的准确率、获取各视频特征标签对应的视频特征在待配乐视频中时长的占比、获取各视频特征标签对应推荐风格的重合度，
计算各视频特征标签的准确率、占比和重合度的乘积作为所述视频特征标签的权重。

[0028] 作为一种可实施方式，其特征在于，所述权重计算模块包括准确率计算单元、占比计算单元、重合度计算单元和权重计算单元；

[0029] 所述重合度计算单元被配置为：

[0030] 统计所有推荐风格，获得推荐风格的类别数量以及各推荐风格被推荐的次数；

[0031] 将视频特征标签对应的推荐风格的被推荐次数进行加运算，获得被推荐总次数，计算被推荐总次数占所述推荐风格类别数量的比例作为重合度。

[0032] 作为一种可实施方式，特征处理模块包括特征提取单元、标签处理单元和标签剔除单元；

[0033] 所述标签剔除单元被配置为：

[0034] 获取视频特征标签的准确率，将所述准确率与预设的准确率阈值相比较，当所述准确率小于预设的准确率阈值时，剔除相对应的视频特征标签。

[0035] 作为一种可实施方式：

[0036] 所以特征处理模块包括特征提取单元和标签处理单元；

[0037] 所述特征提取单元，用于获取待配乐视频，将所述待配乐视频进行分解，获得图像特征、声纹特征和/或文本特征；

[0038] 所述标签处理单元被配置为：

[0039] 标签化处理所述图像特征，输出与图像特征相对应的背景色标签、人脸标签和/或物体标签；

[0040] 标签化处理所述声纹特征，输出与声纹特征相对应的声音标签；

[0041] 标签化处理所述文本特征，输出与文本特征相对应的突发事件标签和/或情感类型标签。

[0042] 本发明由于采用了以上技术方案，具有显著的技术效果：

[0043] 1、本发明获取待配乐视频的视频特征标签，并基于视频特征标签与音乐风格之间的映射关系获取推荐风格，此时按照推荐风格提取的背景音乐推荐给用户，此时用户仅需
从背景音乐推荐列表中挑选背景音乐，与现有技术在整个音乐素材库中挑选背景音乐相
比，能够减少用户的工作量，提高工作效率；且本发明的视频特征包括图像特征、声纹特征
和/或文本特征，即仅有图像、仅有字幕、仅有音频的视频，本发明仍能实现背景音乐的推
荐。

[0044] 2、本发明结合视频特征标签的准确率、视频特征标签对应的视频特征在待配乐视频中时长的占比、视频特征标签对应推荐风格的重合度进行权重计算，不仅考虑到输出的
各视频特征标签的准确率和相应视频特征在整个待配乐视频中的占比，还考虑所有视频特
征标签对应推荐风格，使权重能够反映相应视频特征标签与待配乐视频的匹配度。

[0045] 3、本发明通过设置准确率阈值，剔除准确率小于预设的准确率阈值的视频特征标签，有效避免因输出的视频特征标签错误导致推荐的背景音乐与待配乐视频不适配的情
况。

附图说明

[0046] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本
发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可
以根据这些附图获得其他的附图。

[0047] 图1是本发明一种基于视频多维特征智能推荐背景音乐的方法的流程示意图；

[0048] 图2是为待配乐视频推荐背景音乐的流程示意图；

[0049] 图3是实施例1中突发事件识别的流程示意图；

[0050] 图4是本发明一种基于视频多维特征智能推荐背景音乐的系统的模块连接示意图；

[0051] 图5是实施例1中特征处理模块200的模块连接示意图；

[0052] 图6是实施例1中权重计算模块400的模块连接示意图；

[0053] 图7是实施例2中特征处理模块200的模块连接示意图。

[0054] 图中，100是构建模块、200是特征处理模块、210是特征提取单元、220是标签处理单元、230是标签剔除单元、300是风格推荐模块、400是权重计算模块、410是准确率计算单
元、420是占比计算单元、430是重合度计算单元、440是权重计算单元、500是音乐推荐模块。

具体实施方式

[0055] 下面结合实施例对本发明做进一步地详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

[0056] 实施例1、一种基于视频多维特征智能推荐背景音乐的方法，如图1所示，包括以下步骤：

[0057] S100、获取待配乐视频，提取所述待配乐视频的视频特征后进行标签化处理，输出所述待配乐视频的视频特征标签，按照预设的映射关系提取与所述视频特征标签所映射的
音乐风格作为推荐风格，所述视频特征包括图像特征、声纹特征和/或文本特征；

[0058] S200、计算各视频特征标签的权重，根据所述推荐风格从预设的音乐素材库中提取背景音乐，并将所提取的背景音乐按照相对应的权重进行排列，生成背景音乐推荐列表。

[0059] 上述预设的音乐素材库为按照音乐风格进行分类的音乐素材库，本实施例中收集背景音乐，基于音乐风格将所述背景音乐进行分类，建立音乐素材库；

[0060] 本实施例中还收集视频特征标签，建立标签数据库；令所述视频特征标签与音乐风格相映射，获得映射关系。

[0061] 上述收集背景音乐，基于音乐风格将所述背景音乐进行分类，建立音乐素材库为现有技术，故不在本实施例中进行详细介绍，相关领域的技术人员也能根据其需要建立相
应的音乐素材库。

[0062] 所述视频特征标签与音乐风格相映射，相关领域的技术人员可根据其设定音乐风格和收集的视频特征标签按照实际需要进行映射，故映射关系无需限定，可根据实际需要
自由编辑。

[0063] 如图2所示，本实施例中音乐风格至少包含运动类、新闻类、时尚类、欢快类、悲伤类、突发事件类、正向情感类。

[0064] 注，每个视频特征标签有至少一类音乐风格与其相映射。

[0065] 上述步骤S100具体包括以下步骤：

[0066] S110、获取待配乐视频，将所述待配乐视频进行分解，获得图像特征、声纹特征和/或文本特征；

[0067] 由上可知，本实施例中基于视频的多维度特征(图像、声纹、语音文本、字幕文本)，进行背景音乐的推荐，如视频为于黑屏背景上显示字幕的视频，此时仍可根据字幕文本推
荐背景音乐。

[0068] 其具体包括以下步骤：

[0069] S111、图像特征和声纹特征的提取；

[0070] 将所述待配乐视频进行分解，以实现音画分离，获得待配乐视频中的图像和音频，以所述图像作为图像特征，以所述音频作为声纹特征。

[0071] 本实施例中采用现有开源计算机程序FFmpeg的多输出模式方法以实现音画分离。

[0072] S112、文本特征的提取；

[0073] 对步骤S111所得图像特征进行字幕识别，提取识别获得字幕文本作为文本特征，本实施例采用现有的阿里云的图像识别OCR技术对所述图像特征进行字幕识别。

[0074] 对步骤S111所得声纹特征进行语音转文字识别，提取识别获得语音文本作为文本特征，本实施例采用现有的阿里云的语音转文本idst技术对所述图像特征进行语音转文字
识别。

[0075] 即，文本特征包括字幕文本和/或语音文本。

[0076] S120、标签化处理所述图像特征，输出与图像特征相对应的背景色标签、人脸标签和/或物体标签，包括以下步骤：

[0077] S121、背景色比例识别：

[0078] 将所述图像特征进行背景色比例识别，输出背景色比例最大的色调作为背景色标签；本实施例采用现有的图像主题色提取的颜色量化算法对所述图像特征进行背景色比例
识别；

[0079] 本实施例中色调包括冷色调和暖色调。

[0080] S122、特定人脸库识别：

[0081] 将所述图像特征进行特定人脸库识别，输出人脸识别结果作为人脸标签；本实施例中特定人脸识别指公众人物，采用的是现有的百度人脸检测技术，如图像特征中包含公
众人物，则输出对应公众人物的名称作为人脸标签。

[0082] S123、物体识别：

[0083] 将所述图像特征进行物体识别，输出相应的物体识别结果作为物体标签；

[0084] 本实施例中主要针对特殊车辆、特殊职业、特定体育器材进行识别(即图2中特殊车辆特殊执业人员识别和特定体育器材识别)，相关领域的技术人员可根据实际需要对其
他特定物体进行识别。

[0085] 本实施例中基于现有yolo神经网络构建识别模型，将所述图像特征输入所述识别模型中，所述识别模型输出检测到的物体的类别作为物体标签，所述识别模型的训练方法
如下：

[0086] 收集训练数据：利用爬虫技术根据预设的关键词采集相应图像，本实施例中预设的关键词，如消防车、救护车、单杠等。

[0087] 通过人工对上述爬取获得的图像中相应物体/人物进行检测框标注，标注出图像中相应物体/人物对应的位置以及其类别(如消防车、救护车、单杠、警察、消防员)获得样本
数据；

[0088] 将所述样本数据按照6：4的比例随机分为训练集和测试集，利用训练集中的样本数据对yolo神经网络进行训练，获得识别模型，利用测试集中的样本数据对训练获得的识
别模型进行测试，本实施例中测试获得准确率高于85％时输出识别模型，本实施例中识别
模型的准确率为90％。

[0089] S130、标签化处理所述声纹特征，输出与声纹特征相对应的声音标签，包括以下步骤：

[0090] 将所述声纹特征进行声纹识别(如图2中掌声识别、笑声识别和哭声识别)，输出相应的声纹识别结果作为声音标签；

[0091] 本实施例中通过开源音频数据goole AudioSet的数据集提取所需类别的声音数据，如掌声、笑声和哭声，利用现有音频分类的深度学习中7层CNN算法模型作为声音识别模
型进行识别，即，声纹特征输入所述声音识别模型，由声音识别模型输出相应的声音分类结
果(如掌声、笑声和哭声)作为声音标签。

[0092] S140、标签化处理所述文本特征，输出与文本特征相对应的突发事件标签和/或情感类型标签，包括以下步骤：

[0093] S141、突发事件识别；

[0094] 建立条件规则和突发事件词库，所述突发事件词库包括指明突发关键词，此时根据条件规则判断文本特征的开头(本实施例中指各文本特征的前20个字符)中是否包含指
明突发关键词，当包含则判断该文本特征属于突发事件，输出突发事件标签。

[0095] 所述指明突发关键词可根据实际需要自行设定，无需对其进行限定，如为新闻视频进行配乐的用户可设置指明突发关键词为“紧急插播”，此时分别识别各文本特征的前20
个字符是否存在“紧急插播”，如存在则判定其属于突发事件，输出突发事件标签。

[0096] 为提高突发事件识别的准确率，本实施例的突发事件词库包括指明突发关键词、突发事件要素词、动词触发词、无效词、预计词和历史时间词，其中突发关键词包括若干突
发的社会灾害和自然灾害，所述社会灾害如车祸、火灾、爆炸和恐怖袭击等，所述自然灾害
如暴雨、地震、台风等，相关领域的技术人员可根据实际需要自行添加相关突发事件词汇于
突发事件词库中。

[0097] 参考图3，按照以下条件规则依次进行突发事件识别步骤：

[0098] (1)、判定文本特征是否以“指明该事件为突发的关键词”开头，即文本特征开头(前20个字符)是否包含指明突发关键词(如紧急插播)，当判定为是时则直接判定该文本特
征属于突发事件，输出突发事件标签，否则继续进行步骤(2)；

[0099] (2)、判定文本特征是否包含突发事件要素词，当判定为否时直接判定该文本特征不属于突发事件，否则继续进行步骤(3)；

[0100] (3)、判定文本特征是否包含动词触发词，所述动词触发词可根据实际情况自行设置，如“发生”、“突发”等，当判定为是时进行步骤(4)，否则进行步骤(5)；

[0101] (4)、判定所述动词触发词是否在所述突发事件要素词之前，当判定为是时进行步骤(5)，否则判定该文本特征不属于突发事件。

[0102] (5)、判定文本特征是否包含无效词，所述无效词可根据实际情况自行设置，如“无”、“不”等，当判定为是时判定该文本特征不属于突发事件，否则进行步骤(6)，如文本特
征含“不再出现因酒驾发生的车祸”，此时即可判定其不属于突发事件。

[0103] (6)、判定所述突发事件要素词之前是否出现预计词，所述预计词可根据实际情况自行设置，如“预计”、“预期”等，当判定为是时判定该文本特征不属于突发事件，否则进行
步骤(7)，如文本特征含“预计因酒驾发生的车祸将会减少”，此时即可判定其不属于突发事
件。

[0104] (7)、判定文本特征是否包含历史时间词，所述历史时间词可根据实际情况自行设置，如“昨天”、“前天”等，当判定为是时判定该文本特征不属于突发事件，否则判定为属于
突发时间，输出突发事件标签，如文本特征含“昨日本市因酒驾发生的一起车祸”，此时即可
判定其不属于突发事件。

[0105] S142、情感类型识别；

[0106] 对所述文本特征进行情感类型识别，输出相应的识别结果作为情感类型标签，本实施例中情感类型包括正向情感和负向情感。

[0107] 本实施例中采用现有的百度情感倾向分析工具进行情感类型识别。

[0108] 注，上述步骤S120～S140中所有输出的标签均为视频特征标签，所述步骤S100中建立的标签数据库包含上述所有可输出的标签。

[0109] 由上可知，本实施例通过对待配乐视频的视频特征进行标签化处理，输出相对应的视频特征标签，此时即可根据预设的映射关系获得相对应的音乐风格，从而获取与待配
乐视频相适配的音乐风格；且由于所述视频特征包括图像特征、声纹特征和/或文本特征，
即仅有图像、仅有字幕、仅有音频的视频，仍能进行背景音乐的推荐，如，于黑屏背景显示字
幕的视频，此时仅针对作为文本特征的字幕文本所对应的视频特征标签推荐背景音乐。

[0110] 上述步骤S200具体包括以下步骤：

[0111] S210、计算各视频特征标签的权重(即图2中权重加权步骤)，由于每个视频特征标签的权重计算方式相同，故本实施仅针对一个视频特征标签的权重计算方式进行详细介
绍，具体计算步骤如下：

[0112] 获取所述视频特征标签的准确率、所述视频特征标签所对应的视频特征在待配乐视频中时长的占比、所述视频特征标签对应推荐风格的重合度，计算各视频特征标签的准
确率、占比和重合度的乘积作为所述视频特征标签的权重。

[0113] S211、准确率计算：

[0114] 本实施例中准确率采用识别获得所述视频特征标签的准确率，如视频特征标签为哭声，所述步骤S130中的声音识别模型识别哭声的准确率为90％，则此时作为哭声的视频
特征标签的准确率即为90％。

[0115] 注：每个识别算法均会反馈准确率和召回率，故可直接提取识别视频特征标签的识别算法的准确率。

[0116] S212、占比计算：

[0117] 本实施例中占比为所述视频特征标签对应的视频特征的时差于所述待配乐视频总时长的占比，如所述哭声对应的声纹特征的时长为5s，视频总时长为20s，则此时占比为
哭声时长/视频总时长＝5/20s＝25％。

[0118] S213、重合度计算：

[0119] 统计所有推荐风格，获得推荐风格的类别数量以及各推荐风格被推荐的次数；

[0120] 将视频特征标签对应的推荐风格的被推荐次数进行加运算，获得被推荐总次数，计算被推荐总次数占所述推荐风格类别数量的比例作为重合度。

[0121] 如视频特征标签为哭声，提取与其相映射的音乐风格作为推荐音乐，本实施例中与哭声相映射的音乐风格为悲伤类。统计待配乐音乐所有视频特征标签所映射的音乐风
格，即，统计所有推荐风格，如推荐风格为悲伤类和抒情类，即类别数量为2，且悲伤类被推
荐次数为2次，此时哭声所对应的视频特征标签的重合度为2/2＝1。

[0122] S214、权重计算；

[0123] 所述视频特征标签的权重即为其准确率、占比和重合度的乘积，如视频特征标签为哭声，根据步骤S211～S213可知其准确率为90％，占比为25％，重合度为1，则其权重为
90％*25％*100％＝22.5％。

[0124] 由上可知，本实施例结合准确率、占比和重合度进行权重计算，不仅考虑到输出的各视频特征标签的准确率和相应视频特征在整个待配乐视频中的占比，还考虑所有视频特
征标签对应推荐风格，使权重能够反映相应视频特征标签与待配乐视频的匹配度。

[0125] S220、根据所述推荐风格从预设的音乐素材库中提取背景音乐，并将所提取的背景音乐按照相对应的权重进行排列，生成背景音乐推荐列表(即图2中所给出的算法推荐音
乐列表)。

[0126] 由于每个视频特征标签都有一个与其相对应的权重，此时按照权重从大到小对各视频特征标签进行排序，之后按照排序顺序依次从音乐素材库中随机抽取与相应推荐风格
的背景音乐，最后根据所抽取的背景音乐生成背景音乐推荐列表反馈给用户，背景音乐的
排序和与其相对应的视频特征标签的排序一致。

[0127] 注，相关领域的技术人员可根据实际需要设置每个视频特征标签所抽取的背景音乐的数量(如上述从音乐素材库中随机抽取2首悲伤类的背景音乐)，还可根据实际需要设
置背景音乐推荐列表的长度(如背景音乐推荐列表中的背景音乐不超过10首，此时仅推荐
权重排在前10的视频特征标签所对应的背景音乐)。

[0128] 当不同视频特征标签所映射的音乐风格出现重合时，即，推荐风格出现重合，则从音乐素材库中抽取背景音乐时，排除已被抽取的背景音乐。

[0129] 如带配乐视频的视频特征标签包含声音标签(哭声)和背景色标签(冷色调)，与所述声音标签相映射的音乐风格为悲伤类，与所述背景色标签相映射的音乐风格为悲伤类和
抒情类；

[0130] 所述声音标签对应的准确率为90％，占比为25％，重合度为1，则其权重为22.5％。

[0131] 所述背景色标签对应的准确率为85％，占比为50％，重合度为1.5(悲伤类被和抒情类被推荐的次数的和/推荐风格类别数量＝3/2＝1.5)，则其权重为63.72％。

[0132] 此时视频特征标签的排列顺序为背景色标签、声音标签，故先从音乐素材库中随机抽取一首悲伤类或抒情类(与背景色标签相对应)的背景音乐A，再从音乐素材库中随机
抽取一首悲伤类(与声音标签相对应)的背景音乐B，向用户反馈含背景音乐A和背景音乐B
的背景音乐推荐列表，且背景音乐A位于首位。

[0133] 注，如背景音乐A属于悲伤类，则需在抽取背景音乐B时需排除背景音乐A。

[0134] 实施例2、与实施例1中增加标签剔除步骤，其余均等同与实施例1，具体为：

[0135] 于步骤S120至S140获取相对应的视频特征标签后，获取各视频特征标签的准确率，将所述准确率与预设的准确率阈值相比较，当所述准确率小于预设的准确率阈值时，剔
除相对应的视频特征标签。

[0136] 相关领域的技术人员可根据实际需要自行设定预设的准确率阈值，本实施例中准确率阈值为40％，即，当视频特征标签的准确率低于40％时，不对所述视频特征标签进行权
重计算也不推荐所述视频特征标签相映射的音乐风格的背景音乐。

[0137] 实施例3、一种基于视频多维特征智能推荐背景音乐的系统，如图4所示，包括构建模块100、特征处理模块200、风格推荐模块300、权重计算模块400和音乐推荐模块500；

[0138] 构建模块100，用于收集背景音乐，基于音乐风格将所述背景音乐进行分类，建立音乐素材库；还用于收集视频特征标签，建立标签数据库；还用于所述视频特征标签与音乐
风格相映射，获得映射关系；

[0139] 特征处理模块200，用于获取待配乐视频，提取所述待配乐视频的视频特征后进行标签化处理，输出所述待配乐视频的视频特征标签，所述视频特征包括图像特征、声纹特征
和/或文本特征；

[0140] 所以特征处理模块200包括特征提取单元210和标签处理单元220；

[0141] 所述特征提取单元210，用于获取待配乐视频，将所述待配乐视频进行分解，获得图像特征、声纹特征和/或文本特征；

[0142] 所述标签处理单元220被配置为：

[0143] 标签化处理所述图像特征，输出与图像特征相对应的背景色标签、人脸标签和/或物体标签；

[0144] 标签化处理所述声纹特征，输出与声纹特征相对应的声音标签；

[0145] 标签化处理所述文本特征，输出与文本特征相对应的突发事件标签和/或情感类型标签。

[0146] 风格推荐模块300，用于根据映射关系提取与所述视频特征标签所映射的音乐风格作为推荐风格；

[0147] 权重计算模块400，用于计算各视频特征标签的权重，具体用于获取各视频特征标签的准确率、获取各视频特征标签对应的视频特征在待配乐视频中时长的占比、获取各视
频特征标签对应推荐风格的重合度，计算各视频特征标签的准确率、占比和重合度的乘积
作为所述视频特征标签的权重。

[0148] 本实施例中权重计算模块400包括准确率计算单元410、占比计算单元420、重合度计算单元430和权重计算单元440；

[0149] 本实施例中准确率计算单元410提取对视频特征标签识别的准确率。

[0150] 本实施例中占比计算单元420提取视频特征标签所对应视频特征的时长和待配乐视频总时长，计算所述视频特征的时长在待配乐视频总时长中的占比。

[0151] 所述重合度计算单元430被配置为：

[0152] 统计所有推荐风格，获得推荐风格的类别数量以及各推荐风格被推荐的次数；

[0153] 将视频特征标签对应的推荐风格的被推荐次数进行加运算，获得被推荐总次数，计算被推荐总次数占所述推荐风格类别数量的比例作为重合度。

[0154] 本实施例中权重计算单元440用于计算视频特征标签的准确率、占比和重合度的乘积作为所述视频特征标签的权重。

[0155] 音乐推荐模块500，用于根据所述推荐风格从音乐素材库中提取背景音乐，并将所提取的背景音乐按照相对应的权重进行排列，生成背景音乐推荐列表。

[0156] 实施例4、于实施例3的特征处理模块200中增加标签剔除单元230，其余均等同于实施例3，具体为：

[0157] 所述标签剔除单元230被配置为：

[0158] 获取视频特征标签的准确率，将所述准确率与预设的准确率阈值相比较，当所述准确率小于预设的准确率阈值时，剔除相对应的视频特征标签。

[0159] 本发明通过设置准确率阈值，剔除准确率小于预设的准确率阈值的视频特征标签，有效避免因输出的视频特征标签错误导致推荐的背景音乐与待配乐视频不适配的情
况。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处
参见方法实施例的部分说明即可。

[0160] 本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

[0161] 本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产
品的形式。

[0162] 本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程
和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指
令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以
产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生
用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的
装置。

[0163] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包
括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方
框或多个方框中指定的功能。

[0164] 这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在
计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程
和/或方框图一个方框或多个方框中指定的功能的步骤。

[0165] 需要说明的是：

[0166] 说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实
施例”或“实施例”并不一定均指同一个实施例。

[0167] 尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优
选实施例以及落入本发明范围的所有变更和修改。

[0168] 此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包
括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施
例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本
权利要求书所定义的范围，均应属于本发明的保护范围。

一种基于视频多维特征智能推荐背景音乐的方法及系统转让专利

申请号 : CN201910917089.0

文献号 : CN110704682B

文献日 : 2022-03-18

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 吴敏丽

申请人 : 新华智云科技有限公司

摘要 :

权利要求 :

说明书 :