一种视频生成的方法及装置、计算机设备和存储介质转让专利
申请号 : CN202111036069.6
文献号 : CN113473182B
文献日 : 2021-12-07
发明人 : 林琴 , 洪志鹰 , 张浩鑫 , 熊江丰 , 姚丹 , 张丹燕 , 康又文 , 杨秀金
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种视频生成的方法,其特征在于,包括:获取待处理素材以及目标参数,其中,所述待处理素材包括多媒体数据,所述目标参数包括待合成视频的目标视频时长以及待合成视频的目标视频尺寸;
基于所述待处理素材获取标签信息,其中,所述标签信息包括指示所述待处理素材所属行业的行业标签信息以及所述待处理素材所属场景的场景标签信息;
基于所述待处理素材中的所述多媒体数据,以及所述标签信息中的所述行业标签信息确定视频时长调整策略,其中,所述视频时长调整策略用于对所述待处理素材进行视频时长处理;
基于所述待处理素材中的所述多媒体数据,所述行业标签信息以及所述场景标签信息确定视频尺寸调整策略,其中,所述视频尺寸调整策略用于对视频尺寸进行调整;
基于所述视频时长调整策略,所述视频尺寸调整策略,所述待合成视频的目标视频时长以及所述待合成视频的目标视频尺寸,对所述待处理素材进行处理,以生成目标视频,其中,所述目标视频的视频时长等于所述待合成视频的目标视频时长,且所述目标视频的视频尺寸等于所述待合成视频的目标视频尺寸。
2.根据权利要求1所述的方法,其特征在于,所述多媒体数据为视频数据;
所述基于所述待处理素材获取所述待处理素材的标签信息,包括:对所述多媒体数据进行特征化处理,得到素材特征,其中,所述素材特征包括视频帧特征以及语音序列特征,或,所述素材特征包括视频帧特征,语音序列特征以及文本特征;
若所述素材特征包括所述视频帧特征以及所述语音序列特征,则对所述视频帧特征以及所述语音序列特征进行聚合处理以得到第一全局特征,并基于所述第一全局特征得到所述待处理素材的标签信息;
若所述素材特征包括所述视频帧特征,所述语音序列特征以及所述文本特征,则对所述视频帧特征,所述语音序列特征以及所述文本特征进行聚合处理以得到第二全局特征,并基于所述第二全局特征得到所述待处理素材的标签信息。
3.根据权利要求2所述的方法,其特征在于,所述基于所述视频时长调整策略,所述视频尺寸调整策略以及所述目标参数,对所述待处理素材进行处理,以生成目标视频,包括:获取所述多媒体数据的每个视频帧中每个像素点的RGB参数;
基于所述多媒体数据以及所述每个视频帧中每个像素点的RGB参数,通过概率输出模型获取每个视频帧为画面切换帧的概率;
基于所述每个视频帧为画面切换帧的概率,将所述多媒体数据划分为多组视频片段;
基于所述视频时长调整策略,所述视频尺寸调整策略以及所述目标参数,对所述多组视频片段进行处理,以生成所述目标视频。
4.根据权利要求3所述的方法,其特征在于,所述多媒体数据的视频时长小于所述目标视频时长;
所述基于所述视频时长调整策略,所述视频尺寸调整策略以及所述目标参数,对所述多组视频片段进行处理,以生成所述目标视频,包括:基于所述行业标签信息确定行业模板集合;
将所述行业模板集合中的行业模板添加至所述多组视频片段中,以得到多组第一视频片段,其中,每个第一视频片段的视频时长的总和等于所述待合成视频的目标视频时长;
将所述多组第一视频片段进行合并处理,以生成所述目标视频。
5.根据权利要求3所述的方法,其特征在于,所述标签信息还包括指示所述待处理素材特征的特征标签信息;
所述多媒体数据的视频时长大于所述目标视频时长;
所述多组视频片段包括第一组视频片段以及第二组视频片段;
所述基于所述视频时长调整策略,所述视频尺寸调整策略以及所述目标参数,对所述多组视频片段进行处理,以生成所述目标视频,包括:基于所述行业标签信息以及所述特征标签信息,确定第一组视频片段的分数以及第二组视频片段的分数,其中,所述第一组视频片段的分数大于所述第二组视频片段的分数;
基于所述第一组视频片段的分数以及所述第二组视频片段的分数确定视频剪辑比例;
基于所述视频剪辑比例对所述第一组视频片段以及所述第二组视频片段进行剪辑,得到所述第一组视频片段的剪辑结果,以及所述第二组视频片段的剪辑结果,其中,所述第一组视频片段的剪辑结果的视频时长,与所述第二组视频片段的剪辑结果的视频时长之和等于所述待合成视频的目标视频时长;
将所述第一组视频片段的剪辑结果,以及所述第二组视频片段的剪辑结果进行合并处理,以生成所述目标视频。
6.根据权利要求1所述的方法,其特征在于,所述多媒体数据为图片数据;
所述基于所述待处理素材获取所述待处理素材的标签信息,包括:对所述多媒体数据进行特征化处理,得到素材特征,其中,所述素材特征包括图片特征,或,所述素材特征包括图片特征以及文本特征;
若所述素材特征包括所述图片特征以及所述文本特征,则对所述图片特征以及所述文本特征进行聚合处理以得到第三全局特征,并基于所述第三全局特征得到所述待处理素材的标签信息;
若所述素材特征包括图片特征,则基于所述图片特征得到所述待处理素材的标签信息。
7.根据权利要求6所述的方法,其特征在于,所述基于所述视频时长调整策略,所述视频尺寸调整策略以及所述目标参数,对所述待处理素材进行处理,以生成目标视频,包括:基于所述行业标签信息确定行业模板集合;
根据所述行业模板集合以及所述目标参数,对所述待处理素材进行处理,以得到所述目标视频。
8.根据权利要求7所述的方法,其特征在于,所述图片数据为单张图片;
所述标签信息还包括交互控件标签,所述交互控件标签表示所述待处理素材中存在交互控件;
所述根据所述行业模板集合以及所述目标参数,对所述待处理素材进行处理,以得到所述目标视频,包括:
基于所述交互控件标签,从所述待处理素材中确定交互控件;
对所述交互控件进行增强处理,以得到第一素材,其中,所述第一素材包括进行增强处理后的交互控件,所述增强处理为对所述交互控件进行放大缩小,或,所述增强处理为对所述交互控件进行加粗高亮;
根据所述行业模板集合以及所述目标参数,对所述第一素材进行处理,以得到所述目标视频。
9.根据权利要求7所述的方法,其特征在于,所述图片数据为多张图片;
所述目标参数还包括音乐风格;
所述根据所述行业模板集合以及所述目标参数,对所述待处理素材进行处理,以得到所述目标视频,包括:
基于所述音乐风格确定目标音乐;
基于所述目标音乐确定所述目标音乐中的多个鼓点位置;
基于所述目标音乐中的多个鼓点位置确定所述待处理素材中每张图片的展示时长;
根据所述行业模板集合,所述目标参数以及所述图片数据中每张图片的展示时长,对所述待处理素材进行处理,以得到所述目标视频。
10.根据权利要求9所述的方法,其特征在于,所述标签信息还包括交互控件标签,所述交互控件标签表示所述待处理素材中存在交互控件;
所述根据所述行业模板集合以及所述目标参数,对所述待处理素材进行处理,以得到所述目标视频,包括:
基于所述交互控件标签,从所述待处理素材中确定至少一个交互控件;
对每个交互控件进行增强处理,以得到第二素材,其中,所述第二素材包括至少一个进行增强处理后的交互控件,所述增强处理为对所述交互控件进行放大缩小,或,所述增强处理为对所述交互控件进行加粗高亮;
根据所述行业模板集合以及所述目标参数,对所述第二素材进行处理,以得到所述目标视频。
11.根据权利要求1所述的方法,其特征在于,所述目标参数还包括贴纸元素、字幕元素或图形标志元素中至少一项;
所述基于所述视频时长调整策略,所述视频尺寸调整策略以及所述目标参数,对所述待处理素材进行处理,以生成目标视频,包括:基于所述视频时长调整策略,所述视频尺寸调整策略以及所述目标参数,对所述待处理素材进行处理,以生成第一视频;
确定所述贴纸元素、所述字幕元素以及所述图形标志元素在所述第一视频中预设位置;
将所述预设位置,将所述贴纸元素、所述字幕元素以及所述图形标志元素中至少一项放置于所述在所述第一视频中预设位置中,以生成所述目标视频。
12.根据权利要求11所述的方法,其特征在于,所述目标参数还包括音乐风格以及特效元素;
所述将所述预设位置,将所述贴纸元素、所述字幕元素以及所述图形标志元素中至少一项放置于所述在所述第一视频中预设位置中,以生成所述目标视频,包括:将所述预设位置,将所述贴纸元素、所述字幕元素以及所述图形标志元素中至少一项放置于所述在所述第一视频中预设位置中,以生成第二视频;
基于所述音乐风格确定目标音乐;
基于所述目标音乐确定所述目标音乐中的多个鼓点位置;
基于所述目标音乐中的多个鼓点位置以及所述第二视频,确定所述第二视频中的特效转场位置;
将所述特效元素添加至所述第二视频中的特效转场位置上,以生成所述目标视频。
13.根据权利要求1所述的方法,其特征在于,所述获取待处理素材以及目标参数,包括:
显示输入界面,其中,所述输入界面包括数据输入接口以及参数选择接口,所述数据输入接口用于输入所述待处理素材,所述参数选择接口用于选择所述目标参数;
响应于对所述输入界面中数据输入接口的数据选择操作,获取所述待处理素材;
响应于对所述输入界面中参数选择接口的参数选择操作,获取所述目标参数;
所述基于所述视频时长调整策略,所述视频尺寸调整策略以及所述目标参数,对所述待处理素材进行处理,以生成目标视频之后,所述方法还包括:在视频展示界面显示所述目标视频。
14.一种视频生成装置,其特征在于,所述视频生成装置包括:获取模块,用于获取待处理素材以及目标参数,其中,所述待处理素材包括多媒体数据,所述目标参数包括待合成视频的目标视频时长以及待合成视频的目标视频尺寸;
所述获取模块,还用于基于所述待处理素材获取标签信息,其中,所述标签信息包括指示所述待处理素材所属行业的行业标签信息以及所述待处理素材所属场景的场景标签信息;
确定模块,用于基于所述待处理素材中的所述多媒体数据,以及所述标签信息中的所述行业标签信息确定视频时长调整策略,其中,所述视频时长调整策略用于对所述待处理素材进行视频时长处理;
所述确定模块,还用于基于所述待处理素材中的所述多媒体数据,所述行业标签信息以及所述场景标签信息确定视频尺寸调整策略,其中,所述视频尺寸调整策略用于对视频尺寸进行调整;
处理模块,用于基于所述视频时长调整策略,所述视频尺寸调整策略,所述待合成视频的目标视频时长以及所述待合成视频的目标视频尺寸,对所述待处理素材进行处理,以生成目标视频,其中,所述目标视频的视频时长等于所述待合成视频的目标视频时长,且所述目标视频的视频尺寸等于所述待合成视频的目标视频尺寸。
15.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,以实现权利要求1至13中任一项所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
16.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至13中任一项所述的方法。
说明书 :
一种视频生成的方法及装置、计算机设备和存储介质
技术领域
背景技术
致所得到的视频过于相似。目前,能够对已有的素材做二次创作,利用图片素材、文案素材
以及视频素材,需要根据剪辑人员基于剪辑经验对图片素材、文案素材、视频素材、相关音
乐以及模板进行融合组合变换,增加特效及转场,重新配乐,才能够生成一段新的视频。然
而,对不同的媒体行业有着不同的行业需求,因此如何更为灵活且准确地生成,符合每个行
业需求的视频成为一个亟需解决的问题。
发明内容
签信息确定参数调整策略,通过视频时长调整策略以及目标参数对待处理素材进行处理,
由于视频时长调整策略用于对视频时长进行调整,由此得到的目标视频的视频时长能够满
足目标参数的需求,其次,由于标签信息还包括指示待处理素材所属行业的行业标签信息,
通过参数调整策略所进行的对应调整也满足行业需求,由此提升视频生成的灵活性以及准
确性。
策略;
的视频时长调整策略;
本特征;
理素材的标签信息。
分数;
的视频时长,与第二组视频片段的剪辑结果的视频时长之和等于待合成视频的目标视频时
长;
亮;
件进行加粗高亮;
设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得
该计算机设备执行上述各方面所提供的方法。
素材获取标签信息,该标签信息包括指示待处理素材所属行业的行业标签信息,再基于待
处理素材中的多媒体数据,以及标签信息中的行业标签信息确定参数调整策略,该参数调
整策略包括用于对所述待处理素材进行视频时长处理的视频时长调整策略,最后基于参数
调整策略以及目标参数,对待处理素材进行处理,以生成目标视频,其中,目标视频的视频
时长等于待合成视频的目标视频时长。通过前述方法,基于待处理素材获取标签信息,并基
于待处理素材中的多媒体数据,以及标签信息中的行业标签信息确定参数调整策略,通过
视频时长调整策略以及目标参数对待处理素材进行处理,由于视频时长调整策略用于对视
频时长进行调整,由此得到的目标视频的视频时长能够满足目标参数的需求,其次,由于标
签信息还包括指示待处理素材所属行业的行业标签信息,通过参数调整策略所进行的对应
调整也满足行业需求,由此提升视频生成的灵活性以及准确性。
附图说明
具体实施方式
签信息确定参数调整策略,通过视频时长调整策略以及目标参数对待处理素材进行处理,
由于视频时长调整策略用于对视频时长进行调整,由此得到的目标视频的视频时长能够满
足目标参数的需求,其次,由于标签信息还包括指示待处理素材所属行业的行业标签信息,
通过参数调整策略所进行的对应调整也满足行业需求,由此提升视频生成的灵活性以及准
确性。
解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除
了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任
何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、
产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于
这些过程、方法、产品或设备固有的其它步骤或单元。
本都较高,而直接复用已有素材又会因为素材重复而导致所得到的视频过于相似。目前,能
够对已有的素材做二次创作,利用图片素材、文案素材以及视频素材,需要根据剪辑人员基
于剪辑经验对图片素材、文案素材、视频素材、相关音乐以及模板进行融合组合变换,增加
特效及转场,重新配乐,才能够生成一段新的视频。但传统的剪辑软件操作需要剪辑人员有
丰富的剪辑经验,才能够针对不同行业的广告视频有着不同的创意形式,然而,对不同的媒
体行业有着不同的行业需求,因此如何更为灵活且准确地生成,符合每个行业需求的视频
成为一个亟需解决的问题。为了解决上述问题,本申请实施例提供了一种视频生成的方法,
由于视频时长调整策略用于对视频时长进行调整,由此得到的目标视频的视频时长能够满
足目标参数的需求,其次,由于标签信息还包括指示待处理素材所属行业的行业标签信息,
通过参数调整策略所进行的对应调整也满足行业需求,由此提升视频生成的灵活性以及准
确性。
图1所示的视频生成系统,请参阅图1,图1为本申请实施例中视频生成系统的一个架构示意
图,如图1所示,视频生成系统包括终端设备以及服务器。具体地,若以终端设备为执行主体
为例对本申请实施例提供的视频生成的方法进行介绍,那么终端设备能够通过本申请实施
例所提供的方法获取待处理素材以及目标参数,并基于待处理素材获取标签信息,并基于
待处理素材中的多媒体数据,以及标签信息中的行业标签信息确定参数调整策略,由此基
于参数调整策略以及目标参数,对待处理素材进行处理,以生成目标视频,并且在终端设备
上展示目标视频。其次,若以服务器为执行主体为例对本申请实施例提供的视频生成的方
法进行介绍,那么首先需要用户在终端设备所显示的输入界面进行数据选择操作以及参数
选择操作,以获取待处理素材以及目标参数,并且向服务器发送待处理素材以及目标参数,
使得服务器基于待处理素材获取标签信息,并基于待处理素材中的多媒体数据,以及标签
信息中的行业标签信息确定参数调整策略,由此基于参数调整策略以及目标参数,对待处
理素材进行处理,以生成目标视频,然后服务器向终端设备发送目标视频,从而使得终端设
备展示该目标视频。
络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery
Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以
是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视
等,但不局限于此。且终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介
质进行通信。其中,上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、
但也可以是任何网络,包括但不限于蓝牙、局域网(Local Area Network,LAN)、城域网
(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、专用网络或
者虚拟专用网络的任何组合)。在一些实施例中,可以使用定制或专用数据通信技术取代或
者补充上述数据通信技术。可移动存储介质可以为通用串行总线(Universal Serial Bus,
USB)闪存盘、移动硬盘或其他可移动存储介质等。
广告,而经济广告是以营利为目的的广告,为了进一步地理解本方案,下面分别对非经济广
告以及经济广告进行介绍:
视频生成的方法,能够获取待处理的素材以及目标参数,此时素材可以为启事素材或者声
明素材等,而目标参数可以为待合成视频的目标视频时长或者视频尺寸,例如,所生成视频
应该在某个重要地段的屏幕上循环播放,那么所生成视频的视频尺寸应该与该屏幕所能够
播放的视频尺寸一致。基于此,再根据素材得到素材的相关标签,例如,政府行业、教育行业
或者市政行业等,由此能够确定该素材重要的行业标签信息,并且基于标签信息确定用于
对待生成的视频进行参数调整的参数调整策略,从而通过参数调整策略以满足目标参数为
目标,对待处理素材进行处理,以生成目标视频,从而得到能够满足具体行业需求以及目标
参数的视频。
对于经济广告而言,通过本方案所提供的视频生成的方法,能够获取待处理的素材以及目
标参数,此时素材可以为商品素材或者服务信息素材等,而目标参数可以为待合成视频的
目标视频时长或者视频尺寸,例如,所生成视频在某个人流量较多的商场播放,那么所生成
视频的视频尺寸应该与商场所包括的屏幕能够播放的视频尺寸一致。基于此,再根据素材
得到素材的相关标签,例如,电商行业、网络服务行业以及金融行业等,即能够确定该素材
重要的行业标签信息,并且基于标签信息确定用于对待生成的视频进行参数调整的参数调
整策略,从而通过参数调整策略以满足目标参数为目标,对待处理素材进行处理,以生成目
标视频,从而得到能够满足电商行业、网络服务行业以及金融行业等具体行业需求,且满足
用户所需目标参数的视频。
体此处不对可用的应用场景进行穷举。
一些基础概念进行介绍。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延
伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应
用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生
产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智
能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门
综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一
般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系
统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然
语言处理技术以及机器学习/深度学习等几大方向。
法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的
知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的
核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度
学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
2所示,视频生成的方法包括:
频数据以及图片数据,应理解,在实际应用中,多媒体数据还可以为文本信息或者音乐信
息,待处理素材包括的具体多媒体数据需要根据实际情况灵活确定。
视频的目标视频时长小于15s等,目标时长可以为具体时间或者一定的时间范围,具体此处
不做限定。前述目标参数用于指示最终所生成视频应匹配的参数以及其他相关信息,例如,
目标参数还可以包括待合成视频的目标视频尺寸,或待合成视频的音乐风格,或待合成视
频中能够放置的贴纸元素、字幕元素、图形标志元素以及特效元素等,由于在应用于不同行
业的广告场景中,视频数据的类型以及图片数据的类型有较多选择,同一行业的视频数据
以及图片数据形态多样,且不同行业的视频数据内容以及图片数据内容也差异巨大,因此
针对于不同行业会存在不同的目标参数,因此前述示例不应理解为本方案的限定。
属场景的场景标签信息,或者指示待处理素材特征的特征标签信息,或者只是待处理素材
中存在交互控件的交互控件标签灯,对不同待处理素材能够得到待处理素材所对应的标签
信息,因此此处不对标签信息所包括的内容进行穷举。
双鞋或者一件衣服,那么视频生成装置基于该待处理素材所获取的标签信息,能包括指示
待处理素材属于电商行业的行业标签信息。其次,多媒体数据为视频数据,且图片数据为一
段关于疫情防控的宣传视频,那么视频生成装置基于该待处理素材所获取的标签信息,能
包括指示待处理素材属于政府行业的行业标签信息。应理解,前述示例仅用于理解行业标
签,而不应理解为本方案的限定。
调整策略。
签信息,因此基于待处理素材以及行业标签信息能够确定视频时长调整策略,该视频时长
调整策略能够对待处理素材中的多媒体数据进行视频时长处理,即参数调整策略包括该视
频时长调整策略。
以包括但不限于剪辑处理,模板添加处理以及合并处理等,此处不作具体限定。示例性地,
多媒体数据为视频数据,若该视频数据的视频时长大于目标参数中待合成视频的目标视频
时长,此时需要基于待处理素材以及步骤102所确定标签信息,确定如何对待处理素材的视
频时间进行剪辑以缩短至目标参数的视频时长调整策略。其次,若视频数据的视频时长小
于目标参数中待合成视频的目标视频时长,此时需要基于待处理素材以及步骤102所确定
标签信息,确定如何对待处理素材的视频时间增加至目标参数的视频时长调整策略。应理
解,通过步骤102可知,标签信息中还可以包括其他与待处理素材所对应的具体标签信息,
不同的标签信息能够得到相对应的参数调整策略,且每个参数调整策略均用于对待处理素
材进行调整,以达到目标参数所包括参数的目的。基于此,此处不对参数调整策略所包括的
内容进行穷举。
地,本实施例中所描述的目标视频可以为一个视频或多个视频,即只要视频时长均等于待
合成视频的目标视频时长即可,因此不应理解为本申请实施例最终生成的匹配目标参数的
视频仅为一个,目标视频的视频个数不应理解为本方案的限定。
应理解,由于本实施例仅限定目标参数为待合成视频的目标视频时长,因此所得到的目标
视频的视频时长等于待合成视频的目标视频时长,基于步骤101所例举的目标参数,若目标
参数还包括待合成视频的目标视频尺寸,那么目标视频的视频尺寸也等于待合成视频的目
标视频尺寸,若目标参数还包括待合成视频的音乐风格,那么目标视频的音乐风格与待合
成视频的音乐风格相匹配,其次,若目标参数还包括待合成视频中能够放置的贴纸元素以
及字幕元素,那么目标视频中还会包括的用户所选定的贴纸元素以及字幕元素。因此,因此
针对于不同行业会存在不同的目标参数,而不同的目标参数对导致所生成目标视频也不相
同,因此前述示例不应理解为本方案的限定。
数调整策略,通过视频时长调整策略以及目标参数对待处理素材进行处理,由于视频时长
调整策略用于对视频时长进行调整,由此得到的目标视频的视频时长能够满足目标参数的
需求,其次,由于标签信息还包括指示待处理素材所属行业的行业标签信息,通过参数调整
策略所进行的对应调整也满足行业需求,由此提升视频生成的灵活性以及准确性。
16:9,待合成视频的目标视频尺寸为9:16,以及待合成视频的目标视频尺寸为4:3等。或,目
标视频尺寸还可以为所得到视频的具体尺寸,例如,待合成视频的目标视频尺寸为750*
1334,以及待合成视频的目标视频尺寸为512*384等。其次,标签信息还包括指示待处理素
材所属场景的场景标签信息,例如,场景标签信息为试卷答题场景标签,以及场景标签信息
为商品特写场景标签等,本方案不对具体视频尺寸以及具体场景标签信息进行穷举。
频的视频尺寸等于待合成视频的目标视频尺寸。因此,视频生成装置具体基于待处理素材
以及行业标签信息确定视频时长调整策略,并基于待处理素材中的多媒体数据,行业标签
信息以及场景标签信息确定视频尺寸调整策略。
体对视频尺寸进行调整的方法可以包括但不限于填充处理,模板添加处理,剪切处理以及
增大或缩小处理等,此处不作具体限定。
场景标签,此时视频尺寸调整策略可以为,通过教育行业标签以及试卷答题场景标签得到
含有教育行业特色的行业模板集合,对不满足视频尺寸的待处理素材进行填充,以达到目
标参数中视频尺寸的需求。或者,行业标签信息为金融行业,且场景标签信息为金融仪表板
场景标签,此时视频尺寸调整策略可以为,通过金融行业标签以及金融仪表板场景标签得
到含有金融行业特色的行业模板集合,对不满足视频尺寸的待处理素材进行填充,以达到
目标参数中视频尺寸的需求。或者,若行业标签信息为电商行业标签,且场景标签信息为商
品特写场景标签,此时视频尺寸调整策略可以基于电商行业标签以及商品特写场景标签得
到卖点展示的行业模板集合,将卖点展示的行业模板填充至不满足视频尺寸的待处理素材
中,从而满足目标参数中视频尺寸的需求。
理素材A1,且待处理素材A1的尺寸为5:9,若以待合成视频的目标视频尺寸为16:9作为示例
进行说明,即待处理素材A1的尺寸相较于目标参数中的16:9较小,若该待处理素材A1能够
得到电商行业标签以及商品特写场景标签,那么可以得到该行业的卖点展示的行业模板集
合,从行业模板集合中获取行业模板A2,然后填充至图3中(A)图所示出的待处理素材A1中,
由此得到图3中(B)图所示出的目标视频,该目标视频中包括待处理素材A1以及行业模板
A2,且该目标视频的视频尺寸为16:9,满足目标参数中视频尺寸的需求。其次,若以待合成
视频的目标视频尺寸为9:16作为示例进行说明,通过前述类似的方式从行业模板集合中获
取行业模板A2,然后填充至图3中(A)图所示出的待处理素材A1中,由此得到图3中(C)图所
示出的目标视频,该目标视频中包括待处理素材A1以及行业模板A2,且该目标视频的视频
尺寸为9:16,也能够满足目标参数中视频尺寸的需求。
版,对进行口播的人物进行识别,对待处理素材进行处理时在达到目标参数中视频尺寸的
需求即基础上,将进行口播的人物确定为焦点人物,保证焦点人物一直处于目标视频的焦
点位置。示例性地,请参阅图4,再次以待合成视频的目标视频尺寸为9:16作为示例进行说
明,图4为本申请实施例提供的另一视频尺寸调整策略的实施例示意图,如图4所示,B1指的
是待处理素材,B2指的是焦点人物。图4中(A)图示出的为待处理素材B1,且待处理素材B1的
尺寸为7:11,即待处理素材B1的尺寸相较于目标参数中的9:16较小,若该待处理素材B1能
够得到网络服务标签以及口播场景标签,那么可以得到焦点人物跟随模版,具体对焦点人
物B2进行识别,然后对待处理素材B1进行处理,由此得到图4中(B)图所示出的目标视频,该
目标视频中焦点人物B2一直处于目标视频的焦点位置,且该目标视频的视频尺寸为9:16,
满足目标参数中视频尺寸的需求。
够针对所有行业标签信息,且包括填充场景标签的,对待处理素材进行处理时使用去填充
模版,或者针对所有行业标签信息,且包括视频多镜头场景标签,对待处理素材进行处理时
使用精彩镜头展示或者分级联播的方式,此处不对视频尺寸调整策略进行穷举,而前述示
例也仅用于理解本方案。
标,对待处理素材进行处理,以得到与目标参数相匹配的目标视频。
基础上,还能够满足具体场景需求,由此提升视频生成的灵活性以及准确性,其次,通过场
景标签信息进一步的确定视频尺寸调整策略,由此通过视频时长调整策略以及视频尺寸调
整策略,以待合成视频的目标视频时长以及待合成视频的目标视频尺寸为处理目标,对待
处理素材进行处理,以得到与目标参数中视频尺寸以及视频时长相匹配的目标视频,进一
步地提升了视频生成的准确性。
理素材的标签信息。
行处理,该该多模态标签模型能够兼容多媒体数据作为模型的输入,由于视频数据以及图
片数据中具体包括视频帧,音频数据,图片数据以及文本信息,因此该多模态标签模型包括
Inception V3模型,Vggish模型,Bert模型以及Resnet50模型,并通过Inception V3模型对
视频帧数据进行特征化处理、通过Vggish模型对音频数据进行特征化处理、通过Bert模型
对文本信息进行特征化处理、以及通过Resnet50模型对图片数据进行特征化处理,从而得
到对应特征。应理解,前述模型仅用于对不同的数据进行特征化处理,在实际应用中,能还
能通过Inception V2模型对视频帧数据进行特征化处理,moviepy模型对音频数据进行特
征化处理等,因此前述示例不应理解为特征化处理的限定。
处理素材进行特征化处理,所得到的素材特征中能够包括视频帧特征(具体为特征向量表
示)以及语音序列特征,其次,在部分视频数据中还存在文本信息,此时对待处理素材进行
特征化处理,所得到的素材特征中能够包括视频帧特征,语音序列特征以及文本特征。具体
地,通过前述多模态标签模型中的Inception V3模型对视频帧数据进行特征化处理,以得
到视频帧特征,并通过前述多模态标签模型中的Vggish模型对音频数据进行特征化处理,
以得到语音序列特征,其次,在视频数据中存在文本信息时,还需要通过前述多模态标签模
型中的Bert模型对文本信息进行特征化处理,以得到文本特征。
该待处理素材中的视频帧数据以及音频数据进行特征化处理,得到视频帧数据对应的视频
帧特征,以及音频数据对应的语音序列特征。其次,图5中(B)图示出的为,待处理素材包括
视频帧数据,音频数据以及文本信息,基于此,对该待处理素材中的视频帧数据,音频数据
以及文本信息进行特征化处理,得到视频帧数据对应的视频帧特征,音频数据对应的语音
序列特征以及文本信息对应的文本特征。
gating,CG)的方法,动态调整各个模态的权重,增强有效特征,采用CG的目的是为了捕捉分
散特征的关联从而输出更精确的整体结果。基于此,若素材特征包括视频帧特征以及语音
序列特征,则视频生成装置对视频帧特征以及语音序列特征进行聚合处理以得到第一全局
特征,并基于第一全局特征得到待处理素材的标签信息,具体地,对于视频帧特征以及语音
序列特征,采用Nextvald的方法聚合视频帧特征以及语音序列特征得到全局特征表示,即
得到第一全局特征,再将第一全局特征作为多标签分类模型的输入,通过多标签分类模型
输出待处理素材的标签信息。其次,若素材特征包括视频帧特征,语音序列特征以及文本特
征,则视频生成装置对视频帧特征,语音序列特征以及文本特征进行聚合处理以得到第二
全局特征,并基于第二全局特征得到待处理素材的标签信息,具体地,得到第二全局特征
后,将第二全局特征作为多标签分类模型的输入,通过多标签分类模型输出待处理素材的
标签信息。
特征以及语音序列特征后,对视频帧特征以及语音序列特征进行聚合处理以得到第一全局
特征,将第一全局特征作为多标签分类模型的输入,通过多标签分类模型输出待处理素材
的标签信息。其次,图6中(B)图示出的为,在通过图5所示出的示例得到视频帧特征、语音序
列特征以及文本特征后,对视频帧特征、语音序列特征以及文本特征进行聚合处理以得到
第二全局特征,将第二全局特征作为多标签分类模型的输入,通过多标签分类模型输出待
处理素材的标签信息。
示例也仅用于理解本方案。
散的不同特征之间的关联,从而得到的全局特征能够包括更多有效特征,从而保证基于聚
合后的全局特征能够输出更精确的整体结果,即提升获取待处理素材的标签信息的准确
度。
视频,具体包括:
希望将视频数据划分为多组视频片段,此时就需要进行视频划分,视频划分具体通过找到
作为拼接的边界(即画面切换帧),即需要进行镜头边界检测(shot boundary detection)。
因此,视频生成装置获取多媒体数据的每个视频帧中每个像素点的RGB参数,其次视频生成
装置还能够获取待处理素材中每个视频帧之间的相似性。
型输出每个视频帧为画面切换帧的概率。具体地,由于每个视频帧中每个像素点的RGB参数
以及待处理素材中每个视频帧之间的相似性,能够更为准确地指示每个视频帧之间的关联
性,从而提升后续逐帧预测的精度。其次,本方案中概率输出模型具体为TransNet V2模型,
由于TransNet V2模型加入了批量归一化(atch normalization)b和残差网络结构,且在对
在TransNet V2模型进行训练时加入了噪声,因此待处理素材将经过多个残差网络‑基于数
据依存型卷积神经网络(residual neural network‑data dependent convolutional
neural network,Res‑DDCNN),由此能够使得TransNet V2模型学习图像特征和时间维度的
特征,从而进一步地提升后续逐帧预测的精度。
样本集合,通过待训练样本集合对待训练的概率输出模型进行训练以得到本方案所使用的
概率输出模型,前述包含广告特性的视频包括但不限于带填充的视频或图片通过转场合成
的视频,而填充但不限于高斯模糊填充、图片填充以及颜色填充等。其次,由于采用单帧会
降低概率输出模型的运行效率,因此本方案还优化了抽帧的方式,采用了并行抽帧策略,将
多个视频帧作为一组作为概率输出模型的输入,降低模型算法时耗,从而提升获取概率的
效率。
参数,C3指的是待处理素材中每个视频帧之间的相似性,C4指的是概率输出模型,C5指的是
每个视频帧作为画面切换帧的概率,且概率输出模型C4中包括多个Res‑DDCNN以及全连接
层。基于此,将待处理素材C1作为概率输出模型C4的输入,而将每个视频帧中每个像素点的
RGB参数C2,以及待处理素材中每个视频帧之间的相似性C3作为概率输出模型C4中全连接
层的输入,由此概率输出模型C4将输出每个视频帧作为画面切换帧的概率C5。应理解,图7
的示例仅用于理解本方案中,如何获取获取画面切换帧的概率还能通过其他模型结构获
取,此处不对具体模型结构以及方法进行穷举,而前述示例也仅用于理解本方案。
生成目标视频。具体地,视频生成装置将每个视频帧为画面切换帧的概率大于预设概率阈
值的概率确定为目标概率,并且将目标概率对应的视频帧作为画面切换帧,以画面切换帧
对多个视频帧进行划分,以得到多组视频片段。
切换帧的概率为85%,其余视频帧为画面切换帧的概率均处于10 20%的概率,此时可以将视
~
频帧4以及视频帧7作为画面切换帧,并且对视频帧1至视频帧10进行划分,由此能够将视频
帧1至视频帧4作为一组视频片段,视频帧5至视频帧7作为一组视频片段,以及视频帧8至视
频帧10作为一组视频片段。
个像素点的RGB参数,以及视频数据中每个视频帧之间的相关性,将视频数据划分为多组视
频片段,基于参数调整策略分别对多组视频片段,以目标参数为目标进行处理,能够理解视
频数据在连续时序上的内容,进行时间长度和尺寸变换,以保证对多个视频帧之间的关系
以及时序连续上对视频数据更为准确的处理,因此所得到的目标视频在满足目标参数的需
求的基础上,还能够更为准确描述多个视频帧中的特征信息,从而提升目标视频的可靠性
以及信息完整性。
标视频时长的情况下,如何生成目标视频的方法。由于多媒体数据的视频时长存在小于目
标视频时长,因此需要视频生成装置具体基于行业标签信息确定行业模板集合,然后将行
业模板集合中的行业模板添加至多组视频片段中,以得到多组第一视频片段,此时每个第
一视频片段的视频时长的总和等于待合成视频的目标视频时长,应理解,不是每组视频片
段都需要添加对应的行业模板,而是需要根据具体视频时长以及具体行业进行添加,且行
业模板集合中可以包括一个或多个行业模板,需要基于具体行业中预设的模板确定。进一
步地,视频生成装置将多组第一视频片段进行合并处理,以生成目标视频,以增加目标视频
前部分的吸引力或者增加目标视频后续的转化。
前的尾帧行业模版,根据行业的不同所得到的首帧行业模版也不同,例如,教育行业标签信
息所对应的首帧行业模版为教育对话模板,游戏行业标签信息所对应的首帧行业模版为解
压模版,电商行业标签信息所对应的首帧行业模版为行动召唤模版(例如,点击下载模板,
点击跳转模板等)。应理解,在实际应用中,行业模板集合也可以为插入一组视频片段的视
频帧中的模板,因此不应理解为本申请的限定。而不同的行业模板集合添加方式所得到的
多组第一视频片段也不同,因此本方案中的多组第一视频片段具体为多组第一视频片段的
集合,因此所得到目标视频中能够包括多个视频。
的时长为6s,视频片段2的时长为4s。若此时点击下载模板的时长为3s,而点击跳转模板的
时长为2s,可以将点击下载模板添加至视频片段1的首帧之前,由此得到第一视频片段1,且
第一视频片段1的时长为9s,其次,再将点击跳转模板添加至视频片段2的尾帧之后,由此得
到第一视频片段2,且第一视频片段2的时长为6s,然后合成第一视频片段1以及第一视频片
段2,由此所得到的目标视频的视频时长为15s,满足目标参数。
业模板添加至至少一组视频片段中,由此能够得到总和等于待合成视频的目标视频时长的
多个第一视频片段,基于此再进行合成,在视频时长能够满足目标参数的需求的基础上,还
能够通过模板添加的具体方式,如添加至视频片段的尾帧、首帧或视频帧之间,由此提升视
频生成的灵活性。
的视频时长,与第二组视频片段的剪辑结果的视频时长之和等于待合成视频的目标视频时
长;
段,因理解,仅介绍第一组视频片段以及第二组视频片段,是为了便于对后续步骤进行介
绍,在实际应用中,多组视频片段中还可以包括更多组视频片段,对更多的视频片段进行剪
辑的方式与后续步骤类似,因此此处未做赘述。其中,特征标签信息能够指示待处理素材的
素材特征,特征标签信息具体包括主体标签,色彩标签,利益点标签以及界面标签等,例如,
待处理素材为游戏界面,那么可以得到的特征标签信息能够包括游戏人物标签(主体标签)
以及游戏界面标签,此时通过特征标签信息能够得知待处理素材中主体为游戏任务,且该
待处理素材来源于游戏界面。
材特征在待处理素材的比例,并且此时第一组视频片段的分数大于第二组视频片段的分
数。例如,第一组视频片段包括游戏人物,游戏背景以及其他游戏特征所组成的视频帧,而
第二组视频片段仅包括游戏背景组成的视频帧,因此第一组视频片段中所反映的视频片段
所包括的素材特征在待处理素材的比例较大,而第二组视频片段中所反映的视频片段所包
括的素材特征在待处理素材的比例较小,因此第一组视频片段的分数大于第二组视频片段
的分数。
此可以得到视频剪辑比例为3:2(90:60=3:2)。再基于视频剪辑比例对第一组视频片段以及
第二组视频片段进行剪辑,得到第一组视频片段的剪辑结果,以及第二组视频片段的剪辑
结果,此时第一组视频片段的剪辑结果的视频时长,与第二组视频片段的剪辑结果的视频
时长之和等于待合成视频的目标视频时长,例如,以视频剪辑比例为3:2,且待处理素材的
时长为35s,目标视频时长为20s,而第一组视频片段的时长为20s,第二组视频片段的时长
为15s作为示例进行说明,对第一组视频片段进行剪辑,即希望第一组视频片段的剪辑结果
的视频时长趋近于12s(20*3/5),对第二组视频片段进行剪辑,即希望第二组视频片段的剪
辑结果的视频时长趋近于8s(20*2/5)。
片段中出现的比例。其次,若为电商的场景,那么需要对电商商品进行识别,例如对衣服、裤
子以及鞋子进行识别,识别电商商品在视频片段中出现的比例。再次,为了保证视频剪辑后
画面是连续无跳帧,那么还需要对视频片段的色彩进行识别,以保证色彩过度自然。基于
此,通过视频剪辑比例以及目标视频时长确定每个视频片段的剪辑结果的预设视频时长,
并通过前述方式对每个视频片段进行剪辑,从而得到第一组视频片段的剪辑结果,以及第
二组视频片段的剪辑结果。
剪辑结果的视频时长之和等于待合成视频的目标视频时长,因此所得到的目标视频的视频
时长也等于待合成视频的目标视频时长。应理解,由于进行剪辑的方式不同,因此本方案中
能够得到多组第一组视频片段的剪辑结果以及第二组视频片段的剪辑结果,由此生成目标
视频也能够包括多个视频。
一组视频片段,D22指的是第一组视频片段D21的标签信息,由于第一组视频片段D21中包括
商品主体,因此第一组视频片段D21的标签信息D22具体为背景铺垫主题位置。其次,D31指
的是第二组视频片段,D32指的是第二组视频片段D31的标签信息,由于第二组视频片段D31
中包括仅包括文字信息并未包括商品主体,因此第二组视频片段D31的标签信息D32具体为
推广页无主体。
视频片段D21的标签信息D22,以及第二组视频片段D31的标签信息D32可知,在第一组视频
片段D21中包括商品主体,而第二组视频片段D31中不包括商品主体,因此所得到的第一组
视频片段的分数D4应该大于第二组视频片段的分数D5。基于此,D6指的是视频剪辑比例,即
根据第一组视频片段的分数D4,以及第二组视频片段的分数D5确定视频剪辑比例D6,并基
于视频剪辑比例D6对第一组视频片段D21以及第二组视频片段D31进行剪辑,能够得到第一
组视频片段的剪辑结果以及第二组视频片段的剪辑结果,再基于前述实施例所介绍的方法
将第一组视频片段的剪辑结果,以及第二组视频片段的剪辑结果进行合并处理,即可生成
满足目标参数的目标视频。
的素材特征的占比,基于此得到剪辑比例,由此通过剪辑比例进行素材倾向性剪辑,从而剪
辑出不同倾向的结果,即得到不同多组剪辑结果,由此生成包括多个视频的目标视频,从而
提升视频生成的灵活性。
数据以及文本信息是,此时素材特征包括图片特征以及文本特征。具体地,通过前述实施例
做介绍的模型对图片特征进行特征化处理,以得到图片特征,其次,在图片数据中存在文本
信息时,还需要通过前述实施例做介绍的模型对文本信息进行特征化处理,以得到文本特
征。应理解,具体模型与前述实施例类似,此处不再赘述。
息等其他信息数据,因此对图片数据H2进行特征化处理,能够得到图片数据H2对应的图片
特征H3。其次,图9中(B)图示出的为,多媒体数据H4包括图片数据H5以及文本信息H6,因此
对多媒体数据H4中的图片数据H5以及文本信息H6进行特征化处理,能够得到图片数据H5对
应的图片特征H7,以及文本信息H6对应的文本特征H8。
采用CG的目的是为了捕捉分散特征的关联从而输出更精确的整体结果。基于此,若素材特
征包括图片特征以及文本特征,则对图片特征以及文本特征进行聚合处理以得到第三全局
特征,将第三全局特征作为多标签分类模型的输入,通过多标签分类模型输出待处理素材
的标签信息。其次,若素材特征仅包括图片特征,那么不需要进行前述聚合处理,直接将图
片特征作为多标签分类模型的输入,通过多标签分类模型输出待处理素材的标签信息。
片特征I1后,将图片特征作为多标签分类模型I2的输入,通过多标签分类模型I2输出待处
理素材的标签信息I3。其次,图10中(B)图示出的为,在通过图9所示出的示例得到图片特征
I4以及文本特征I5后,对图片特征I4以及文本特征I5进行聚合处理以得到第三全局特征
I6,然后将第三全局特征I6作为多标签分类模型I7的输入,通过多标签分类模型I7输出待
处理素材的标签信息I8。
示例也仅用于理解本方案。
散的不同特征之间的关联,从而得到的全局特征能够包括更多有效特征,从而保证基于聚
合后的全局特征能够输出更精确的整体结果,即提升获取待处理素材的标签信息的准确
度。
视频,具体包括:
可以为单张图片或者多张图片,在确定行业模板集合之后,若为单张图片,则所选择行业模
板可以为视频模板,然后以目标视频时长为目的,将所选的行业模板与单张图片切替添加,
直到满足目标视频时长即可生成目标视频。若为多张图片,则有其他的行业模板添加方式,
例如,通过还包括的音乐风格,确定至少一个音乐,确定音乐的音乐鼓点,基于音乐鼓点展
示多张图片。下面将具体介绍单张图片以及多张图片时对应的视频生成方法。
亮;
钮等,具体交互控件的形态此处不做限定。基于此,若得到的标签信息还包括交互控件标
签,即说明待处理素材存在交互控件,因此视频生成装置需要从待处理素材中确定交互控
件。应理解,由于每个图片中的交互控件的形态不同,而每张图片的背景复杂多样,因此从
待处理素材中确定交互控件精确到像素级别的准度,为了保证所确定交互控件的精准度,
本实施例选择使用语义分割的方法对交互控件进行识别,具体采用了图像网络训练交互控
件分割模型,交互控件分割模型具体使用多维度上下文感知特征提取模块(multi‑scale
context‑aware feature extraction,MCFEM),具备对图片的多维度情境感特征提取能力,
同时增加门限机制 (gated bi‑directional message passing,GBMP) 去除图片的噪音。
进一步地,本申请实施例中还引入前背景分权值问题,以解决识别残缺问题。其次,引入轮
廓损失(contour loss)以解决交互控件的边缘不精准的问题。
互控件进行加粗高亮等,最后根据前述行业模板集合以及目标参数,对第一素材进行处理,
以得到目标视频。
后的交互控件。基于此,图11中(A)图为图片数据(单张图片),且包括交互控件E1,对交互控
件E1进行放大缩小,即可得到图11中(B)图示出的第一素材,该第一素材中包括进行放大缩
小后的交互控件E2。其次,对交互控件E1进行加粗高亮,即可得到图11中(C)图示出的第一
素材,该第一素材中包括进行加粗高亮后的交互控件E3。
加突出交互控件,从而使得用户基于该视频进行交互操作,由此提升所生成视频的实用型
以及交互性。
置,进而基于目标音乐中的多个鼓点位置确定待处理素材中每张图片的展示时长,最后根
据行业模板集合,目标参数以及图片数据中每张图片的展示时长,对待处理素材进行处理,
以得到目标视频。具体地,基于图片数据中每张图片的展示时长,对待处理素材中每张图片
与行业模板集合中的行业模板一起展示,以满足每张图片的展示时长,且最后所得到的目
标视频满足目标参数中的目标视频时长。
以及第18s,而由于本方案中仅4张图片,且需要的目标视频时长为15s,因此取音乐A的第
5s,第8s以及第12s的鼓点位置,并且确定图片A的展示时长为0 5s,图片B的展示时长为5s
~ ~
8,图片C的展示时长为8 12s,图片D的展示时长为12s 15s,然后将任一行业模板与图片A共
~ ~
同展示至第5s,将切换图片B与任一行业模板,依次类推,即可合成得到视频时长为15s的目
标视频。
片的展示时长,也就是不同的音乐所确定的每张图片的展示时长不同,因此所不同音乐所
生成的目标视频也不同。
风格所选择音乐的鼓点位置计算每张图片的展示时长,从而让每张图片展示具有节奏感,
由此提升视频生成的灵活性以及趣味性。
交互控件;
件进行加粗高亮;
不做限定。基于此,若得到的标签信息还包括交互控件标签,即说明待处理素材存在交互控
件,因此视频生成装置需要从待处理素材中确定交互控件。应理解,由于每个图片中的交互
控件的形态不同,而每张图片的背景复杂多样,因此需要采用前述实施例所介绍的方法从
处理素材中确定交互控件,此处不再赘述。
互控件进行加粗高亮等,最后根据前述行业模板集合以及目标参数,对第二素材进行处理,
以得到目标视频。具体第二素材与前述实施例所介绍的第一素材类似,具体界面展示形式
再次参阅图11,此处不再赘述。
本实施例所提供的方法能够题述视频数据以及图片数据所对应的素材特征,并基于素材特
征通过前述类似方法得到目标视频,因此此处不对同时包括视频数据以及图片数据的实施
例进行介绍。
更加突出交互控件,从而使得用户基于该视频进行交互操作,由此提升所生成视频的实用
型以及交互性。
第一视频,应理解,若目标参数包括目标视频时长以及目标视频尺寸,那么此时所得到的第
一视频是满足目标视频时长以及目标视频尺寸的,具体第一视频的生成方式与前述实施例
描述的目标视频类似,此处不再赘述。
中的主要元素,例如,人物、商品以及文字,并且所添加的贴纸元素、字幕元素以及图形标志
元素需要与第一视频的整体色调搭配,所以视频生成装置需要识别出第一视频中人物、商
品以及文字的位置,从而判别出前述可以放置于第一视频中预设位置,从而完成贴纸元素、
字幕元素以及图形标志元素的位置预估。其次,视频生成装置还可以识别第一视频中的主
色调,基于第一视频中的主色调,确定贴纸元素、字幕元素以及图形标志元素适合的样式。
示例性地,请参阅图12,图12为本申请实施例提供的贴纸元素、字幕元素以及图形标志元素
的界面示意图,如图12所示,图12中(A)图示出的为贴纸元素的样式,图12中(B)图示出的为
字幕元素的颜色以及样式,图12中(C)图示出的为图形标志元素的样式。
例提供的基于贴纸元素、字幕元素以及图形标志元素生成目标视频的界面示意图,如图13
所示,F1指的是贴纸元素,F2指的是字幕元素,F3知识的指的是图形标志元素。目标视频中
包括贴纸元素F1、字幕元素F2以及图形标志元素F3,且均不遮挡目标视频中的人物。
基础上,也不会遮挡视频中重要组成部分,由此保证所生成的目标视频更具趣味性以及提
升视频生成的灵活性。
项放置于在第一视频中预设位置中,以生成第二视频。然后基于音乐风格确定目标音乐,与
前述实施例中部分步骤类似,基于目标音乐确定目标音乐中的多个鼓点位置,此时将基于
目标音乐中的多个鼓点位置以及第二视频,确定第二视频中的特效转场位置,然后将特效
元素添加至第二视频中的特效转场位置上,以生成目标视频。
多个鼓点位置分别在音乐A的第5s,第8s以及第12s以及第18s,由此确定第二视频中的特效
转场位置为第5s,第8s以及第12s。基于此,特效元素添加至第二视频中的第5s,第8s以及第
12s上,由于特效元素时长通常较短,因此所得到的目标视频依旧小于15s,若特效元素时长
较长,那么在第12s不再添加特性元素即可。
片的展示时长,也就是不同的音乐所确定的在第二视频中的特效转场位置,因此所不同音
乐所生成的目标视频也不同。
节奏感,由此提升视频生成的灵活性以及趣味性。
数据输入接口以及参数选择接口,数据输入接口用于输入待处理素材,参数选择接口用于
选择目标参数,然后用户对输入界面中数据输入接口进行的数据选择操作,即选择待处理
素材,使得视频生成装置响应于对输入界面中数据输入接口的数据选择操作,获取待处理
素材,同理可知,用户对输入界面中参数选择接口的参数选择操作,即选择目标参数,使得
视频生成装置响应于对输入界面中参数选择接口的参数选择操作,获取目标参数。在通过
前述实施例生成目标视频之后,视频生成装置还会在在视频展示界面显示目标视频。
接收到的待处理素材以及目标参数,生成目标视频,并且再向终端设备发送目标视频,以使
得终端设备在视频展示界面显示目标视频。
一个时,能够在生成目标视频后,对目标参数或待处理素材中任一进行修改,视频生成装置
将根据前述方式得到新的目标视频,并且在视频展示界面显示。具体如何操作以及展示需
要根据实际情况灵活确定,此处不做限定。
据输入接口G2以及参数选择接口G3,在图14中(A)图中还示出了音乐选择接口,图14中(B)
图示出的为在视频展示界面G4显示目标视频,此时目标视频包括视频G51至视频G53。应理
解,前述示例仅用于理解本方案,在实际应用中显示输入界面还可以包括其他目标参数选
择接口,例如,音乐选择接口、特效元素选择接口、贴纸元素选择接口、字幕元素选择接口或
图形标志元素选择接口等。
面展示目标视频能够使得用户确定所生成的视频是否符合用户需求,由此提升视频生成的
可靠性。
处理的视频时长调整策略;
频。
及文本特征;
理素材的标签信息。
素点的RGB参数;
段的分数;
的视频时长,与第二组视频片段的剪辑结果的视频时长之和等于待合成视频的目标视频时
长;
亮;
存在交互控件;
件进行加粗高亮;
16,图16为本申请实施例中服务器一个实施例示意图,如图所示,该服务器1000可因配置或
性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central
processing units,CPU)1022(例如,一个或一个以上处理器)和存储器1032,一个或一个以
上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其
中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序
可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令
操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行
存储介质1030中的一系列指令操作。
如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。以终端设备为手机为例进
行说明:
1140、传感器1150、音频电路1160、无线保真(wireless fidelity,WiFi)模块1170、处理器
1180、以及电源1190等部件。本领域技术人员可以理解,图17中示出的手机结构并不构成对
手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布
置。
1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise
Amplifier,LNA)、双工器等。此外,RF电路1110还可以通过无线通信与网络和其他设备通
信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统
(Global System of Mobile communication,GSM)、通用分组无线服务(General Packet
Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址
(Wideband Code Division Multiple Access,WCDMA)、长期演进 (Long Term Evolution,
LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的
应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所
创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储
器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固
态存储器件。
设备1132。触控面板1131,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户
使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操
作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1131可包括触摸检测
装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带
来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它
转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的命令并加以执行。此外,
可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面
板1131,输入单元1130还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括
但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的
一种或多种。
Crystal Display,LCD)、有机发光二极管(Organic Light‑Emitting Diode,OLED)等形式
来配置显示面板1141。进一步的,触控面板1131可覆盖显示面板1141,当触控面板1131检测
到在其上或附近的触摸操作后,传送给处理器1180以确定触摸事件的类型,随后处理器
1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图17中,触控面
板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能,但是在某些
实施例中,可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。
的明暗来调节显示面板1141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板
1141和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加
速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏
切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还
可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,此处不做赘述。
为声音信号输出;另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160
接收后转换为音频数据,再将音频数据输出处理器1180处理后,经RF电路1110以发送给比
如另一手机,或者将音频数据输出至存储器1120以便进一步处理。
WiFi模块1170,但是可以理解的是,其并不属于手机的必须构成。
内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器
1180可包括一个或多个处理单元;优选的,处理器1180可集成应用处理器和调制解调处理
器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处
理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
理等功能。
实施例描述的方法中服务器所执行的步骤。
的步骤。
划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如至少两个单元或
组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显
示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间
接耦合或通信连接,可以是电性,机械或其它的形式。
两个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案
的目的。
元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机
设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全
部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read‑only memory,
ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序
代码的介质。
述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些
修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。