一种视频生成的方法及装置、计算机设备和存储介质转让专利

申请号 : CN202111036069.6

文献号 : CN113473182B

文献日 : 2021-12-07

本申请公开了一种视频生成的方法及装置、计算机设备和存储介质，用于视频处理领域。视频生成的包括：获取待处理素材以及目标参数；基于待处理素材获取标签信息；基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略；基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频。通过上述方法，通过视频时长调整策略以及目标参数对待处理素材进行处理，由于视频时长调整策略用于对视频时长进行调整，因此目标视频的视频时长能够满足目标参数的需求，其次，由于标签信息还包括指示待处理素材所属行业的行业标签信息，通过参数调整策略所进行的对应调整也满足行业需求，由此提升视频生成的灵活性以及准确性。

1.一种视频生成的方法，其特征在于，包括：获取待处理素材以及目标参数，其中，所述待处理素材包括多媒体数据，所述目标参数包括待合成视频的目标视频时长以及待合成视频的目标视频尺寸；

基于所述待处理素材获取标签信息，其中，所述标签信息包括指示所述待处理素材所属行业的行业标签信息以及所述待处理素材所属场景的场景标签信息；

基于所述待处理素材中的所述多媒体数据，以及所述标签信息中的所述行业标签信息确定视频时长调整策略，其中，所述视频时长调整策略用于对所述待处理素材进行视频时长处理；

基于所述待处理素材中的所述多媒体数据，所述行业标签信息以及所述场景标签信息确定视频尺寸调整策略，其中，所述视频尺寸调整策略用于对视频尺寸进行调整；

基于所述视频时长调整策略，所述视频尺寸调整策略，所述待合成视频的目标视频时长以及所述待合成视频的目标视频尺寸，对所述待处理素材进行处理，以生成目标视频，其中，所述目标视频的视频时长等于所述待合成视频的目标视频时长，且所述目标视频的视频尺寸等于所述待合成视频的目标视频尺寸。

2.根据权利要求1所述的方法，其特征在于，所述多媒体数据为视频数据；

所述基于所述待处理素材获取所述待处理素材的标签信息，包括：对所述多媒体数据进行特征化处理，得到素材特征，其中，所述素材特征包括视频帧特征以及语音序列特征，或，所述素材特征包括视频帧特征，语音序列特征以及文本特征；

若所述素材特征包括所述视频帧特征以及所述语音序列特征，则对所述视频帧特征以及所述语音序列特征进行聚合处理以得到第一全局特征，并基于所述第一全局特征得到所述待处理素材的标签信息；

若所述素材特征包括所述视频帧特征，所述语音序列特征以及所述文本特征，则对所述视频帧特征，所述语音序列特征以及所述文本特征进行聚合处理以得到第二全局特征，并基于所述第二全局特征得到所述待处理素材的标签信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述待处理素材进行处理，以生成目标视频，包括：获取所述多媒体数据的每个视频帧中每个像素点的RGB参数；

基于所述多媒体数据以及所述每个视频帧中每个像素点的RGB参数，通过概率输出模型获取每个视频帧为画面切换帧的概率；

基于所述每个视频帧为画面切换帧的概率，将所述多媒体数据划分为多组视频片段；

基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述多组视频片段进行处理，以生成所述目标视频。

4.根据权利要求3所述的方法，其特征在于，所述多媒体数据的视频时长小于所述目标视频时长；

所述基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述多组视频片段进行处理，以生成所述目标视频，包括：基于所述行业标签信息确定行业模板集合；

将所述行业模板集合中的行业模板添加至所述多组视频片段中，以得到多组第一视频片段，其中，每个第一视频片段的视频时长的总和等于所述待合成视频的目标视频时长；

将所述多组第一视频片段进行合并处理，以生成所述目标视频。

5.根据权利要求3所述的方法，其特征在于，所述标签信息还包括指示所述待处理素材特征的特征标签信息；

所述多媒体数据的视频时长大于所述目标视频时长；

所述多组视频片段包括第一组视频片段以及第二组视频片段；

所述基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述多组视频片段进行处理，以生成所述目标视频，包括：基于所述行业标签信息以及所述特征标签信息，确定第一组视频片段的分数以及第二组视频片段的分数，其中，所述第一组视频片段的分数大于所述第二组视频片段的分数；

基于所述第一组视频片段的分数以及所述第二组视频片段的分数确定视频剪辑比例；

基于所述视频剪辑比例对所述第一组视频片段以及所述第二组视频片段进行剪辑，得到所述第一组视频片段的剪辑结果，以及所述第二组视频片段的剪辑结果，其中，所述第一组视频片段的剪辑结果的视频时长，与所述第二组视频片段的剪辑结果的视频时长之和等于所述待合成视频的目标视频时长；

将所述第一组视频片段的剪辑结果，以及所述第二组视频片段的剪辑结果进行合并处理，以生成所述目标视频。

6.根据权利要求1所述的方法，其特征在于，所述多媒体数据为图片数据；

所述基于所述待处理素材获取所述待处理素材的标签信息，包括：对所述多媒体数据进行特征化处理，得到素材特征，其中，所述素材特征包括图片特征，或，所述素材特征包括图片特征以及文本特征；

若所述素材特征包括所述图片特征以及所述文本特征，则对所述图片特征以及所述文本特征进行聚合处理以得到第三全局特征，并基于所述第三全局特征得到所述待处理素材的标签信息；

若所述素材特征包括图片特征，则基于所述图片特征得到所述待处理素材的标签信息。

7.根据权利要求6所述的方法，其特征在于，所述基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述待处理素材进行处理，以生成目标视频，包括：基于所述行业标签信息确定行业模板集合；

根据所述行业模板集合以及所述目标参数，对所述待处理素材进行处理，以得到所述目标视频。

8.根据权利要求7所述的方法，其特征在于，所述图片数据为单张图片；

所述标签信息还包括交互控件标签，所述交互控件标签表示所述待处理素材中存在交互控件；

所述根据所述行业模板集合以及所述目标参数，对所述待处理素材进行处理，以得到所述目标视频，包括：

基于所述交互控件标签，从所述待处理素材中确定交互控件；

对所述交互控件进行增强处理，以得到第一素材，其中，所述第一素材包括进行增强处理后的交互控件，所述增强处理为对所述交互控件进行放大缩小，或，所述增强处理为对所述交互控件进行加粗高亮；

根据所述行业模板集合以及所述目标参数，对所述第一素材进行处理，以得到所述目标视频。

9.根据权利要求7所述的方法，其特征在于，所述图片数据为多张图片；

所述目标参数还包括音乐风格；

所述根据所述行业模板集合以及所述目标参数，对所述待处理素材进行处理，以得到所述目标视频，包括：

基于所述音乐风格确定目标音乐；

基于所述目标音乐确定所述目标音乐中的多个鼓点位置；

基于所述目标音乐中的多个鼓点位置确定所述待处理素材中每张图片的展示时长；

根据所述行业模板集合，所述目标参数以及所述图片数据中每张图片的展示时长，对所述待处理素材进行处理，以得到所述目标视频。

10.根据权利要求9所述的方法，其特征在于，所述标签信息还包括交互控件标签，所述交互控件标签表示所述待处理素材中存在交互控件；

所述根据所述行业模板集合以及所述目标参数，对所述待处理素材进行处理，以得到所述目标视频，包括：

基于所述交互控件标签，从所述待处理素材中确定至少一个交互控件；

对每个交互控件进行增强处理，以得到第二素材，其中，所述第二素材包括至少一个进行增强处理后的交互控件，所述增强处理为对所述交互控件进行放大缩小，或，所述增强处理为对所述交互控件进行加粗高亮；

根据所述行业模板集合以及所述目标参数，对所述第二素材进行处理，以得到所述目标视频。

11.根据权利要求1所述的方法，其特征在于，所述目标参数还包括贴纸元素、字幕元素或图形标志元素中至少一项；

所述基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述待处理素材进行处理，以生成目标视频，包括：基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述待处理素材进行处理，以生成第一视频；

确定所述贴纸元素、所述字幕元素以及所述图形标志元素在所述第一视频中预设位置；

将所述预设位置，将所述贴纸元素、所述字幕元素以及所述图形标志元素中至少一项放置于所述在所述第一视频中预设位置中，以生成所述目标视频。

12.根据权利要求11所述的方法，其特征在于，所述目标参数还包括音乐风格以及特效元素；

所述将所述预设位置，将所述贴纸元素、所述字幕元素以及所述图形标志元素中至少一项放置于所述在所述第一视频中预设位置中，以生成所述目标视频，包括：将所述预设位置，将所述贴纸元素、所述字幕元素以及所述图形标志元素中至少一项放置于所述在所述第一视频中预设位置中，以生成第二视频；

基于所述音乐风格确定目标音乐；

基于所述目标音乐确定所述目标音乐中的多个鼓点位置；

基于所述目标音乐中的多个鼓点位置以及所述第二视频，确定所述第二视频中的特效转场位置；

将所述特效元素添加至所述第二视频中的特效转场位置上，以生成所述目标视频。

13.根据权利要求1所述的方法，其特征在于，所述获取待处理素材以及目标参数，包括：

显示输入界面，其中，所述输入界面包括数据输入接口以及参数选择接口，所述数据输入接口用于输入所述待处理素材，所述参数选择接口用于选择所述目标参数；

响应于对所述输入界面中数据输入接口的数据选择操作，获取所述待处理素材；

响应于对所述输入界面中参数选择接口的参数选择操作，获取所述目标参数；

所述基于所述视频时长调整策略，所述视频尺寸调整策略以及所述目标参数，对所述待处理素材进行处理，以生成目标视频之后，所述方法还包括：在视频展示界面显示所述目标视频。

14.一种视频生成装置，其特征在于，所述视频生成装置包括：获取模块，用于获取待处理素材以及目标参数，其中，所述待处理素材包括多媒体数据，所述目标参数包括待合成视频的目标视频时长以及待合成视频的目标视频尺寸；

所述获取模块，还用于基于所述待处理素材获取标签信息，其中，所述标签信息包括指示所述待处理素材所属行业的行业标签信息以及所述待处理素材所属场景的场景标签信息；

确定模块，用于基于所述待处理素材中的所述多媒体数据，以及所述标签信息中的所述行业标签信息确定视频时长调整策略，其中，所述视频时长调整策略用于对所述待处理素材进行视频时长处理；

所述确定模块，还用于基于所述待处理素材中的所述多媒体数据，所述行业标签信息以及所述场景标签信息确定视频尺寸调整策略，其中，所述视频尺寸调整策略用于对视频尺寸进行调整；

处理模块，用于基于所述视频时长调整策略，所述视频尺寸调整策略，所述待合成视频的目标视频时长以及所述待合成视频的目标视频尺寸，对所述待处理素材进行处理，以生成目标视频，其中，所述目标视频的视频时长等于所述待合成视频的目标视频时长，且所述目标视频的视频尺寸等于所述待合成视频的目标视频尺寸。

15.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，以实现权利要求1至13中任一项所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

16.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至13中任一项所述的方法。

一种视频生成的方法及装置、计算机设备和存储介质

技术领域

[0001] 本申请涉及视频处理领域，尤其涉及一种视频生成的方法及装置、计算机设备和存储介质。

背景技术

[0002] 随着互联网服务的发展，视频已成为一个重要的发展趋势。在制作视频的过程中，视频新素材从拍摄到剪辑的制作成本都较高，而直接复用已有素材又会因为素材重复而导
致所得到的视频过于相似。目前，能够对已有的素材做二次创作，利用图片素材、文案素材
以及视频素材，需要根据剪辑人员基于剪辑经验对图片素材、文案素材、视频素材、相关音
乐以及模板进行融合组合变换，增加特效及转场，重新配乐，才能够生成一段新的视频。然
而，对不同的媒体行业有着不同的行业需求，因此如何更为灵活且准确地生成，符合每个行
业需求的视频成为一个亟需解决的问题。

发明内容

[0003] 本申请实施例提供了一种视频生成的方法及装置、计算机设备和存储介质，基于待处理素材获取标签信息，并基于待处理素材中的多媒体数据，以及标签信息中的行业标
签信息确定参数调整策略，通过视频时长调整策略以及目标参数对待处理素材进行处理，
由于视频时长调整策略用于对视频时长进行调整，由此得到的目标视频的视频时长能够满
足目标参数的需求，其次，由于标签信息还包括指示待处理素材所属行业的行业标签信息，
通过参数调整策略所进行的对应调整也满足行业需求，由此提升视频生成的灵活性以及准
确性。

[0004] 有鉴于此，本申请第一方面提供了一种视频生成的方法，包括：

[0005] 获取待处理素材以及目标参数，其中，待处理素材包括多媒体数据，目标参数包括待合成视频的目标视频时长；

[0006] 基于待处理素材获取标签信息，其中，标签信息包括指示待处理素材所属行业的行业标签信息；

[0007] 基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，其中，参数调整策略包括用于对所述待处理素材进行视频时长处理的视频时长调整
策略；

[0008] 基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，其中，目标视频的视频时长等于待合成视频的目标视频时长。

[0009] 本申请第二方面提供了一种视频生成装置，包括：

[0010] 获取模块，用于获取待处理素材以及目标参数，其中，待处理素材包括多媒体数据，目标参数包括待合成视频的目标视频时长；

[0011] 获取模块，还用于基于待处理素材获取标签信息，其中，标签信息包括指示待处理素材所属行业的行业标签信息；

[0012] 确定模块，用于基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，其中，参数调整策略包括用于对所述待处理素材进行视频时长处理
的视频时长调整策略；

[0013] 处理模块，用于基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，其中，目标视频的视频时长等于待合成视频的目标视频时长。

[0014] 在一个可能的实施方式中，目标参数还包括待合成视频的目标视频尺寸；

[0015] 标签信息还包括指示待处理素材所属场景的场景标签信息；

[0016] 参数调整策略还包括用于对视频尺寸进行调整的视频尺寸调整策略；

[0017] 目标视频的视频尺寸等于待合成视频的目标视频尺寸；

[0018] 确定模块，具体用于基于待处理素材以及行业标签信息确定视频时长调整策略；

[0019] 基于待处理素材中的多媒体数据，行业标签信息以及场景标签信息确定视频尺寸调整策略；

[0020] 处理模块，具体用于基于视频时长调整策略，视频尺寸调整策略，待合成视频的目标视频时长以及待合成视频的目标视频尺寸，对待处理素材进行处理，以生成目标视频。

[0021] 在一个可能的实施方式中，多媒体数据为视频数据；

[0022] 获取模块，具体用于对多媒体数据进行特征化处理，得到素材特征，其中，素材特征包括视频帧特征以及语音序列特征，或，素材特征包括视频帧特征，语音序列特征以及文
本特征；

[0023] 若素材特征包括视频帧特征以及语音序列特征，则对视频帧特征以及语音序列特征进行聚合处理以得到第一全局特征，并基于第一全局特征得到待处理素材的标签信息；

[0024] 若素材特征包括视频帧特征，语音序列特征以及文本特征，则对视频帧特征，语音序列特征以及文本特征进行聚合处理以得到第二全局特征，并基于第二全局特征得到待处
理素材的标签信息。

[0025] 在一个可能的实施方式中，处理模块，具体用于获取多媒体数据的每个视频帧中每个像素点的RGB参数；

[0026] 基于多媒体数据以及每个视频帧中每个像素点的RGB参数，通过概率输出模型获取每个视频帧为画面切换帧的概率；

[0027] 基于每个视频帧为画面切换帧的概率，将多媒体数据划分为多组视频片段；

[0028] 基于参数调整策略以及目标参数，对多组视频片段进行处理，以生成目标视频。

[0029] 在一个可能的实施方式中，多媒体数据的视频时长小于目标视频时长；

[0030] 处理模块，具体用于基于行业标签信息确定行业模板集合；

[0031] 将行业模板集合中的行业模板添加至多组视频片段中，以得到多组第一视频片段，其中，每个第一视频片段的视频时长的总和等于待合成视频的目标视频时长；

[0032] 将多组第一视频片段进行合并处理，以生成目标视频。

[0033] 在一个可能的实施方式中，标签信息还包括指示待处理素材特征的特征标签信息；

[0034] 多媒体数据的视频时长大于目标视频时长；

[0035] 多组视频片段包括第一组视频片段以及第二组视频片段；

[0036] 处理模块，具体用于基于行业标签信息以及特征标签信息，确定第一组视频片段的分数以及第二组视频片段的分数，其中，第一组视频片段的分数大于第二组视频片段的
分数；

[0037] 基于第一组视频片段的分数以及第二组视频片段的分数确定视频剪辑比例；

[0038] 基于视频剪辑比例对第一组视频片段以及第二组视频片段进行剪辑，得到第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果，其中，第一组视频片段的剪辑结果
的视频时长，与第二组视频片段的剪辑结果的视频时长之和等于待合成视频的目标视频时
长；

[0039] 将第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果进行合并处理，以生成目标视频。

[0040] 在一个可能的实施方式中，多媒体数据为图片数据；

[0041] 获取模块，具体用于对多媒体数据进行特征化处理，得到素材特征，其中，素材特征包括图片特征，或，素材特征包括图片特征以及文本特征；

[0042] 若素材特征包括图片特征以及文本特征，则对图片特征以及文本特征进行聚合处理以得到第三全局特征，并基于第三全局特征得到待处理素材的标签信息；

[0043] 若素材特征包括图片特征，则基于图片特征得到待处理素材的标签信息。

[0044] 在一个可能的实施方式中，处理模块，具体用于基于行业标签信息确定行业模板集合；

[0045] 根据行业模板集合以及目标参数，对待处理素材进行处理，以得到目标视频。

[0046] 在一个可能的实施方式中，图片数据为单张图片；

[0047] 标签信息还包括交互控件标签，交互控件标签表示待处理素材中存在交互控件；

[0048] 处理模块，具体用于基于交互控件标签，从待处理素材中确定交互控件；

[0049] 对交互控件进行增强处理，以得到第一素材，其中，第一素材包括进行增强处理后的交互控件，增强处理为对交互控件进行放大缩小，或，增强处理为对交互控件进行加粗高
亮；

[0050] 根据行业模板集合以及目标参数，对第一素材进行处理，以得到目标视频。

[0051] 在一个可能的实施方式中，图片数据为多张图片；

[0052] 目标参数还包括音乐风格；

[0053] 处理模块，具体用于基于音乐风格确定目标音乐；

[0054] 基于目标音乐确定目标音乐中的多个鼓点位置；

[0055] 基于目标音乐中的多个鼓点位置确定待处理素材中每张图片的展示时长；

[0056] 根据行业模板集合，目标参数以及图片数据中每张图片的展示时长，对待处理素材进行处理，以得到目标视频。

[0057] 在一个可能的实施方式中，标签信息还包括交互控件标签，交互控件标签表示待处理素材中存在交互控件；

[0058] 处理模块，具体用于基于交互控件标签，从待处理素材中确定至少一个交互控件；

[0059] 对每个交互控件进行增强处理，以得到第二素材，其中，第二素材包括至少一个进行增强处理后的交互控件，增强处理为对交互控件进行放大缩小，或，增强处理为对交互控
件进行加粗高亮；

[0060] 根据行业模板集合以及目标参数，对第二素材进行处理，以得到目标视频。

[0061] 在一个可能的实施方式中，目标参数还包括贴纸元素、字幕元素或图形标志元素中至少一项；

[0062] 处理模块，具体用于基于参数调整策略以及目标参数，对待处理素材进行处理，以生成第一视频；

[0063] 确定贴纸元素、字幕元素以及图形标志元素在第一视频中预设位置；

[0064] 将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成目标视频。

[0065] 在一个可能的实施方式中，目标参数还包括音乐风格以及特效元素；

[0066] 处理模块，具体用于将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成第二视频；

[0067] 基于音乐风格确定目标音乐；

[0068] 基于目标音乐确定目标音乐中的多个鼓点位置；

[0069] 基于目标音乐中的多个鼓点位置以及第二视频，确定第二视频中的特效转场位置；

[0070] 将特效元素添加至第二视频中的特效转场位置上，以生成目标视频。

[0071] 在一个可能的实施方式中，视频生成装置还包括显示模块；

[0072] 获取模块，具体用于显示输入界面，其中，输入界面包括数据输入接口以及参数选择接口，数据输入接口用于输入待处理素材，参数选择接口用于选择目标参数；

[0073] 响应于对输入界面中数据输入接口的数据选择操作，获取待处理素材；

[0074] 响应于对输入界面中参数选择接口的参数选择操作，获取目标参数；

[0075] 显示模块，用于处理模块基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频之后，在视频展示界面显示目标视频。

[0076] 本申请的第三方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

[0077] 本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机
设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得
该计算机设备执行上述各方面所提供的方法。

[0078] 本申请实施例中，提供了一种视频生成的方法，先获取待处理素材以及目标参数，待处理素材包括多媒体数据，目标参数包括待合成视频的目标视频时长，然后基于待处理
素材获取标签信息，该标签信息包括指示待处理素材所属行业的行业标签信息，再基于待
处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，该参数调
整策略包括用于对所述待处理素材进行视频时长处理的视频时长调整策略，最后基于参数
调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，其中，目标视频的视频
时长等于待合成视频的目标视频时长。通过前述方法，基于待处理素材获取标签信息，并基
于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，通过
视频时长调整策略以及目标参数对待处理素材进行处理，由于视频时长调整策略用于对视
频时长进行调整，由此得到的目标视频的视频时长能够满足目标参数的需求，其次，由于标
签信息还包括指示待处理素材所属行业的行业标签信息，通过参数调整策略所进行的对应
调整也满足行业需求，由此提升视频生成的灵活性以及准确性。

附图说明

[0079] 图1为本申请实施例中视频生成系统的一个架构示意图；

[0080] 图2为本申请实施例提供的一种视频生成的方法的实施例示意图；

[0081] 图3为本申请实施例提供的一种视频尺寸调整策略的实施例示意图；

[0082] 图4为本申请实施例提供的另一视频尺寸调整策略的实施例示意图；

[0083] 图5为本申请实施例提供的获取素材特征的一种实施例示意图；

[0084] 图6为本申请实施例提供的获取待处理素材的标签信息的实施例示意图；

[0085] 图7为本申请实施例提供的获取画面切换帧的概率的实施例示意图；

[0086] 图8为本申请实施例提供的另一种视频生成的实施例示意图；

[0087] 图9为本申请实施例提供的获取素材特征的实施例示意图；

[0088] 图10为本申请实施例提供的获取待处理素材的标签信息的实施例示意图；

[0089] 图11为本申请实施例提供的增强处理的界面示意图；

[0090] 图12为本申请实施例提供的贴纸元素、字幕元素以及图形标志元素的界面示意图；

[0091] 图13为本申请实施例提供的基于贴纸元素、字幕元素以及图形标志元素生成目标视频的界面示意图；

[0092] 图14为本申请实施例显示输入界面以及显示目标视频的界面示意图；

[0093] 图15为本申请实施例中视频生成装置一个实施例示意图；

[0094] 图16为本申请实施例中服务器一个实施例示意图；

[0095] 图17为本申请实施例中终端设备一个实施例示意图。

具体实施方式

[0096] 本申请实施例提供了一种视频生成的方法及装置、计算机设备和存储介质，基于待处理素材获取标签信息，并基于待处理素材中的多媒体数据，以及标签信息中的行业标
签信息确定参数调整策略，通过视频时长调整策略以及目标参数对待处理素材进行处理，
由于视频时长调整策略用于对视频时长进行调整，由此得到的目标视频的视频时长能够满
足目标参数的需求，其次，由于标签信息还包括指示待处理素材所属行业的行业标签信息，
通过参数调整策略所进行的对应调整也满足行业需求，由此提升视频生成的灵活性以及准
确性。

[0097] 本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理
解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除
了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任
何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、
产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于
这些过程、方法、产品或设备固有的其它步骤或单元。

[0098] 随着互联网服务的发展，视频已成为一个重要的发展趋势。而广告素材视频化，已成为广告投放的大势所趋，在制作广告视频的过程中，视频新素材从拍摄到剪辑的制作成
本都较高，而直接复用已有素材又会因为素材重复而导致所得到的视频过于相似。目前，能
够对已有的素材做二次创作，利用图片素材、文案素材以及视频素材，需要根据剪辑人员基
于剪辑经验对图片素材、文案素材、视频素材、相关音乐以及模板进行融合组合变换，增加
特效及转场，重新配乐，才能够生成一段新的视频。但传统的剪辑软件操作需要剪辑人员有
丰富的剪辑经验，才能够针对不同行业的广告视频有着不同的创意形式，然而，对不同的媒
体行业有着不同的行业需求，因此如何更为灵活且准确地生成，符合每个行业需求的视频
成为一个亟需解决的问题。为了解决上述问题，本申请实施例提供了一种视频生成的方法，
由于视频时长调整策略用于对视频时长进行调整，由此得到的目标视频的视频时长能够满
足目标参数的需求，其次，由于标签信息还包括指示待处理素材所属行业的行业标签信息，
通过参数调整策略所进行的对应调整也满足行业需求，由此提升视频生成的灵活性以及准
确性。

[0099] 下面对本申请实施例的视频生成系统进行介绍。可以理解的，该视频生成的方法可以由终端设备来执行，也可以由服务器来执行。本申请提供的视频生成的方法应用于如
图1所示的视频生成系统，请参阅图1，图1为本申请实施例中视频生成系统的一个架构示意
图，如图1所示，视频生成系统包括终端设备以及服务器。具体地，若以终端设备为执行主体
为例对本申请实施例提供的视频生成的方法进行介绍，那么终端设备能够通过本申请实施
例所提供的方法获取待处理素材以及目标参数，并基于待处理素材获取标签信息，并基于
待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，由此基
于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，并且在终端设备
上展示目标视频。其次，若以服务器为执行主体为例对本申请实施例提供的视频生成的方
法进行介绍，那么首先需要用户在终端设备所显示的输入界面进行数据选择操作以及参数
选择操作，以获取待处理素材以及目标参数，并且向服务器发送待处理素材以及目标参数，
使得服务器基于待处理素材获取标签信息，并基于待处理素材中的多媒体数据，以及标签
信息中的行业标签信息确定参数调整策略，由此基于参数调整策略以及目标参数，对待处
理素材进行处理，以生成目标视频，然后服务器向终端设备发送目标视频，从而使得终端设
备展示该目标视频。

[0100] 本申请涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网
络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery
Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以
是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视
等，但不局限于此。且终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介
质进行通信。其中，上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、
但也可以是任何网络，包括但不限于蓝牙、局域网（Local Area Network，LAN）、城域网
（Metropolitan Area Network，MAN）、广域网（Wide Area Network，WAN）、移动、专用网络或
者虚拟专用网络的任何组合）。在一些实施例中，可以使用定制或专用数据通信技术取代或
者补充上述数据通信技术。可移动存储介质可以为通用串行总线（Universal Serial Bus，
USB）闪存盘、移动硬盘或其他可移动存储介质等。

[0101] 虽然图1中仅示出了五个终端设备和一个服务器，但应当理解，图1中的示例仅用于理解本方案，具体终端设备和服务器的数量均应当结合实际情况灵活确定。

[0102] 其次，本申请实施例所提供的视频生成的方法可以应用于广告场景或娱乐场景等，由于广告具体能够分为非经济广告以及经济广告，非经济广告是指不以营利为目的的
广告，而经济广告是以营利为目的的广告，为了进一步地理解本方案，下面分别对非经济广
告以及经济广告进行介绍：

[0103] 第一类应用场景为非经济广告，非经济广告包括但不限于政府公告，政党、教育、文化、市政、社会团体等方面的启事、声明，那么对于非经济广告而言，通过本方案所提供的
视频生成的方法，能够获取待处理的素材以及目标参数，此时素材可以为启事素材或者声
明素材等，而目标参数可以为待合成视频的目标视频时长或者视频尺寸，例如，所生成视频
应该在某个重要地段的屏幕上循环播放，那么所生成视频的视频尺寸应该与该屏幕所能够
播放的视频尺寸一致。基于此，再根据素材得到素材的相关标签，例如，政府行业、教育行业
或者市政行业等，由此能够确定该素材重要的行业标签信息，并且基于标签信息确定用于
对待生成的视频进行参数调整的参数调整策略，从而通过参数调整策略以满足目标参数为
目标，对待处理素材进行处理，以生成目标视频，从而得到能够满足具体行业需求以及目标
参数的视频。

[0104] 第二类应用场景为经济广告，经济广告通常是商业广告，经济广告是为推销商品或提供服务，以付费方式通过广告媒体向消费者或用户传播商品或服务信息的手段。那么
对于经济广告而言，通过本方案所提供的视频生成的方法，能够获取待处理的素材以及目
标参数，此时素材可以为商品素材或者服务信息素材等，而目标参数可以为待合成视频的
目标视频时长或者视频尺寸，例如，所生成视频在某个人流量较多的商场播放，那么所生成
视频的视频尺寸应该与商场所包括的屏幕能够播放的视频尺寸一致。基于此，再根据素材
得到素材的相关标签，例如，电商行业、网络服务行业以及金融行业等，即能够确定该素材
重要的行业标签信息，并且基于标签信息确定用于对待生成的视频进行参数调整的参数调
整策略，从而通过参数调整策略以满足目标参数为目标，对待处理素材进行处理，以生成目
标视频，从而得到能够满足电商行业、网络服务行业以及金融行业等具体行业需求，且满足
用户所需目标参数的视频。

[0105] 可以理解的是，前述应用场景的介绍仅用于进一步地理解本方案，在实际应用中，本申请实施例所提供的视频生成的方法的具体应用场景包括但不限于上述示例的几种，具
体此处不对可用的应用场景进行穷举。

[0106] 由于本申请实施例中部分步骤需要基于人工智能（Artificial Intelligence，AI）来实现，在对本申请实施例提供的视频生成的方法开始介绍之前，先对人工智能领域的
一些基础概念进行介绍。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延
伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应
用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生
产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智
能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门
综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一
般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系
统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然
语言处理技术以及机器学习/深度学习等几大方向。

[0107] 随着人工智能技术研究和进步，人工智能技术在多种方向展开研究，机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算
法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的
知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的
核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度
学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

[0108] 结合上述介绍，下面以执行主体为终端设备为例，对本申请中视频生成的方法进行介绍，请参阅图2，图2为本申请实施例提供的一种视频生成的方法的实施例示意图，如图
2所示，视频生成的方法包括：

[0109] 101、获取待处理素材以及目标参数，其中，待处理素材包括多媒体数据，目标参数包括待合成视频的目标视频时长。

[0110] 本实施例中，视频生成装置获取待处理素材以及目标参数。其中，待处理素材包括多媒体数据，该多媒体数据可以为视频数据，或多媒体数据为图片数据，或多媒体数据为视
频数据以及图片数据，应理解，在实际应用中，多媒体数据还可以为文本信息或者音乐信
息，待处理素材包括的具体多媒体数据需要根据实际情况灵活确定。

[0111] 其次，目标参数包括待合成视频的目标视频时长，例如，待合成视频的目标视频时长为30秒（second，s），或待合成视频的目标视频时长为2分钟（minute，min）等，或，待合成
视频的目标视频时长小于15s等，目标时长可以为具体时间或者一定的时间范围，具体此处
不做限定。前述目标参数用于指示最终所生成视频应匹配的参数以及其他相关信息，例如，
目标参数还可以包括待合成视频的目标视频尺寸，或待合成视频的音乐风格，或待合成视
频中能够放置的贴纸元素、字幕元素、图形标志元素以及特效元素等，由于在应用于不同行
业的广告场景中，视频数据的类型以及图片数据的类型有较多选择，同一行业的视频数据
以及图片数据形态多样，且不同行业的视频数据内容以及图片数据内容也差异巨大，因此
针对于不同行业会存在不同的目标参数，因此前述示例不应理解为本方案的限定。

[0112] 102、基于待处理素材获取标签信息，其中，标签信息包括指示待处理素材所属行业的行业标签信息。

[0113] 本实施例中，视频生成装置基于待处理素材获取标签信息，此时标签信息包括指示待处理素材所属行业的行业标签信息。可选地，标签信息还能够包括指示待处理素材所
属场景的场景标签信息，或者指示待处理素材特征的特征标签信息，或者只是待处理素材
中存在交互控件的交互控件标签灯，对不同待处理素材能够得到待处理素材所对应的标签
信息，因此此处不对标签信息所包括的内容进行穷举。

[0114] 具体地，本实施例中行业标签信息包括但不限于政府行业、教育行业、金融行业、网络服务行业以及电商行业等。示例性地，若待处理素材为图片数据，且图片数据中包括一
双鞋或者一件衣服，那么视频生成装置基于该待处理素材所获取的标签信息，能包括指示
待处理素材属于电商行业的行业标签信息。其次，多媒体数据为视频数据，且图片数据为一
段关于疫情防控的宣传视频，那么视频生成装置基于该待处理素材所获取的标签信息，能
包括指示待处理素材属于政府行业的行业标签信息。应理解，前述示例仅用于理解行业标
签，而不应理解为本方案的限定。

[0115] 103、基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，其中，参数调整策略包括用于对所述待处理素材进行视频时长处理的视频时长
调整策略。

[0116] 本实施例中，视频生成装置基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，由于标签信息中包括指示待处理素材所属行业的行业标
签信息，因此基于待处理素材以及行业标签信息能够确定视频时长调整策略，该视频时长
调整策略能够对待处理素材中的多媒体数据进行视频时长处理，即参数调整策略包括该视
频时长调整策略。

[0117] 具体地，参数调整策略具体用于对待处理素材中的多媒体数据进行处理，以生成满足目标参数的目标视频，具体对待处理素材中的多媒体数据进行视频时长处理的方法可
以包括但不限于剪辑处理，模板添加处理以及合并处理等，此处不作具体限定。示例性地，
多媒体数据为视频数据，若该视频数据的视频时长大于目标参数中待合成视频的目标视频
时长，此时需要基于待处理素材以及步骤102所确定标签信息，确定如何对待处理素材的视
频时间进行剪辑以缩短至目标参数的视频时长调整策略。其次，若视频数据的视频时长小
于目标参数中待合成视频的目标视频时长，此时需要基于待处理素材以及步骤102所确定
标签信息，确定如何对待处理素材的视频时间增加至目标参数的视频时长调整策略。应理
解，通过步骤102可知，标签信息中还可以包括其他与待处理素材所对应的具体标签信息，
不同的标签信息能够得到相对应的参数调整策略，且每个参数调整策略均用于对待处理素
材进行调整，以达到目标参数所包括参数的目的。基于此，此处不对参数调整策略所包括的
内容进行穷举。

[0118] 104、基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，其中，目标视频的视频时长等于待合成视频的目标视频时长。

[0119] 本实施例中，视频生成装置基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，此时目标视频的视频时长等于待合成视频的目标视频时长。具体
地，本实施例中所描述的目标视频可以为一个视频或多个视频，即只要视频时长均等于待
合成视频的目标视频时长即可，因此不应理解为本申请实施例最终生成的匹配目标参数的
视频仅为一个，目标视频的视频个数不应理解为本方案的限定。

[0120] 具体地，视频生成装置基于步骤103所确定的参数调整策略，并且以步骤101所获取的目标参数为处理目标，对待处理素材进行处理，以得到与目标参数相匹配的目标视频。
应理解，由于本实施例仅限定目标参数为待合成视频的目标视频时长，因此所得到的目标
视频的视频时长等于待合成视频的目标视频时长，基于步骤101所例举的目标参数，若目标
参数还包括待合成视频的目标视频尺寸，那么目标视频的视频尺寸也等于待合成视频的目
标视频尺寸，若目标参数还包括待合成视频的音乐风格，那么目标视频的音乐风格与待合
成视频的音乐风格相匹配，其次，若目标参数还包括待合成视频中能够放置的贴纸元素以
及字幕元素，那么目标视频中还会包括的用户所选定的贴纸元素以及字幕元素。因此，因此
针对于不同行业会存在不同的目标参数，而不同的目标参数对导致所生成目标视频也不相
同，因此前述示例不应理解为本方案的限定。

[0121] 本申请实施例中，提供了一种视频生成的方法，通过上述方法，基于待处理素材获取标签信息，并基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参
数调整策略，通过视频时长调整策略以及目标参数对待处理素材进行处理，由于视频时长
调整策略用于对视频时长进行调整，由此得到的目标视频的视频时长能够满足目标参数的
需求，其次，由于标签信息还包括指示待处理素材所属行业的行业标签信息，通过参数调整
策略所进行的对应调整也满足行业需求，由此提升视频生成的灵活性以及准确性。

[0122] 可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，目标参数还包括待合成视频的目标视频尺寸；

[0123] 标签信息还包括指示待处理素材所属场景的场景标签信息；

[0124] 参数调整策略还包括用于对视频尺寸进行调整的视频尺寸调整策略；

[0125] 目标视频的视频尺寸等于待合成视频的目标视频尺寸；

[0126] 基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，具体包括：

[0127] 基于待处理素材以及行业标签信息确定视频时长调整策略；

[0128] 基于待处理素材中的多媒体数据，行业标签信息以及场景标签信息确定视频尺寸调整策略；

[0129] 基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，具体包括：

[0130] 基于视频时长调整策略，视频尺寸调整策略，待合成视频的目标视频时长以及待合成视频的目标视频尺寸，对待处理素材进行处理，以生成目标视频。

[0131] 本实施例中，基于前述实施例可知，目标参数还可以包括待合成视频的目标视频尺寸，目标视频尺寸可以为所得到视频的尺寸比例，例如，待合成视频的目标视频尺寸为
16:9，待合成视频的目标视频尺寸为9:16，以及待合成视频的目标视频尺寸为4:3等。或，目
标视频尺寸还可以为所得到视频的具体尺寸，例如，待合成视频的目标视频尺寸为750*
1334，以及待合成视频的目标视频尺寸为512*384等。其次，标签信息还包括指示待处理素
材所属场景的场景标签信息，例如，场景标签信息为试卷答题场景标签，以及场景标签信息
为商品特写场景标签等，本方案不对具体视频尺寸以及具体场景标签信息进行穷举。

[0132] 基于此，由于目标参数还可以包括待合成视频的目标视频尺寸，因此所得到的参数调整策略还包括用于对视频尺寸进行调整的视频尺寸调整策略，从而最后生成的目标视
频的视频尺寸等于待合成视频的目标视频尺寸。因此，视频生成装置具体基于待处理素材
以及行业标签信息确定视频时长调整策略，并基于待处理素材中的多媒体数据，行业标签
信息以及场景标签信息确定视频尺寸调整策略。

[0133] 具体地，参数调整策略具体用于对待处理素材中的多媒体数据进行处理，以生成满足目标参数的目标视频，具体视频时长调整策略前述实施例已介绍，此处不再赘述。而具
体对视频尺寸进行调整的方法可以包括但不限于填充处理，模板添加处理，剪切处理以及
增大或缩小处理等，此处不作具体限定。

[0134] 示例性地，为便于理解视频尺寸调整策略，下面例举几个在具体行业以及对应场景下的视频尺寸调整策略。若行业标签信息为教育行业标签，且场景标签信息为试卷答题
场景标签，此时视频尺寸调整策略可以为，通过教育行业标签以及试卷答题场景标签得到
含有教育行业特色的行业模板集合，对不满足视频尺寸的待处理素材进行填充，以达到目
标参数中视频尺寸的需求。或者，行业标签信息为金融行业，且场景标签信息为金融仪表板
场景标签，此时视频尺寸调整策略可以为，通过金融行业标签以及金融仪表板场景标签得
到含有金融行业特色的行业模板集合，对不满足视频尺寸的待处理素材进行填充，以达到
目标参数中视频尺寸的需求。或者，若行业标签信息为电商行业标签，且场景标签信息为商
品特写场景标签，此时视频尺寸调整策略可以基于电商行业标签以及商品特写场景标签得
到卖点展示的行业模板集合，将卖点展示的行业模板填充至不满足视频尺寸的待处理素材
中，从而满足目标参数中视频尺寸的需求。

[0135] 示例性地，请参阅图3，图3为本申请实施例提供的一种视频尺寸调整策略的实施例示意图，如图3所示，A1指的是待处理素材，A2指的是行业模板。图3中（A）图示出的为待处
理素材A1，且待处理素材A1的尺寸为5:9，若以待合成视频的目标视频尺寸为16：9作为示例
进行说明，即待处理素材A1的尺寸相较于目标参数中的16：9较小，若该待处理素材A1能够
得到电商行业标签以及商品特写场景标签，那么可以得到该行业的卖点展示的行业模板集
合，从行业模板集合中获取行业模板A2，然后填充至图3中（A）图所示出的待处理素材A1中，
由此得到图3中（B）图所示出的目标视频，该目标视频中包括待处理素材A1以及行业模板
A2，且该目标视频的视频尺寸为16：9，满足目标参数中视频尺寸的需求。其次，若以待合成
视频的目标视频尺寸为9：16作为示例进行说明，通过前述类似的方式从行业模板集合中获
取行业模板A2，然后填充至图3中（A）图所示出的待处理素材A1中，由此得到图3中（C）图所
示出的目标视频，该目标视频中包括待处理素材A1以及行业模板A2，且该目标视频的视频
尺寸为9：16，也能够满足目标参数中视频尺寸的需求。

[0136] 或者，若行业标签信息为网络服务行业标签，且场景标签信息为口播场景标签，此时视频尺寸调整策略可以基于网络服务行业标签以及口播场景标签得到焦点人物跟随模
版，对进行口播的人物进行识别，对待处理素材进行处理时在达到目标参数中视频尺寸的
需求即基础上，将进行口播的人物确定为焦点人物，保证焦点人物一直处于目标视频的焦
点位置。示例性地，请参阅图4，再次以待合成视频的目标视频尺寸为9:16作为示例进行说
明，图4为本申请实施例提供的另一视频尺寸调整策略的实施例示意图，如图4所示，B1指的
是待处理素材，B2指的是焦点人物。图4中（A）图示出的为待处理素材B1，且待处理素材B1的
尺寸为7:11，即待处理素材B1的尺寸相较于目标参数中的9:16较小，若该待处理素材B1能
够得到网络服务标签以及口播场景标签，那么可以得到焦点人物跟随模版，具体对焦点人
物B2进行识别，然后对待处理素材B1进行处理，由此得到图4中（B）图所示出的目标视频，该
目标视频中焦点人物B2一直处于目标视频的焦点位置，且该目标视频的视频尺寸为9:16，
满足目标参数中视频尺寸的需求。

[0137] 应理解，图3以及图4的示例仅用于理解本方案中，基于待处理素材中的多媒体数据，行业标签信息以及场景标签信息所确定的具体视频尺寸调整策略，在实际应用中，还能
够针对所有行业标签信息，且包括填充场景标签的，对待处理素材进行处理时使用去填充
模版，或者针对所有行业标签信息，且包括视频多镜头场景标签，对待处理素材进行处理时
使用精彩镜头展示或者分级联播的方式，此处不对视频尺寸调整策略进行穷举，而前述示
例也仅用于理解本方案。

[0138] 进一步地，视频生成装置再基于前述实施例所确定的视频时长调整策略以及视频尺寸调整策略，以待合成视频的目标视频时长以及待合成视频的目标视频尺寸为处理目
标，对待处理素材进行处理，以得到与目标参数相匹配的目标视频。

[0139] 本申请实施例中，提供了另一种视频生成的方法，由于获取标签信息还包括待处理素材所属场景的场景标签信息，通过参数调整策略所进行的对应调整在满足行业需求的
基础上，还能够满足具体场景需求，由此提升视频生成的灵活性以及准确性，其次，通过场
景标签信息进一步的确定视频尺寸调整策略，由此通过视频时长调整策略以及视频尺寸调
整策略，以待合成视频的目标视频时长以及待合成视频的目标视频尺寸为处理目标，对待
处理素材进行处理，以得到与目标参数中视频尺寸以及视频时长相匹配的目标视频，进一
步地提升了视频生成的准确性。

[0140] 可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，多媒体数据为视频数据；

[0141] 基于待处理素材获取待处理素材的标签信息，具体包括：

[0142] 对多媒体数据进行特征化处理，得到素材特征，其中，素材特征包括视频帧特征以及语音序列特征，或，素材特征包括视频帧特征，语音序列特征以及文本特征；

[0143] 若素材特征包括视频帧特征以及语音序列特征，则对视频帧特征以及语音序列特征进行聚合处理以得到第一全局特征，并基于第一全局特征得到待处理素材的标签信息；

[0144] 若素材特征包括视频帧特征，语音序列特征以及文本特征，则对视频帧特征，语音序列特征以及文本特征进行聚合处理以得到第二全局特征，并基于第二全局特征得到待处
理素材的标签信息。

[0145] 本实施例中，由于待处理素材能够包括多媒体数据，为了能够对不同类型的待处理素材进行处理，本申请实施例中具体采用多模态标签模型对对不同类型的待处理素材进
行处理，该该多模态标签模型能够兼容多媒体数据作为模型的输入，由于视频数据以及图
片数据中具体包括视频帧，音频数据，图片数据以及文本信息，因此该多模态标签模型包括
Inception V3模型，Vggish模型，Bert模型以及Resnet50模型，并通过Inception V3模型对
视频帧数据进行特征化处理、通过Vggish模型对音频数据进行特征化处理、通过Bert模型
对文本信息进行特征化处理、以及通过Resnet50模型对图片数据进行特征化处理，从而得
到对应特征。应理解，前述模型仅用于对不同的数据进行特征化处理，在实际应用中，能还
能通过Inception V2模型对视频帧数据进行特征化处理，moviepy模型对音频数据进行特
征化处理等，因此前述示例不应理解为特征化处理的限定。

[0146] 基于此，多媒体数据为视频数据时。基于此，视频生成装置具体对多媒体数据进行特征化处理，得到素材特征，由于视频数据中必然存在视频帧数据以及音频数据，因此对待
处理素材进行特征化处理，所得到的素材特征中能够包括视频帧特征（具体为特征向量表
示）以及语音序列特征，其次，在部分视频数据中还存在文本信息，此时对待处理素材进行
特征化处理，所得到的素材特征中能够包括视频帧特征，语音序列特征以及文本特征。具体
地，通过前述多模态标签模型中的Inception V3模型对视频帧数据进行特征化处理，以得
到视频帧特征，并通过前述多模态标签模型中的Vggish模型对音频数据进行特征化处理，
以得到语音序列特征，其次，在视频数据中存在文本信息时，还需要通过前述多模态标签模
型中的Bert模型对文本信息进行特征化处理，以得到文本特征。

[0147] 为了便于理解，请参阅图5，图5为本申请实施例提供的获取素材特征的一种实施例示意图，如图5所示，图5中（A）图示出的为，待处理素材包括视频帧数据以及音频数据，对
该待处理素材中的视频帧数据以及音频数据进行特征化处理，得到视频帧数据对应的视频
帧特征，以及音频数据对应的语音序列特征。其次，图5中（B）图示出的为，待处理素材包括
视频帧数据，音频数据以及文本信息，基于此，对该待处理素材中的视频帧数据，音频数据
以及文本信息进行特征化处理，得到视频帧数据对应的视频帧特征，音频数据对应的语音
序列特征以及文本信息对应的文本特征。

[0148] 进一步地，由于对于不同的数据以及信息进行特征化处理后，能够得到对应的特征，然而特征之间的是分散的，因此需要对所有不同的特征利用上下文理解（context
gating，CG）的方法，动态调整各个模态的权重，增强有效特征，采用CG的目的是为了捕捉分
散特征的关联从而输出更精确的整体结果。基于此，若素材特征包括视频帧特征以及语音
序列特征，则视频生成装置对视频帧特征以及语音序列特征进行聚合处理以得到第一全局
特征，并基于第一全局特征得到待处理素材的标签信息，具体地，对于视频帧特征以及语音
序列特征，采用Nextvald的方法聚合视频帧特征以及语音序列特征得到全局特征表示，即
得到第一全局特征，再将第一全局特征作为多标签分类模型的输入，通过多标签分类模型
输出待处理素材的标签信息。其次，若素材特征包括视频帧特征，语音序列特征以及文本特
征，则视频生成装置对视频帧特征，语音序列特征以及文本特征进行聚合处理以得到第二
全局特征，并基于第二全局特征得到待处理素材的标签信息，具体地，得到第二全局特征
后，将第二全局特征作为多标签分类模型的输入，通过多标签分类模型输出待处理素材的
标签信息。

[0149] 为了便于理解，请参阅图6，图6为本申请实施例提供的获取待处理素材的标签信息的实施例示意图，如图6所示，图6中（A）图示出的为，在通过图5所示出的示例得到视频帧
特征以及语音序列特征后，对视频帧特征以及语音序列特征进行聚合处理以得到第一全局
特征，将第一全局特征作为多标签分类模型的输入，通过多标签分类模型输出待处理素材
的标签信息。其次，图6中（B）图示出的为，在通过图5所示出的示例得到视频帧特征、语音序
列特征以及文本特征后，对视频帧特征、语音序列特征以及文本特征进行聚合处理以得到
第二全局特征，将第二全局特征作为多标签分类模型的输入，通过多标签分类模型输出待
处理素材的标签信息。

[0150] 应理解，图5以及图6的示例仅用于理解本方案中，如何获取素材特征以及如何获取待处理素材的标签信息的方法，此处不对具体素材特征以及标签信息进行穷举，而前述
示例也仅用于理解本方案。

[0151] 本申请实施例中，提供了一种获取待处理素材的标签信息的方法，通过对待处理素材中不同类型的数据以及文本进行特征化处理，并且对不同的特征进行聚合，以捕捉分
散的不同特征之间的关联，从而得到的全局特征能够包括更多有效特征，从而保证基于聚
合后的全局特征能够输出更精确的整体结果，即提升获取待处理素材的标签信息的准确
度。

[0152] 可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标
视频，具体包括：

[0153] 获取多媒体数据的每个视频帧中每个像素点的RGB参数；

[0154] 基于多媒体数据以及每个视频帧中每个像素点的RGB参数，通过概率输出模型获取每个视频帧为画面切换帧的概率；

[0155] 基于每个视频帧为画面切换帧的概率，将多媒体数据划分为多组视频片段；

[0156] 基于参数调整策略以及目标参数，对多组视频片段进行处理，以生成目标视频。

[0157] 本实施例中，在实际应用中，由于视频数据多组视频片段拼接而成的，拼接可以是直接拼接（硬拼接），也可以是由一个转场过渡拼接（软拼接），为了提升处理的精度，本方案
希望将视频数据划分为多组视频片段，此时就需要进行视频划分，视频划分具体通过找到
作为拼接的边界（即画面切换帧），即需要进行镜头边界检测（shot boundary detection）。
因此，视频生成装置获取多媒体数据的每个视频帧中每个像素点的RGB参数，其次视频生成
装置还能够获取待处理素材中每个视频帧之间的相似性。

[0158] 基于此，视频生成装置将多媒体数据以及每个视频帧中每个像素点的RGB参数，以及待处理素材中每个视频帧之间的相似性，作为概率输出模型的输入，并通过概率输出模
型输出每个视频帧为画面切换帧的概率。具体地，由于每个视频帧中每个像素点的RGB参数
以及待处理素材中每个视频帧之间的相似性，能够更为准确地指示每个视频帧之间的关联
性，从而提升后续逐帧预测的精度。其次，本方案中概率输出模型具体为TransNet V2模型，
由于TransNet V2模型加入了批量归一化（atch normalization）b和残差网络结构，且在对
在TransNet V2模型进行训练时加入了噪声，因此待处理素材将经过多个残差网络‑基于数
据依存型卷积神经网络（residual neural network‑data dependent convolutional
neural network，Res‑DDCNN），由此能够使得TransNet V2模型学习图像特征和时间维度的
特征，从而进一步地提升后续逐帧预测的精度。

[0159] 其次，若将本方案所提供的方法具体应用于广告场景，为了更好于适应广告场景中的视频生成，在对概率输出模型进行训练时，通过合成包含广告特性的视频得到待训练
样本集合，通过待训练样本集合对待训练的概率输出模型进行训练以得到本方案所使用的
概率输出模型，前述包含广告特性的视频包括但不限于带填充的视频或图片通过转场合成
的视频，而填充但不限于高斯模糊填充、图片填充以及颜色填充等。其次，由于采用单帧会
降低概率输出模型的运行效率，因此本方案还优化了抽帧的方式，采用了并行抽帧策略，将
多个视频帧作为一组作为概率输出模型的输入，降低模型算法时耗，从而提升获取概率的
效率。

[0160] 为了便于理解，请参阅图7，图7为本申请实施例提供的获取画面切换帧的概率的实施例示意图，如图7所示，C1指的是待处理素材，C2指的是每个视频帧中每个像素点的RGB
参数，C3指的是待处理素材中每个视频帧之间的相似性，C4指的是概率输出模型，C5指的是
每个视频帧作为画面切换帧的概率，且概率输出模型C4中包括多个Res‑DDCNN以及全连接
层。基于此，将待处理素材C1作为概率输出模型C4的输入，而将每个视频帧中每个像素点的
RGB参数C2，以及待处理素材中每个视频帧之间的相似性C3作为概率输出模型C4中全连接
层的输入，由此概率输出模型C4将输出每个视频帧作为画面切换帧的概率C5。应理解，图7
的示例仅用于理解本方案中，如何获取获取画面切换帧的概率还能通过其他模型结构获
取，此处不对具体模型结构以及方法进行穷举，而前述示例也仅用于理解本方案。

[0161] 进一步地，视频生成装置再基于每个视频帧为画面切换帧的概率，将多媒体数据划分为多组视频片段，最后基于参数调整策略以及目标参数，对多组视频片段进行处理，以
生成目标视频。具体地，视频生成装置将每个视频帧为画面切换帧的概率大于预设概率阈
值的概率确定为目标概率，并且将目标概率对应的视频帧作为画面切换帧，以画面切换帧
对多个视频帧进行划分，以得到多组视频片段。

[0162] 示例性地，若待处理素材中包括10个视频帧，分别为视频帧1至视频帧10，且预设概率阈值为75%，通过前述步骤得到视频帧4为画面切换帧的概率为80%，而视频帧7为画面
切换帧的概率为85%，其余视频帧为画面切换帧的概率均处于10 20%的概率，此时可以将视
~
频帧4以及视频帧7作为画面切换帧，并且对视频帧1至视频帧10进行划分，由此能够将视频
帧1至视频帧4作为一组视频片段，视频帧5至视频帧7作为一组视频片段，以及视频帧8至视
频帧10作为一组视频片段。

[0163] 本申请实施例中，提供了另一种视频生成的方法，基于多媒体数据为视频数据的基础上，由于视频数据通是通过多个视频帧组成的，因此基于视频数据中每个视频帧中每
个像素点的RGB参数，以及视频数据中每个视频帧之间的相关性，将视频数据划分为多组视
频片段，基于参数调整策略分别对多组视频片段，以目标参数为目标进行处理，能够理解视
频数据在连续时序上的内容，进行时间长度和尺寸变换，以保证对多个视频帧之间的关系
以及时序连续上对视频数据更为准确的处理，因此所得到的目标视频在满足目标参数的需
求的基础上，还能够更为准确描述多个视频帧中的特征信息，从而提升目标视频的可靠性
以及信息完整性。

[0164] 可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，多媒体数据的视频时长小于目标视频时长；

[0165] 基于参数调整策略以及目标参数，对多组视频片段进行处理，以生成目标视频，具体包括：

[0166] 基于行业标签信息确定行业模板集合；

[0167] 将行业模板集合中的行业模板添加至多组视频片段中，以得到多组第一视频片段，其中，每个第一视频片段的视频时长的总和等于待合成视频的目标视频时长；

[0168] 将多组第一视频片段进行合并处理，以生成目标视频。

[0169] 本实施例中，由于多媒体数据的视频时长能够小于目标视频时长，或者多媒体数据的视频时长大于目标视频时长的情况，本实施例先介绍在多媒体数据的视频时长小于目
标视频时长的情况下，如何生成目标视频的方法。由于多媒体数据的视频时长存在小于目
标视频时长，因此需要视频生成装置具体基于行业标签信息确定行业模板集合，然后将行
业模板集合中的行业模板添加至多组视频片段中，以得到多组第一视频片段，此时每个第
一视频片段的视频时长的总和等于待合成视频的目标视频时长，应理解，不是每组视频片
段都需要添加对应的行业模板，而是需要根据具体视频时长以及具体行业进行添加，且行
业模板集合中可以包括一个或多个行业模板，需要基于具体行业中预设的模板确定。进一
步地，视频生成装置将多组第一视频片段进行合并处理，以生成目标视频，以增加目标视频
前部分的吸引力或者增加目标视频后续的转化。

[0170] 具体地，此时行业模板集合中的行业模板为首尾帧行业模版，即包括添加在视频片段的首帧（最开始一帧）之前的首帧行业模版，以及添加在视频片段的尾帧（最后一帧）之
前的尾帧行业模版，根据行业的不同所得到的首帧行业模版也不同，例如，教育行业标签信
息所对应的首帧行业模版为教育对话模板，游戏行业标签信息所对应的首帧行业模版为解
压模版，电商行业标签信息所对应的首帧行业模版为行动召唤模版（例如，点击下载模板，
点击跳转模板等）。应理解，在实际应用中，行业模板集合也可以为插入一组视频片段的视
频帧中的模板，因此不应理解为本申请的限定。而不同的行业模板集合添加方式所得到的
多组第一视频片段也不同，因此本方案中的多组第一视频片段具体为多组第一视频片段的
集合，因此所得到目标视频中能够包括多个视频。

[0171] 示例性地，若多媒体数据的视频时长为10s，而目标视频时长为15s，通过前述方式得到电商行业标签信息，且待处理素材能够被分为视频片段1以及视频片段2，且视频片段1
的时长为6s，视频片段2的时长为4s。若此时点击下载模板的时长为3s，而点击跳转模板的
时长为2s，可以将点击下载模板添加至视频片段1的首帧之前，由此得到第一视频片段1，且
第一视频片段1的时长为9s，其次，再将点击跳转模板添加至视频片段2的尾帧之后，由此得
到第一视频片段2，且第一视频片段2的时长为6s，然后合成第一视频片段1以及第一视频片
段2，由此所得到的目标视频的视频时长为15s，满足目标参数。

[0172] 本申请实施例中，提供了另一种视频生成的方法，在多媒体数据的视频时长小于目标视频时长，通过行业标签信息确定行业模板集合，并且将行业模板集合中至少一个行
业模板添加至至少一组视频片段中，由此能够得到总和等于待合成视频的目标视频时长的
多个第一视频片段，基于此再进行合成，在视频时长能够满足目标参数的需求的基础上，还
能够通过模板添加的具体方式，如添加至视频片段的尾帧、首帧或视频帧之间，由此提升视
频生成的灵活性。

[0173] 可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，标签信息还包括指示待处理素材特征的特征标签信息；

[0174] 多媒体数据的视频时长大于目标视频时长；

[0175] 多组视频片段包括第一组视频片段以及第二组视频片段；

[0176] 基于参数调整策略以及目标参数，对多组视频片段进行处理，以生成目标视频，具体包括：

[0177] 基于行业标签信息以及特征标签信息，确定第一组视频片段的分数以及第二组视频片段的分数，其中，第一组视频片段的分数大于第二组视频片段的分数；

[0178] 基于第一组视频片段的分数以及第二组视频片段的分数确定视频剪辑比例；

[0179] 基于视频剪辑比例对第一组视频片段以及第二组视频片段进行剪辑，得到第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果，其中，第一组视频片段的剪辑结果
的视频时长，与第二组视频片段的剪辑结果的视频时长之和等于待合成视频的目标视频时
长；

[0180] 将第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果进行合并处理，以生成目标视频。

[0181] 本实施例中，标签信息还包括指示待处理素材特征的特征标签信息，多媒体数据的视频时长大于目标视频时长，且多组视频片段包括第一组视频片段以及第二组视频片
段，因理解，仅介绍第一组视频片段以及第二组视频片段，是为了便于对后续步骤进行介
绍，在实际应用中，多组视频片段中还可以包括更多组视频片段，对更多的视频片段进行剪
辑的方式与后续步骤类似，因此此处未做赘述。其中，特征标签信息能够指示待处理素材的
素材特征，特征标签信息具体包括主体标签，色彩标签，利益点标签以及界面标签等，例如，
待处理素材为游戏界面，那么可以得到的特征标签信息能够包括游戏人物标签（主体标签）
以及游戏界面标签，此时通过特征标签信息能够得知待处理素材中主体为游戏任务，且该
待处理素材来源于游戏界面。

[0182] 基于此，视频生成装置具体基于行业标签信息以及特征标签信息，确定第一组视频片段的分数以及第二组视频片段的分数，视频片段的分数能够指示视频片段所包括的素
材特征在待处理素材的比例，并且此时第一组视频片段的分数大于第二组视频片段的分
数。例如，第一组视频片段包括游戏人物，游戏背景以及其他游戏特征所组成的视频帧，而
第二组视频片段仅包括游戏背景组成的视频帧，因此第一组视频片段中所反映的视频片段
所包括的素材特征在待处理素材的比例较大，而第二组视频片段中所反映的视频片段所包
括的素材特征在待处理素材的比例较小，因此第一组视频片段的分数大于第二组视频片段
的分数。

[0183] 进一步地，视频生成装置基于第一组视频片段的分数以及第二组视频片段的分数确定视频剪辑比例，例如，第一组视频片段的分数为90，而第二组视频片段的分数为60，由
此可以得到视频剪辑比例为3：2（90：60=3：2）。再基于视频剪辑比例对第一组视频片段以及
第二组视频片段进行剪辑，得到第一组视频片段的剪辑结果，以及第二组视频片段的剪辑
结果，此时第一组视频片段的剪辑结果的视频时长，与第二组视频片段的剪辑结果的视频
时长之和等于待合成视频的目标视频时长，例如，以视频剪辑比例为3：2，且待处理素材的
时长为35s，目标视频时长为20s，而第一组视频片段的时长为20s，第二组视频片段的时长
为15s作为示例进行说明，对第一组视频片段进行剪辑，即希望第一组视频片段的剪辑结果
的视频时长趋近于12s（20*3/5），对第二组视频片段进行剪辑，即希望第二组视频片段的剪
辑结果的视频时长趋近于8s（20*2/5）。

[0184] 下面介绍具体如何对视频片段进行剪辑，首先对视频片段进行主体检测，若待处理素材为游戏界面，那么即需要对视频片段中的游戏人物进行检测，检测游戏人物在视频
片段中出现的比例。其次，若为电商的场景，那么需要对电商商品进行识别，例如对衣服、裤
子以及鞋子进行识别，识别电商商品在视频片段中出现的比例。再次，为了保证视频剪辑后
画面是连续无跳帧，那么还需要对视频片段的色彩进行识别，以保证色彩过度自然。基于
此，通过视频剪辑比例以及目标视频时长确定每个视频片段的剪辑结果的预设视频时长，
并通过前述方式对每个视频片段进行剪辑，从而得到第一组视频片段的剪辑结果，以及第
二组视频片段的剪辑结果。

[0185] 最后，将第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果进行合并处理，以生成目标视频，由于第一组视频片段的剪辑结果的视频时长，与第二组视频片段的
剪辑结果的视频时长之和等于待合成视频的目标视频时长，因此所得到的目标视频的视频
时长也等于待合成视频的目标视频时长。应理解，由于进行剪辑的方式不同，因此本方案中
能够得到多组第一组视频片段的剪辑结果以及第二组视频片段的剪辑结果，由此生成目标
视频也能够包括多个视频。

[0186] 为了便于理解，下面以图8对本方案中的剪辑过程进行介绍，图8为本申请实施例提供的另一种视频生成的实施例示意图，如图8所示，D1指示的是待处理素材，D21指的是第
一组视频片段，D22指的是第一组视频片段D21的标签信息，由于第一组视频片段D21中包括
商品主体，因此第一组视频片段D21的标签信息D22具体为背景铺垫主题位置。其次，D31指
的是第二组视频片段，D32指的是第二组视频片段D31的标签信息，由于第二组视频片段D31
中包括仅包括文字信息并未包括商品主体，因此第二组视频片段D31的标签信息D32具体为
推广页无主体。

[0187] 进一步，D4指的是第一组视频片段的分数，D5指的是第二组视频片段的分数，由于视频片段的分数能够指示视频片段所包括的素材特征在待处理素材的比例，而通过第一组
视频片段D21的标签信息D22，以及第二组视频片段D31的标签信息D32可知，在第一组视频
片段D21中包括商品主体，而第二组视频片段D31中不包括商品主体，因此所得到的第一组
视频片段的分数D4应该大于第二组视频片段的分数D5。基于此，D6指的是视频剪辑比例，即
根据第一组视频片段的分数D4，以及第二组视频片段的分数D5确定视频剪辑比例D6，并基
于视频剪辑比例D6对第一组视频片段D21以及第二组视频片段D31进行剪辑，能够得到第一
组视频片段的剪辑结果以及第二组视频片段的剪辑结果，再基于前述实施例所介绍的方法
将第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果进行合并处理，即可生成
满足目标参数的目标视频。

[0188] 本申请实施例中，提供了另一种视频生成的方法，多媒体数据的视频时长大于目标视频时长，对每组视频片段进行评分，通过评分指示该组视频片段所反映的待处理素材
的素材特征的占比，基于此得到剪辑比例，由此通过剪辑比例进行素材倾向性剪辑，从而剪
辑出不同倾向的结果，即得到不同多组剪辑结果，由此生成包括多个视频的目标视频，从而
提升视频生成的灵活性。

[0189] 可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，多媒体数据为图片数据；

[0190] 基于待处理素材获取待处理素材的标签信息，具体包括：

[0191] 对多媒体数据进行特征化处理，得到素材特征，其中，素材特征包括图片特征，或，素材特征包括图片特征以及文本特征；

[0192] 若素材特征包括图片特征以及文本特征，则对图片特征以及文本特征进行聚合处理以得到第三全局特征，并基于第三全局特征得到待处理素材的标签信息；

[0193] 若素材特征包括图片特征，则基于图片特征得到待处理素材的标签信息。

[0194] 本实施例中，多媒体数据为图片数据。基于此，视频生成装置对多媒体数据进行特征化处理，得到素材特征，此时素材特征能够包括图片特征，或，当图片数据具体包括图片
数据以及文本信息是，此时素材特征包括图片特征以及文本特征。具体地，通过前述实施例
做介绍的模型对图片特征进行特征化处理，以得到图片特征，其次，在图片数据中存在文本
信息时，还需要通过前述实施例做介绍的模型对文本信息进行特征化处理，以得到文本特
征。应理解，具体模型与前述实施例类似，此处不再赘述。

[0195] 为了便于理解，请参阅图9，图9为本申请实施例提供的获取素材特征的实施例示意图，如图9所示，图9中（A）图示出的为，多媒体数据H1具体为图片数据H2，且不包括文本信
息等其他信息数据，因此对图片数据H2进行特征化处理，能够得到图片数据H2对应的图片
特征H3。其次，图9中（B）图示出的为，多媒体数据H4包括图片数据H5以及文本信息H6，因此
对多媒体数据H4中的图片数据H5以及文本信息H6进行特征化处理，能够得到图片数据H5对
应的图片特征H7，以及文本信息H6对应的文本特征H8。

[0196] 进一步地，由于对于不同的数据以及信息进行特征化处理后，能够得到对应的特征，因此需要对所有不同的特征利用CG的方法，动态调整各个模态的权重，增强有效特征，
采用CG的目的是为了捕捉分散特征的关联从而输出更精确的整体结果。基于此，若素材特
征包括图片特征以及文本特征，则对图片特征以及文本特征进行聚合处理以得到第三全局
特征，将第三全局特征作为多标签分类模型的输入，通过多标签分类模型输出待处理素材
的标签信息。其次，若素材特征仅包括图片特征，那么不需要进行前述聚合处理，直接将图
片特征作为多标签分类模型的输入，通过多标签分类模型输出待处理素材的标签信息。

[0197] 为了便于理解，请参阅图10，图10为本申请实施例提供的获取待处理素材的标签信息的实施例示意图，如图10所示，图10中（A）图示出的为，在通过图9所示出的示例得到图
片特征I1后，将图片特征作为多标签分类模型I2的输入，通过多标签分类模型I2输出待处
理素材的标签信息I3。其次，图10中（B）图示出的为，在通过图9所示出的示例得到图片特征
I4以及文本特征I5后，对图片特征I4以及文本特征I5进行聚合处理以得到第三全局特征
I6，然后将第三全局特征I6作为多标签分类模型I7的输入，通过多标签分类模型I7输出待
处理素材的标签信息I8。

[0198] 应理解，图9以及图10的示例仅用于理解本方案中，如何获取素材特征以及如何获取待处理素材的标签信息的方法，此处不对具体素材特征以及标签信息进行穷举，而前述
示例也仅用于理解本方案。

[0199] 本申请实施例中，提供了另一种获取待处理素材的标签信息的方法，通过对待处理素材中图片数据以及文本信息进行特征化处理，并且对不同的特征进行聚合，以捕捉分
散的不同特征之间的关联，从而得到的全局特征能够包括更多有效特征，从而保证基于聚
合后的全局特征能够输出更精确的整体结果，即提升获取待处理素材的标签信息的准确
度。

[0200] 可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标
视频，具体包括：

[0201] 基于行业标签信息确定行业模板集合；

[0202] 根据行业模板集合以及目标参数，对待处理素材进行处理，以得到目标视频。

[0203] 本实施例中，视频生成装置基于行业标签信息确定行业模板集合，具体根据行业模板集合以及目标参数，对待处理素材进行处理，以得到目标视频。具体地，由于图片数据
可以为单张图片或者多张图片，在确定行业模板集合之后，若为单张图片，则所选择行业模
板可以为视频模板，然后以目标视频时长为目的，将所选的行业模板与单张图片切替添加，
直到满足目标视频时长即可生成目标视频。若为多张图片，则有其他的行业模板添加方式，
例如，通过还包括的音乐风格，确定至少一个音乐，确定音乐的音乐鼓点，基于音乐鼓点展
示多张图片。下面将具体介绍单张图片以及多张图片时对应的视频生成方法。

[0204] 可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，图片数据为单张图片；

[0205] 标签信息还包括交互控件标签，交互控件标签表示待处理素材中存在交互控件；

[0206] 根据行业模板集合以及目标参数，对待处理素材进行处理，以得到目标视频，具体包括：

[0207] 基于交互控件标签，从待处理素材中确定交互控件；

[0208] 对交互控件进行增强处理，以得到第一素材，其中，第一素材包括进行增强处理后的交互控件，增强处理为对交互控件进行放大缩小，或，增强处理为对交互控件进行加粗高
亮；

[0209] 根据行业模板集合以及目标参数，对第一素材进行处理，以得到目标视频。

[0210] 本实施例中，首先介绍图片数据为单张图片。标签信息还包括交互控件标签，交互控件标签表示待处理素材中存在交互控件，具体应用中，该交互控件可以为点击键以及按
钮等，具体交互控件的形态此处不做限定。基于此，若得到的标签信息还包括交互控件标
签，即说明待处理素材存在交互控件，因此视频生成装置需要从待处理素材中确定交互控
件。应理解，由于每个图片中的交互控件的形态不同，而每张图片的背景复杂多样，因此从
待处理素材中确定交互控件精确到像素级别的准度，为了保证所确定交互控件的精准度，
本实施例选择使用语义分割的方法对交互控件进行识别，具体采用了图像网络训练交互控
件分割模型，交互控件分割模型具体使用多维度上下文感知特征提取模块（multi‑scale
context‑aware feature extraction，MCFEM)，具备对图片的多维度情境感特征提取能力，
同时增加门限机制 (gated bi‑directional message passing，GBMP) 去除图片的噪音。
进一步地，本申请实施例中还引入前背景分权值问题，以解决识别残缺问题。其次，引入轮
廓损失（contour loss）以解决交互控件的边缘不精准的问题。

[0211] 然后，视频生成装置对交互控件进行增强处理，以得到第一素材，该第一素材包括进行增强处理后的交互控件，且增强处理为对交互控件进行放大缩小，或，增强处理为对交
互控件进行加粗高亮等，最后根据前述行业模板集合以及目标参数，对第一素材进行处理，
以得到目标视频。

[0212] 示例性地，请参阅图11，图11为本申请实施例提供的增强处理的界面示意图，如图11所示，E1指的是交互控件，E2指的是进行放大缩小后的交互控件，E3指的是进行加粗高亮
后的交互控件。基于此，图11中（A）图为图片数据（单张图片），且包括交互控件E1，对交互控
件E1进行放大缩小，即可得到图11中（B）图示出的第一素材，该第一素材中包括进行放大缩
小后的交互控件E2。其次，对交互控件E1进行加粗高亮，即可得到图11中（C）图示出的第一
素材，该第一素材中包括进行加粗高亮后的交互控件E3。

[0213] 本申请实施例中，提供了另一种视频生成的方法，在图片数据为单张图片时，通过对交互控件进行增强处理，以强调图片中交互控件的部分，从而使得所生成的视频能够更
加突出交互控件，从而使得用户基于该视频进行交互操作，由此提升所生成视频的实用型
以及交互性。

[0214] 可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，图片数据为多张图片；

[0215] 目标参数还包括音乐风格；

[0216] 根据行业模板集合以及目标参数，对待处理素材进行处理，以得到目标视频，具体包括：

[0217] 基于音乐风格确定目标音乐；

[0218] 基于目标音乐确定目标音乐中的多个鼓点位置；

[0219] 基于目标音乐中的多个鼓点位置确定待处理素材中每张图片的展示时长；

[0220] 根据行业模板集合，目标参数以及图片数据中每张图片的展示时长，对待处理素材进行处理，以得到目标视频。

[0221] 本实施例中，介绍图片数据为多张图片，此时目标参数还包括音乐风格。基于此，视频生成装置基于音乐风格确定目标音乐，再基于目标音乐确定目标音乐中的多个鼓点位
置，进而基于目标音乐中的多个鼓点位置确定待处理素材中每张图片的展示时长，最后根
据行业模板集合，目标参数以及图片数据中每张图片的展示时长，对待处理素材进行处理，
以得到目标视频。具体地，基于图片数据中每张图片的展示时长，对待处理素材中每张图片
与行业模板集合中的行业模板一起展示，以满足每张图片的展示时长，且最后所得到的目
标视频满足目标参数中的目标视频时长。

[0222] 例如，以目标音乐包括音乐A，而图片数据包括图片A，图片B，图片C以及图片D，且目标视频时长为15s为例，若音乐A中的多个鼓点位置分别在音乐A的第5s，第8s以及第12s
以及第18s，而由于本方案中仅4张图片，且需要的目标视频时长为15s，因此取音乐A的第
5s，第8s以及第12s的鼓点位置，并且确定图片A的展示时长为0 5s，图片B的展示时长为5s
~ ~
8，图片C的展示时长为8 12s，图片D的展示时长为12s 15s，然后将任一行业模板与图片A共
~ ~
同展示至第5s，将切换图片B与任一行业模板，依次类推，即可合成得到视频时长为15s的目
标视频。

[0223] 应理解，该目标音乐为满足音乐风格的音乐，因此与目标音乐可以为多个音乐，由此可知，需要确定每个音乐的多个鼓点位置，并基于每个音乐的多个鼓点位置确定每张图
片的展示时长，也就是不同的音乐所确定的每张图片的展示时长不同，因此所不同音乐所
生成的目标视频也不同。

[0224] 本申请实施例中，提供了另一种视频生成的方法，由于图片数据为多张图片，且目标参数还包括音乐风格，因此通过音乐风格所选择音乐能够满足用户需求，其次，参考音乐
风格所选择音乐的鼓点位置计算每张图片的展示时长，从而让每张图片展示具有节奏感，
由此提升视频生成的灵活性以及趣味性。

[0225] 可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，标签信息还包括交互控件标签，交互控件标签表示待处理素材中存在
交互控件；

[0226] 根据行业模板集合以及目标参数，对待处理素材进行处理，以得到目标视频，具体包括：

[0227] 基于交互控件标签，从待处理素材中确定至少一个交互控件；

[0228] 对每个交互控件进行增强处理，以得到第二素材，其中，第二素材包括至少一个进行增强处理后的交互控件，增强处理为对交互控件进行放大缩小，或，增强处理为对交互控
件进行加粗高亮；

[0229] 根据行业模板集合以及目标参数，对第二素材进行处理，以得到目标视频。

[0230] 本实施例中，标签信息还包括交互控件标签，交互控件标签表示待处理素材中存在交互控件，具体应用中，该交互控件可以为点击键以及按钮等，具体交互控件的形态此处
不做限定。基于此，若得到的标签信息还包括交互控件标签，即说明待处理素材存在交互控
件，因此视频生成装置需要从待处理素材中确定交互控件。应理解，由于每个图片中的交互
控件的形态不同，而每张图片的背景复杂多样，因此需要采用前述实施例所介绍的方法从
处理素材中确定交互控件，此处不再赘述。

[0231] 然后，视频生成装置对交互控件进行增强处理，以得到第二素材，该第二素材包括进行增强处理后的交互控件，且增强处理为对交互控件进行放大缩小，或，增强处理为对交
互控件进行加粗高亮等，最后根据前述行业模板集合以及目标参数，对第二素材进行处理，
以得到目标视频。具体第二素材与前述实施例所介绍的第一素材类似，具体界面展示形式
再次参阅图11，此处不再赘述。

[0232] 可以理解的是，前面单独描述了多媒体数据为视频数据，或者待处理素材为图片数据的情况，在实际应用中，待处理素材还可以同时包括视频数据以及图片数据，首先通过
本实施例所提供的方法能够题述视频数据以及图片数据所对应的素材特征，并基于素材特
征通过前述类似方法得到目标视频，因此此处不对同时包括视频数据以及图片数据的实施
例进行介绍。

[0233] 本申请实施例中，提供了另一种视频生成的方法，在多媒体数据为视频数据时，通过对交互控件进行增强处理，以强调图片中交互控件的部分，从而使得所生成的视频能够
更加突出交互控件，从而使得用户基于该视频进行交互操作，由此提升所生成视频的实用
型以及交互性。

[0234] 可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，目标参数还包括贴纸元素、字幕元素或图形标志元素中至少一项；

[0235] 基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，具体包括：

[0236] 基于参数调整策略以及目标参数，对待处理素材进行处理，以生成第一视频；

[0237] 确定贴纸元素、字幕元素以及图形标志元素在第一视频中预设位置；

[0238] 将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成目标视频。

[0239] 本实施例中，目标参数还包括贴纸元素、字幕元素或图形标志元素中至少一项。基于此，视频生成装置具体基于参数调整策略以及目标参数，对待处理素材进行处理，以生成
第一视频，应理解，若目标参数包括目标视频时长以及目标视频尺寸，那么此时所得到的第
一视频是满足目标视频时长以及目标视频尺寸的，具体第一视频的生成方式与前述实施例
描述的目标视频类似，此处不再赘述。

[0240] 进一步地，视频生成装置确定贴纸元素、字幕元素以及图形标志元素在第一视频中预设位置。应理解，贴纸元素、字幕元素以及图形标志元素的添加原则为不遮挡第一视频
中的主要元素，例如，人物、商品以及文字，并且所添加的贴纸元素、字幕元素以及图形标志
元素需要与第一视频的整体色调搭配，所以视频生成装置需要识别出第一视频中人物、商
品以及文字的位置，从而判别出前述可以放置于第一视频中预设位置，从而完成贴纸元素、
字幕元素以及图形标志元素的位置预估。其次，视频生成装置还可以识别第一视频中的主
色调，基于第一视频中的主色调，确定贴纸元素、字幕元素以及图形标志元素适合的样式。
示例性地，请参阅图12，图12为本申请实施例提供的贴纸元素、字幕元素以及图形标志元素
的界面示意图，如图12所示，图12中（A）图示出的为贴纸元素的样式，图12中（B）图示出的为
字幕元素的颜色以及样式，图12中（C）图示出的为图形标志元素的样式。

[0241] 基于此，再将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成目标视频。示例性地，请参阅图13，图13为本申请实施
例提供的基于贴纸元素、字幕元素以及图形标志元素生成目标视频的界面示意图，如图13
所示，F1指的是贴纸元素，F2指的是字幕元素，F3知识的指的是图形标志元素。目标视频中
包括贴纸元素F1、字幕元素F2以及图形标志元素F3，且均不遮挡目标视频中的人物。

[0242] 进一步地，在实际应用中，还能够利用从文本到语音（text to speech，TTS）技术将用户字幕元素转化为语音元素，与字幕元素同步播放。详细步骤此处不再赘述。

[0243] 本申请实施例中，提供了另一种视频生成的方法，通过将更多的元素添加至所生成的满足目标视频时长以及目标视频尺寸的视频中，在不对视频时长以及视频尺寸修改的
基础上，也不会遮挡视频中重要组成部分，由此保证所生成的目标视频更具趣味性以及提
升视频生成的灵活性。

[0244] 可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，

[0245] 目标参数还包括音乐风格以及特效元素；

[0246] 将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成目标视频，具体包括：

[0247] 将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成第二视频；

[0248] 基于音乐风格确定目标音乐；

[0249] 基于目标音乐确定目标音乐中的多个鼓点位置；

[0250] 基于目标音乐中的多个鼓点位置以及第二视频，确定第二视频中的特效转场位置；

[0251] 将特效元素添加至第二视频中的特效转场位置上，以生成目标视频。

[0252] 本实施例中，目标参数还包括音乐风格以及特效元素。基于此，视频生成装置通过前述实施例所介绍的方法，将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一
项放置于在第一视频中预设位置中，以生成第二视频。然后基于音乐风格确定目标音乐，与
前述实施例中部分步骤类似，基于目标音乐确定目标音乐中的多个鼓点位置，此时将基于
目标音乐中的多个鼓点位置以及第二视频，确定第二视频中的特效转场位置，然后将特效
元素添加至第二视频中的特效转场位置上，以生成目标视频。

[0253] 例如，以目标音乐包括音乐A，而目标音乐时长小于15s作为示例进行说明，由于目标音乐时长需要小于15s，若所得到的第二视频的视频时长为13s（小于15s），若音乐A中的
多个鼓点位置分别在音乐A的第5s，第8s以及第12s以及第18s，由此确定第二视频中的特效
转场位置为第5s，第8s以及第12s。基于此，特效元素添加至第二视频中的第5s，第8s以及第
12s上，由于特效元素时长通常较短，因此所得到的目标视频依旧小于15s，若特效元素时长
较长，那么在第12s不再添加特性元素即可。

[0254] 应理解，该目标音乐为满足音乐风格的音乐，因此与目标音乐可以为多个音乐，由此可知，需要确定每个音乐的多个鼓点位置，并基于每个音乐的多个鼓点位置确定每张图
片的展示时长，也就是不同的音乐所确定的在第二视频中的特效转场位置，因此所不同音
乐所生成的目标视频也不同。

[0255] 本申请实施例中，提供了另一种视频生成的方法，参考音乐风格所选择音乐的鼓点位置确定特效转场位置，从而将特效插入特效转场位置，让视频中进行特效转场更具有
节奏感，由此提升视频生成的灵活性以及趣味性。

[0256] 可选地，在上述图2对应的实施例的基础上，本申请实施例提供的视频生成的方法一个可选实施例中，获取待处理素材以及目标参数，具体包括：

[0257] 显示输入界面，其中，输入界面包括数据输入接口以及参数选择接口，数据输入接口用于输入待处理素材，参数选择接口用于选择目标参数；

[0258] 响应于对输入界面中数据输入接口的数据选择操作，获取待处理素材；

[0259] 响应于对输入界面中参数选择接口的参数选择操作，获取目标参数；

[0260] 基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频之后，视频生成的方法还包括：

[0261] 在视频展示界面显示目标视频。

[0262] 本实施例中，由于本实施例以终端设备为执行主体进行介绍，因此视频生成装置即为能够展示相关界面的终端设备。基于此，视频生成装置显示输入界面，该输入界面包括
数据输入接口以及参数选择接口，数据输入接口用于输入待处理素材，参数选择接口用于
选择目标参数，然后用户对输入界面中数据输入接口进行的数据选择操作，即选择待处理
素材，使得视频生成装置响应于对输入界面中数据输入接口的数据选择操作，获取待处理
素材，同理可知，用户对输入界面中参数选择接口的参数选择操作，即选择目标参数，使得
视频生成装置响应于对输入界面中参数选择接口的参数选择操作，获取目标参数。在通过
前述实施例生成目标视频之后，视频生成装置还会在在视频展示界面显示目标视频。

[0263] 应理解，若以服务器为执行主体进行介绍，那么终端设备通过前述方式得到待处理素材以及目标参数后，需要向服务器发送待处理素材以及目标参数，使得服务器通过所
接收到的待处理素材以及目标参数，生成目标视频，并且再向终端设备发送目标视频，以使
得终端设备在视频展示界面显示目标视频。

[0264] 其次，若目标视频包括多个视频，用户还能够对多个视频中一个视频进行选择，以展示最后用户所选择的目标展示视频。并且，若用户希望更改目标参数或待处理素材中任
一个时，能够在生成目标视频后，对目标参数或待处理素材中任一进行修改，视频生成装置
将根据前述方式得到新的目标视频，并且在视频展示界面显示。具体如何操作以及展示需
要根据实际情况灵活确定，此处不做限定。

[0265] 示例性地，请参阅图14，图14为本申请实施例显示输入界面以及显示目标视频的界面示意图，如图14所示，图14中（A）图示出的为显示输入界面G1，显示输入界面G1包括数
据输入接口G2以及参数选择接口G3，在图14中（A）图中还示出了音乐选择接口，图14中（B）
图示出的为在视频展示界面G4显示目标视频，此时目标视频包括视频G51至视频G53。应理
解，前述示例仅用于理解本方案，在实际应用中显示输入界面还可以包括其他目标参数选
择接口，例如，音乐选择接口、特效元素选择接口、贴纸元素选择接口、字幕元素选择接口或
图形标志元素选择接口等。

[0266] 本申请实施例中，提供了另一种视频生成的方法，通过用户的需求以及操作获取待处理素材以及目标参数，基于此所生成目标视频是满足用户本身需求的，其次，在显示界
面展示目标视频能够使得用户确定所生成的视频是否符合用户需求，由此提升视频生成的
可靠性。

[0267] 下面对本申请中的视频生成装置进行详细描述，请参阅图15，图15为本申请实施例中视频生成装置一个实施例示意图，如图所示，视频生成装置1500包括：

[0268] 获取模块1501，用于获取待处理素材以及目标参数，其中，待处理素材包括多媒体数据，目标参数包括待合成视频的目标视频时长；

[0269] 获取模块1501，还用于基于待处理素材获取标签信息，其中，标签信息包括指示待处理素材所属行业的行业标签信息；

[0270] 确定模块1502，用于基于待处理素材中的多媒体数据，以及标签信息中的行业标签信息确定参数调整策略，其中，参数调整策略包括用于对所述待处理素材进行视频时长
处理的视频时长调整策略；

[0271] 处理模块1503，用于基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频，其中，目标视频的视频时长等于待合成视频的目标视频时长。

[0272] 可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，目标参数还包括待合成视频的目标视频尺寸；

[0273] 标签信息还包括指示待处理素材所属场景的场景标签信息；

[0274] 参数调整策略还包括用于对视频尺寸进行调整的视频尺寸调整策略；

[0275] 目标视频的视频尺寸等于待合成视频的目标视频尺寸；

[0276] 确定模块1502，具体用于基于待处理素材以及行业标签信息确定视频时长调整策略；

[0277] 基于待处理素材中的多媒体数据，行业标签信息以及场景标签信息确定视频尺寸调整策略；

[0278] 处理模块1503，具体用于基于视频时长调整策略，视频尺寸调整策略，待合成视频的目标视频时长以及待合成视频的目标视频尺寸，对待处理素材进行处理，以生成目标视
频。

[0279] 可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，多媒体数据为视频数据；

[0280] 获取模块1501，具体用于对多媒体数据进行特征化处理，得到素材特征，其中，素材特征包括视频帧特征以及语音序列特征，或，素材特征包括视频帧特征，语音序列特征以
及文本特征；

[0281] 若素材特征包括视频帧特征以及语音序列特征，则对视频帧特征以及语音序列特征进行聚合处理以得到第一全局特征，并基于第一全局特征得到待处理素材的标签信息；

[0282] 若素材特征包括视频帧特征，语音序列特征以及文本特征，则对视频帧特征，语音序列特征以及文本特征进行聚合处理以得到第二全局特征，并基于第二全局特征得到待处
理素材的标签信息。

[0283] 可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，处理模块1503，具体用于获取多媒体数据的每个视频帧中每个像
素点的RGB参数；

[0284] 基于多媒体数据以及每个视频帧中每个像素点的RGB参数，通过概率输出模型获取每个视频帧为画面切换帧的概率；

[0285] 基于每个视频帧为画面切换帧的概率，将多媒体数据划分为多组视频片段；

[0286] 基于参数调整策略以及目标参数，对多组视频片段进行处理，以生成目标视频。

[0287] 可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，多媒体数据的视频时长小于目标视频时长；

[0288] 处理模块1503，具体用于基于行业标签信息确定行业模板集合；

[0289] 将行业模板集合中的行业模板添加至多组视频片段中，以得到多组第一视频片段，其中，每个第一视频片段的视频时长的总和等于待合成视频的目标视频时长；

[0290] 将多组第一视频片段进行合并处理，以生成目标视频。

[0291] 可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，标签信息还包括指示待处理素材特征的特征标签信息；

[0292] 多媒体数据的视频时长大于目标视频时长；

[0293] 多组视频片段包括第一组视频片段以及第二组视频片段；

[0294] 处理模块1503，具体用于基于行业标签信息以及特征标签信息，确定第一组视频片段的分数以及第二组视频片段的分数，其中，第一组视频片段的分数大于第二组视频片
段的分数；

[0295] 基于第一组视频片段的分数以及第二组视频片段的分数确定视频剪辑比例；

[0296] 基于视频剪辑比例对第一组视频片段以及第二组视频片段进行剪辑，得到第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果，其中，第一组视频片段的剪辑结果
的视频时长，与第二组视频片段的剪辑结果的视频时长之和等于待合成视频的目标视频时
长；

[0297] 将第一组视频片段的剪辑结果，以及第二组视频片段的剪辑结果进行合并处理，以生成目标视频。

[0298] 可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，多媒体数据为图片数据；

[0299] 获取模块1501，具体用于对多媒体数据进行特征化处理，得到素材特征，其中，素材特征包括图片特征，或，素材特征包括图片特征以及文本特征；

[0300] 若素材特征包括图片特征以及文本特征，则对图片特征以及文本特征进行聚合处理以得到第三全局特征，并基于第三全局特征得到待处理素材的标签信息；

[0301] 若素材特征包括图片特征，则基于图片特征得到待处理素材的标签信息。

[0302] 可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，处理模块1503，具体用于基于行业标签信息确定行业模板集合；

[0303] 根据行业模板集合以及目标参数，对待处理素材进行处理，以得到目标视频。

[0304] 可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，图片数据为单张图片；

[0305] 标签信息还包括交互控件标签，交互控件标签表示待处理素材中存在交互控件；

[0306] 处理模块1503，具体用于基于交互控件标签，从待处理素材中确定交互控件；

[0307] 对交互控件进行增强处理，以得到第一素材，其中，第一素材包括进行增强处理后的交互控件，增强处理为对交互控件进行放大缩小，或，增强处理为对交互控件进行加粗高
亮；

[0308] 根据行业模板集合以及目标参数，对第一素材进行处理，以得到目标视频。

[0309] 可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，图片数据为多张图片；

[0310] 目标参数还包括音乐风格；

[0311] 处理模块1503，具体用于基于音乐风格确定目标音乐；

[0312] 基于目标音乐确定目标音乐中的多个鼓点位置；

[0313] 基于目标音乐中的多个鼓点位置确定待处理素材中每张图片的展示时长；

[0314] 根据行业模板集合，目标参数以及图片数据中每张图片的展示时长，对待处理素材进行处理，以得到目标视频。

[0315] 可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，标签信息还包括交互控件标签，交互控件标签表示待处理素材中
存在交互控件；

[0316] 处理模块1503，具体用于基于交互控件标签，从待处理素材中确定至少一个交互控件；

[0317] 对每个交互控件进行增强处理，以得到第二素材，其中，第二素材包括至少一个进行增强处理后的交互控件，增强处理为对交互控件进行放大缩小，或，增强处理为对交互控
件进行加粗高亮；

[0318] 根据行业模板集合以及目标参数，对第二素材进行处理，以得到目标视频。

[0319] 可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，目标参数还包括贴纸元素、字幕元素或图形标志元素中至少一项；

[0320] 处理模块1503，具体用于基于参数调整策略以及目标参数，对待处理素材进行处理，以生成第一视频；

[0321] 确定贴纸元素、字幕元素以及图形标志元素在第一视频中预设位置；

[0322] 将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成目标视频。

[0323] 可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，目标参数还包括音乐风格以及特效元素；

[0324] 处理模块1503，具体用于将预设位置，将贴纸元素、字幕元素以及图形标志元素中至少一项放置于在第一视频中预设位置中，以生成第二视频；

[0325] 基于音乐风格确定目标音乐；

[0326] 基于目标音乐确定目标音乐中的多个鼓点位置；

[0327] 基于目标音乐中的多个鼓点位置以及第二视频，确定第二视频中的特效转场位置；

[0328] 将特效元素添加至第二视频中的特效转场位置上，以生成目标视频。

[0329] 可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频生成装置1500的另一实施例中，视频生成装置1500还包括显示模块1504；

[0330] 获取模块1501，具体用于显示输入界面，其中，输入界面包括数据输入接口以及参数选择接口，数据输入接口用于输入待处理素材，参数选择接口用于选择目标参数；

[0331] 响应于对输入界面中数据输入接口的数据选择操作，获取待处理素材；

[0332] 响应于对输入界面中参数选择接口的参数选择操作，获取目标参数；

[0333] 显示模块1504，用于处理模块1503基于参数调整策略以及目标参数，对待处理素材进行处理，以生成目标视频之后，在视频展示界面显示目标视频。

[0334] 本申请实施例还提供了另一种视频生成装置，视频生成装置可以部署于服务器，也可以部署于终端设备。下面以视频生成装置部署于服务器作为示例进行介绍，请参阅图
16，图16为本申请实施例中服务器一个实施例示意图，如图所示，该服务器1000可因配置或
性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central
processing units，CPU）1022（例如，一个或一个以上处理器）和存储器1032，一个或一个以
上存储应用程序1042或数据1044的存储介质1030（例如一个或一个以上海量存储设备）。其
中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序
可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令
操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行
存储介质1030中的一系列指令操作。

[0335] 服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统1041，例
如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

[0336] 上述实施例中由服务器所执行的步骤可以基于该图16所示的服务器结构。

[0337] 该服务器所包括的CPU 1022用于执行如图2所示实施例以及图2对应的各个实施例。

[0338] 本申请还提供了一种终端设备，用于执行图2所示实施例以及图2对应的各个实施例中视频生成装置执行的步骤。如图17所示，为了便于说明，仅示出了与本申请实施例相关
的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。以终端设备为手机为例进
行说明：

[0339] 图17示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图17，手机包括：射频（Radio Frequency，RF）电路1110、存储器1120、输入单元1130、显示单元
1140、传感器1150、音频电路1160、无线保真（wireless fidelity，WiFi）模块1170、处理器
1180、以及电源1190等部件。本领域技术人员可以理解，图17中示出的手机结构并不构成对
手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布
置。

[0340] 下面结合图17对手机的各个构成部件进行具体的介绍：

[0341] RF电路1110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1180处理；另外，将设计上行的数据发送给基站。通常，RF电路
1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low Noise
Amplifier，LNA）、双工器等。此外，RF电路1110还可以通过无线通信与网络和其他设备通
信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统
（Global System of Mobile communication，GSM）、通用分组无线服务（General Packet
Radio Service，GPRS）、码分多址（Code Division Multiple Access，CDMA）、宽带码分多址
（Wideband Code Division Multiple Access，WCDMA）、长期演进（Long Term Evolution，
LTE）、电子邮件、短消息服务（Short Messaging Service，SMS）等。

[0342] 存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1120可主
要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的
应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所
创建的数据（比如音频数据、电话本等）等。此外，存储器1120可以包括高速随机存取存储
器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固
态存储器件。

[0343] 输入单元1130可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1130可包括触控面板1131以及其他输入
设备1132。触控面板1131，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户
使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操
作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1131可包括触摸检测
装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带
来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它
转换成触点坐标，再送给处理器1180，并能接收处理器1180发来的命令并加以执行。此外，
可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面
板1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括
但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的
一种或多种。

[0344] 显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141，可选的，可以采用液晶显示器（Liquid
Crystal Display，LCD）、有机发光二极管（Organic Light‑Emitting Diode，OLED）等形式
来配置显示面板1141。进一步的，触控面板1131可覆盖显示面板1141，当触控面板1131检测
到在其上或附近的触摸操作后，传送给处理器1180以确定触摸事件的类型，随后处理器
1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图17中，触控面
板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些
实施例中，可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。

[0345] 手机还可包括至少一种传感器1150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线
的明暗来调节显示面板1141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板
1141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加
速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏
切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等；至于手机还
可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，此处不做赘述。

[0346] 音频电路1160、扬声器1161，传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换
为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160
接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1110以发送给比
如另一手机，或者将音频数据输出至存储器1120以便进一步处理。

[0347] WiFi属于短距离无线传输技术，手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图17示出了
WiFi模块1170，但是可以理解的是，其并不属于手机的必须构成。

[0348] 处理器1180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120
内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器
1180可包括一个或多个处理单元；优选的，处理器1180可集成应用处理器和调制解调处理
器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处
理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

[0349] 手机还包括给各个部件供电的电源1190（比如电池），优选的，电源可以通过电源管理系统与处理器1180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管
理等功能。

[0350] 尽管未示出，手机还可以包括摄像头、蓝牙模块等，此处不做赘述。

[0351] 在本申请实施例中，该终端所包括的处理器1180用于执行如图2所示实施例以及图2对应的各个实施例。

[0352] 本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述图2所示实施例以及其对应
实施例描述的方法中服务器所执行的步骤。

[0353] 本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图2所示实施例以及其对应实施例描述的方法中服务器所执行
的步骤。

[0354] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0355] 在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的
划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如至少两个单元或
组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显
示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间
接耦合或通信连接，可以是电性，机械或其它的形式。

[0356] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到至少
两个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案
的目的。

[0357] 另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

[0358] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上
或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机
设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全
部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read‑only memory，
ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序
代码的介质。

[0359] 以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前
述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些
修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

一种视频生成的方法及装置、计算机设备和存储介质转让专利

申请号 : CN202111036069.6

文献号 : CN113473182B

文献日 : 2021-12-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 林琴 , 洪志鹰 , 张浩鑫 , 熊江丰 , 姚丹 , 张丹燕 , 康又文 , 杨秀金

申请人 : 腾讯科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :

一种视频生成的方法及装置、计算机设备和存储介质

技术领域

背景技术

发明内容

附图说明

具体实施方式