一种视频生成方法、装置、电子设备及存储介质转让专利

申请号 : CN202010565193.0

文献号 : CN113824898B

文献日 : 2022-09-09

本公开实施例提供一种视频生成方法、装置、电子设备及存储介质，用以提高视频中图像的分辨率，有效保留视频的特征细节。所述方法包括：获取原始视频，从原始视频中提取第一对象的姿态信息和外观信息；确定第一对象的姿态信息和预先获取的第二对象的姿态信息之间的姿态差异信息，并基于外观信息确定用于表征第一对象外观特征的特征信息；基于特征信息，生成多帧具有第一对象外观特征和第一对象姿态特征的初始图像，基于姿态差异信息，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像；基于所迁移的第二对象的姿态变化顺序形成预设时序，以预设时序连接多帧目标图像，生成目标视频。

1.一种视频生成方法，其特征在于，包括：

获取原始视频，从所述原始视频中提取第一对象的姿态信息和外观信息；

确定所述第一对象的姿态信息和预先获取的第二对象的姿态信息之间的姿态差异信息，并基于所述外观信息确定用于表征所述第一对象外观特征的特征信息；

基于所述特征信息，生成多帧具有第一对象外观特征和第一对象姿态特征的初始图像，基于所述姿态差异信息，将所述第二对象的姿态迁移到每帧所述初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像；

基于所迁移的所述第二对象的姿态变化顺序形成预设时序，以所述预设时序连接多帧所述目标图像，生成目标视频；

根据所述目标视频中当前帧之前预设数量帧图像与当前帧图像之间的光流信息，对当前帧图像的姿态进行优化，所述当前帧是所述目标视频中除第一帧之外的任一帧图像。

2.根据权利要求1所述的方法，其特征在于，所述基于所述特征信息，生成多帧具有第一对象外观特征和第一对象姿态特征的初始图像，包括：针对每一帧待生成的目标图像，基于所述特征信息，生成多张不同分辨率的具有第一对象外观特征和第一对象姿态特征的初始图像。

3.根据权利要求2所述的方法，其特征在于，所述基于所述姿态差异信息，将所述第二对象的姿态迁移到每帧所述初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像，包括：针对所述多张不同分辨率的具有第一对象外观特征和第一对象姿态特征的初始图像，基于所述姿态差异信息，将第二对象的姿态特征迁移到每张所述初始图像中，得到多张不同分辨率的具有第一对象外观特征和第二对象姿态特征的中间图像；

利用预先配置的卷积神经网络提取所述中间图像的图像特征，将多张不同分辨率中间图像的图像特征进行融合，生成一帧具有第一对象外观特征和第二对象姿态特征的目标图像。

4.根据权利要求3所述的方法，其特征在于，所述利用预先配置的卷积神经网络提取所述中间图像的图像特征，将多张不同分辨率中间图像的图像特征进行融合，生成一帧具有第一对象外观特征和第二对象姿态特征的目标图像，包括：将多张分辨率大于预设分辨率阈值的中间图像输入至所述卷积神经网络，得到多张第一特征图像；

将多张分辨率不大于预设分辨率阈值的中间图像输入至所述卷积神经网络，得到多张第二特征图像；

将所述多张第一特征图像与所述多张第二特征图像以逐像素相加的形式进行图像特征融合，生成一帧具有第一对象外观特征和第二对象姿态特征的目标图像。

5.根据权利要求1所述的方法，其特征在于，所述基于所述姿态差异信息，将所述第二对象的姿态迁移到每帧所述初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像，还包括：利用预先配置的判别器将所述目标图像划分为多个图像块，基于每个图像块内的像素相关性，得到用于判别该图像块的图像真实性的判别值，在确定所述判别值满足预设标准时，将所述目标图像作为当前帧图像。

6.根据权利要求1所述的方法，其特征在于，所述基于所述姿态差异信息，将第二对象的姿态迁移到每帧所述初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像，还包括：利用预先训练的姿态迁移模型的解码器网络，确定所述姿态差异信息对应的姿态差异区域；

基于所述姿态差异区域，将第二对象的姿态迁移到每帧所述初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取所述目标视频中每一帧图像的外观信息和姿态信息；

针对所述目标视频中除第一帧之外的任一帧图像，基于当前帧之前预设数量帧图像的外观信息和姿态信息、以及当前帧图像的姿态信息，确定当前帧之前预设数量帧图像与当前帧图像之间的光流信息；

基于当前帧之前预设数量帧图像和所述光流信息，预测当前帧图像的姿态，得到当前帧的预测姿态信息；

利用所述预测姿态信息对当前帧图像的姿态进行优化，将优化后的姿态作为当前帧图像的姿态。

8.一种视频生成装置，其特征在于，包括：

提取单元，用于获取原始视频，从所述原始视频中提取第一对象的姿态信息和外观信息；

分析单元，用于确定所述第一对象的姿态信息和预先获取的第二对象的姿态信息之间的姿态差异信息，并基于所述外观信息确定用于表征所述第一对象外观特征的特征信息；

处理单元，用于基于所述特征信息，生成多帧具有第一对象外观特征和第一对象姿态特征的初始图像，基于所述姿态差异信息，将所述第二对象的姿态迁移到每帧所述初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像；

生成单元，用于基于所迁移的所述第二对象的姿态变化顺序形成预设时序，以所述预设时序连接多帧所述目标图像，生成目标视频，根据所述目标视频中当前帧之前预设数量帧图像与当前帧图像之间的光流信息，对当前帧图像的姿态进行优化，所述当前帧是所述目标视频中除第一帧之外的任一帧图像。

9.根据权利要求8所述的装置，其特征在于，所述处理单元具体用于：针对每一帧待生成的目标图像，基于所述特征信息，生成多张不同分辨率的具有第一对象外观特征和第一对象姿态特征的初始图像。

10.根据权利要求9所述的装置，其特征在于，所述处理单元具体用于：针对所述多张不同分辨率的具有第一对象外观特征和第一对象姿态特征的初始图像，基于所述姿态差异信息，将第二对象的姿态特征迁移到每张所述初始图像中，得到多张不同分辨率的具有第一对象外观特征和第二对象姿态特征的中间图像；

11.根据权利要求10所述的装置，其特征在于，所述处理单元具体用于：将多张分辨率大于预设分辨率阈值的中间图像输入至所述卷积神经网络，得到多张第一特征图像；

将多张分辨率不大于预设分辨率阈值的中间图像输入至所述卷积神经网络，得到多张第二特征图像；

12.根据权利要求8所述的装置，其特征在于，所述处理单元具体用于：利用预先配置的判别器将所述目标图像划分为多个图像块，基于每个图像块内的像素相关性，得到用于判别该图像块的图像真实性的判别值，在确定所述判别值满足预设标准时，将所述目标图像作为当前帧图像。

13.根据权利要求8所述的装置，其特征在于，所述处理单元具体用于：利用预先训练的姿态迁移模型的解码器网络，确定所述姿态差异信息对应的姿态差异区域；

基于所述姿态差异区域，将第二对象的姿态迁移到每帧所述初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像。

14.根据权利要求8所述的装置，其特征在于，所述生成单元具体用于：提取所述目标视频中每一帧图像的外观信息和姿态信息；

基于当前帧之前预设数量帧图像和所述光流信息，预测当前帧图像的姿态，得到当前帧的预测姿态信息；

利用所述预测姿态信息对当前帧图像的姿态进行优化，将优化后的姿态作为当前帧图像的姿态。

15.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1‑7中任一项所述的视频生成方法。

16.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1‑7中任一项所述的视频生成方法。

一种视频生成方法、装置、电子设备及存储介质

技术领域

[0001] 本公开涉及视频处理领域，尤其涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术

[0002] 视频内容智能生成用于模拟和再现动态视觉世界，在计算机视觉、机器人学和计算机图形学领域都有广泛的应用。使用学习的视频内容智能生成模型，用户可以生成逼真的视频内容，并且可以通过条件约束的方式对视频生成内容进行高级控制和修改。

[0003] 现有技术中视频生成的方案主要包括无条件视频内容智能生成和条件视频内容智能生成，其中，无条件视频内容智能生成无法对生成视频的内容进行控制和修改，而且往往难以得到较高分辨率并且内容逼真的视频。而条件视频生成方法，通常将姿态提取、语义分割结果等作为条件信息，约束视频生成，目标是学习条件信息到生成内容的映射函数，生成的视频可以精确地描绘条件信息的内容。当条件信息为源域人物视频和目标域姿态时，可以得到具有源域人物外观和目标域姿态的视频内容。然而，相关技术在根据姿态信息生成人像时容易丢失源域人物的特征细节，而且生成的视频难以保证较长时序的一致性。

[0004] 综上所述，现有技术中的视频生成方案中存在分辨率不够高、容易丢失人物特征细节等问题。

发明内容

[0005] 本公开实施例提供一种视频生成方法、装置、电子设备及存储介质，用以提高视频中图像的分辨率，有效保留视频的特征细节。

[0006] 第一方面，本公开实施例提供一种视频生成方法，包括：

[0007] 获取原始视频，从原始视频中提取第一对象的姿态信息和外观信息；

[0008] 确定第一对象的姿态信息和预先获取的第二对象的姿态信息之间的姿态差异信息，并基于外观信息确定用于表征第一对象外观特征的特征信息；

[0009] 基于特征信息，生成多帧具有第一对象外观特征和第一对象姿态特征的初始图像，基于姿态差异信息，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像；

[0010] 基于所迁移的第二对象的姿态变化顺序形成预设时序，以预设时序连接多帧目标图像，生成目标视频。

[0011] 本公开实施例提供的视频生成方法，首先获取原始视频，并从原始视频中提取第一对象的姿态信息和外观信息，然后确定第一对象的姿态信息和预先获取的第二对象的姿态信息之间的姿态差异信息，并基于外观信息确定用于表征第一对象外观特征的特征信息，基于特征信息，生成多帧具有第一对象外观特征和第一对象姿态特征的初始图像，基于姿态差异信息，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像，最后基于所迁移的第二对象的姿态变化顺序形成预设时序，以预设时序连接多帧目标图像，生成目标视频。与现有技术相比，基于第一对象和第二对象之间的姿态差异信息，将第二对象的姿态迁移到初始图像中，能够提高视频中图像的分辨率，有效保留视频的特征细节。

[0012] 在一种可能的实施方式中，基于特征信息，生成多帧具有第一对象外观特征和第一对象姿态特征的初始图像，包括：

[0013] 针对每一帧待生成的目标图像，基于特征信息，生成多张不同分辨率的具有第一对象外观特征和第一对象姿态特征的初始图像。

[0014] 在一种可能的实施方式中，基于姿态差异信息，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像，包括：

[0015] 针对多张不同分辨率的具有第一对象外观特征和第一对象姿态特征的初始图像，基于姿态差异信息，将第二对象的姿态特征迁移到每张初始图像中，得到多张不同分辨率的具有第一对象外观特征和第二对象姿态特征的中间图像；

[0016] 利用预先配置的卷积神经网络提取中间图像的图像特征，将多张不同分辨率中间图像的图像特征进行融合，生成一帧具有第一对象外观特征和第二对象姿态特征的目标图像。

[0017] 在一种可能的实施方式中，利用预先配置的卷积神经网络提取中间图像的图像特征，将多张不同分辨率中间图像的图像特征进行融合，生成一帧具有第一对象外观特征和第二对象姿态特征的目标图像，包括：

[0018] 将多张分辨率大于预设分辨率阈值的中间图像输入至卷积神经网络，得到多张第一特征图像；

[0019] 将多张分辨率不大于预设分辨率阈值的中间图像输入至卷积神经网络，得到多张第二特征图像；

[0020] 将多张第一特征图像与多张第二特征图像以逐像素相加的形式进行图像特征融合，生成一帧具有第一对象外观特征和第二对象姿态特征的目标图像。

[0021] 在一种可能的实施方式中，基于姿态差异信息，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像，还包括：

[0022] 利用预先配置的判别器将目标图像划分为多个图像块，基于每个图像块内的像素相关性，得到用于判别该图像块的图像真实性的判别值，在确定判别值满足预设标准时，将目标图像作为当前帧图像。

[0023] 在一种可能的实施方式中，基于姿态差异信息，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像，还包括：

[0024] 利用预先训练的姿态迁移模型的解码器网络，确定姿态差异信息对应的姿态差异区域；

[0025] 基于姿态差异区域，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像。

[0026] 在一种可能的实施方式中，方法还包括：

[0027] 提取目标视频中每一帧图像的外观信息和姿态信息；

[0028] 针对目标视频中除第一帧之外的任一帧图像，基于当前帧之前预设数量帧图像的外观信息和姿态信息、以及当前帧图像的姿态信息，确定当前帧之前预设数量帧图像与当前帧图像之间的光流信息；

[0029] 基于当前帧之前预设数量帧图像和光流信息，预测当前帧图像的姿态，得到当前帧的预测姿态信息；

[0030] 利用预测姿态信息对当前帧图像的姿态进行优化，将优化后的姿态作为当前帧图像的姿态。

[0031] 第二方面，本公开实施例提供一种视频生成装置，包括：

[0032] 提取单元，用于获取原始视频，从原始视频中提取第一对象的姿态信息和外观信息；

[0033] 分析单元，用于确定第一对象的姿态信息和预先获取的第二对象的姿态信息之间的姿态差异信息，并基于外观信息确定用于表征第一对象外观特征的特征信息；

[0034] 处理单元，用于基于特征信息，生成多帧具有第一对象外观特征和第一对象姿态特征的初始图像，基于姿态差异信息，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像；生成单元，用于基于所迁移的第二对象的姿态变化顺序形成预设时序，以预设时序连接多帧目标图像，生成目标视频。

[0035] 在一种可能的实施方式中，处理单元具体用于：

[0036] 针对每一帧待生成的目标图像，基于特征信息，生成多张不同分辨率的具有第一对象外观特征和第一对象姿态特征的初始图像。

[0037] 在一种可能的实施方式中，处理单元具体用于：

[0038] 针对多张不同分辨率的具有第一对象外观特征和第一对象姿态特征的初始图像，基于姿态差异信息，将第二对象的姿态特征迁移到每张初始图像中，得到多张不同分辨率的具有第一对象外观特征和第二对象姿态特征的中间图像；

[0039] 利用预先配置的卷积神经网络提取中间图像的图像特征，将多张不同分辨率中间图像的图像特征进行融合，生成一帧具有第一对象外观特征和第二对象姿态特征的目标图像。

[0040] 在一种可能的实施方式中，处理单元具体用于：

[0041] 将多张分辨率大于预设分辨率阈值的中间图像输入至卷积神经网络，得到多张第一特征图像；

[0042] 将多张分辨率不大于预设分辨率阈值的中间图像输入至卷积神经网络，得到多张第二特征图像；

[0043] 将多张第一特征图像与多张第二特征图像以逐像素相加的形式进行图像特征融合，生成一帧具有第一对象外观特征和第二对象姿态特征的目标图像。

[0044] 在一种可能的实施方式中，处理单元具体用于：

[0045] 利用预先配置的判别器将目标图像划分为多个图像块，基于每个图像块内的像素相关性，判别该图像块的图像真实性，综合对所有图像块图像真实性的判别结果，在确定判别结果满足预设标准时，将目标图像作为当前帧图像。

[0046] 在一种可能的实施方式中，处理单元具体用于：

[0047] 利用预先训练的姿态迁移模型的解码器网络，确定姿态差异信息对应的姿态差异区域；

[0048] 基于姿态差异区域，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像。

[0049] 在一种可能的实施方式中，装置还包括：

[0050] 提取目标视频中每一帧图像的外观信息和姿态信息；

[0051] 针对目标视频中除第一帧之外的任一帧图像，基于当前帧之前预设数量帧图像的外观信息和姿态信息、以及当前帧图像的姿态信息，确定当前帧之前预设数量帧图像与当前帧图像之间的光流信息；

[0052] 基于当前帧之前预设数量帧图像和光流信息，预测当前帧图像的姿态，得到当前帧的预测姿态信息；

[0053] 利用预测姿态信息对当前帧图像的姿态进行优化，将优化后的姿态作为当前帧图像的姿态。

[0054] 第三方面，本公开实施例还提供一种电子设备，包括：

[0055] 至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时，以实现本公开实施例第一方面提供的视频生成方法。

[0056] 第四方面，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时，使得充电控制设备能够执行本公开实施例第一方面提供的视频生成方法。

[0057] 根据本公开实施例提供的方法，在得到包含具有第一对象外观特征和第二对象姿态特征的目标视频之后，通过提取视频中当前帧之前预设数量帧图像与当前帧图像之间的光流信息，基于当前帧之前预设数量帧图像和光流信息，预测当前帧的姿态，最后利用预测姿态信息对当前帧图像的姿态进行优化，与现有技术相比，将优化后的姿态作为当前帧图像的姿态，引入光流信息以达到时序上的平滑，能够有效增强视频的时序一致性。

附图说明

[0058] 通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

[0059] 图1为本公开实施例提供的一种视频生成方法的示意流程图；

[0060] 图2为本公开实施例提供的另一视频生成方法的示意流程图；

[0061] 图3为本公开实施例提供的又一视频生成方法的示意流程图；

[0062] 图4为本公开实施例提供的一种视频生成装置的结构示意图；

[0063] 图5为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

[0064] 以下结合附图对本公开的实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本公开，并不用于限定本公开。

[0065] 鉴于现有技术中的视频生成方案中存在分辨率不够高、容易丢失人物特征细节等问题，本公开实施例提供一种视频生成方案，用以提高视频分辨率，有效保留视频的特征细节。

[0066] 下面结合附图对本公开实施例提供的方案进行详细说明。

[0067] 如图1所示，本公开实施例提供一种视频生成方法，其可以包括以下步骤：

[0068] 步骤101，获取原始视频，从原始视频中提取第一对象的姿态信息和外观信息。

[0069] 具体实施时，使用预训练的关键点检测模型进行姿态提取，生成姿态信息，首先对视频中人体的各个关键点进行定位，然后将各个关键点根据人体关节进行连接，最后得到包含各个关键点的人体骨架图像，完成姿态信息的获取。其中，关键点的定位包括对人脸、人手以及人身体各个关节的定位，对于每个关键点，得到其对应的二维坐标及该关键点所代表的部位。并且，使用预训练的关键点模型进行姿态提取时，可以从视频的任意一帧图像上进行提取，本公开对此不做限定。

[0070] 步骤102，确定第一对象的姿态信息和预先获取的第二对象的姿态信息之间的姿态差异信息，并基于外观信息确定用于表征第一对象外观特征的特征信息。

[0071] 具体实施时，第二对象的姿态信息可以是从原始视频中提取出来的，也可以是从其他视频中提取出来的，也可以是预先存储的，本公开对此不做限定。

[0072] 在一种可能的实施方式中，确定第一对象的姿态信息和预先获取的第二对象的姿态信息之间的姿态差异信息，并基于外观信息确定用于表征第一对象外观特征的特征信息，包括：

[0073] 利用预先训练的姿态迁移模型的编码器网络，确定第一对象的姿态信息和第二对象的姿态信息之间的姿态差异信息；

[0074] 利用预先训练的姿态迁移模型的编码器网络，对外观信息进行卷积处理，确定用于表征第一对象外观特征的特征信息。

[0075] 步骤103，基于特征信息，生成多帧具有第一对象外观特征和第一对象姿态特征的初始图像，基于姿态差异信息，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像。

[0076] 在一种可能的实施方式中，基于特征信息，基于特征信息，生成多帧具有第一对象外观特征和第一对象姿态特征的初始图像，包括：

[0077] 针对每一帧待生成的目标图像，基于特征信息，生成多张不同分辨率的具有第一对象外观特征和第一对象姿态特征的初始图像。

[0078] 在一种可能的实施方式中，基于姿态差异信息，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像，包括：

[0079] 针对多张不同分辨率的具有第一对象外观特征和第一对象姿态特征的初始图像，基于姿态差异信息，将第二对象的姿态特征迁移到每张初始图像中，得到多张不同分辨率的具有第一对象外观特征和第二对象姿态特征的中间图像；

[0080] 利用预先配置的卷积神经网络提取中间图像的图像特征，将多张不同分辨率中间图像的图像特征进行融合，生成一帧具有第一对象外观特征和第二对象姿态特征的目标图像。

[0081] 在一种可能的实施方式中，利用预先配置的卷积神经网络提取中间图像的图像特征，将多张不同分辨率中间图像的图像特征进行融合，生成一帧具有第一对象外观特征和第二对象姿态特征的目标图像，包括：

[0082] 将多张分辨率大于预设分辨率阈值的中间图像输入至卷积神经网络，得到多张第一特征图像；

[0083] 将多张分辨率不大于预设分辨率阈值的中间图像输入至卷积神经网络，得到多张第二特征图像；

[0084] 将多张第一特征图像与多张第二特征图像以逐像素相加的形式进行图像特征融合，生成一帧具有第一对象外观特征和第二对象姿态特征的目标图像。

[0085] 在一种可能的实施方式中，基于姿态差异信息，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像，还包括：

[0086] 利用预先配置的判别器将目标图像划分为多个图像块，基于每个图像块内的像素相关性，得到用于判别该图像块的图像真实性的判别值，在确定判别值满足预设标准时，将目标图像作为当前帧图像。

[0087] 在一种可能的实施方式中，基于姿态差异信息，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像，还包括：

[0088] 利用预先训练的姿态迁移模型的解码器网络，确定姿态差异信息对应的姿态差异区域；

[0089] 基于姿态差异区域，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像。

[0090] 步骤104，基于所迁移的第二对象的姿态变化顺序形成预设时序，以预设时序连接多帧目标图像，生成目标视频。

[0091] 在一种可能的实施方式中，方法还包括：

[0092] 提取目标视频中每一帧图像的外观信息和姿态信息；

[0093] 针对目标视频中除第一帧之外的任一帧图像，基于当前帧之前预设数量帧图像的外观信息和姿态信息、以及当前帧图像的姿态信息，确定当前帧之前预设数量帧图像与当前帧图像之间的光流信息；

[0094] 基于当前帧之前预设数量帧图像和光流信息，预测当前帧图像的姿态，得到当前帧的预测姿态信息；

[0095] 利用预测姿态信息对当前帧图像的姿态进行优化，将优化后的姿态作为当前帧图像的姿态。

[0096] 下面结合附图以及具体实施例，分别从视频每一帧图像的生成和视频时序信息的优化两个方面对本公开实施例提供的方案进行详细说明。

[0097] 实施例一、视频每一帧图像的生成

[0098] 如图2所示为本公开实施例提供的视频生成方法，其中目标图像的生成可以有以下步骤：

[0099] 步骤201，获取第一对象的姿态信息及外观信息，和第二对象的姿态信息。

[0100] 具体实施时，使用预训练的关键点检测模型进行姿态提取，生成姿态信息，首先对视频中人体的各个关键点进行定位，然后将各个关键点根据人体关节进行连接，最后得到包含各个关键点的人体骨架图像，完成姿态信息的获取。其中，关键点的定位包括对人脸、人手以及人身体各个关节的定位，对于每个关键点，得到其对应的二维坐标及该关键点所代表的部位。并且，使用预训练的关键点模型进行姿态提取时，可以从视频的任意一帧图像上进行提取，本公开对此不做限定。

[0101] 具体实施时，第二对象的姿态信息可以是从原始视频中提取出来的，也可以是从其他视频中提取出来的，也可以是预先存储的，本公开对此不做限定。

[0102] 步骤202，基于第一对象的外观信息和第二对象的姿态信息，训练用于生成目标视频中目标对象的对抗网络模型。

[0103] 步骤203，利用预先训练的姿态迁移模型的编码器网络，输入第一对象的外观信息，经过卷积处理后得到第一对象外观的高维特征信息；输入第一对象的姿态信息和第二对象的姿态信息，基于两者之间的差异，获取姿态差异信息。

[0104] 具体实施时，编码器可以是下采样编码器，也可以是其他类型编码器，本公开实施例对此不作限定。

[0105] 步骤204，利用对抗网络模型中的生成器，基于第一对象外观的高维特征信息，生成多张不同分辨率的第一图像。

[0106] 步骤205，在预先训练的姿态迁移模型G1中输入分辨率小于预设分辨率阈值的第一对象的姿态信息及外观信息，和第二对象的姿态信息，通过解码器网络确定姿态差异区域，将姿态差异区域对应第二对象的姿态迁移到第一图像中，生成包含第一对象外观特征和第二对象姿态特征的中间图像A1，并利用预先配置的卷积神经网络提取中间图像A1的图像特征，形成中间图像A1的特征图像B1。其中，预先训练的姿态迁移模型G1的输入和输出图像的分辨率保持一致，且小于预设分辨率阈值。

[0107] 步骤206，在预先训练的姿态迁移模型G2中首先输入分辨率大于预设分辨率阈值的第一对象的姿态信息、外观信息和第二对象的姿态信息，以及特征图B1；然后，基于第一对象的姿态信息、外观信息和第二对象的姿态信息，通过解码器网络确定姿态差异区域，将姿态差异区域对应第二对象的姿态迁移到第一图像中，生成包含第一对象外观特征和第二对象姿态特征的中间图像A2，并利用预先配置的卷积神经网络提取中间图像A2的图像特征，形成中间图像A2的特征图像B2；最后将特征图B1与特征图B2以逐像素相加的形式进行结合，生成目标图像。其中，预先训练的姿态迁移模型G2的输入和输出图像的分辨率保持一致，且大于或等于预设分辨率阈值。

[0108] 步骤207，将目标图像、包含第二对象姿态特征的图像、包含第一对象外观特征和其他姿态特征的图像输入到形状判别器网络模型中，判断目标图像是否满足预设标准，若是，执行步骤208，否则返回步骤203。

[0109] 步骤208，将目标图像、包含第一对象外观特征和姿态特征的图像、包含第一对象外观特征和其他姿态特征的图像输入到内容判别器网络模型中，判断目标图像是否满足预设标准，若是，执行步骤209，否则返回步骤203。

[0110] 需要说明的是，包含第一对象外观特征和姿态特征的图像及包含第一对象外观特征和其他姿态特征的图像，为同一对象不同姿态的图像，即所述包含第一对象外观特征和其他姿态特征的图像，为除了作为训练对抗网络模型的输入信息的图像之外的图像。

[0111] 步骤209，将目标图像作为目标视频当前帧图像。

[0112] 具体实施时，对抗网络模型中可以包括姿态迁移模型、形状判别器模型，还可以增加内容判别器模型。当对抗网络模型中包括姿态迁移模型、形状判别器模型时，其目标函数如公式1所示：

[0113]

[0114] 其中，P代表姿态信息，I代表对应的视频帧，G表示姿态迁移模型，D表示形状判别器，因此模型的训练过程是姿态迁移模型和形状判别器的博弈过程。

[0115] 当对抗网络模型中包括姿态迁移模型、形状判别器模型和内容判别器模型时，其目标函数扩展为如公式2所示：

[0116]

[0117] 其中，DS为形状判别器，DA为内容判别器，Py代表第二对象姿态信息，Ix和Iy分别代表对应的第一对象视频帧和第二对象视频帧。

[0118] 具体实施时，可以同时使用三个不同尺度的判别器(比如分别为128×128、256×256和512×512)同时对生成人像或者真实人像进行判别，其中最小尺度的判别器拥有最大的感知野，最大尺度的判别器对图像细节比较敏感。此外，对不同尺度的判别器都使用PatchGAN结构，即将一张图像视作Markov随机场，只在每一小块(Patch)内考虑像素之间的相关性，不同小块之间的像素是不相关的。因此首先在目标图像的每一小块范围内分别判别图像的真假，最后对每个小块的评价结果取均值后作为整张图像的判别结果，这样可以有效避免判别器的极端输出(比如只输出纯色图或者纯背景图)。

[0119] 实施例二、视频时序信息的优化

[0120] 如图3所示为本公开实施例提供的视频生成方法，其中视频时序信息的优化可以有以下步骤：

[0121] 步骤301，基于所迁移的第二对象的姿态变化顺序形成预设时序，以预设时序，连接生成的每一帧图像，得到包含第一对象外观特征和第二对象姿态特征的目标对象的目标视频。

[0122] 步骤302，基于当前帧的前一帧图像的姿态信息和外观信息、以及当前帧图像的姿态信息，确定当前帧的前一帧图像与当前帧图像之间的光流信息，其中光流信息的计算如公式3所示：

[0123]

[0124] 具体实施时，用于引入了光流信息的生成，因此需要对该生成过程进行监督，其中，光流信息的生成组件采用FlowNet2网络模型生成的光流作为真实值，并增加如公式4所示的Loss函数进行学习，用于计算生成的光流信息和真实光流信息的之间误差，并且计算由光流信息预测的视频帧和真实视频帧之间的误差：

[0125]

[0126] 步骤303，基于当前帧的前一帧经时序优化后的图像，和当前帧与前一帧光流信息对当前帧图像进行预测，确定当前帧图像的预测信息，其中预测信息的计算如公式5所示：

[0127]

[0128] 步骤304，将预测信息和当前帧未经时序优化的图像输入至循环神经网络，通过循环神经网络的门控循环单元控制当前帧前一帧的预测信息对当前帧图像的影响程度，确定当前帧经过时序优化后的最终结果其中最终结果的计算如公式6所示：

[0129]

[0130] 其中，zt和分别是循环神经网络中门控循环单元的更新门参数和中间结果，zt的计算如公式7所示，的计算如公式8所示：

[0131]

[0132]

[0133] 其中，rt表示循环神经网络中门控循环单元的重置门参数，rt的计算如公式9所示：

[0134]

[0135] 需要说明的是，由于门控循环单元可以在多个时间步长上同时操作，即可以根据多帧相邻人像优化当前帧的生成结果，帧数越多生成视频的时间连续性越好，所以对当前帧图像的进行预测时，所根据的光流信息可以是与当前帧之前预设数量帧的图像之间的光流信息，如当前帧前一帧、前两帧和前三帧图像，也可以跳帧选取，如当前帧前一帧、前三帧和前五帧图像，本公开对此不作限定。

[0136] 如图4所示，本公开实施例还提供一种视频生成装置，包括：

[0137] 提取单元41，用于获取原始视频，从原始视频中提取第一对象的姿态信息和外观信息；

[0138] 分析单元42，用于确定第一对象的姿态信息和预先获取的第二对象的姿态信息之间的姿态差异信息，并基于外观信息确定用于表征第一对象外观特征的特征信息；

[0139] 处理单元43，用于基于特征信息，生成多帧具有第一对象外观特征和第一对象姿态特征的初始图像，基于姿态差异信息，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像；

[0140] 生成单元44，用于基于所迁移的第二对象的姿态变化顺序形成预设时序，以预设时序连接多帧目标图像，生成目标视频。

[0141] 在一种可能的实施方式中，处理单元43具体用于：

[0142] 针对每一帧待生成的目标图像，基于特征信息，生成多张不同分辨率的具有第一对象外观特征和第一对象姿态特征的初始图像。

[0143] 在一种可能的实施方式中，处理单元43具体用于：

[0144] 针对多张不同分辨率的具有第一对象外观特征和第一对象姿态特征的初始图像，基于姿态差异信息，将第二对象的姿态特征迁移到每张初始图像中，得到多张不同分辨率的具有第一对象外观特征和第二对象姿态特征的中间图像；

[0145] 利用预先配置的卷积神经网络提取中间图像的图像特征，将多张不同分辨率中间图像的图像特征进行融合，生成一帧具有第一对象外观特征和第二对象姿态特征的目标图像。

[0146] 在一种可能的实施方式中，处理单元43具体用于：

[0147] 将多张分辨率大于预设分辨率阈值的中间图像输入至卷积神经网络，得到多张第一特征图像；

[0148] 将多张分辨率不大于预设分辨率阈值的中间图像输入至卷积神经网络，得到多张第二特征图像；

[0149] 将多张第一特征图像与多张第二特征图像以逐像素相加的形式进行图像特征融合，生成一帧具有第一对象外观特征和第二对象姿态特征的目标图像。

[0150] 在一种可能的实施方式中，处理单元43具体用于：

[0151] 利用预先配置的判别器将目标图像划分为多个图像块，基于每个图像块内的像素相关性，判别该图像块的图像真实性，综合对所有图像块图像真实性的判别结果，在确定判别结果满足预设标准时，将目标图像作为当前帧图像。

[0152] 在一种可能的实施方式中，处理单元43具体用于：

[0153] 利用预先训练的姿态迁移模型的解码器网络，确定姿态差异信息对应的姿态差异区域；

[0154] 基于姿态差异区域，将第二对象的姿态迁移到每帧初始图像中，生成多帧具有第一对象外观特征和第二对象姿态特征的目标图像。

[0155] 在一种可能的实施方式中，装置还包括：

[0156] 提取目标视频中每一帧图像的外观信息和姿态信息；

[0157] 针对目标视频中除第一帧之外的任一帧图像，基于当前帧之前预设数量帧图像的外观信息和姿态信息、以及当前帧图像的姿态信息，确定当前帧之前预设数量帧图像与当前帧图像之间的光流信息；

[0158] 基于当前帧之前预设数量帧图像和光流信息，预测当前帧图像的姿态，得到当前帧的预测姿态信息；

[0159] 利用预测姿态信息对当前帧图像的姿态进行优化，将优化后的姿态作为当前帧图像的姿态。

[0160] 基于上述本公开实施例相同构思，本公开实施例还提供一种电子设备。

[0161] 如图5所示，本公开实施例还提供一种电子设备50，包括：至少一个处理器51、至少一个存储器52以及存储在存储器52中的计算机程序指令，当计算机程序指令被处理器51执行时，实现本公开实施例中提供的视频生成方法。

[0162] 在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器52，上述指令可由电子设备的处理器51执行以完成上述方法。

[0163] 可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD‑ROM、磁带、软盘和光数据存储设备等。

[0164] 本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。

[0165] 本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0166] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0167] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0168] 显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

一种视频生成方法、装置、电子设备及存储介质转让专利

申请号 : CN202010565193.0

文献号 : CN113824898B

文献日 : 2022-09-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 张慧 , 李铮 , 李强 , 张文波

申请人 : 清华大学 , 北京达佳互联信息技术有限公司

摘要 :

权利要求 :

说明书 :