视频去痕方法和视频去痕装置转让专利

申请号 : CN202011104678.6

文献号 : CN112233055B

文献日 : 2021-09-10

本公开关于一种视频去痕方法和视频去痕装置，所述视频去痕方法包括：获取视频的当前帧图像和去痕区域掩膜；基于所述当前帧图像和所述去痕区域掩膜，利用图像去痕网络，获得所述当前帧图像的第一去痕结果图像；获取所述视频的所述当前帧图像的前一帧图像的去痕结果图像；对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行融合，获得所述当前帧图像的第二去痕结果图像，作为所述当前帧图像的最终去痕结果图像。

1.一种视频去痕方法，其特征在于，包括：获取视频的当前帧图像和去痕区域掩膜；

基于所述当前帧图像和所述去痕区域掩膜，利用图像去痕网络，获得所述当前帧图像的第一去痕结果图像；

获取所述视频的所述当前帧图像的前一帧图像的去痕结果图像；

对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行融合，获得所述当前帧图像的第二去痕结果图像，作为所述当前帧图像的最终去痕结果图像，其中，所述前一帧图像的去痕结果图像包括所述前一帧图像的第一去痕结果图像和第二去痕结果图像，所述前一帧图像的第一去痕结果图像是通过基于所述前一帧图像和所述去痕区域掩膜，利用所述图像去痕网络而获得的，所述前一帧图像的第二去痕结果图像是通过对所述前一帧图像的第一去痕结果图像和所述前一帧图像的前一帧图像的去痕结果图像进行融合而获得的。

2.如权利要求1所述的视频去痕方法，其特征在于，所述去痕区域是所述视频的图像中的特定矩形区域，其中，所述特定矩形区域以所述视频的图像的待去痕图案的中心为中心点且以待去痕图案最长边的两倍为边长。

3.如权利要求1所述的视频去痕方法，其特征在于，所述对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行融合，包括：对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行光流计算，获得相邻帧光流；

基于获得的相邻帧光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行采样，获得相邻帧对齐图像；

对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像素进行融合。

4.如权利要求3所述的视频去痕方法，其特征在于，所述对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像素进行融合，包括：针对所述去痕区域像素的每个像素，计算所述当前帧图像的第一去痕结果图像的像素值和所述相邻帧对齐图像的像素值的统计值，作为该像素的像素值。

5.如权利要求3所述的视频去痕方法，其特征在于，所述对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行光流计算，获得相邻光流，包括：对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第一去痕结果图像进行光流计算，获得第一相邻光流，对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行光流计算，获得第二相邻光流；

所述基于获得的相邻帧光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行采样，获得相邻帧对齐图像，包括：基于第一相邻光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第一去痕结果图像进行采样，获得第一相邻帧对齐图像，基于第二相邻光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行采样，获得第二相邻帧对齐图像；

所述对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像素进行融合，包括：

对所述当前帧图像的第一去痕结果图像、第一相邻帧对齐图像和第二相邻帧对齐图像的去痕区域像素的每个像素进行融合。

6.如权利要求5所述的视频去痕方法，其特征在于，所述对所述当前帧图像的第一去痕结果图像、第一相邻帧对齐图像和第二相邻帧对齐图像的去痕区域像素的每个像素进行融合，包括：

针对所述去痕区域像素的每个像素，计算所述当前帧图像的第一去痕结果图像的像素值、第一相邻帧对齐图像的像素值和第二相邻帧对齐图像的像素值的中位数。

7.如权利要求1所述的视频去痕方法，其特征在于，还包括：确定所述当前帧图像是否是所述视频的第一帧图像或者所述当前帧图像与所述前一帧图像相比是否发生场景切换；

在所述当前帧图像是所述视频的第一帧图像或者所述当前帧图像与所述前一帧相比发生场景切换的情况下，不执行获取所述前一帧图像的去痕结果图像的步骤和所述融合的步骤，并将所述当前帧图像的第一去痕结果图像，作为所述当前帧图像的最终去痕结果图像。

8.如权利要求7所述的视频去痕方法，其特征在于，所述确定所述当前帧图像与所述前一帧图像相比是否发生场景切换，包括：获取所述前一帧图像；

计算所述当前帧图像与所述前一帧图像的每个像素的基于预定图像块的L2范数距离；

计算每个像素的基于预定图像块的L2范数距离的平均值，作为所述当前帧图像与所述前一帧图像的差异值；

在所述差异值大于预定阈值的情况下，确定所述当前帧图像与所述前一帧相比发生场景切换。

9.如权利要求1或7所述的视频去痕方法，其特征在于，还包括：基于所述当前帧图像、所述当前帧图像的最终去痕结果图像和所述去痕区域掩膜，利用泊松融合算法，获得所述当前帧图像的第三去痕结果图像，作为所述当前帧图像的最终去痕结果图像。

10.如权利要求9所述的视频去痕方法，其特征在于，所述基于所述当前帧图像、所述当前帧图像的最终去痕结果图像和所述去痕区域掩膜，利用泊松融合算法，获得所述当前帧图像的第三去痕结果图像，包括：以所述去痕区域掩膜中的去痕区域为参考区域，计算在所述参考区域边界处所述当前帧图像的像素的像素值与所述当前帧图像的最终去痕结果图像的像素的像素值之间的梯度；

调整所述当前帧图像的最终去痕结果图像在所述参考区域边界处的像素的像素值，直到所述梯度最小化；

将所述梯度最小化时的调整后的所述当前帧图像的最终去痕结果图像作为所述当前帧图像的第三去痕结果图像。

11.一种视频去痕装置，其特征在于，包括：获取单元，被配置为获取视频的当前帧图像和去痕区域掩膜，以及获取所述视频的所述当前帧图像的前一帧图像的去痕结果图像；

去痕单元，被配置为基于所述当前帧图像和所述去痕区域掩膜，利用图像去痕网络，获得所述当前帧图像的第一去痕结果图像；

融合单元，被配置为对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行融合，获得所述当前帧图像的第二去痕结果图像，作为所述当前帧图像的最终去痕结果图像，

其中，所述前一帧图像的去痕结果图像包括所述前一帧图像的第一去痕结果图像和第二去痕结果图像，所述前一帧图像的第一去痕结果图像是通过基于所述前一帧图像和所述去痕区域掩膜，利用所述图像去痕网络而获得的，所述前一帧图像的第二去痕结果图像是通过对所述前一帧图像的第一去痕结果图像和所述前一帧图像的前一帧图像的去痕结果图像进行融合而获得的。

12.如权利要求11所述的视频去痕装置，其特征在于，所述去痕区域是所述视频的图像中的特定矩形区域，其中，所述特定矩形区域以所述视频的图像的待去痕图案的中心为中心点且以待去痕图案最长边的两倍为边长。

13.如权利要求11所述的视频去痕装置，其特征在于，融合单元被配置为：对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行光流计算，获得相邻帧光流；

基于获得的相邻帧光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行采样，获得相邻帧对齐图像；

对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像素进行融合。

14.如权利要求13所述的视频去痕装置，其特征在于，融合单元被配置为：针对所述去痕区域像素的每个像素，计算所述当前帧图像的第一去痕结果图像的像素值和所述相邻帧对齐图像的像素值的统计值，作为该像素的像素值。

15.如权利要求13所述的视频去痕装置，其特征在于，在所述前一帧图像的去痕结果图像包括所述前一帧图像的第一去痕结果图像和第二去痕结果图像的情况下：融合单元被配置为：

对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第一去痕结果图像进行光流计算，获得第一相邻光流，对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行光流计算，获得第二相邻光流，基于第一相邻光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第一去痕结果图像进行采样，获得第一相邻帧对齐图像，基于第二相邻光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行采样，获得第二相邻帧对齐图像，对所述当前帧图像的第一去痕结果图像、第一相邻帧对齐图像和第二相邻帧对齐图像的去痕区域像素的每个像素进行融合。

16.如权利要求15所述的视频去痕装置，其特征在于，融合单元被配置为：针对所述去痕区域像素的每个像素，计算所述当前帧图像的第一去痕结果图像的像素值、第一相邻帧对齐图像的像素值和第二相邻帧对齐图像的像素值的中位数。

17.如权利要求11所述的视频去痕装置，其特征在于，还包括：确定单元，被配置为：确定所述当前帧图像是否是所述视频的第一帧图像或者所述当前帧图像与所述前一帧图像相比是否发生场景切换；

在所述当前帧图像是所述视频的第一帧图像或者所述当前帧图像与所述前一帧相比发生场景切换的情况下，获取单元不获取所述前一帧图像的去痕结果图像，融合单元不执行操作，并去痕单元将所述当前帧图像的第一去痕结果图像，作为所述当前帧图像的最终去痕结果图像。

18.如权利要求17所述的视频去痕装置，其特征在于，获取单元被配置为：获取所述前一帧图像；

确定单元被配置为：计算所述当前帧图像与所述前一帧图像的每个像素的基于预定图像块的L2范数距离，

计算每个像素的基于预定图像块的L2范数距离的平均值，作为所述当前帧图像与所述前一帧图像的差异值，

在所述差异值大于预定阈值的情况下，确定所述当前帧图像与所述前一帧相比发生场景切换。

19.如权利要求11或17所述的视频去痕装置，其特征在于，还包括：背景融合单元，被配置为：基于所述当前帧图像、所述当前帧图像的最终去痕结果图像和所述去痕区域掩膜，利用泊松融合算法，获得所述当前帧图像的第三去痕结果图像，作为所述当前帧图像的最终去痕结果图像。

20.如权利要求19所述的视频去痕装置，其特征在于，背景融合单元被配置为：以所述去痕区域掩膜中的去痕区域为参考区域，计算在所述参考区域边界处所述当前帧图像的像素的像素值与所述当前帧图像的最终去痕结果图像的像素的像素值之间的梯度；

调整所述当前帧图像的最终去痕结果图像在所述参考区域边界处的像素的像素值，直到所述梯度最小化；

将所述梯度最小化时的调整后的所述当前帧图像的最终去痕结果图像作为所述当前帧图像的第三去痕结果图像。

21.一种电子设备，其特征在于，包括：至少一个处理器；

至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到10中的任一权利要求所述的视频去痕方法。

22.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到10中的任一权利要求所述的视频去痕方法。

视频去痕方法和视频去痕装置

技术领域

[0001] 本公开涉及音视频技术领域，更具体地说，涉及一种视频去痕方法和视频去痕装置。

背景技术

[0002] 在视频的后期处理中，经常需要手动去除在拍摄过程中来自人或物的意外遮挡，或者视频素材在获得转播授权的平台间转播时，常常需要手动去除来自原冠名、赞助厂商
的广告、水印，这些后期处理被称为“视频去痕”。图1是示出视频去痕的示意图。如图1所示，
在获得授权后，可在视频后期处理中将视频右上角原平台图标水印去除。

[0003] 传统去痕方式会通过简单的插值填补空缺内容或者添加“马赛克”遮挡，这种处理方式在视觉上效果并不好。近期基于深度学习的图像补全算法不断被提出，这些算法能够
产生以假乱真的细节。但是在视频去痕任务中，这些算法通常效果在去痕任务中效果较差，
在视频结果上，表现为闪烁、失真，以及还有诸如性能、效率上的问题。

发明内容

[0004] 本公开提供一种视频去痕方法和视频去痕装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

[0005] 根据本公开实施例的第一方面，提供一种视频去痕方法，包括：获取视频的当前帧图像和去痕区域掩膜；基于所述当前帧图像和所述去痕区域掩膜，利用图像去痕网络，获得
所述当前帧图像的第一去痕结果图像；获取所述视频的所述当前帧图像的前一帧图像的去
痕结果图像；对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进
行融合，获得所述当前帧图像的第二去痕结果图像，作为所述当前帧图像的最终去痕结果
图像。

[0006] 可选地，所述去痕区域可以是所述视频的图像中的特定矩形区域，其中，所述特定矩形区域以所述视频的图像的待去痕图案的中心为中心点且以待去痕图案最长边的两倍
为边长。

[0007] 可选地，所述对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行融合，可包括：对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去
痕结果图像进行光流计算，获得相邻帧光流；基于获得的相邻帧光流对所述当前帧图像的
第一去痕结果图像和所述前一帧图像的去痕结果图像进行采样，获得相邻帧对齐图像；对
所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像素
进行融合。

[0008] 可选地，所述对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像素进行融合，可包括：针对所述去痕区域像素的每个像素，计算所述当
前帧图像的第一去痕结果图像的像素值和所述相邻帧对齐图像的像素值的统计值，作为该
像素的像素值。

[0009] 可选地，所述前一帧图像的去痕结果图像可包括所述前一帧图像的第一去痕结果图像和所述第二去痕结果图像中的至少一个；其中，所述前一帧图像的第一去痕结果图像
是通过基于所述前一帧图像和所述去痕区域掩膜，利用所述图像去痕网络而获得的，所述
前一帧图像的第二去痕结果图像是通过对所述前一帧图像的第一去痕结果图像和所述前
一帧图像的前一帧图像的痕结果图像进行融合而获得的。

[0010] 可选地，在所述前一帧图像的去痕结果图像包括所述前一帧图像的第一去痕结果图像和第二去痕结果图像的情况下：所述对所述当前帧图像的第一去痕结果图像和所述前
一帧图像的去痕结果图像进行光流计算，获得相邻光流，可包括：对所述当前帧图像的第一
去痕结果图像和所述前一帧图像的第一去痕结果图像进行光流计算，获得第一相邻光流，
对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行光流
计算，获得第二相邻光流；所述基于获得的相邻帧光流对所述当前帧图像的第一去痕结果
图像和所述前一帧图像的去痕结果图像进行采样，获得相邻帧对齐图像，可包括：基于第一
相邻光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第一去痕结果图像
进行采样，获得第一相邻帧对齐图像，基于第二相邻光流对所述当前帧图像的第一去痕结
果图像和所述前一帧图像的第二去痕结果图像进行采样，获得第二相邻帧对齐图像；所述
对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像
素进行融合，可包括：对所述当前帧图像的第一去痕结果图像、第一相邻帧对齐图像和第二
相邻帧对齐图像的去痕区域像素的每个像素进行融合。

[0011] 可选地，所述针对所述去痕区域像素的每个像素，计算所述当前帧图像的第一去痕结果图像的像素值和所述相邻帧对齐图像的像素值的统计值，可包括：针对所述去痕区
域像素的每个像素，计算所述当前帧图像的第一去痕结果图像的像素值、第一相邻帧对齐
图像的像素值和第二相邻帧对齐图像的像素值的中位数。

[0012] 可选地，所述视频去痕方法还可包括：确定所述当前帧图像是否是所述视频的第一帧图像或者所述当前帧图像与所述前一帧图像相比是否发生场景切换；在所述当前帧图
像是所述视频的第一帧图像或者所述当前帧图像与所述前一帧相比发生场景切换的情况
下，不执行获取所述前一帧图像的去痕结果图像的步骤和所述融合的步骤，并将所述当前
帧图像的第一去痕结果图像，作为所述当前帧图像的最终去痕结果图像。

[0013] 可选地，所述确定所述当前帧图像与所述前一帧图像相比是否发生场景切换，可包括：获取所述前一帧图像；计算所述当前帧图像与所述前一帧图像的每个像素的基于预
定图像块的L2范数距离；计算每个像素的基于预定图像块的L2范数距离的平均值，作为所
述当前帧图像与所述前一帧图像的差异值；在所述差异值大于预定阈值的情况下，确定所
述当前帧图像与所述前一帧相比发生场景切换。

[0014] 可选地，所述视频去痕方法还可包括：基于所述当前帧图像、所述当前帧图像的最终去痕结果图像和所述去痕区域掩膜，利用泊松融合算法，获得所述当前帧图像的第三去
痕结果图像，作为所述当前帧图像的最终去痕结果图像。

[0015] 可选地，所述基于所述当前帧图像、所述当前帧图像的最终去痕结果图像和所述去痕区域掩膜，利用泊松融合算法，获得所述当前帧图像的第三去痕结果图像，可包括：以
所述去痕区域掩膜中的去痕区域为参考区域，计算在所述参考区域边界处所述当前帧图像
的像素的像素值与所述当前帧图像的最终去痕结果图像的像素的像素值之间的梯度；调整
所述当前帧图像的最终去痕结果图像在所述参考区域边界处的像素的像素值，直到所述梯
度最小化；将所述梯度最小化时的调整后的所述当前帧图像的最终去痕结果图像作为所述
当前帧图像的第三去痕结果图像。

[0016] 根据本公开实施例的第二方面，提供一种视频去痕装置，包括：获取单元，被配置为获取视频的当前帧图像和去痕区域掩膜，以及获取所述视频的所述当前帧图像的前一帧
图像的去痕结果图像；去痕单元，被配置为基于所述当前帧图像和所述去痕区域掩膜，利用
图像去痕网络，获得所述当前帧图像的第一去痕结果图像；融合单元，被配置为对所述当前
帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行融合，获得所述当前帧
图像的第二去痕结果图像，作为所述当前帧图像的最终去痕结果图像。

[0017] 可选地，所述去痕区域可以是所述视频的图像中的特定矩形区域，其中，所述特定矩形区域以所述视频的图像的待去痕图案的中心为中心点且以待去痕图案最长边的两倍
为边长。

[0018] 可选地，融合单元可被配置为：对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行光流计算，获得相邻帧光流；基于获得的相邻帧光流对所述
当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行采样，获得相邻帧
对齐图像；对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素
的每个像素进行融合。

[0019] 可选地，融合单元可被配置为：针对所述去痕区域像素的每个像素，计算所述当前帧图像的第一去痕结果图像的像素值和所述相邻帧对齐图像的像素值的统计值，作为该像
素的像素值。

[0020] 可选地，所述前一帧图像的去痕结果图像可包括所述前一帧图像的第一去痕结果图像和所述第二去痕结果图像中的至少一个；其中，所述前一帧图像的第一去痕结果图像
是通过基于所述前一帧图像和所述去痕区域掩膜，利用所述图像去痕网络而获得的，所述
前一帧图像的第二去痕结果图像是通过对所述前一帧图像的第一去痕结果图像和所述前
一帧图像的前一帧图像的痕结果图像进行融合而获得的。

[0021] 可选地，在所述前一帧图像的去痕结果图像包括所述前一帧图像的第一去痕结果图像和第二去痕结果图像的情况下：融合单元可被配置为：对所述当前帧图像的第一去痕
结果图像和所述前一帧图像的第一去痕结果图像进行光流计算，获得第一相邻光流，对所
述当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行光流计算，
获得第二相邻光流，基于第一相邻光流对所述当前帧图像的第一去痕结果图像和所述前一
帧图像的第一去痕结果图像进行采样，获得第一相邻帧对齐图像，基于第二相邻光流对所
述当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行采样，获得
第二相邻帧对齐图像，对所述当前帧图像的第一去痕结果图像、第一相邻帧对齐图像和第
二相邻帧对齐图像的去痕区域像素的每个像素进行融合。

[0022] 可选地，融合单元可被配置为：针对所述去痕区域像素的每个像素，计算所述当前帧图像的第一去痕结果图像的像素值、第一相邻帧对齐图像的像素值和第二相邻帧对齐图
像的像素值的中位数。

[0023] 可选地，所述视频去痕装置还可包括：确定单元，被配置为：确定所述当前帧图像是否是所述视频的第一帧图像或者所述当前帧图像与所述前一帧图像相比是否发生场景
切换；在所述当前帧图像是所述视频的第一帧图像或者所述当前帧图像与所述前一帧相比
发生场景切换的情况下，获取单元可不获取所述前一帧图像的去痕结果图像，融合单元可
不执行操作，并去痕单元可将所述当前帧图像的第一去痕结果图像，作为所述当前帧图像
的最终去痕结果图像。

[0024] 可选地，获取单元可被配置为：获取所述前一帧图像；确定单元可被配置为：计算所述当前帧图像与所述前一帧图像的每个像素的基于预定图像块的L2范数距离，计算每个
像素的基于预定图像块的L2范数距离的平均值，作为所述当前帧图像与所述前一帧图像的
差异值，在所述差异值大于预定阈值的情况下，确定所述当前帧图像与所述前一帧相比发
生场景切换。

[0025] 可选地，所述视频去痕装置还可包括：背景融合单元，被配置为：基于所述当前帧图像、所述当前帧图像的最终去痕结果图像和所述去痕区域掩膜，利用泊松融合算法，获得
所述当前帧图像的第三去痕结果图像，作为所述当前帧图像的最终去痕结果图像。

[0026] 可选地，背景融合单元可被配置为：以所述去痕区域掩膜中的去痕区域为参考区域，计算在所述参考区域边界处所述当前帧图像的像素的像素值与所述当前帧图像的最终
去痕结果图像的像素的像素值之间的梯度；调整所述当前帧图像的最终去痕结果图像在所
述参考区域边界处的像素的像素值，直到所述梯度最小化；将所述梯度最小化时的调整后
的所述当前帧图像的最终去痕结果图像作为所述当前帧图像的第三去痕结果图像。

[0027] 根据本公开实施例的第三方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处
理器运行时，促使所述至少一个处理器执行根据本公开的视频去痕方法。

[0028] 根据本公开实施例的第四方面，提供一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开
的视频去痕方法。

[0029] 根据本公开实施例的第八方面，提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的视频去痕方法。

[0030] 本公开的实施例提供的技术方案至少带来以下有益效果：

[0031] 根据本公开的视频去痕方法和视频去痕装置，利用神经网络执行单图去痕(即，去痕区域填补)，并利用特定融合机制考虑相邻帧信息执行相邻帧融合去痕，能够自动化去除
视频中遮挡、广告等内容，无需利用多个前后帧信息和多次光流计算，在保证算法开销小、
速度快(例如，15帧/秒的处理速度)的情况下，提升去痕区域填补内容的质量，使得填补内
容和原视频内容对比起来和谐、自然，填补完的视频能够让痕迹区域不再明显，和原视频难
以区分，达到以假乱真的效果，从而提高用户观看体验。

[0032] 根据本公开的视频去痕方法和视频去痕装置，能够实时地针对视频中的痕迹图案选择合适的去痕区域，在不增加开销和干扰的情况下，充分利用周围信息以提高去痕区域
内容填补质量，并且无需提前标注好掩膜，对痕迹出现的位置、痕迹的形状、视频的种类均
没有限制，都能稳定产生优良的去痕结果。

[0033] 根据本公开的视频去痕方法和视频去痕装置，利用泊松融合算法对去痕图像执行背景融合，使得去痕区域的填补内容能够更完美更自然地与图像背景融合，使得去痕结果
图像更和谐和自然。

[0034] 应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

[0035] 此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

[0036] 图1是示出视频去痕的示意图。

[0037] 图2是示出根据本公开的示例性实施例的视频去痕方法和视频去痕装置的实施场景示意图。

[0038] 图3是示出根据本公开的示例性实施例的视频去痕方法的流程图。

[0039] 图4是示出根据本公开的示例性实施例的去痕区域的示意图。

[0040] 图5是示出根据本公开的示例性实施例的图像去痕过程的示意图。

[0041] 图6是示出根据本公开的示例性实施例的图像去痕网络的示意图。

[0042] 图7是示出根据本公开的示例性实施例的融合机制的示意图。

[0043] 图8是示出根据本公开的示例性实施例的视频去痕方法的流程示意图。

[0044] 图9是示出根据本公开的示例性实施例的视频去痕装置的框图。

[0045] 图10是根据本公开的示例性实施例的电子设备1000的框图。

具体实施方式

[0046] 为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

[0047] 需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的
所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致
的装置和方法的例子。

[0048] 在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的
情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；
(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情
况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

[0049] 传统的视频去痕方法可通过统计去痕区域周围背景像素值，设计算法对去痕区域内部进行插值，将插值结果作为填补内容，修补去痕区域。从处理效率上来看，此类算法大
多数是基于中央处理器CPU的算法，虽然算法较为简单但是无法充分利用高并行化处理器
如图像处理器GPU，速度受到了一定程度的限制。从处理效果上来看，由于算法只是基于统
计规律的简单插值，视觉上还是能够明显看到遮挡，只是遮挡物的轮廓和内容被抹去，给人
一种类似“马赛克”的效果，视觉效果不佳。

[0050] 基于深度学习的视频去痕方法可采用深度卷积神经网络进行视频去痕，通过设计精巧、复杂的网络结构，利用目标帧前后多帧图像作为参考，对待去痕图像进行处理。例如，
相关方法一设计了精巧而复杂的网络结构，采用目标帧及固定间隔采样的前后4帧作为输
入帧，同时将上一帧的修补结果作为参考帧，6幅图像同时进入网络计算，对于不同帧之间
设计了光流预测模块，用以来对齐不同帧的特征，对齐后的特征经过简单融合用于预测最
后的结果。又例如，相关方法二先计算出目标帧前后多个相邻帧的光流作为输入，利用光流
补全网络填补目标帧空缺的光流，利用预测得到的完整光流进行前向、反向传播，得到最终
修补的图像，对于视频中未出现过的内容，利用单图修复网络进行修复。此类方法内部涉及
多帧图像的处理和多次光流的计算，开销过大，时间成本较高，处理速度较慢，不适用于线
上应用场景。此外，此类方法还需要提供标注好的掩膜，而不能自动化识别。

[0051] 为了在保证算法开销小、速度快的同时提高视频去痕效果，本公开提出了一种视频去痕方法和视频去痕装置。具体地说，为了充分提升填补内容的质量，采用了基于深度卷
积神经网络的补全算法，对基于指定痕迹预先算好的去痕区域进行填充，使得周边背景的
语义信息得到充分的利用；此外，考虑到单图的填充算法不可避免的会在视频中出现严重
的闪烁现象，设计了一种特殊的融合机制，能够自适应的根据当前帧填充结果、上一帧填充
结果和上一帧最终融合结果进行选择，从而在不过多增加开销的情况下，仅利用前一帧图
像进行融合，就可达到消除视频闪烁的现象；此外，为了使填充的内容与周边背景完美自然
地融合，利用泊松融合算法对去痕结果进行处理，使得去痕效果进一步提升。下面，将参照
图2至图10具体描述根据本公开的示例性实施例的视频去痕方法和视频去痕装置。

[0052] 图2是示出根据本公开的示例性实施例的视频去痕方法和视频去痕装置的实施场景示意图。

[0053] 如图2所示，当视频平台接收到视频源时，可对视频进行后处理，再将经过后处理的视频内容下发到各用户终端。视频的后处理可包括对在相机(这里，相机是具有拍摄功能
的设备的统称)拍摄过程中来自人或物的意外遮挡进行去除、对来自其他视频平台的视频
中的平台logo、原冠名、赞助厂商的广告、水印等进行去除，等等。

[0054] 图3是示出根据本公开的示例性实施例的视频去痕方法的流程图。

[0055] 参照图3，在步骤301，可获取视频的当前帧图像和去痕区域掩膜。这里，视频是指待去痕视频，例如，可以是视频平台获取到的由摄像机拍摄的视频、或者来自其他视频平台
的视频、或者来自网络或本地存储的视频等等。根据本公开的示例性实施例的视频去痕方
法可对待去痕视频的每一帧图像执行去痕处理，因此，当前帧是指当前被执行去痕处理的
帧。

[0056] 此外，去痕区域掩膜是指待去痕视频的图像中遮挡除预先确定的将要执行去痕处理的区域之外的区域的图像掩膜。将要执行去痕处理的区域(下面，可简称为去痕区域)可
以是比待去痕图案(例如，平台logo、广告、水印等)更大的区域，这是因为利用待去痕图案
周边背景的语义信息，更有利于提升填补内容的质量。针对待去痕图案，应该选择适当的去
痕区域作为上下文的参考区域，如果去痕区域过大会引入过多无关信息，让去痕模型产生
困扰，而如果去痕区域过小则无法包含有效的参考信息，影响去痕效果。根据本公开的示例
性实施例，去痕区域可以是包括待去痕图案的预定区域，该预定区域是待去痕视频的图像
的局部区域。例如，去痕区域可以是待去痕视频的图像中的特定矩形区域，该特定矩形区域
以待去痕视频的图像的待去痕图案的中心为中心点且以待去痕图案最长边的两倍为边长。
图4是示出根据本公开的示例性实施例的去痕区域的示意图。如图4所示，假设待去痕图案
(LOGO)的最长边为1，则去痕区域可以是以待去痕图案的中心点a为中心点，边长为2的矩形
区域。当然，根据本公开的去痕区域不限于上述，还可以是任何可能的去痕区域。

[0057] 返回图3，在步骤302，可基于当前帧图像和去痕区域掩膜，利用图像去痕网络，获得当前帧图像的第一去痕结果图像。这里，图像去痕网络可以是任何基于单图图像修补的
神经网络(例如，深度卷积神经网络等)。此外，针对特定的场景，图像去痕网络还可以是针
对性训练过的网络模型。

[0058] 根据本公开的示例性实施例，可采用由粗到细的深度卷积神经网络，第一阶段的粗修补完成大致轮廓的填补，第二阶段的细修补进一步填充细节。图5是示出根据本公开的
示例性实施例的图像去痕过程的示意图。如图5所示，可将待去痕图像和相应的去痕区域掩
膜输入到图像去痕网络的第一阶段子网络(可称为粗修补网络)，以输出粗修补图像，再将
粗修补图像输入到图像去痕网络的第二阶段子网络(可称为精修补网络)，以输出精修补图
像，可作为第一去痕结果图像。

[0059] 根据本公开的示例性实施例，可采用编解码器网络来实现图像去痕网络。图6是示出根据本公开的示例性实施例的图像去痕网络的示意图。如图6所示，根据本公开的示例性
实施例的图像去痕网络是对现有图像补全网络进行改进的网络。根据本公开的示例性实施
例的图像去痕网络包括两个阶段，第一阶段包括用于图像粗修补的编解码器网络结构，其
输入为待去痕图像和相应的去痕区域掩膜，其中，第一阶段网络结构采用门卷积和空洞门
卷积结合的方式来获得粗修补结果图像；第二阶段包括用于图像细修补的包括两个分支的
编解码器网络结构，其输入为第一阶段输出的粗修补结果图像，其中，第二阶段网络结构中
的一个分支采用纯门卷积，另一分支采用门卷积和空洞门卷积结合的方式，两个分支输出
结果拼接，再进一步执行门卷积以获得精修补结果图像。

[0060] 根据本公开的示例性实施例，在第二阶段网络结构中去除了上下文感知模块以进行模型改进。上下文感知模块是对全局信息的利用，参考图像中其他已知区域以进行仿制，
然而，首先，全局信息的计算是额外的开销，会对算法速度产生影响；其次，去痕算法出于速
度性能考虑，输入的是裁剪后的图片，而非原图，可以借鉴的上下文信息并不多；其次，通过
对一些案例的观察，强制去参考全文信息反而会生成一些错误的纹理。因此，当将现有图像
补全网络应用于视频图像去痕领域时，可在其第二阶段网络结构中去除了上下文感知模块
来提高图像去痕的效率和效果。

[0061] 此外，根据本公开的示例性实施例，在对根据本公开的示例性实施例的图像去痕网络执行训练的过程中，采用基于生成对抗网络的最小二乘损失的损失函数来进行训练。
可采用以下公式作为损失函数：

[0062]

[0063]

[0064] 其中，L表示损失，D表示判别器，G表示生成器，x表示真实图像(即，参考结果)，z表示生成器的输入(即，经过掩膜处理的待去痕图像)，E表示期望，pz、px分别是生成器输入和
真实图像的空间(即，整个训练集)，a、b、c是三个可调参数，其中，可将b和c设置为b＝c。因
为最小化的是输出结果与a、b、c之间的平方误差，因此叫做二乘损失。

[0065] 返回参照图3，在步骤303，可获取视频的当前帧图像的前一帧图像的去痕结果图像。在步骤304，可对当前帧图像的第一去痕结果图像和前一帧图像的去痕结果图像进行融
合，获得当前帧图像的第二去痕结果图像，作为当前帧图像的最终去痕结果图像。单纯使用
基于单图的去痕算法在时序上会产生抖动，为了避免抖动，采用了基于当前帧和前一帧的
融合机制，在不过多增加开销和运算量的情况下，消除抖动，提高去痕效果。

[0066] 根据本公开的示例性实施例，可采用基于光流的时序融合机制执行融合。由于去痕区域的影响，基于相邻两帧的图像计算得到的光流会出现较大偏差，因此使用已利用图
像去痕网络进行去痕和填补的结果图像光流计算，能够得到较为准确的结果。因此，在执行
融合时，基于相邻两帧图像的去痕结果图像进行光流计算。例如，可采用当流预测网络PWC‑
Net来作为光流提取网络，或者可任意的光流算法，在速度和精度上实现调节。随后，可利用
计算得到的光流对相邻两帧图像进行采样，获得对齐后的图像。例如，可通过pytorch自带
的采样算法(grid_sample)，通光流指示像素从上一帧传播到下一帧的对应位置。随后，可
对当前帧的去痕结果图像和对齐后的图像的去痕区域像素的每个像素进行融合，以得到包
括像素被融合的去痕区域的图像。这里，融合机制可以是对将被融合的图像的去痕区域中
的每个相同的像素点在多个像素值之间进行投票或计算，以获得相应像素点的像素值。例
如，计算当前帧的去痕结果图像的去痕区域中的每个像素的像素值和对齐后的图像的去痕
区域的相应像素的像素的统计值(例如，平均值、中位数、众数等)，作为该像素的像素值。

[0067] 因此，根据本公开的示例性实施例，在步骤304，可通过以下步骤来执行基于光流的时序融合机制：对当前帧图像的第一去痕结果图像和前一帧图像的去痕结果图像进行光
流计算，并基于计算出的光流进行采样，获得相邻帧对齐图像；对当前帧图像的第一去痕结
果图像和相邻帧对齐图像的去痕区域像素的每个像素进行融合。例如，可针对去痕区域像
素的每个像素，计算当前帧图像的第一去痕结果图像的像素值和相邻帧对齐图像的像素值
的统计值，作为该像素的像素值，以获得融合后的图像。

[0068] 根据本公开的示例性实施例，融合机制利用的前一帧图像的去痕结果图像可包括前一帧图像的第一去痕结果图像和第二去痕结果图像中的至少一个。这里，前一帧图像的
第一去痕结果图像是通过基于前一帧图像和去痕区域掩膜，利用所述图像去痕网络而获得
的，前一帧图像的第二去痕结果图像是通过对前一帧图像的第一去痕结果图像和前一帧图
像的前一帧图像的痕结果图像进行融合而获得的。

[0069] 根据本公开的示例性实施例，当前一帧图像的去痕结果图像可包括前一帧图像的第一去痕结果图像和第二去痕结果图像两者时，在步骤304，对当前帧图像的第一去痕结果
图像和前一帧图像的第一去痕结果图像进行光流计算，获得第一相邻光流，并对当前帧图
像的第一去痕结果图像和前一帧图像的第二去痕结果图像进行光流计算，获得第二相邻光
流；基于第一相邻光流对当前帧图像的第一去痕结果图像和前一帧图像的第一去痕结果图
像进行采样，获得第一相邻帧对齐图像，并基于第二相邻光流对当前帧图像的第一去痕结
果图像和所述前一帧图像的第二去痕结果图像进行采样，获得第二相邻帧对齐图像；对当
前帧图像的第一去痕结果图像、第一相邻帧对齐图像和第二相邻帧对齐图像的去痕区域像
素的每个像素进行融合。

[0070] 图7是示出根据本公开的示例性实施例的融合机制的示意图。参照图7，可利用当前帧(t帧)的第一去痕结果图像(t帧生成)、前一帧(t‑1帧)的第一去痕结果图像(t‑1帧生
成)、前一帧的第二去痕结果图像(t‑1帧结果)进行融合，来产生当前帧的第二去痕结果图
像(t帧结果)。具体地说，可将当前帧的第一去痕结果图像(t帧生成)与前一帧的第一去痕
结果图像(t‑1帧生成)进行光流计算并采样，获得第一相邻帧对齐图像(t‑1帧生成传播)，
并可将当前帧的第一去痕结果图像(t帧生成)与前一帧的第二去痕结果图像(t‑1帧结果)
进行光流计算并采样，获得第二相邻帧对齐图像(t‑1帧结果传播)。随后，对当前帧图像的
第一去痕结果图像(t帧生成)、第一相邻帧对齐图像(t‑1帧生成传播)和第二相邻帧对齐图
像(t‑1帧结果传播)的去痕区域像素的每个像素进行融合。例如，可针对去痕区域像素的每
个像素，计算当前帧图像的第一去痕结果图像的像素值、第一相邻帧对齐图像的像素值和
第二相邻帧对齐图像的像素值的中位数，作为该像素的像素值，从而可获得融合后的图像，
即，当前帧图像的第二去痕结果图像。

[0071] 返回参照图3，根据本公开的示例性实施例，在执行步骤303和304之前，还可确定当前帧图像是否是待去痕视频的第一帧图像或者当前帧图像与前一帧图像相比是否发生
场景切换。如果当前帧图像是待去痕视频的第一帧图像，则不存在前一帧图像，因此无需执
行步骤303和步骤304。如果当前帧图像与前一帧图像相比发生场景切换，画面会在这些位
置发生跳变，利用前一帧信息帮助填补去痕区域只会对去痕结果造成负面作用，因此也无
需执行步骤303和步骤304。因此，当确定当前帧图像是待去痕视频的第一帧图像或者当前
帧图像与前一帧图像相比发生场景切换时，不执行步骤303和304，并可将在步骤302获得的
当前帧图像的第一去痕结果图像，作为当前帧图像的最终去痕结果图像。

[0072] 根据本公开的示例性实施例，可通过自动检测画面跳变来确定当前帧图像与前一帧图像相比是否发生场景切换。例如，在处理当前帧时，可获得前一帧图像，并计算当前帧
图像与前一帧图像的差异，当这个差异超过了预定阈值时，则确定发生了场景切换。

[0073] 例如，该差异可以是基于预定图像块的L2范数距离。例如，可通过下面的公式计算相邻两帧的每个像素之间的L2范数距离：

[0074]

[0075] 其中，It(q)为第t帧图像(例如，当前帧图像)，It‑1(q)为第t‑1帧图像(例如，前一帧图像)，p可表示当前帧图像的每个像素，N(p)为p像素的邻域范围，(例如，邻域半径为5的
邻域范围)，即，p像素的预定图像块，q为遍历N(p)范围内的像素的指示符。本公开对N(p)不
作限制。

[0076] 当通过上述公式获得当前帧图像和前一帧图像的每个像素的L2范数距离值时，可计算每个像素的L2范数距离的平均值，作为当前帧图像与前一帧图像的差异值。当计算出
的差异值大于预定阈值时，确定当前帧图像与前一帧相比发生场景切换。

[0077] 此外，在实际计算相邻帧图像的每个像素之间的距离的过程中，还可采用积分图进行算法加速，以提高算法速度。

[0078] 当然，本公开的确定是否发生场景切换的方法不限于上述方法，还可利用任何可行的方法来确定是否发生场景切换。

[0079] 根据本公开的示例性实施例，由于光照条件、相机对焦可能存在突变，或者由于相机和被摄主体的运动可能会产生模糊，对齐后相邻两帧的图像可能存在较大的偏差。因此，
在根据本公开的视频去痕方法的步骤302产生当前帧图像的最终去痕结果图像或者步骤
304产生当前帧图像的最终去痕结果图像之后，还可对当前帧图像的最终去痕结果图像进
行背景融合，使得当前帧图像的去痕区域的填补内容能够更完美更自然地与当前帧图像的
背景融合，使得去痕结果图像更和谐和自然。

[0080] 例如，可采用泊松融合算法执行背景融合。即，基于当前帧图像、当前帧图像的最终去痕结果图像和去痕区域掩膜，利用泊松融合算法，获得当前帧图像的第三去痕结果图
像，作为当前帧图像的最终去痕结果图像。具体地说，可以以去痕区域掩膜中的去痕区域为
参考区域，计算在参考区域边界处当前帧图像的像素的像素值与当前帧图像的最终去痕结
果图像的像素的像素值之间的梯度；可调整当前帧图像的最终去痕结果图像在所述参考区
域边界处的像素的像素值，直到所述梯度最小化；将梯度最小化时的调整后的当前帧图像
的最终去痕结果图像作为当前帧图像的第三去痕结果图像。

[0081] 图8是示出根据本公开的示例性实施例的视频去痕方法的流程示意图。

[0082] 参照图8，首先，可将待去痕视频的图像帧以及相应的去痕区域掩膜输入到基于单帧图像的图像去痕网络，以获得基于单帧填补的去痕结果图像(例如，上述的第一去痕结果
图像)，随后，可对基于单帧填补的去痕结果图像执行前后相邻帧的融合算法，获得基于融
合填补的去痕结果图像(例如，上述的第二去痕结果图像)，随后，可对基于融合填补的去痕
结果图像执行背景融合，获得基于背景融合的去痕结果图像(例如，上述的第三去痕结果图
像)，作为最终的去痕结果图像以输出。

[0083] 图9是示出根据本公开的示例性实施例的视频去痕装置的框图。

[0084] 参照图9，根据本公开的示例性实施例的视频去痕装置900可包括获取单元901、去痕单元902和融合单元903。

[0085] 获取单元901可获取视频的当前帧图像和去痕区域掩膜。这里，视频是指待去痕视频，例如，可以是视频平台获取到的由摄像机拍摄的视频、或者来自其他视频平台的视频、
或者来自网络或本地存储的视频等等。根据本公开的示例性实施例的视频去痕方法可对待
去痕视频的每一帧图像执行去痕处理，因此，当前帧是指当前被执行去痕处理的帧。

[0086] 此外，去痕区域掩膜是指待去痕视频的图像中遮挡除预先确定的将要执行去痕处理的区域之外的区域的图像掩膜。将要执行去痕处理的区域(下面，可简称为去痕区域)可
以是比待去痕图案(例如，平台logo、广告、水印等)更大的区域，这是因为利用待去痕图案
周边背景的语义信息，更有利于提升填补内容的质量。针对待去痕图案，应该选择适当的去
痕区域作为上下文的参考区域，如果去痕区域过大会引入过多无关信息，让去痕模型产生
困扰，而如果去痕区域过小则无法包含有效的参考信息，影响去痕效果。根据本公开的示例
性实施例，去痕区域可以是包括待去痕图案的预定区域，该预定区域是待去痕视频的图像
的局部区域。例如，去痕区域可以是待去痕视频的图像中的特定矩形区域，该特定矩形区域
以待去痕视频的图像的待去痕图案的中心为中心点且以待去痕图案最长边的两倍为边长。
当然，根据本公开的去痕区域不限于上述，还可以是任何可能的去痕区域。

[0087] 随后，去痕单元902可基于当前帧图像和去痕区域掩膜，利用图像去痕网络，获得当前帧图像的第一去痕结果图像。这里，图像去痕网络可以是任何基于单图图像修补的神
经网络(例如，深度卷积神经网络等)。此外，针对特定的场景，图像去痕网络还可以是针对
性训练过的网络模型。

[0088] 根据本公开的示例性实施例，去痕单元902可采用由粗到细的深度卷积神经网络，第一阶段的粗修补完成大致轮廓的填补，第二阶段的细修补进一步填充细节。如图5所示，
去痕单元902可将待去痕图像和相应的去痕区域掩膜输入到图像去痕网络的第一阶段子网
络(可称为粗修补网络)，以输出粗修补图像，再将粗修补图像输入到图像去痕网络的第二
阶段子网络(可称为精修补网络)，以输出精修补图像，可作为第一去痕结果图像。

[0089] 根据本公开的示例性实施例，去痕单元902可采用编解码器网络来实现图像去痕网络，例如，可采用如图6所示的图像去痕网络。此外，根据本公开的示例性实施例，在对根
据本公开的示例性实施例的图像去痕网络执行训练的过程中，采用基于生成对抗网络的最
小二乘损失的损失函数来进行训练。可采用以下公式作为损失函数：

[0090]

[0091]

[0092] 其中，L表示损失，D表示判别器，G表示生成器，x表示真实图像(即，参考结果)，z表示生成器的输入(即，经过掩膜处理的待去痕图像)，E表示期望，pz、px分别是生成器输入和
真实图像的空间(即，整个训练集)，a、b、c是三个可调参数，其中，可将b和c设置为b＝c。因
为最小化的是输出结果与a、b、c之间的平方误差，因此叫做二乘损失。

[0093] 随后，获取单元901可获取视频的当前帧图像的前一帧图像的去痕结果图像。融合单元903可对当前帧图像的第一去痕结果图像和前一帧图像的去痕结果图像进行融合，获
得当前帧图像的第二去痕结果图像，作为当前帧图像的最终去痕结果图像。单纯使用基于
单图的去痕算法在时序上会产生抖动，为了避免抖动，采用了基于当前帧和前一帧的融合
机制，在不过多增加开销和运算量的情况下，消除抖动，提高去痕效果。

[0094] 根据本公开的示例性实施例，融合单元903可采用基于光流的时序融合机制执行融合。例如，融合单元903可通过以下步骤来执行基于光流的时序融合机制：对当前帧图像
的第一去痕结果图像和前一帧图像的去痕结果图像进行光流计算，并基于计算出的光流进
行采样，获得相邻帧对齐图像；对当前帧图像的第一去痕结果图像和相邻帧对齐图像的去
痕区域像素的每个像素进行融合。例如，融合单元903可针对去痕区域像素的每个像素，计
算当前帧图像的第一去痕结果图像的像素值和相邻帧对齐图像的像素值的统计值，作为该
像素的像素值，以获得融合后的图像。

[0095] 根据本公开的示例性实施例，融合机制利用的前一帧图像的去痕结果图像可包括前一帧图像的第一去痕结果图像和第二去痕结果图像中的至少一个。这里，前一帧图像的
第一去痕结果图像是通过基于前一帧图像和去痕区域掩膜，利用所述图像去痕网络而获得
的，前一帧图像的第二去痕结果图像是通过对前一帧图像的第一去痕结果图像和前一帧图
像的前一帧图像的痕结果图像进行融合而获得的。

[0096] 根据本公开的示例性实施例，当前一帧图像的去痕结果图像可包括前一帧图像的第一去痕结果图像和第二去痕结果图像两者时，融合单元903可对当前帧图像的第一去痕
结果图像和前一帧图像的第一去痕结果图像进行光流计算，获得第一相邻光流，并对当前
帧图像的第一去痕结果图像和前一帧图像的第二去痕结果图像进行光流计算，获得第二相
邻光流；基于第一相邻光流对当前帧图像的第一去痕结果图像和前一帧图像的第一去痕结
果图像进行采样，获得第一相邻帧对齐图像，并基于第二相邻光流对当前帧图像的第一去
痕结果图像和所述前一帧图像的第二去痕结果图像进行采样，获得第二相邻帧对齐图像；
对当前帧图像的第一去痕结果图像、第一相邻帧对齐图像和第二相邻帧对齐图像的去痕区
域像素的每个像素进行融合。例如，融合单元903可针对去痕区域像素的每个像素，计算当
前帧图像的第一去痕结果图像的像素值、第一相邻帧对齐图像的像素值和第二相邻帧对齐
图像的像素值的中位数，作为该像素的像素值，从而可获得融合后的图像，即，当前帧图像
的第二去痕结果图像。

[0097] 根据本公开的示例性实施例，根据本公开的示例性实施例的视频去痕装置900还可包括确定单元(未示出)。确定单元可确定当前帧图像是否是待去痕视频的第一帧图像或
者当前帧图像与前一帧图像相比是否发生场景切换。如果当前帧图像是待去痕视频的第一
帧图像，则不存在前一帧图像，因此获取单元901无需执行获取前一帧图像的去痕结果图像
的操作，融合单元903也无需执行操作。如果当前帧图像与前一帧图像相比发生场景切换，
画面会在这些位置发生跳变，利用前一帧信息帮助填补去痕区域只会对去痕结果造成负面
作用，因此获取单元901无需执行获取前一帧图像的去痕结果图像的操作，融合单元903也
无需执行操作。因此，当确定单元确定当前帧图像是待去痕视频的第一帧图像或者当前帧
图像与前一帧图像相比发生场景切换时，获取单元901不执行获取前一帧图像的去痕结果
图像的操作，融合单元903也不执行操作，并去痕单元902可将当前帧图像的第一去痕结果
图像，作为当前帧图像的最终去痕结果图像。

[0098] 根据本公开的示例性实施例，确定单元可通过自动检测画面跳变来确定当前帧图像与前一帧图像相比是否发生场景切换。例如，在处理当前帧时，获取单元901可获得前一
帧图像，并确定单元可计算当前帧图像与前一帧图像的差异，当这个差异超过了预定阈值
时，则确定发生了场景切换。

[0099] 例如，该差异可以是基于预定图像块的L2范数距离。例如，可通过下面的公式计算相邻两帧的每个像素之间的L2范数距离：

[0100]

[0101] 其中，It(q)为第t帧图像(例如，当前帧图像)，It‑1(q)为第t‑1帧图像(例如，前一帧图像)，p可表示当前帧图像的每个像素，N(p)为p像素的邻域范围，(例如，邻域半径为5的
邻域范围)，即，p像素的预定图像块，q为遍历N(p)范围内的像素的指示符。本公开对N(p)不
作限制。

[0102] 当通过上述公式获得当前帧图像和前一帧图像的每个像素的L2范数距离值时，确定单元可计算每个像素的L2范数距离的平均值，作为当前帧图像与前一帧图像的差异值。
当计算出的差异值大于预定阈值时，确定单元确定当前帧图像与前一帧相比发生场景切
换。

[0103] 此外，在实际计算相邻帧图像的每个像素之间的距离的过程中，还可采用积分图进行算法加速，以提高算法速度。

[0104] 当然，本公开的确定是否发生场景切换的方法不限于上述方法，还可利用任何可行的方法来确定是否发生场景切换。

[0105] 根据本公开的示例性实施例，由于光照条件、相机对焦可能存在突变，或者由于相机和被摄主体的运动可能会产生模糊，对齐后相邻两帧的图像可能存在较大的偏差。因此，
根据本公开的示例性实施例的视频去痕装置900还可包括背景融合单元(未示出)。在去痕
单元902产生当前帧图像的最终去痕结果图像或者融合单元903产生当前帧图像的最终去
痕结果图像之后，背景融合单元可对当前帧图像的最终去痕结果图像进行背景融合，使得
当前帧图像的去痕区域的填补内容能够更完美更自然地与当前帧图像的背景融合，使得去
痕结果图像更和谐和自然。

[0106] 例如，背景融合单元可采用泊松融合算法执行背景融合。即，背景融合单元基于当前帧图像、当前帧图像的最终去痕结果图像和去痕区域掩膜，利用泊松融合算法，获得当前
帧图像的第三去痕结果图像，作为当前帧图像的最终去痕结果图像。具体地说，背景融合单
元可以以去痕区域掩膜中的去痕区域为参考区域，计算在参考区域边界处当前帧图像的像
素的像素值与当前帧图像的最终去痕结果图像的像素的像素值之间的梯度；可调整当前帧
图像的最终去痕结果图像在所述参考区域边界处的像素的像素值，直到所述梯度最小化；
将梯度最小化时的调整后的当前帧图像的最终去痕结果图像作为当前帧图像的第三去痕
结果图像。

[0107] 图10是根据本公开的示例性实施例的电子设备1000的框图。

[0108] 参照图10，电子设备1000包括至少一个存储器1001和至少一个处理器1002，所述至少一个存储器1001中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一
个处理器1002执行时，执行根据本公开的示例性实施例的视频去痕方法。

[0109] 作为示例，电子设备1000可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可
以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1000
还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由
无线传输)以接口互联的便携式电子设备。

[0110] 在电子设备1000中，处理器1002可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括
模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

[0111] 处理器1002可运行存储在存储器1001中的指令或代码，其中，存储器1001还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装
置可采用任何已知的传输协议。

[0112] 存储器1001可与处理器1002集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器1001可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据
库系统可使用的其他存储装置。存储器1001和处理器1002可在操作上进行耦合，或者可例
如通过I/O端口、网络连接等互相通信，使得处理器602能够读取存储在存储器中的文件。

[0113] 此外，电子设备1000还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备1000的所有组件可经由总线和/或网络而彼此
连接。

[0114] 根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的视频去痕方
法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储
器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存
储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD‑ROM、CD‑R、CD+R、CD‑
RW、CD+RW、DVD‑ROM、DVD‑R、DVD+R、DVD‑RW、DVD+RW、DVD‑RAM、BD‑ROM、BD‑R、BD‑R LTH、BD‑
RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安
全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬
盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程
序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数
据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程
序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等
计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数
据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的
数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执
行。

[0115] 根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的视频去痕方
法。

[0116] 根据本公开的视频去痕方法和视频去痕装置，利用神经网络执行单图去痕(即，去痕区域填补)，并利用特定融合机制考虑相邻帧信息执行相邻帧融合去痕，能够自动化去除
视频中遮挡、广告等内容，无需利用多个前后帧信息和多次光流计算，在保证算法开销小、
速度快(例如，15帧/秒的处理速度)的情况下，提升去痕区域填补内容的质量，使得填补内
容和原视频内容对比起来和谐、自然，填补完的视频能够让痕迹区域不再明显，和原视频难
以区分，达到以假乱真的效果，从而提高用户观看体验。

[0117] 根据本公开的视频去痕方法和视频去痕装置，能够实时地针对视频中的痕迹图案选择合适的去痕区域，在不增加开销和干扰的情况下，充分利用周围信息以提高去痕区域
内容填补质量，并且无需提前标注好掩膜，对痕迹出现的位置、痕迹的形状、视频的种类均
没有限制，都能稳定产生优良的去痕结果。

[0118] 根据本公开的视频去痕方法和视频去痕装置，利用泊松融合算法对去痕图像执行背景融合，使得去痕区域的填补内容能够更完美更自然地与图像背景融合，使得去痕结果
图像更和谐和自然。

[0119] 本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或
者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识
或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的
权利要求指出。

[0120] 应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

视频去痕方法和视频去痕装置转让专利

申请号 : CN202011104678.6

文献号 : CN112233055B

文献日 : 2021-09-10

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 吴明达 , 陶鑫 , 陈宇聪 , 邓凡博 , 李福林 , 戴宇荣 , 于冰

申请人 : 北京达佳互联信息技术有限公司

摘要 :

权利要求 :

说明书 :