基于GAN网络的图像软分割及背景替换系统转让专利

申请号 : CN202110692455.4

文献号 : CN113538456B

文献日 : 2022-03-18

本发明公开了一种基于GAN网络的图像软分割及背景替换系统。该系统包括图像软分割和背景替换两部分。图像软分割部分用于预测原始图像的前景以及alpha值，共包含五个模块：输入模块，全文组合模块，残差网络模块，金字塔场景解析模块和轻量级交互式分支模块；背景替换部分用于背景替换，生成高分辨率的背景替换图，其包括生成器模型和判别器模型。本发明的有益效果在于：其能减轻图像软分割过程中辅助图制作带来的繁重任务，能在获得高精度的分割图像的前提下，结合图像生成进行背景替换。

1.一种基于GAN网络的图像软分割及背景替换系统，其特征在于，其包括图像软分割和背景替换两部分；图像软分割部分用于预测图像的前景以及alpha值，执行软分割操作；背景替换部分，用于生成高分辨率的合成图；其中：一)图像软分割

图像软分割部分包含五个模块：输入模块，全文组合模块，残差网络模块，金字塔场景解析模块和轻量级交互式分支模块；其中：输入模块，输入包含原始图像I，背景图像B和目标软分割图像S；目标软分割图像S通过腐蚀、膨胀和高斯模糊得到对主题对象的初始软分割获得；

全文组合模块，首先将原始图像I、背景图像B、目标软分割图像S分别编码成512×512×256的特征图，接着以原始图像I作为基底，分别结合背景图像B和目标软分割图像S，形成两张512通道的特征图，经过卷积、BatchNorm和ReLU分别提取成64通道特征图，最后将基底与两个64通道特征图组合在一起形成384通道，经过卷积、BatchNorm和ReLU提取成256通道特征图，作为下一个残差网络模块的输入；

残差网络模块，其包括主残差模块以及和后续的两个轻量分支残差模块；主干网络选择ResNet‑101的架构，当然删除了完全连接层和最大池化层，并在最后两阶段引入atrous convolution，以保证执行像素级预测和可接受的输出分辨率；主残差模块属于共享残差内容，目的是得到更深层次的特征图，后面的两个轻量分支残差网络分别用于前景预测和alpha预测，故最后得到两个特征图，后续通过金字塔场景解析模块PSP进行多尺度特征融合；

金字塔场景解析模块PSP，经过带atrous convolution的主干残差网络和分支残差网络得到深层特征图后，使用四种尺寸的金字塔，池化所用的kernel分别为1×1，2×2，3×3，

6×6，池化之后经过一组1×1的卷积降维、双线性差值上采样，还原到残差网络输出的特征图大小，然后将得到的特征图，包括池化之前的特征图做一个级联，完成多尺度特征融合；

最终，前景预测分支残差模块再使用ReLU得到前景预测特征图，Alpha预测分支再使用Tanh，得到alpha预测图；

轻量级交互式分支模块，其附加在金字塔场景解析模块PSP之前，用于接收可能的额外指导信息，支持对极端特例的泛化性；用户允许在原始图像上进行操作，在目标对象内部进行点击以生成内部指导，在目标对象的正或负对角线上点击以生成外部指导；在内、外点附近各放置一个二维高斯函数，制成两张内、外指导热图，进而将其编码成特征图并结合到残差网络的输出特征图上，用户也可自行选择是否执行交互；

二)背景替换

背景替换部分包括生成器模型、判别器模型，共同构成一个无监督GAN框架，采用无监督GAN框架对生成器模型和判别器模型进行微调，不断优化生成网络学习真实数据的分布，也不断提高判别网络的分辨能力，最终到达纳什均衡，训练结束后系统可以获得高质量的背景替换图；其中：

生成器网络，基于图像软分割部分得到的前景图片和alpha预测，将前景组合到一张新的背景上合成生成图片；生成器网络使用“指导与被指导”模型；指导模型的训练集为合成数据集，其包含若干个前景F′标记的alpha matte，即α′、取自coco数据集的背景B′的任意组合，执行生成器模型训练，对背景B′引入矫正和高斯模糊防止过拟合以避免系统过度偏向与学习I′与B′的差值，由此得到有监督学习的Gteacher作为指导模型；以Gteacher充当“伪ground‑truth”，在与“伪ground‑truth”相比的情况下，进行真实场景下的模型训练，被指导模型采用真实数据集进行自监督训练，得到Gstudent作为被指导模型；指导模型和被指导模型共享同一损失函数，第一损失被赋予较小的权重；利用ADAM优化器避免网络陷入局部最小值中，而在附近为真实数据找到一个更好的最小值；

判别器网络，使用基于多尺度判别器的对抗训练对真实场景的无标签数据进行训练，判别前景结果贴到新的背景上形成的合成图像后是真样本还是合成样本；多尺度判别器在三个不同的尺度上进行判别，三个尺度分别为：原图，原图的1/2，原图的1/4；多尺度判别器的每个尺度上又使用了3个线性判别器，每个线性判别器都包括一个全卷积网络，由若干组卷积，BatchNorm和Leaky ReLU组成。

2.根据权利要求1所述的图像软分割及背景替换系统，其特征在于，生成器中，指导模型Gteacher的损失函数如下：被指导模型Gstudent的损失函数如下：2

loss2＝Ddisc(αF+(1‑α)B‑1)对抗训练网络的生成器损失函数即为最小化loss1和loss2之和；初始λ设置为0.02，每经过五次迭代缩小1/2，网络选择ADAM优化器避免网络陷入局部最小值中，而在附近为真实数据找到一个更好的最小值；生成器损失如下：

基于GAN网络的图像软分割及背景替换系统

技术领域

[0001] 本发明涉及一种基于GAN网络的图像软分割及背景替换系统，涉及深度学习、计算机视觉、有监督和无监督学习等技术领域。

背景技术

[0002] 数据信息的大洪流冲击了深度学习领域，计算机对图像的处理能力大幅提升，已获得了高质量的结果。现在获取图片的途径越来越多，手机拍摄成为最常用的方式，虽然拥
有海量的图片，但是每张图片都是独特的，很难将图片中的对象进行组合，即背景替换。前、
背景分离一直以来都是一个经典难题。鲜有将图像软分割与图像生成组合在一起进行的应
用，因此，实现一种基于GAN网络的图像软分割与背景替换成为一项非常有意义的研究课
题。

[0003] 现有的技术主要有以下几种：一是借助各种软件工具进行图像分割和图像合成，由软件工具提供的固定功能进行硬分割；二是基于采样/传播建立前、背景颜色统计信息求
解未知区域进行图像处理；三是人工标注三元图trimap，利用标注信息结合深度学习进行
模型训练和alpha预测。

[0004] 上述第一种技术路线人为参与度很高，利用软件进行人工处理存在一些问题，一是针对于背景色和目标对象颜色相似时人工误标可能性大；二是人物、动物等毛发边界的
分离操作困难，效果差；三是人工处理海量数据效率过低。因此人工软件图像处理只适用于
少数场景下的分割与合成。

[0005] 第二种技术基于采样/传播的数值统计方式，需要trimap作为辅助输入，基于采样的方法通过采样来建立已知前景和背景的颜色统计信息，然后求解“未知”区域中的alpha
matte。基于传播的方法的目的是将alpha matte从前景和背景区域传播到未知区域，以求
解图片方程。这两种方式的代价是制作trimap，且采样和传播的方式结果不可预测，质量一
般。

[0006] 第三种是基于深度学习的技术，结合trimap和深度神经网络执行软分割，并在含有ground truth masks的数据集下，在各种背景上进行合成模型训练。该方法在软分割与
合成的精度上有很大提高，但代价仍是trimap，且模型过于依赖人工标注，鲁棒性不强。

[0007] 综上所述，现有技术存在以下缺点：①精度达不到超高分辨率的要求；②人工参与度高，制作trimap辅助图代价昂贵；③模型依赖度高，鲁棒性差；④关注点大部分在软分割
质量和代价上，少有结合图像软分割与合成进行应用。

发明内容

[0008] 针对目前图像处理中需要高质量的图像处理系统以及现有技术进行图像背景替换耗时、人工标注成本大、精度不高等问题，本发明旨在提供一种基于GAN网络的图像软分
割与背景替换系统，其能减轻图像软分割过程中辅助图制作带来的繁重任务，能在获得高
分辨率分割图像的前提下，结合分割与生成实现一键式高分辨率的图像背景替换。

[0009] 一种基于GAN网络的图像软分割及背景替换系统，其特征在于，包括了图像软分割和背景替换两部分。图像软分割部分，用于预测图像的前景以及alpha值；背景替换部分，用
于生成高精度的合成图像。

[0010] 一)图像软分割

[0011] 图像软分割部分包含五个模块：输入模块，全文组合模块，残差网络模块，金字塔场景解析模块和轻量级交互式分支模块；其中：

[0012] 输入模块，通过数据预处理获得原始图像I，背景图像B和目标软分割图像S；目标软分割图像S通过对原始图像I提取的主题对象进行腐蚀、膨胀和高斯模糊获得；

[0013] 全文组合模块，首先将原始图像I、背景图像B、目标软分割图像S分别编码成512×512×256的特征图，接着以原始图像I作为基底，分别结合背景图像B和目标软分割图像S，
形成两张512通道的特征图，经过卷积、BatchNorm和ReLU分别提取成64通道特征图，最后将
基底与两个64通道特征图组合在一起形成384通道，经过卷积、BatchNorm和ReLU提取成256
通道特征图，作为下一个残差网络模块的输入；

[0014] 残差网络模块，其包括主残差模块以及和连接在主残差模块后面的两个轻量分支残差模块；主残差模块采用残差网络ResNet‑101的架构，区别在于将ResNet‑101的最后两
层替换成了带atrous convolution的全卷积层，主残差模块的输出属于共享残差内容；两
个轻量分支残差模块，分别用于前景预测和alpha预测；残差网络模块输出得到深层特征
图；

[0015] 金字塔场景解析模块PSP，用于改善池化和卷积造成的内部数据结构丢失和缺乏空间一致性问题；在残差网络得到深层特征图后，使用四种尺寸的金字塔，池化所用的
kernel分别为1×1，2×2，3×3，6×6，池化之后经过一组1×1的卷积降维、双线性差值上采
样，还原到残差网络输出的特征图大小，然后将得到的特征图，包括池化之前的特征图做一
个级联，完成多尺度特征融合；最终，前景预测分支残差模块再使用ReLU得到前景预测特征
图，Alpha预测分支再使用Tanh，得到alpha预测图；

[0016] 轻量级交互式分支模块，其附加在PSP模块之前，用于接收可能的额外指导信息，支持对极端特例的泛化性；用户允许在原始图像上进行操作，在目标对象内部进行点击以
生成内部指导，在目标对象的正或负对角线上点击以生成外部指导；在内、外点附近各放置
一个二维高斯函数，制成两张内、外指导热图，进而将其编码成特征图并结合到残差网络的
输出特征图上，用户也可自行选择是否执行交互。

[0017] 二)背景替换

[0018] 背景替换部分包括生成器网络、判别器网络，共同构成一个无监督GAN框架，基于无监督GAN框架，对生成器模型和判别器模型进行微调，不断优化生成网络学习真实数据的
分布，也不断提高判别网络的分辨能力，最终到达纳什均衡，训练结束后系统可以获得高分
辨率的背景替换图；其中：

[0019] 生成器网络，其基于图像软分割部分得到的前景图片和alpha预测，将前景组合到一张新的背景上合成生成图片；生成器网络包括指导模型和被指导模型；指导模型的训练
集为合成数据集，其包含若干个前景F′、标记的alpha matte、取自coco数据集的背景B′的任
意组合，执行生成器模型训练，对背景B′引入矫正和高斯模糊防止过拟合以避免系统过度
偏向与学习I′与B′的差值，由此得到有监督学习的Gteacher作为指导模型；以Gteacher充当“伪
ground‑truth”，在与“伪ground‑truth”相比的情况下，进行真实场景下的模型训练，被指
导模型采用真实数据集进行自监督训练，得到Gstudent作为被指导模型；指导模型和被指导
模型共享同一损失函数，第一损失被赋予较小的权重；利用ADAM优化器避免网络陷入局部
最小值中，而在附近为真实数据找到一个更好的最小值；

[0020] 判别器网络，使用基于多尺度判别器的对抗训练对真实场景的无标签数据进行训练，判别前景结果贴到新的背景上形成的合成图像后是真样本还是合成样本；多尺度判别
器在三个不同的尺度上进行判别，三个尺度分别为：原图，原图的1/2，原图的1/4；多尺度判
别器的每个尺度上又使用了3个线性判别器，每个线性判别器都包括一个全卷积网络，由若
干组卷积，BatchNorm和Leaky ReLU组成；

[0021] 和现有技术相比，本发明技术方案的优点主要体现在：

[0022] ①克服了现有技术依赖三元图的缺点，降低了人为参与度以及人工注释的成本。

[0023] ②提出了一个全局组合模块，可以有效地组合所有不同的线索，让物体的软分割效果显著提高。

[0024] ③结合使用了atrous convolution和PSP场景解析，获得更大的感受野和全局信息，不同尺度的特征融合得到了更加清晰的图像软分割。使用多尺度判别器，越容易达到全
局一致性和判别局部细节。

[0025] ④提出轻量级交互式分支，对模型进行人为干涉指导，提高系统的泛化性。

[0026] ⑤提出GAN网络结合图像软分割与图像生成，进行背景替换。让生成器和判别器之间进行无监督的博弈，优化模型，最后生成和真实图片相差无几的背景替换图。

附图说明

[0027] 图1.atrous convolution网络。

[0028] 图2.金字塔场景解析模块(PSP)。

[0029] 图3.图像软分割网络。

[0030] 图4.GAN网络流程图。

具体实施方式

[0031] 本系统包含两个部分，图像的alpha预测与背景替换。第一部分图像软分割包含五个模块：输入模块，全文组合模块，残差网络模块，金字塔场景解析模块，轻量级交互式分支
模块。第二部分图像合成包含生成器模型和判别器模型。

[0032] (一)图像的alpha预测。一张图片包含7个要素，前景F(R,G,B)，背景B(R,G,B)和前景蒙版alpha matte(α)，因此图像方程可表示为：

[0033] Ii＝αiFi+(1‑αi)Bi

[0034] 为获得高质量的软分割，系统需要预测出准确的前景以及alpha matte。第一部分各个模块介绍如下：

[0035] 1、输入模块，即数据的预处理。人工标注trimap的代价昂贵，为克服这个缺点，附加一张不带目标对象的背景图作为替代。系统的输入要求是在静态条件下的图像，再加上
仅背景的图像，成像过程简单，并且可以支持任何设置为锁定曝光和焦点的相机，例如智能
手机相机的拍摄图片。假设相机运动很小，则应用单应性矩阵将背景与给定的输入图像对
齐。最后通过腐蚀、膨胀和高斯模糊得到主题对象的初始软分割。

[0036] 综上，数据预处理获得原始图像(I)，背景图像(B)，目标软分割图像(S)三部分。

[0037] 2、全文组合模块。系统运用一种新的全文组合网络，有效的结合所有线索特征。例如，当目标对象的颜色与背景相似时，网络应更多的关注区域的分割线索，而非像素差异，
这避免了软分割中可能出现的内部空洞和虚化弊端。具体执行如下：

[0038] I,B,S图像被分别编码成512×512×256的特征图。以原图作为基底，组合B和S，形成两张512通道的特征图，经过卷积、BatchNorm和ReLU分别提取成64通道特征图，将基底与
两个64通道并联成384通道，再经过卷积、BatchNorm和ReLU还原成256通道特征图，作为下
一个残差网络模块的输入。全文组合体系有助于跨不同数据集和领域进行泛化。

[0039] 3、残差网络模块。借鉴ResNet的经验，系统在主模块采用残差网络。主干网络选择ResNet‑101的架构，当然删除了完全连接层和最大池化层，并在最后两阶段引入atrous
convolution，以保证执行像素级预测和可接受的输出分辨率。atrous convolution的稀疏
预测能获得更大的感受野，让实例软分割边界更加清晰，并能与后面的聚合模块相互作用。

[0040] 主残差网络的输出属于共享残差内容，后面接两个轻量分支残差网络，分别用于前景预测和alpha预测。前景预测分支会继续经过残差块，通过金字塔场景解析模块聚合，
再接一组卷积、双线性插值上采样、BatchNorm和ReLU得到最后的前景heatmap。Alpha预测
分支经过残差块，接金字塔场景解析模块，再接一组卷积、双线性插值上采样、BatchNorm和
Tanh得到最后的alpha预测，使用Tanh的原因是每个像素的alpha matte值需要介于0和1之
间。

[0041] 4、金字塔场景解析模块Pyramid Scene Parsing(PSP)。系统选择目前热门的PSP模型来处理场景之间的关系和聚合全局上下文信息。虽然全文组合模块可以一定程度上在
浅层融合表征信息，但池化和卷积造成的内部数据结构丢失和空间一致性问题需要进一步
利用PSP来改善。具体执行如下：

[0042] 分支残差网络提取到深层特征图后，创建空间池金字塔以融合不同尺度的特征图。池化所用的kernel分别为1×1，2×2，3×3，6×6，不同尺度的池化模块关注激活映射的
区域不同。池化之后经过一组1×1的卷积降维、双线性插值上采样，还原到分支网络的输出
尺寸。将得到的特征图,包括池化之前的做一个级联(concatenate),完成多尺度特征融合，
最后接上一组卷积。PSP的上下文推断能力很强，从多个级别提取特征，包括像素级、超像素
级、全局，综合各种范围的考虑对软分割有重大的帮助。

[0043] 5、轻量级交互式分支模块。为了支持对极端特例的泛化性，系统在PSP模块之前附加了一个轻量级分支，用于接收可能的额外指导信息。用户允许在原始图像上进行操作，在
目标对象内部进行点击以生成内部指导，在目标对象的正或负对角线上点击以生成外部指
导。在内、外点附近各放置一个二维高斯，制成两张热力图，系统将其编码成特征图并结合
到残差网络的两个分支中。交互过程很简单，但可以提高模型对极端案例的适应性，用户也
可自行选择是否执行交互。

[0044] (二)背景替换(图像合成)。为了合成足以媲美真实图片的背景替换图片，系统采用无监督的GAN网络进行模型训练。

[0045] 1、生成器网络Generator。上述1至5模块可以统一看成是生成器模型完成的工作。第一步完成的图像软分割已经得到前景图片和alpha预测，将前景贴到新的背景上合成图
片。

[0046] 生成器使用“指导与被指导”模型。指导模型的训练集为合成数据集，包含若干个前景(F′)和注释的alpha matte(α′)与取自coco数据集的背景(B′)进行有监督学习。为避免
系统过度依赖学习I′与B′的差值，对背景B′引入伽马校正和高斯模糊防止过拟合，由此得到
Gteacher作为指导模型。其损失函数如下：

[0047]

[0048] 以Gteacher充当“伪ground‑truth”，作为监督者。在“伪ground‑truth”的指导下，被指导模型Gstudent采用真实数据集进行自监督训练。其损失函数如下：

[0049] loss2＝Ddisc(αF+(1‑α)B‑1)2

[0050] 对抗训练网络的生成器损失函数即为最小化loss1和loss2之和，但第一损失被赋予较小的权重。初始λ设置为0.02，每经过五次迭代缩小1/2。网络选择ADAM优化器避免网络
陷入局部最小值中，而在附近为真实数据找到一个更好的最小值。生成器损失如下：

[0051]

[0052] 2、判别器网络Discriminator。判别器需要鉴别是真样本还是合成样本，并通过反向传播进行参数微调。为了提升在真实场景的背景替换效果，系统使用了基于pix2pix hd
中提出的多尺度判别器。判别器的每个尺度又包括3个线性判别器，每个线性判别器都是一
个全卷积网络，由若干组卷积，BatchNorm和Leaky ReLU组成。判别器的3个尺度分别为：原
图，原图的1/2，原图的1/4。其优点类似PSP，越粗糙的尺度感受野越大，越容易判别全局一
致性，而越精细的尺度感受野越小，越容易判别色彩，纹理等细节信息。

[0053] 3、最后使用无监督GAN框架对生成器模型和判别器模型进行微调，不断优化生成网络学习真实数据的分布，也不断提高判别网络的分辨能力，最终到达纳什均衡。训练结束
后系统可以获得高分辨率的背景替换图。

[0054] 本发明包括两部分共7个模块。全局组合模块带来不同表征信息的组合，提高分割质量；残差网络与atrous convolution、PSP组合执行像素级预测，又能融合多尺度的特征；
轻量级的交互式模块能指导模型训练，提高适应性；提出了基于GAN网络结合图像软分割与
图像生成的系统，应用于背景替换。以上均为关键点和欲保护点。

[0055] 凡采用等同变换或者等效替换而形成的技术方案，均属本发明权利保护范围之内，在此不一一详述。

基于GAN网络的图像软分割及背景替换系统转让专利

申请号 : CN202110692455.4

文献号 : CN113538456B

文献日 : 2022-03-18

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 张冠华 , 陈烁 , 蒋林华 , 曾新华 , 庞成鑫 , 宋梁

申请人 : 复旦大学

摘要 :

权利要求 :

说明书 :