基于GAN网络的图像软分割及背景替换系统转让专利
申请号 : CN202110692455.4
文献号 : CN113538456B
文献日 : 2022-03-18
发明人 : 张冠华 , 陈烁 , 蒋林华 , 曾新华 , 庞成鑫 , 宋梁
申请人 : 复旦大学
摘要 :
权利要求 :
1.一种基于GAN网络的图像软分割及背景替换系统,其特征在于,其包括图像软分割和背景替换两部分;图像软分割部分用于预测图像的前景以及alpha值,执行软分割操作;背景替换部分,用于生成高分辨率的合成图;其中:一)图像软分割
图像软分割部分包含五个模块:输入模块,全文组合模块,残差网络模块,金字塔场景解析模块和轻量级交互式分支模块;其中:输入模块,输入包含原始图像I,背景图像B和目标软分割图像S;目标软分割图像S通过腐蚀、膨胀和高斯模糊得到对主题对象的初始软分割获得;
全文组合模块,首先将原始图像I、背景图像B、目标软分割图像S分别编码成512×512×256的特征图,接着以原始图像I作为基底,分别结合背景图像B和目标软分割图像S,形成两张512通道的特征图,经过卷积、BatchNorm和ReLU分别提取成64通道特征图,最后将基底与两个64通道特征图组合在一起形成384通道,经过卷积、BatchNorm和ReLU提取成256通道特征图,作为下一个残差网络模块的输入;
残差网络模块,其包括主残差模块以及和后续的两个轻量分支残差模块;主干网络选择ResNet‑101的架构,当然删除了完全连接层和最大池化层,并在最后两阶段引入atrous convolution,以保证执行像素级预测和可接受的输出分辨率;主残差模块属于共享残差内容,目的是得到更深层次的特征图,后面的两个轻量分支残差网络分别用于前景预测和alpha预测,故最后得到两个特征图,后续通过金字塔场景解析模块PSP进行多尺度特征融合;
金字塔场景解析模块PSP,经过带atrous convolution的主干残差网络和分支残差网络得到深层特征图后,使用四种尺寸的金字塔,池化所用的kernel分别为1×1,2×2,3×3,
6×6,池化之后经过一组1×1的卷积降维、双线性差值上采样,还原到残差网络输出的特征图大小,然后将得到的特征图,包括池化之前的特征图做一个级联,完成多尺度特征融合;
最终,前景预测分支残差模块再使用ReLU得到前景预测特征图,Alpha预测分支再使用Tanh,得到alpha预测图;
轻量级交互式分支模块,其附加在金字塔场景解析模块PSP之前,用于接收可能的额外指导信息,支持对极端特例的泛化性;用户允许在原始图像上进行操作,在目标对象内部进行点击以生成内部指导,在目标对象的正或负对角线上点击以生成外部指导;在内、外点附近各放置一个二维高斯函数,制成两张内、外指导热图,进而将其编码成特征图并结合到残差网络的输出特征图上,用户也可自行选择是否执行交互;
二)背景替换
背景替换部分包括生成器模型、判别器模型,共同构成一个无监督GAN框架,采用无监督GAN框架对生成器模型和判别器模型进行微调,不断优化生成网络学习真实数据的分布,也不断提高判别网络的分辨能力,最终到达纳什均衡,训练结束后系统可以获得高质量的背景替换图;其中:
生成器网络,基于图像软分割部分得到的前景图片和alpha预测,将前景组合到一张新的背景上合成生成图片;生成器网络使用“指导与被指导”模型;指导模型的训练集为合成数据集,其包含若干个前景F′标记的alpha matte,即α′、取自coco数据集的背景B′的任意组合,执行生成器模型训练,对背景B′引入矫正和高斯模糊防止过拟合以避免系统过度偏向与学习I′与B′的差值,由此得到有监督学习的Gteacher作为指导模型;以Gteacher充当“伪ground‑truth”,在与“伪ground‑truth”相比的情况下,进行真实场景下的模型训练,被指导模型采用真实数据集进行自监督训练,得到Gstudent作为被指导模型;指导模型和被指导模型共享同一损失函数,第一损失被赋予较小的权重;利用ADAM优化器避免网络陷入局部最小值中,而在附近为真实数据找到一个更好的最小值;
判别器网络,使用基于多尺度判别器的对抗训练对真实场景的无标签数据进行训练,判别前景结果贴到新的背景上形成的合成图像后是真样本还是合成样本;多尺度判别器在三个不同的尺度上进行判别,三个尺度分别为:原图,原图的1/2,原图的1/4;多尺度判别器的每个尺度上又使用了3个线性判别器,每个线性判别器都包括一个全卷积网络,由若干组卷积,BatchNorm和Leaky ReLU组成。
2.根据权利要求1所述的图像软分割及背景替换系统,其特征在于,生成器中,指导模型Gteacher的损失函数如下:被指导模型Gstudent的损失函数如下:2
loss2=Ddisc(αF+(1‑α)B‑1)对抗训练网络的生成器损失函数即为最小化loss1和loss2之和;初始λ设置为0.02,每经过五次迭代缩小1/2,网络选择ADAM优化器避免网络陷入局部最小值中,而在附近为真实数据找到一个更好的最小值;生成器损失如下:
说明书 :
基于GAN网络的图像软分割及背景替换系统
技术领域
背景技术
有海量的图片,但是每张图片都是独特的,很难将图片中的对象进行组合,即背景替换。前、
背景分离一直以来都是一个经典难题。鲜有将图像软分割与图像生成组合在一起进行的应
用,因此,实现一种基于GAN网络的图像软分割与背景替换成为一项非常有意义的研究课
题。
解未知区域进行图像处理;三是人工标注三元图trimap,利用标注信息结合深度学习进行
模型训练和alpha预测。
分离操作困难,效果差;三是人工处理海量数据效率过低。因此人工软件图像处理只适用于
少数场景下的分割与合成。
matte。基于传播的方法的目的是将alpha matte从前景和背景区域传播到未知区域,以求
解图片方程。这两种方式的代价是制作trimap,且采样和传播的方式结果不可预测,质量一
般。
合成的精度上有很大提高,但代价仍是trimap,且模型过于依赖人工标注,鲁棒性不强。
质量和代价上,少有结合图像软分割与合成进行应用。
发明内容
割与背景替换系统,其能减轻图像软分割过程中辅助图制作带来的繁重任务,能在获得高
分辨率分割图像的前提下,结合分割与生成实现一键式高分辨率的图像背景替换。
于生成高精度的合成图像。
形成两张512通道的特征图,经过卷积、BatchNorm和ReLU分别提取成64通道特征图,最后将
基底与两个64通道特征图组合在一起形成384通道,经过卷积、BatchNorm和ReLU提取成256
通道特征图,作为下一个残差网络模块的输入;
层替换成了带atrous convolution的全卷积层,主残差模块的输出属于共享残差内容;两
个轻量分支残差模块,分别用于前景预测和alpha预测;残差网络模块输出得到深层特征
图;
kernel分别为1×1,2×2,3×3,6×6,池化之后经过一组1×1的卷积降维、双线性差值上采
样,还原到残差网络输出的特征图大小,然后将得到的特征图,包括池化之前的特征图做一
个级联,完成多尺度特征融合;最终,前景预测分支残差模块再使用ReLU得到前景预测特征
图,Alpha预测分支再使用Tanh,得到alpha预测图;
生成内部指导,在目标对象的正或负对角线上点击以生成外部指导;在内、外点附近各放置
一个二维高斯函数,制成两张内、外指导热图,进而将其编码成特征图并结合到残差网络的
输出特征图上,用户也可自行选择是否执行交互。
分布,也不断提高判别网络的分辨能力,最终到达纳什均衡,训练结束后系统可以获得高分
辨率的背景替换图;其中:
集为合成数据集,其包含若干个前景F′、标记的alpha matte、取自coco数据集的背景B′的任
意组合,执行生成器模型训练,对背景B′引入矫正和高斯模糊防止过拟合以避免系统过度
偏向与学习I′与B′的差值,由此得到有监督学习的Gteacher作为指导模型;以Gteacher充当“伪
ground‑truth”,在与“伪ground‑truth”相比的情况下,进行真实场景下的模型训练,被指
导模型采用真实数据集进行自监督训练,得到Gstudent作为被指导模型;指导模型和被指导
模型共享同一损失函数,第一损失被赋予较小的权重;利用ADAM优化器避免网络陷入局部
最小值中,而在附近为真实数据找到一个更好的最小值;
器在三个不同的尺度上进行判别,三个尺度分别为:原图,原图的1/2,原图的1/4;多尺度判
别器的每个尺度上又使用了3个线性判别器,每个线性判别器都包括一个全卷积网络,由若
干组卷积,BatchNorm和Leaky ReLU组成;
局一致性和判别局部细节。
附图说明
具体实施方式
模块。第二部分图像合成包含生成器模型和判别器模型。
仅背景的图像,成像过程简单,并且可以支持任何设置为锁定曝光和焦点的相机,例如智能
手机相机的拍摄图片。假设相机运动很小,则应用单应性矩阵将背景与给定的输入图像对
齐。最后通过腐蚀、膨胀和高斯模糊得到主题对象的初始软分割。
这避免了软分割中可能出现的内部空洞和虚化弊端。具体执行如下:
两个64通道并联成384通道,再经过卷积、BatchNorm和ReLU还原成256通道特征图,作为下
一个残差网络模块的输入。全文组合体系有助于跨不同数据集和领域进行泛化。
convolution,以保证执行像素级预测和可接受的输出分辨率。atrous convolution的稀疏
预测能获得更大的感受野,让实例软分割边界更加清晰,并能与后面的聚合模块相互作用。
再接一组卷积、双线性插值上采样、BatchNorm和ReLU得到最后的前景heatmap。Alpha预测
分支经过残差块,接金字塔场景解析模块,再接一组卷积、双线性插值上采样、BatchNorm和
Tanh得到最后的alpha预测,使用Tanh的原因是每个像素的alpha matte值需要介于0和1之
间。
浅层融合表征信息,但池化和卷积造成的内部数据结构丢失和空间一致性问题需要进一步
利用PSP来改善。具体执行如下:
区域不同。池化之后经过一组1×1的卷积降维、双线性插值上采样,还原到分支网络的输出
尺寸。将得到的特征图,包括池化之前的做一个级联(concatenate),完成多尺度特征融合,
最后接上一组卷积。PSP的上下文推断能力很强,从多个级别提取特征,包括像素级、超像素
级、全局,综合各种范围的考虑对软分割有重大的帮助。
目标对象内部进行点击以生成内部指导,在目标对象的正或负对角线上点击以生成外部指
导。在内、外点附近各放置一个二维高斯,制成两张热力图,系统将其编码成特征图并结合
到残差网络的两个分支中。交互过程很简单,但可以提高模型对极端案例的适应性,用户也
可自行选择是否执行交互。
片。
系统过度依赖学习I′与B′的差值,对背景B′引入伽马校正和高斯模糊防止过拟合,由此得到
Gteacher作为指导模型。其损失函数如下:
陷入局部最小值中,而在附近为真实数据找到一个更好的最小值。生成器损失如下:
中提出的多尺度判别器。判别器的每个尺度又包括3个线性判别器,每个线性判别器都是一
个全卷积网络,由若干组卷积,BatchNorm和Leaky ReLU组成。判别器的3个尺度分别为:原
图,原图的1/2,原图的1/4。其优点类似PSP,越粗糙的尺度感受野越大,越容易判别全局一
致性,而越精细的尺度感受野越小,越容易判别色彩,纹理等细节信息。
后系统可以获得高分辨率的背景替换图。
轻量级的交互式模块能指导模型训练,提高适应性;提出了基于GAN网络结合图像软分割与
图像生成的系统,应用于背景替换。以上均为关键点和欲保护点。