一种用于图像修复的跨层全局和局部感知网络的方法转让专利

申请号 : CN202110703334.5

文献号 : CN113469906B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 蒋斌孙林黄伟

申请人 : 湖南大学

摘要 :

本发明涉及一种用于图像修复的跨层全局和局部感知网络的方法,属于图像修复技术领域。步骤1:构造一个基于一种带有残差连接的编码解码结构U‑net的跨层全局和局部感知网络模型;步骤2:粗修复阶段,做简单的卷积下采样上采样操作后,输出第一阶段图片Iout1,再将其输入到精修复阶段;步骤3:精修复阶段,将粗修复阶段输出的图片Iout1作为输入,CHGLANet包括对不同的层级定义不同的特征:本发明的优势有:使用的局部和全局注意力机制,极大的减少了参数的运算。提出了一种跨层全局和局部融合机制,将深层特征图信息和浅层特征图信息融合,弥补了浅层特征图丢失图片结构信息,深层特征图丢失图片纹理信息的缺点,使得生成图片的一致性更强。

权利要求 :

1.一种用于图像修复的跨层全局和局部感知网络的方法,其特征在于包括以下步骤:步骤1:构造一个基于一种带有残差连接的编码解码结构U‑net的跨层全局和局部感知网络模型,该网络的输入为一张256×256的打过马赛克的图片Iin,输出为256×256的修复后的图片;网络框架由两个阶段组成:粗修复阶段和精修复阶段,每个阶段均生成对抗网络GAN,即每个阶段除了有一个带有残差连接的编码解码结构U‑net的框架外,还包括一个判别器;

步骤2:粗修复阶段,做简单的卷积下采样上采样操作后,输出第一阶段图片Iout1,再将其输入到精修复阶段;

步骤3:精修复阶段,将粗修复阶段输出的图片Iout1作为输入,其中包括跨层全局和局部感知网络,定义为CHGLANet;CHGLANet包括对不同的层级定义不同的特征:步骤3.1,从{Fi,i=1,2,3...}开始,Fi表示的是第i层网络输出的特征图,即feature map,Fn和Fn‑1被融合进了第一跨层融合模块m1,在m1中,全局像素注意力机制将Fn‑1作为输入,输出为重建后的特征Fn,增进结构的一致性;

步骤3.2,Fn‑1和重建后的特征Fn连接,并且通过尺寸为1×1的卷积层做一个简单的融合,生成Fg;

步骤3.3,通过局部连贯性注意力机制,精细化Fg的局部纹理细节,并由第一跨层融合模块m1生成特征步骤3.4,第二跨层融合模块m2和第三跨层融合模块m3,分别将{Fn,Fn‑1,Fn‑2}和{Fn,Fn‑1,Fn‑2,Fn‑3}作为输入,并且分别输出 和步骤3.5,再通过第一跨层融合模块m1整合特征 得到特征步骤3.6,相似地,第二跨层融合模块m2同样用特征 整合为特征步骤3.7,最后,第三跨层融合模块m3从特征 中获得特征 其中全局像素注意力机制包括以下操作方法:先将特征Fi划分为 组,其中Ci是特征的通道数,σ是接下来进行像素混洗操作需要上采样的比率;再用分组的通道注意力操作,即对每组的通道进行评分, 其中 这里 是第j组通道,αi是第j组通道里面的第i个通道对应的评分;像素混洗操作将高级特征重塑为与低级特征相同的大小,利用像素混洗的转换原理,将通道间的相关性转化到空间区域的相关性,使得注意力评分αi在图像水平上改善了结构一致性;

其中局部连贯性注意力机制包括以下操作方法:将Fg分为小块补丁:{pk,k=1,2,...,2

HW/s },其中H,W是特征图的高度和宽度,k是补丁的序号;其中每一个补丁的大小是s×s,这里s是一个自定义的维度大小,局部连贯性注意力机制的s在不同的跨层融合模块中大小不同, 增强了不同场景中的拟合能力。

2.根据权利要求1所述的一种用于图像修复的跨层全局和局部感知网络的方法,其特征在于,补丁内的注意力评分计算方法如下:

这里p代表的是对应的补丁,(u,v),(g,n),(h,w)是pk的坐标,f(.,.)是点积运算;

局部连贯性注意力机制模块计算得到空间注意力得分:

2

{Φk,k=1,2,3,...,HW/s}

其中,Φk={βmn,m=1,2,...,s,n=1,2,...,s},注意力评分βmn保持了patch级别上局部纹理的一致性;

其中H,W是特征图的高度和宽度,k是补丁的序号,每一个补丁的大小是s×s。

3.根据权利要求2所述的一种用于图像修复的跨层全局和局部感知网络的方法,其特征在于,在训练模型阶段,包括以下方法:像素重建损失:

其中,Iout2是第二阶段生成的图片,即我们网络修复的图片,Igt是真实图片,这里HWC代表的是这张RGB图片中所有的像素之和,|.|1代表的是第一范数,感知损失:

Φi(.)代表的是从预训练好的VGG网络中的第i层提取出的特征图,风格损失:

代表的是从预训练好的VGG网络中的第i层提取出的特征图的格莱姆(Gram)矩阵;

再加上生成对抗损失Ladv和平滑损失Ltv组成联合损失:Ltotal=λreLre+λpercLperc+λstyLstyle+λtvLtv+λadvLadv,λre,λperc,λsty,λtv,λadv分别代表重建损失,感知损失,风格损失,平滑损失和生成对抗损失在总损失中所占的权重。

说明书 :

一种用于图像修复的跨层全局和局部感知网络的方法

技术领域

[0001] 本发明涉及一种用于图像修复的跨层全局和局部感知网络的方法,属于图像修复技术领域。

背景技术

[0002] 图像修复任务是对缺失或者损坏区域的结构和纹理进行修复,来获得视觉逼真的图像。它可以用于去除图片中不需要的目标、恢复破损的部分或编辑图像内容等多种应用,已成为计算机视觉领域的研究热点。在2016年之前,图像修复的主要方法是2001年Ballester等人提出的基于扩散的方法和2009年Barnes等人提出的基于补丁的方法。这两种方法都只能对纹理进行修复,但是不能读取缺失区域的结构信息,所以只能对简单场景的图片进行修复。近年来随着生成对抗网络(GAN)的发展,图像修复的方法逐渐由传统方法转换成使用基于GAN的深度学习的方法。2016年,Pathak等人首次利用GAN来进行图像修复工作。不久之后,Liu等人提出了一种部分卷积的新的深度学习方法,通过逐层更新马赛克的方式让修复效果提升。2018年,Yu等人首次将注意力机制引入图像修复的工作中,注意力机制可以不仅利用修复区域周围的信息,还能利用整张图片的全局信息,让修复的结构和纹理更加清晰连贯。之后,在近两年很多研究学者都开始利用基于U‑net的多尺度的方法,即考虑在不同尺度下的特征合成。但是,全局像素注意力机制只关注解决全局纹理的一致性,忽略了局部纹理的一致性,这会导致边缘的模糊和带有人工处理的痕迹。这些模型虽然都有着一定地客观效果,但是没有考虑到,在卷积的过程中,低层卷积包含更多的纹理信息而会丢失一些结构信息,而高层卷积包含更多的结构信息而会丢失一些纹理信息,如果仅仅是把编码过程中的特征图映射到解码过程中的对应层,则再也无法找回丢失的信息。

发明内容

[0003] 本发明的目的在于提供一种用于图像修复的跨层全局和局部感知网络的方法,在全局像素注意力机制的基础上,进一步提出局部连贯性注意力机制来精细化局部纹理细节,从而克服现有技术中的不足。
[0004] 本发明通过以下技术方案实现,包括以下步骤:
[0005] 步骤1:构造一个基于一种带有残差连接的编码解码结构U‑net的跨层全局和局部感知网络模型,该网络的输入为一张256×256的打过马赛克的图片Iin,输出为256×256的修复后的图片;网络框架由两个阶段组成:粗修复阶段和精修复阶段,每个阶段均生成对抗网络GAN,即每个阶段除了有一个带有残差连接的编码解码结构U‑net的框架外,还包括一个判别器;
[0006] 步骤2:粗修复阶段,做简单的卷积下采样上采样操作后,输出第一阶段图片Iout1,再将其输入到精修复阶段;
[0007] 步骤3:精修复阶段,将粗修复阶段输出的图片Iout1作为输入,其中包括跨层全局和局部感知网络,定义为CHGLANet;CHGLANet包括对不同的层级定义不同的特征:
[0008] 步骤3.1,从{Fi,i=1,2,3...}开始,Fi表示的是第i层网络输出的特征图,即feature map,Fn和Fn‑1被融合进了第一跨层融合模块m1,在m1中,全局像素注意力机制将Fn‑1作为输入,输出为重建后的特征Fn,增进结构的一致性;
[0009] 步骤3.2,Fn‑1和重建后的特征Fn连接,并且通过尺寸为1×1的卷积层做一个简单的融合,生成Fg;
[0010] 步骤3.3,通过局部连贯性注意力机制,精细化Fg的局部纹理细节,并由第一跨层融合模块m1生成特征
[0011] 步骤3.4,第二跨层融合模块m2和第三跨层融合模块m3,分别将{Fn,Fn‑1,Fn‑2}和{Fn,Fn‑1,Fn‑2,Fn‑3}作为输入,并且分别输出 和
[0012] 步骤3.5,再通过第一融合模块m1整合特征 得到特征
[0013] 步骤3.6,相似地,第二融合模块m2同样用特征 整合为特征
[0014] 步骤3.7,最后,,第三融合模块m3从特征 中获得特征
[0015] 所述的步骤3中提到的全局像素注意力机制包括以下操作方法:
[0016] 先将特征Fi划分为 组,其中Ci是特征的通道数,σ是接下来进行像素混洗操作需要上采样的比率;
[0017] 再用分组的通道注意力操作,即对每组的通道进行评分, 其中这里 是第j组通道,αi是第j组通道里面的第i个通道对应的评分。
[0018] 像素混洗操作将高级特征重塑为与低级特征相同的大小,利用像素混洗的转换原理,将通道间的相关性转化到空间区域的相关性,使得注意力评分αi,在图像水平上改善了结构一致性。
[0019] 所述的步骤3中提到的局部连贯性注意力机制包括以下操作方法:
[0020] 将Fg分为小块补丁:{pk,k=1,2,...,HW/s2},其中H,W是特征图的高度和宽度,k是补丁的序号;其中每一个补丁的大小是s×s,这里s是一个自定义的维度大小,局部连贯性注意力机制的s在不同的跨层融合模块中大小不同, 增强了不同场景中的拟合能力。
[0021] 补丁内的注意力评分计算方法如下:
[0022]
[0023] 这里p代表的是对应的补丁,(u,v),(g,n),(h,w)是pk的坐标,f(.,.)是点积运算;
[0024] 局部连贯性注意力机制模块计算得到空间注意力得分:
[0025] {Φk,k=1,2,3,...,HW/s2}
[0026] 其中,Φk={βmn,m=1,2,...,s,n=1,2,...,s},注意力评分βmn保持了patch级别上局部纹理的一致性;
[0027] 其中H,W是特征图的高度和宽度,k是补丁的序号,每一个补丁的大小是s×s。
[0028] 本发明在训练模型阶段,包括以下方法:
[0029] 像素重建损失:
[0030]
[0031] 其中,Iout2是第二阶段生成的图片,即我们网络修复的图片,Igt是真实图片,这里HWC代表的是这张RGB图片中所有的像素之和,|.|1代表的是第一范数,感知损失:
[0032]
[0033] Φi(.)代表的是从预训练好的VGG网络中的第i层提取出的特征图,
[0034] 风格损失:
[0035]
[0036] 代表的是从预训练好的VGG网络中的第i层提取出的特征图的格莱姆(Gram)矩阵。再加上生成对抗损失Ladv和平滑损失Ltv组成联合损失:
[0037] Ltotal=λreLre+λpercLperc+λstyLstyle+λtvLtv+λadvLadv,
[0038] λre,λperc,λsty,λtv,λadv分别代表重建损失,感知损失,风格损失,平滑损失和对抗损失在总损失中所占的权重。
[0039] 本发明的有益效果在于,(1)本方法使用的局部和全局注意力机制,相比于常用的通道注意力机制和空间注意力机制,极大的减少了参数的运算。(2)提出了一种跨层全局和局部融合机制,将深层特征图信息和浅层特征图信息融合,弥补了浅层特征图丢失图片结构信息,深层特征图丢失图片纹理信息的缺点,使得生成图片的一致性更强。

附图说明

[0040] 图1为本发明的结构流程图。

具体实施方式

[0041] 下面结合附图1对本发明的优选实施例作进一步说明,包括以下步骤:
[0042] 步骤1:构造一个基于一种带有残差连接的编码解码结构U‑net的跨层全局和局部感知网络模型,如图1中的(a)CHGLANet部分所示,该网络的输入为一张256×256的打过马赛克的图片Iin,输出为256×256的修复后的图片;网络框架由两个阶段组成:粗修复阶段和精修复阶段,每个阶段均生成对抗网络GAN,即每个阶段除了有一个带有残差连接的编码解码结构U‑net的框架外,还包括一个判别器;
[0043] 步骤2:粗修复阶段,做简单的卷积下采样上采样操作后,输出第一阶段图片Iout1,再将其输入到精修复阶段;
[0044] 步骤3:精修复阶段,将粗修复阶段输出的图片Iout1作为输入,其中包括跨层全局和局部感知网络,定义为CHGLANet;CHGLANet包括对不同的层级定义不同的特征:
[0045] 步骤3.1,从{Fi,i=1,2,3...}开始,Fi表示的是第i层网络输出的特征图,即feature map,Fn和Fn‑1被融合进了第一跨层融合模块m1,在m1中,全局像素注意力机制将Fn‑1作为输入,输出为重建后的特征Fn,增进结构的一致性;
[0046] 步骤3.2,Fn‑1和重建后的特征Fn连接,并且通过尺寸为1×1的卷积层做一个简单的融合,生成Fg;但是,全局像素注意力机制只关注解决全局纹理的一致性,忽略了局部纹理的一致性,这会导致边缘的模糊和带有人工处理的痕迹;
[0047] 步骤3.3,为了解决这一问题,进一步地,通过局部连贯性注意力机制,精细化Fg的局部纹理细节,并由第一跨层融合模块m1生成特征
[0048] 步骤3.4,与第一个跨层融合模型相比,第二跨层融合模块m2和第三跨层融合模块m3,分别将{Fn,Fn‑1,Fn‑2}和{Fn,Fn‑1,Fn‑2,Fn‑3}作为输入,并且分别输出 和[0049] 步骤3.5,再通过第一融合模块m1整合特征 得到特征
[0050] 步骤3.6,相似地,第二融合模块m2同样用特征 整合为特征
[0051] 步骤3.7,最后,第三融合模块m3从特征 中获得特征
[0052] 所述的步骤3中提到的全局像素注意力机制包括以下操作方法:如图1中(b)GPA部分所示,先将特征Fi划分为 组,其中Ci是特征的通道数,σ是接下来进行像素混洗操作需要上采样的比率;如果将H×W的尺寸上采样为2H×2W,那么此时σ=2;
[0053] 再用分组的通道注意力操作,即对每组的通道进行评分, 其中这里 是第j组通道,αi是第j组通道里面的第i个通道对应的评分。像素
混洗操作将高级特征重塑为与低级特征相同的大小,利用像素混洗的转换原理,将通道间的相关性转化到空间区域的patch间的相关性,如表1所示,使得注意力评分αi在图像水平上改善了结构一致性。
[0054]
[0055] 表1
[0056] 所述的步骤3中提到的局部连贯性注意力机制包括以下操作方法:如图1中的(c)2
LCA部分所示,将Fg分为小块补丁:{pk,k=1,2,...,HW/s},其中H,W是特征图的高度和宽度,k是补丁的序号;其中每一个补丁的大小是s×s,这里s是一个自定义的维度大小,实验中我们取的是3×3,局部连贯性注意力机制的s在不同的跨层融合模块中大小不同,增强了不同场景中的拟合能力。提出的局部连贯性注意力机制模型,和non‑local模块的方法相似,对于每个补丁p_k,不同之处在于模型的区域设计。Non‑local模块用了所有位置的特征通道,而局部连贯性注意力机制用了补丁的特征通道。
[0057] 补丁内的注意力评分计算方法如下:
[0058]
[0059] 这里p代表的是对应的补丁,(u,v),(g,n),(h,w)是pk的坐标,f(.,.)是点积运算;
[0060] 局部连贯性注意力机制模块计算得到空间注意力得分:
[0061] {Φk,k=1,2,3,...,HW/s2}
[0062] 其中,Φk={βmn,m=1,2,...,s,n=1,2,...,s},如表2所示,注意力评分βmn保持了patch级别上局部纹理的一致性;
[0063]
[0064] 表2
[0065] 其中H,W是特征图的高度和宽度,k是补丁的序号,每一个补丁的大小是s×s。
[0066] 通过Places2和Paris street view(PSV)数据集上的测试,其中常见的评价指标PSNR(越高越好),SSIM(越高越好),FID(越低越好)都优于现有技术。表1是中心马赛克的修复效果,其中在Places2和PSV上,PSNR的值分别达到了25.04和24.52,SSIM的值分别达到了0.807和0.799,FID的值分别达到了62.19和59.78。当然现在最常见的是在不规则马赛克上面进行图像修复,表2是和其他所有经典或者最新的方法在不规则马赛克上进行的对比。其中10‑20,20‑30,30‑40,40‑50,50‑60分别代表的是原图中打马赛克的区域面积占图片总面积的多少,例如10‑20表示原图中打马赛克的区域占整张图片的10%‑20%。其中,EC是Edge‑Connect方法,SF是Structure Flow,GC是Gated‑Convolution,RFR是Recurrent Feature Reasoning,MED是Mutual Encoder‑Decoder,都是2019年和2020年提出的有效的修复方法。通过和它们的比较可以观察出,本发明的方法确实是最好的。
[0067] 本发明在训练模型阶段,包括以下方法:
[0068] 像素重建损失:
[0069]
[0070] 其中,Iout2是第二阶段生成的图片,即我们网络修复的图片,Igt是真实图片,这里HWC代表的是这张RGB图片中所有的像素之和,|.|1代表的是第一范数,感知损失:
[0071]
[0072] Φi(.)代表的是从预训练好的VGG网络中的第i层提取出的特征图,
[0073] 风格损失:
[0074]
[0075] 代表的是从预训练好的VGG网络中的第i层提取出的特征图的格莱姆(Gram)矩阵。
[0076] 再加上生成对抗损失Ladv和平滑损失Ltv(该领域常见的两个损失函数)组成联合损失:
[0077] Ltotal=λreLre+λpercLperc+λstyLstyle+λtvltv+λadvLadv,
[0078] λre,λperc,λsty,λtv,λadv分别代表重建损失,感知损失,风格损失,平滑损失和对抗损失在总损失中所占的权重。
[0079] 综上所述,本发明上述实例的优势有:
[0080] 1.本方法使用的局部和全局注意力机制,相比于常用的通道注意力机制和空间注意力机制,极大的减少了参数的运算;
[0081] 2.提出了一种跨层全局和局部融合机制,将深层特征图信息和浅层特征图信息融合,弥补了浅层特征图丢失图片结构信息,深层特征图丢失图片纹理信息的缺点,使得生成图片的一致性更强;
[0082] 3.通过Celeba‑HQ,Places2和Paris street view(PSV)三个数据集上的测试,其中常见的评价指标PSNR(越高越好),SSIM(越高越好),FID(越低越好)都优于现有技术。其中在Places2和PSV上,PSNR的值分别达到了25.04和24.52,SSIM的值分别达到了0.807和0.799,FID的值分别达到了62.19和59.78。