基于双判别器的生成对抗网络的图像超分辨率方法转让专利
申请号 : CN201911076333.1
文献号 : CN111028146B
文献日 : 2022-03-18
发明人 : 刘可文 , 马圆 , 黄睿挺 , 熊红霞 , 房攀攀 , 陈亚雷 , 李小军 , 刘朝阳
申请人 : 武汉理工大学
摘要 :
权利要求 :
1.一种基于双判别器的生成对抗网络的图像超分辨率方法,其特征在于所述的基于双判别器的生成对抗网络包括基于残差神经网络和混合注意力机制的生成式网络和含有双判别器的对抗网络,该方法包括以下步骤:a.训练阶段,构建训练样本;
b.将训练样本输入生成式网络,生成式网络输出高分辨率图像;
c.高分辨率图像输入对抗网络;对抗网络包括两个判别器,分别在像素域和特征图域中判别输入至判别器的图像是真实高分辨率图像还是生成式网络生成的高分辨率图像;
d.生成式网络和对抗网络中的两个判别器依次、交替对抗学习,联合生成式网络的基于L1范数的Charbonnier损失及对抗网络中两个判别器分别对生成式网络的损失,约束生成式网络训练直至达到收敛;
e.测试阶段输入低分辨率的图像至训练好的生成式网络模型,超分辨重建出最终的高分辨率图像;
采用基于L1范数的Charbonnier损失L1~Charbonnier~Loss,量化超分辨得到的高分辨率图像和真实高分辨率图像的相似程度,训练过程采用小批量学习;生成式网络采用的损失函数的表达式为:
‑6
其中 ε取10 ,H,W,C分别为输入图像的尺寸和通道数,n为小批量学习的数目; 表示第v张真实的高分辨率图像的第k通道的位置为(i,j)的像素值; 表示SR
第v张执行超分辨率得到的高分辨率图像的第k通道的位置为(i,j)的像素值;I 为执行超分辨率得到的高分辨率图像;
联合生成式网络的基于L1范数的Charbonnier损失及双判别器对生成式网络的损失,训练网络模型直至达到收敛,工作在像素域中的判别器对生成式网络的损失 与工作在特征图域中的判别器对生成器的损失 的表达式分别为:其中DWGAN为判别器的抽象函数,x~pg指样本x服从生成样本数据分布,其中x~pr指样本x服从真实数据分布,VGG(·)用于得到经过VGG‑19网络第五次最大池化之后,第四次卷积之前的特征图;
联合生成式网络的基于L1范数的Charbonnier损失及双判别器对生成式网络的损失,训练网络模型直至达到收敛,生成器的损失函数由三部分加权组成,表达式为:其中λ1,λ2为平衡基于L1范数的Charbonnier损失和基于Wasserstein距离的双判别器分别对生成式网络的损失因子,网络在训练阶段的目标是最小化损失函数LG,LG越小,执行超分辨率得到的高分辨率图像与真实高分辨率图像的差异越小,超分辨率的效果越好,精度越高。
2.根据权利要求1所述的基于双判别器的生成对抗网络的图像超分辨率方法,其特征在于生成式网络包括特征提取单元、非线性映射单元和亚像素卷积上采样单元;特征提取单元通过卷积操作抽取输入低分辨率图像的特征表示,再输入至后续的非线性映射单元;
非线性映射单元通过级联的若干个基本单元,提取更深层次的特征如边缘特征、区域特征,并进行特征的非线性映射,再输入后续的亚像素卷积单元;亚像素卷积单元对特征图进行快速像素重排操作,得到最终输出的高分辨率图像。
3.根据权利要求2所述的基于双判别器的生成对抗网络的图像超分辨率方法,其特征在于生成式网络中的非线性映射单元包括32个级联的基本单元;每个基本单元由级联的卷积层、激活层、卷积层、混合注意力块组成,还包括将基本单元的输入传输至基本单元的输出的局部跳连结构;非线性映射单元还包括全局跳连结构,将顶层的基本单元的输入传输至和底层的基本单元的输出,使生成式网络学习输入、输出特征图之间的残差。
4.根据权利要求3所述的基于双判别器的生成对抗网络的图像超分辨率方法,其特征在于混合注意力块由级联的卷积层、激活层组成;针对输入的特征图一步学习相应的描述符,描述符用于给不同通道和不同区域赋不同的权值。
5.根据权利要求1所述的基于双判别器的生成对抗网络的图像超分辨率方法,其特征在于所述在像素域中判别指直接输入生成式网络的输出图像至一个判别器,判别是真实高分辨率图像还是生成式网络生成的高分辨率图像;
在特征图域中判别指先将生成器网络的输出图像输入至VGG‑19网络,得到第五次最大池化之前,第四次卷积之后未激活的特征图,并以此作为另一个判别器的输入,判别当前的输入特征图属于真实高分辨率图像还是属于生成式网络生成的高分辨率图像。
6.根据权利要求5所述的基于双判别器的生成对抗网络的图像超分辨率方法,其特征在于每个判别器通过神经网络拟合,由级联的8个基本单元、线性回归单元、激活单元、线性回归单元组成,每个基本单元内由级联的卷积层、批标准化单元、激活单元组成。
7.根据权利要求1所述的基于双判别器的生成对抗网络的图像超分辨率方法,其特征在于步骤a包括对输入图像进行裁剪,对裁剪得到的子图进行双三次下采样操作,得到对应的低分辨率图像,使用旋转、镜像数据增强手段获取更多的训练样本。
说明书 :
基于双判别器的生成对抗网络的图像超分辨率方法
技术领域
背景技术
在影响,可能难以获得高分辨率的图像。最直接的改进方法是从成像硬件的角度进行改进,
但高分辨率的光学传感器成本昂贵。从软件的角度改进,使用超分辨率算法高效、快速执行
对低质图像的超分辨率具有普适性好、效率高的特点,有着广泛的使用前景。
具有计算效率高的特点,但很容易丢失高频纹理细节信息。基于建模的方法利用先验信息
约束解空间,效果相比基于插值的方法有一定的提升,但当输入图像尺寸较小时,能有效利
用的先验信息较少,超分辨率效果比较差。基于学习的方法通过学习低、高分辨率图像之间
内在关系,实现超分辨率。近年来,基于卷积神经网络的超分辨率方法取得了较高的精度。
然而,卷积神经网络的卷积核平等地对待特征图的每一通道和区域,降低了网络含有丰富
高频信息的通道和区域的特征表达能力。除此之外,常规卷积神经网络存在梯度消失和网
络退化问题。
发明内容
练难度的同时增强网络的特征表达能力,加速网络收敛,提升网络性能;对抗网络通过两个
分别工作在像素域和特征图域中的判别器约束生成式网络训练,进一步提升超分辨率的精
度。
式网络和含有双判别器的对抗网络,该方法包括以下步骤:
像;
约束生成式网络训练直至达到收敛;
至后续的非线性映射单元;非线性映射单元通过级联的若干个基本单元,提取更深层次的
特征如边缘特征、区域特征等,并进行特征的非线性映射,再输入后续的亚像素卷积单元;
亚像素卷积单元对特征图进行快速像素重排操作,得到最终输出的高分辨率图像。
的输入传输至基本单元的输出的局部跳连结构;非线性映射单元还包括全局跳连结构,将
顶层的基本单元的输入传输至底层的基本单元的输出,使网络学习输入、输出特征图之间
的残差,改善梯度消失和网络退化问题、降低训练深层网络的难度。
的特征表达能力。
别当前的输入特征图属于真实高分辨率图像还是属于生成式网络生成的高分辨率图像。
元、激活单元组成。
生成分布 所需要的代价,inf为取下界的符号,W(Pr,Pg)为这一“代价”的最小值;
Wasserstein距离无法直接求解,根据Kantorovich‑Rubinstein 对偶性,将Wasserstein距
离的求解近似转换为寻找一个满足 Lipschitz连续条件的连续函数f(g),使得:
批量 (mini‑batch)学习;生成式网络采用的损失函数的表达式为:
数目,Iv,i,j,为第v张图像的第k通道的位置为(i,j)的像素值;
之后的未激活的特征图;
执行超分辨率得到的高分辨率图像与真实高分辨率图像的差异越小,超分辨率的效果越
好,精度越高。
练样本。
问题、降低训练深层网络的难度,提升网络性能;
模型坍塌问题。本发明在原始基于Wasserstein距离的生成式对抗网络的基础上,新增了一
个工作在特征图域中的判别器,该判别器在特征图域中判别当前的输入特征图属于真实高
分辨率图像还是属于生成式网络生成的高分辨率图像,约束生成式网络的生成结果。
附图说明
具体实施方式
对抗网络,该方法包括以下步骤:
对应的大小为48×48的低分辨率图像,使用数据增强如旋转、镜像等,获取更多的训练样
本。
射单元;非线性映射单元通过级联的若干个基本单元,提取更深层次的特征如边缘特征、区
域特征等,并进行特征的非线性映射,再输入后续的亚像素卷积单元;亚像素卷积单元对特
征图进行快速像素重排操作,得到最终输出的高分辨率图像。
图像输入至工作在像素域和工作在特征图域中的两个判别器,得到双判别器各自对生成式
网络的损失
本单元的输出的局部跳连结构;非线性映射单元还包括全局跳连结构,将顶层的基本单元
的输入传输至和底层的基本单元的输出,学习输入、输出特征图之间的残差,学习输入、输
出特征图之间的残差,改善梯度消失和网络退化问题、降低训练深层网络的难度。所述混合
注意力块由级联的卷积层、激活层组成;针对输入的特征图一步学习相应的描述符,描述符
用于给不同通道和不同区域赋不同的权值,增强网络的特征表达能力。
分阶段针对不同通道和不同区域分别学习相应的描述符相比,参数更少,效率更高。
活,得到维度为H*W*C的描述符:
执行因子为16的特征图通道数升维,f(g)为Sigmoid激活操作。两次卷积、激活对通道维度
进行通道数降维和升维,学习C个对应不同通道的描述矩阵 其中i=0,1,2...C,自
适应地将更稀疏的描述矩阵赋给含有大量冗余低频信息的通道,使得神经网络更加关注含
有丰富高频信息的通道。每个描述矩阵τi的大小为H*W,对应原输入图像第i通道的每个元
素。经过两次卷积、激活,原输入图像含有丰富高频信息的区域得以保留,含有大量冗余低
频信息的区域被抑制,将得到的描述符τi与原输入第i通道进行Hadamard乘积,使得神经网
络更加关注第i通道内含有丰富高频信息的区域。综上所述,将描述符τ与原输入Hadamard
相乘,得到通过混合注意力块的特征表示。
由级联的卷积、激活、卷积、混合注意力块组成,基本单元内添加了局部跳连结构(Local
skip connection),改善梯度消失与网络退化问题。具体来说,输入基本单元的特征图,先
进行卷积操作,获得更深层次的特征表示,卷积层的参数设置为3×3×256× 256,即256个
大小为3×3的卷积核,每个卷积核的通道数为 256,卷积操作的步长为1,在边缘使用补零
操作,用以保持输入输出特征图的尺寸一致。卷积得到的特征图再经过混合注意力块,再输
出至级联的下一级基本单元提取更深层次的特征。
单元由卷积层组成,卷积核参数设置为3×3×3×256,即256个大小为3×3的卷积核,每个
卷积核的通道数为3。非线性映射阶段单元由32个级联的基本单元组成,基本单元内添加了
局部跳连结构,同时引入全局跳连结构直接将网络顶层和底层连接起来,学习残差,改善梯
度消失和网络退化问题、降低训练深层网络的难度;最后使用亚像素卷积层和卷积完成上
采样,得到最终输出的高分辨率图像。
辨率图像。联合生成式网络损失、双判别器各自对生成式网络的损失,反向传播梯度信息,
更新生成式网络和双判别器的参数。如图4 所示,其中LeakyRELU为激活函数,LeakyRELU的
Negative_slope设置为 0.2,批标准化层批标准化每批次的输入数据使其服从均值为 0、
方差为1的正态分布,Linear为线性回归函数。输入至判别器的图像数据经过级联的8个卷
积、批归一化、激活层,提取输入图像的深层特征,再输入至级联的线性回归、激活、线性回
归层,得到近似拟合的真实数据分布与样本数据分布的 Wasserstein距离。
为生成分布 所需要的代价,inf为取下界的符号,W(Pr,Pg)为这一“代价”的最小值;
Wasserstein距离无法直接求解,根据Kantorovich‑Rubinstein 对偶性,将Wasserstein距
离的求解近似转换为寻找一个满足Lipschitz连续条件的连续函数f(g),使得:
元内由级联的卷积、批标准化、LeakyRELU激活组成。
图像是真实高分辨率图像还是生成式网络生成的高分辨率图像,在特征图域中判别指先将
生成器网络的输出图像输入至VGG‑19网络,得到第五次最大池化之前,第四次卷积之后未
激活的特征图,并以此作为特征图域判别器的输入,判别当前的输入特征图属于真实高分
辨率图像还是属于生成式网络生成的高分辨率图像。
式网络模型直至达到收敛。
于L1范数的Charbonnier损失函数的表达式为:
数目,Iv,i,j,k为第v张图像的第k通道的位置为(i,j)的像素值。
次卷积之后的特征图。
执行超分辨率得到的高分辨率图像与真实高分辨率图像的差异越小,超分辨率的效果越
好,精度越高。
的。
取双三次插值法和两种具有代表性的基于卷积神经网络的方法和仅使用本发明中生成成
网络的方法进行对比。为保证对比的公正性,各方法均在相同的硬件环境下进行实验。
pattern analysis and machine intelligence,2015,38(2):295‑307.
networks[J].IEEE transactions on pattern analysis and machine intelligence,
2018.
发明选用PSNR和 SSIM作为客观评价的指标。除此之外,本发明将完成单张图像超分辨率所
需的时间也作为参考的客观评价指标之一。
道图像,只在Y通道上计算客观指标。PSNR的计算公式为:
示的超分辨率2倍得到的图像效果图可以看出,本发明得到的高分辨率图像具有较好的图
像锐度、依然能保留较多的纹理细节。综合所述,本发明是一种有效的图像超分辨率方法。