一种基于频率分解多注意力机制的人脸超分辨方法转让专利
申请号 : CN202110834275.5
文献号 : CN113284051B
文献日 : 2021-12-07
发明人 : 孙立剑 , 何鹏飞 , 曹卫强 , 徐晓刚 , 王军 , 朱岳江
申请人 : 之江实验室
摘要 :
权利要求 :
1.一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,包括以下步骤:步骤S1,输入低分辨率人脸图像,将该图像通过一个卷积层后采用二维哈尔小波变换将每个通道的特征图分解为四个降采样图,总通道数变为原来的4倍,尺寸变为原来的1/2,将每个通道的四类特征分解图按频率组合在一起,输出四组不同频率的特征图;
步骤S2,将步骤S1中得到的四组不同频率的特征图按频率组输入到一个多核卷积模块分别进行处理得到四路特征;
步骤S3,将步骤S2处理得到的四路特征输入至多注意力模块,将所有通道的特征进行级联,再经过通道注意力模块,后再分解为原先的四路特征,然后依次经过4‑8个所述的多注意力模块进行特征增强;
步骤S4,将经过步骤S3增强的特征与步骤S1中二维哈尔小波变换得到的特征按照频率分别进行相加操作,然后输入到粗上采样模块中,获得放大2‑4倍的中分辨率特征;
步骤S5,将粗上采样后的特征再经过一个多核卷积模块和4‑8个多注意力模块,然后经过一个精上采样模块,获得再次放大2‑4倍的目标高分辨特征,经过二维可逆小波变换之后得到结果与输入的低分辨率人脸图像经过卷积层和上采样处理的特征进行相加操作,得到目标分辨率图像;
步骤S6,利用已经经过预训练处理的人脸关键点提取网络对输出的目标分辨率图像进行特征提取,将其经过不同倍率的下采样操作后的关键点分别输入到多核卷积模块中;
步骤S7,最后增加一个判别器网络和增加基于视觉感知质量的损失函数,利用生成对抗学习训练方式得到最终的图像生成网络,输出最终的图像。
2.如权利要求1所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述卷积层为一个3×3×16×1卷积层,3×3表示卷积核尺寸,16表示卷积核个数,1表示卷积核的运动步幅;所述四个降采样图,分别对应对角线高频D、垂直高频V、水平高频H和低频A。
3.如权利要求2所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述步骤S2具体为:所述多核卷积模块根据频率高低的不同分别处理步骤S1中得到的特征图,将D输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层,将V和H分别输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层,将A输入到一个深度可分离卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层,所述的深度可分离卷积层由通道数为1的3×3×16×1大小卷积层和通道数为16的1×1×32×1卷积层组成。
4.如权利要求2所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述多注意力模块设有像素注意力模块、空间注意力模块、普通卷积模块和通道注意力模块,所述步骤S3具体包括:
(1)将D支路部分输入到像素注意力模块中,所述的像素注意力模块分为主路部分和支路部分,主路部分依次经过一个1×1和3×3的卷积层,支路部分经过一个1×1的卷积层和sigmoid激活层,然后两路经过点乘合成一路,再经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层;
(2)将V和H输入到空间注意力模块中,所述的空间注意力模块也分为两路,主路经过一个3×3卷积层,支路部分依次经过一个3×3卷积层、1×1卷积层和sigmoid激活层,然后两路经过点乘合成一路,再经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层;
(3)将A输入到一个由3×3卷积、LeakyReLU非线性变换和3×3卷积组成的普通卷积模块中;
(4)将所有通道的特征进行级联,输入到通道注意力模块中,所述的通道注意力模块分为两路,一路依次经过一个全局平均池化、一个3×3卷积层、一个ReLU非线性激活层、一个3×3的卷积层和sigmoid激活层,另一路经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层,两路结果进行点乘得到的特征与该模块的原始输入特征进行相加操作,然后再分解为原先的四路特征,然后依次经过4‑8个这样的多注意力模块。
5.如权利要求1所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述粗上采样模块由最邻近、LeakyReLU非线性变换、亚像素卷积和LeakyReLU非线性变换组成,通过交替使用最邻近和亚像素卷积,分别放大2倍,最近邻执行空域变换,亚像素卷积执行通道到空间的变换。
6.如权利要求1所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述的精上采样模块由最邻近、LeakyReLU非线性变换、亚像素卷积、残差网络、LeakyReLU非线性变换和一个3×3卷积层组成。
7.如权利要求1所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述步骤S1到步骤S6所使用的网络组成为高分辨率图像的生成网络。
8.如权利要求7所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述步骤S7具体为:
基于ESRGAN判别器,损失函数为 用于区分真实图像与生成图像,对于生成网络而言,损失函数由三部分构成:内容感知损失、对抗损失 以及像素损失 ,损失函数使用反向传播策略交替更新生成器网络和判别器网络,若已收敛,则保存训练好的生成器网络模型,其中,
其中 和 分别表示真实图像和生成器生成的假图像,是sigmoid函数, 是非变换判别器输出, 和 分别表示在mini批处理中对所有生成的假数据和真实数据取平均值的操作;
感知超分辨方法的损失函数选择的是对抗损失 和LPIPS的感知损失,提高图片的视觉感知质量,其中,
其中 表示特征提取器,表示深度嵌入转化为标量LPIPS评分,并从k层中计算平均得分;
此外,还利用判别器的特征匹配损失来减少对抗性损失带来的不良噪声:为判别器D的第 层激活量,H为光滑 损失;
另外再加上在RGB像素空间上的损失 和YUV像素空间上的损失 来防止颜色和亮度发生变化以及 用于人脸关键点的监督, 用于关键点提取,,
所以整体损失函数为:
。
说明书 :
一种基于频率分解多注意力机制的人脸超分辨方法
技术领域
背景技术
获取过程中,由于成像设备本身的限制、环境因素的影响以及存储介质和网络带宽的影响
导致无法直接获取高质量的图像。随着计算机视觉技术尤其是深度学习的快速发展,图像
增强方法也越来越多,超分辨技术就是一项提升图像画质的有效手段,能够有效提升图像
分辨率。图像超分辨率技术是将低分辨率的图像通过相应算法,将其上采样到高分辨率图
像,与硬件方式相比,可以有效降低图像增强的成本,在卫星成像、安防监控、医学检测、刑
事侦查、历史图像修复增强等多个领域都具有非常重要的应用价值。例如在安防监控场景
中,由于摄像头和周围环境等因素,拍摄到的目标所占像素较低,导致无法识别目标,通过
超分辨技术可以重构出分辨率较高的图像,提高目标人脸的分辨率,从而对目标人物提供
的检测和识别提供帮助。因此,图像超分辨技术作为一种低层的图像处理方法,可以为后续
的高层次图像处理方法提供有效的支持。
脸,超分效果不是很好。
发明内容
网络更加关注高频部分,利用哈尔小波变换将原始输入图像分解为四部分不同频率,分别
通过网络进行高低频特征的增强处理,并且针对直接从 LR 输入中估计面部的关键点有一
定困难,通过超分辨输出结果图进行人脸关键点信息的提取并反馈到主干网络中的低频部
分来进一步提升人脸信息,其具体技术方案如下:
1/2,将每个通道的四类特征分解图按频率组合在一起,输出四组不同频率的特征图;
的多注意力模块进行特征增强;
之后得到结果与输入的低分辨率人脸图像经过卷积层和上采样处理的特征进行相加操作,
得到目标分辨率图像;
中;
频V、水平高频H和低频A。
个3×3的卷积层,将V和H分别输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一
个1×1的卷积层,将A输入到一个深度可分离卷积层、一个LeakyReLU非线性激活层和一个1
×1的卷积层,所述的深度可分离卷积层由通道数为1的3×3×16×1大小卷积层和通道数
为16的1×1×32×1卷积层组成。
层和sigmoid激活层,然后两路经过点乘合成一路,再经过一个3×3卷积层、一个LeakyReLU
非线性激活层和一个1×1的卷积层;
后两路经过点乘合成一路,再经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个1
×1的卷积层;
一个3×3的卷积层和sigmoid激活层,另一路经过一个3×3卷积层、一个LeakyReLU非线性
激活层和一个3×3的卷积层,两路结果进行点乘得到的特征与该模块的原始输入特征进行
相加操作,然后再分解为原先的四路特征,然后依次经过4‑8个这样的多注意力模块。
空域变换,亚像素卷积执行通道到空间的变换。
用反向传播策略交替更新生成器网络和判别器网络,若已收敛,则保存训练好的生成器网
络模型,其中,
平均值的操作;
的监督, 用于关键点提取,
偏重于构建细节信息,在保证图像结构的基础上,更注重于复原细节,在上采样阶段交替使
用不同的上采样方法以降低计算复杂度,同时具有令人满意的性能,关键点提取网络采用
性能较好的预训练网络模型,比直接采用嵌入式的网络结构具有更好的性能,并将关键点
信息反馈到低频支路上,提升人脸几何形状特征提取的准确性,而多样化的损失函数可以
保持色彩和亮度的一致性,引入的LPIPS评价指标有助于增强视觉感知质量,另外增加生成
对抗网络进行训练,进一步增加了图像的视觉感知质量。
附图说明
具体实施方式
区别对待,高频部分采用复杂的操作处理,对低频部分采用廉价操作处理,从而在相同的计
算量前提下可以更好地恢复图像的特征,具体的,包括以下步骤:
步幅,然后采用二维哈尔小波变换将每个通道的特征图分解为四个降采样图,分别对应对
角线高频D、垂直高频V、水平高频H和低频A,总通道数变为原来的4倍,尺寸变为原来的1/2,
将每个通道的四类特征分解图按频率组合在一起,输出四组不同频率的特征;
采用参数量较多的卷积层,频率低的由于包含细节信息较低,采用了较少参数量的卷积层,
将D输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层,将V和H
分别输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层,将A输
入到一个深度可分离卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层,所述的深
度可分离卷积层由通道数为1的3×3×16×1大小卷积层和通道数为16的1×1×32×1卷积
层组成;
主路依次经过一个1×1和3×3的卷积层,支路部分经过一个1×1的卷积层和sigmoid激活
层,然后两路经过点乘合成一路,再经过一个3×3卷积层、一个LeakyReLU非线性激活层和
一个1×1的卷积层,像素注意力关注像素信息,具有较高的细粒度,用于更好地描述细节纹
理信息;
激活层,然后两路经过点乘合成一路,再经过一个3×3卷积层、一个LeakyReLU非线性激活
层和一个1×1的卷积层;
非线性激活层、一个3×3的卷积层和sigmoid激活层,另一路经过一个3×3卷积层、一个
LeakyReLU非线性激活层和一个3×3的卷积层,两路结果进行点乘得到的特征与该模块的
原始输入特征进行相加操作,然后再分解为原先的四路特征,然后依次经过6个这样的多注
意力模块;
像素进行增强处理,获得放大4倍的中分辨率图,其由2倍最邻近、LeakyReLU非线性变换、2
倍亚像素卷积、LeakyReLU非线性变换组成,最近邻执行空域变换,亚像素卷积执行通道到
空间的变换,提升空间与通道间的信息交互;
变换、残差网络、LeakyReLU非线性变换和一个3×3卷积层组成的,获得目标高分辨特征,经
过二维可逆小波变换之后得到结果与输入的低分辨率图像经过卷积和上采样处理的特征
进行相加操作,得到目标分辨率图像;
到多核卷积模块中对应的低频支路部分进行级联操作,进一步提升低频轮廓的精度;
生成对抗学习训练方式得到最终的高质量图像生成网络,输出最终的高质量图像,具体的
为:
用反向传播策略交替更新生成器网络和判别器网络,如已收敛,则保存训练好的生成器网
络模型,其中,
平均值的操作;
的监督, 用于关键点提取,
为训练集、验证集和测试集,整个训练过程分为两个阶段,第一个阶段采用损失进行训练,
第二个阶段引入内容损失与对抗损失进行模型微调,使用反向传播策略交替更新生成器网
络和判别器网络,如已收敛,则保存训练好的生成器网络模型,用该生成器网络用作最终的
推理。
到的100张测试图片的平均PSNR和SSIM都取得了较高的结果,另外LPIPS最低,保持着最好
的视觉感知质量,整体图片清晰度也最好。
述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明
精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。