人脸图像超分辨率重建方法及计算机可读取的存储介质转让专利

申请号 : CN202211401689.X

文献号 : CN115439329B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 朱文忠谢康康谢林森肖顺兴车璇李韬杜洪文

申请人 : 四川轻化工大学

摘要 :

本发明公开了一种人脸图像超分辨率重建方法及计算机可读取的存储介质,属于人脸图像处理技术领域。重建方法包括获取低分辨率人脸图像和训练完成的深度学习网络,将低分辨率人脸图像输入深度学习网络,低分辨率人脸图像信息沿着网络的深度方向传递,将第一精制特征图与第二精制特征图融合,图像重置机构以复合特征图作为输入,重建并输出高分辨率人脸图像等步骤。本发明的相邻两个双通道特征提取机构之间通过两个信道传递信息,不同种类的特征信息分布更加分散,信息过滤效果更好,测试表明,本发明提供的人脸图像重建方法性能先进。

权利要求 :

1.一种人脸图像超分辨率重建方法,其特征是:包括以下步骤:

S100、获取低分辨率人脸图像和训练完成的深度学习网络;所述深度学习网络中设有双通道特征提取机构和图像重置机构,多个所述双通道特征提取机构在所述深度学习网络中串联设置,所述双通道特征提取机构用于提取所述低分辨率人脸图像的特征信息;

S200、将所述低分辨率人脸图像输入所述深度学习网络,所述低分辨率人脸图像信息沿着网络的深度方向传递,直到最后一个所述双通道特征提取机构生成并输出第一精制特征图和第二精制特征图;

S300、将所述第一精制特征图与所述第二精制特征图融合,生成复合特征图;

S400、所述图像重置机构以所述复合特征图作为输入,重建并输出高分辨率人脸图像;

其中,所述双通道特征提取机构提取特征的操作过程表示为如下数学模型:

其中,  表示从所述双通道特征提取机构的第一入口输入其中的特征图, 表示从所述双通道特征提取机构的第二入口输入其中的特征图, 、 、、 和 均表示步长为1的卷积运算, 、 、 、 和 均

表示第一型激活函数, 表示第二型激活函数, 表示元素对应乘积运算, 表示将其中的特征图拼接起来, 表示双头注意力单元, 表示所述双头注意力单元输出的双头注意力图, 表示 函数激活后生成的特征图, 表示 函数激活后生成的特征图, 表示 函数激活后生成的特征图, 表示 函数激活后生成的特征图,表示特征图 、特征图 和特征图 相加后生成的特征图, 表示特征图、特征图 和特征图 做元素对应乘积后生成的特征图, 表示 函数激活后生成的特征图, 表示所述双头注意力图与特征图 做元素对应乘积后生成的特征图, 表示从所述双通道特征提取机构的第一出口输出的特征图, 表示从所述双通道特征提取机构的第二出口输出的特征图;

所述双头注意力单元生成双头注意力图的过程表示为如下数学模型;

其中,特征图 、 、 和 共同作为所述双头注意力单元的输入, 表

示所述双头注意力单元输出的双头注意力图, 表示对特征图做拼接操作, 表示对特征图在通道方向做第一全局池化操作, 表示对特征图在空间方向做第二全局池化操作, 表示全连接层, 和 均表示第三型激活函数, 表示元素对应乘积运算,表示分别对特征图 、特征图 、特征图 在通道方向做第一全局池化操作并拼接后生成的特征图, 表示函数 激活后生成的特征图。

2.根据权利要求1所述的人脸图像超分辨率重建方法,其特征是: 、 和的卷积核尺寸均为1*1, 的卷积核尺寸为3*3, 的卷积核尺寸为5*

5。

3.根据权利要求1所述的人脸图像超分辨率重建方法,其特征是:所述第一型激活函数为ReLU函数。

4.根据权利要求3所述的人脸图像超分辨率重建方法,其特征是:所述第二型激活函数为Tanh函数。

5.权利要求1所述的人脸图像超分辨率重建方法,其特征是:所述第一全局池化操作为全局方差池化操作,所述第二全局池化操作为全局最大池化操作。

6.权利要求5所述的人脸图像超分辨率重建方法,其特征是:所述第三型激活函数为sigmoid函数。

7.一种计算机可读取的存储介质,其特征是:所述计算机可读取的存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的人脸图像超分辨率重建方法。

说明书 :

人脸图像超分辨率重建方法及计算机可读取的存储介质

技术领域

[0001] 本发明属于人脸图像处理技术领域,具体地说,涉及一种人脸图像超分辨率重建方法及计算机可读取的存储介质。

背景技术

[0002] 在实际的成像环境中,受多种因素影响,拍摄获得的图像可能存在分辨率较低的情况。为了解决该问题,一个方向是从硬件角度考虑,采用性能更好的硬件设备来提高成像效果,但是存在成本高和难以大规模普及应用等缺陷。相比之下,利用算法对低分辨率图像进行增强来提高图像分辨率是一个相对更实用的途径,由此产生了单图像超分辨率重建(Single image super‑resolution, SISR)技术。到目前为止,相关研究人员已经从多种角度提出了大量的图像超分辨率重建算法,但是这些算法都没有针对低分辨率人脸图像的特点进行优化,直接将其应用于人脸图像分辨率提升任务时,重建效果有待进一步提高。

发明内容

[0003] 针对上述现象,本发明提供一种人脸图像超分辨率重建方法及计算机可读取的存储介质,以针对性地提高对低分辨率人脸图像的超分辨率重建效果。
[0004] 为了达到上述目的,本发明采用的解决方案是:一种人脸图像超分辨率重建方法,包括以下步骤:
[0005] S100、获取低分辨率人脸图像和训练完成的深度学习网络;所述深度学习网络中设有双通道特征提取机构和图像重置机构,多个所述双通道特征提取机构在所述深度学习网络中串联设置,所述双通道特征提取机构用于提取所述低分辨率人脸图像的特征信息;
[0006] S200、将所述低分辨率人脸图像输入所述深度学习网络,所述低分辨率人脸图像信息沿着网络的深度方向传递,直到最后一个所述双通道特征提取机构生成并输出第一精制特征图和第二精制特征图;
[0007] S300、将所述第一精制特征图与所述第二精制特征图融合,生成复合特征图;
[0008] S400、所述图像重置机构以所述复合特征图作为输入,重建并输出高分辨率人脸图像;高分辨率人脸图像的分辨率大于低分辨率人脸图像的分辨率。
[0009] 其中,所述双通道特征提取机构提取特征的操作过程表示为如下数学模型:
[0010]
[0011] 其中, 表示从所述双通道特征提取机构的第一入口输入其中的特征图,表示从所述双通道特征提取机构的第二入口输入其中的特征图, 、 、、 和 均表示步长为1的卷积运算, 、 、 、 和
均表示第一型激活函数, 表示第二型激活函数, 表示元素对应乘积运算, 表示将其中的特征图拼接起来, 表示双头注意力单元, 表示所述双头注意力单元输出的双头注意力图, 表示 函数激活后生成的特征图, 表示 函数激活后生成
的特征图, 表示 函数激活后生成的特征图, 表示 函数激活后生成的特征图, 表示特征图 、特征图 和特征图 相加后生成的特征图, 表示特
征图 、特征图 和特征图 做元素对应乘积后生成的特征图, 表示 函
数激活后生成的特征图, 表示所述双头注意力图与特征图 做元素对应乘积后生成的特征图, 表示从所述双通道特征提取机构的第一出口输出的特征图, 表示从所述双通道特征提取机构的第二出口输出的特征图。
[0012] 进一步地, 、 和 的卷积核尺寸均为1*1, 的卷积核尺寸为3*3, 的卷积核尺寸为5*5。
[0013] 进一步地,所述第一型激活函数为ReLU函数。
[0014] 进一步地,所述第二型激活函数为Tanh函数。
[0015] 进一步地,所述双头注意力单元生成双头注意力图的过程表示为如下数学模型:
[0016]
[0017] 其中,特征图 、 、 和 共同作为所述双头注意力单元的输入,表示所述双头注意力单元输出的双头注意力图, 表示对特征图做拼接操作,表示对特征图在通道方向做第一全局池化操作, 表示对特征图在空间方向做第二全局池化操作, 表示全连接层, 和 均表示第三型激活函数, 表示元素对应乘积运算, 表示分别对特征图 、特征图 、特征图 在通道方向做第一全局池
化操作并拼接后生成的特征图, 表示函数 激活后生成的特征图。
[0018] 进一步地,所述第一全局池化操作为全局方差池化操作,所述第二全局池化操作为全局最大池化操作。
[0019] 进一步地,所述第三型激活函数为sigmoid函数。
[0020] 本发明还提供了一种计算机可读取的存储介质,所述计算机可读取的存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的人脸图像超分辨率重建方法。
[0021] 本发明的有益效果是:
[0022] (1)现有图像超分辨率重建网络中,不同的特征提取模块之间都是通过单一的通道进行信息传递,多种特征信息(包括不同频率的有用信息、无效信息和干扰信息)掺杂在一起,网络对信息的过滤能力很有限,同时也影响了对有效特征的学习和提取效果,本发明的相邻两个双通道特征提取机构之间通过两个信道传递信息,不同种类的特征信息分布更加分散,信息过滤效果更好,反过来也促进了网络对有效特征的学习效果,这点对于提升人脸图像超分辨率重建效果尤其重要,因为在人脸图像中,分为人脸区域和背景区域,如果不能很好地对信息进行过滤分散,背景区域的特征信息和人脸区域的特征信息会互相干扰;
[0023] (2)在双通道特征提取机构内部同样采用了多通道的结构设计,多个卷积操作层(卷积核尺寸分别为1*1、3*3和5*5)并行设置,这样不仅能够充分提取特征图中的多种信息,而且提取后获得的信息分散在特征图 、 和 中,使得特征图 、 、与特征图 融合后生成特征图 过程中,对特征信息同样具有很好的选择性;
[0024] (3)发明人根据自己长期的工作经验,设计了本发明的双头注意力单元内部结构,结合特征图 、 、 和 的特点,采用了全局最大池化操作和全局方差池化操作来生成双头注意力图,这样在网络提取特征信息量有限的情况下,经过注意力单元的调制,网络能够选择性地加强提取部分重要区域(比如眼睛、嘴、鼻子等)的高频信息,双头注意力单元本身十分轻量,对模型的计算量影响很小,但能对最终的重建效果带来比较大的提升。

附图说明

[0025] 图1为实施例1的深度学习网络整体结构示意图;
[0026] 图2为实施例1的双通道特征提取机构内部结构示意图;
[0027] 图3为图2中A处内部结构示意图;
[0028] 图4为实施例1的双头注意力单元内部结构示意图;
[0029] 图5为实施例1的特征溶融模块内部结构示意图;
[0030] 图6为实施例1的图像重置机构内部结构示意图;
[0031] 图7为对比例的双通道特征提取机构内部结构示意图;
[0032] 附图中:
[0033] 1‑低分辨率人脸图像,2‑高分辨率人脸图像,3‑前置卷积层,4‑双通道特征提取机构,5‑双头注意力单元,6‑特征溶融模块,7‑图像重置机构。

具体实施方式

[0034] 以下结合附图对本发明作进一步描述:
[0035] 实施例1:
[0036] 基于Python编程语言,结合TensorFlow框架,按照图1所示的网络架构搭建深度学习网络。其中,网络的头部为前置卷积层3,其步长为1,卷积核尺寸为3*3。作为示例,设输入网络的低分辨率人脸图像1的尺寸为Y×B×D(长度×宽度×通道数量,下同),经过前置卷积层3卷积操作后,前置卷积层3输出通道为64的前置特征图(长宽尺寸分别为Y和B)。然后前置特征图同时从第一个双通道特征提取机构4的第一入口和第二入口输入。
[0037] 本实施例中,五个双通道特征提取机构4串联设置,图像信息在网络中传递时,上一个双通道特征提取机构4第一出口输出的特征图输入到下一个双通道特征提取机构4的第一入口,上一个双通道特征提取机构4第二出口输出的特征图输入到下一个双通道特征提取机构4的第二入口,最后一个双通道特征提取机构4第一出口输出的第一精制特征图、第二出口输出的第二精制特征图同时输入特征溶融模块6。
[0038] 如图2所示,在双通道特征提取机构4内部,从第一入口和第二入口输入的特征图尺寸均为Y×B×64, 、 、 卷积运算后,得到的特征图 、 、尺寸与前置特征图的尺寸完全一致。由特征图 、 、 和 生成特征图
的运算过程如图3所示,特征图 、 、 、 、 以及从第一出口和第
二出口输出的特征图尺寸均为Y×B×64。
[0039] 如图4所示,对于双头注意力单元5内部,分别对特征图 、 、 在通道方向做全局方差池化后,均生成一个尺寸为Y×B×1的矩阵,拼接操作后, 的尺寸为Y×B×3。对特征图 在空间方向上做全局最大池化后,生成长度为64的向量,然后经过全连接层 (其输入节点数为64,输出节点数为3)和 函数,得到长度为3的向量。接下来 各个图层乘以 中对应的元素,再次在通道方向做全局方差池化,并经过 函数后,得到尺寸为Y×B×1的双头注意力图 。通过双头注意力图分别为特征图 和 不同空间位置分配不同大小的权重参数,实现对特征图 和
的调制。特征图 调制后还经过Tanh函数激活(特征图尺寸仍然为Y×B×64),其与特征图 相加的结果,作为双通道特征提取机构4第一出口的输出。这样能够实现所在信道对 所在信道进行信息反馈,强化网络感知学习的效果。
[0040] 具体地,在本实施例中,如图5所示,特征溶融模块6包括串联设置的拼接层、1*1卷积层和ReLU函数。第一精制特征图和第二精制特征图经过特征溶融模块6融合后,生成的复合特征图尺寸为Y×B×64。如图6所示,图像重置机构7采用目前常用的结构设计,包括两个3*3卷积层和一个亚像素卷积层,亚像素卷积层设置在两个3*3卷积层之间。当图像尺寸放
2
大倍数为N时,前一个3*3卷积层输出特征图尺寸为Y×B×64N ,后一个3*3卷积层输出尺寸为NY×NB×3的高分辨率人脸图像2,亚像素卷积层输出特征图尺寸为NY×NB×64。
[0041] 对常用的数据集DIV2K和人脸数据集FERET分别进行2倍和4倍下采样,获得其对应的低分辨率图像,然后将这两个数据集2倍下采样后的图像组合起来,构成一号训练集,将这两个数据集4倍下采样后的图像组合起来,构成二号训练集。使用一号训练集和二号训练集训练本实施例所提供的深度学习网络和现有模型RCAN。训练两个模型过程中,损失函数均为L2损失函数,epoch数量均为1500,学习率均固定设置为0.0001,训练完成时,损失函数均已经很好地收敛。
[0042] 对LFW数据集分别进行2倍和4倍下采样,作为测试集。下表为两个模型训练完成后在测试集上的超分辨率重建效果,从中可以看出,本发明提供的深度学习网络取得了明显更好的图像重建效果。
[0043] 表1 实施例1和RCAN模型在测试集上超分辨率重建结果
[0044]
[0045] 本实施例还对上述两个模型重建得到的图像进行人脸识别测试,从另一个角度来证明两个模型重建后图像的质量。所采用的图像识别模型为预先训练完成的ResNet56,识别结果如下表所示:
[0046] 表2实施例1和RCAN模型重建人脸图像的识别正确率
[0047]
[0048] 从上表可以看出,本发明提供的深度学习网络重建后图像的识别精度明显高于模型RCAN重建输出的图像,说明本发明输出的人脸图像质量更高,更具辨识度。
[0049] 消融实验:
[0050] 本实验将实施例1的所有双通道特征提取机构4中双头注意力单元5去掉(去掉双头注意力单元5后的双通道特征提取机构4如图7所示),深度学习网络的其他部分不变,作为对比例。训练和测试过程所有的细节均保持与实施例1相同,对比例测试结果如下:
[0051] 表3 对比例人脸图像重建结果及识别正确率
[0052]
[0053] 从消融实验测得的数据可以看出,设置双头注意力单元5后,在PSNR和SSIM两个指标上测得的人脸图像重建效果均比没有双头注意力单元5时好,设置双头注意力单元5后,重建人脸图像在ResNet56上的识别正确率也有所提高,充分说明了双头注意力单元5对提升深度学习网络性能具有重要促进作用。
[0054] 以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。