基于强化学习的图像处理方法、图像处理方法及相关装置转让专利

申请号 : CN202011034575.7

文献号 : CN112200226B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨幸潮章佳杰郑云飞于冰

申请人 : 北京达佳互联信息技术有限公司

摘要 :

本公开涉及图像处理技术领域,尤其涉及一种基于强化学习的图像处理方法、图像处理方法及相关装置。该方法包括:对目标图像进行特征提取,得到所述目标图像的特征图;将所述目标图像的特征图输入强化学习的第一网络,得到所述目标图像中各像素点的目标处理方式;其中,所述第一网络是基于强化学习的方法训练目标网络模型得到的;在所述目标网络模型中,对至少一个指定神经网络层提取的特征图的各图像通道进行加权处理;根据所述目标处理方式处理所述目标图像。该方法通过在基于强化学习的方法训练的目标网络模型中结合对各图像通道的加权处理,使得基于该目标网络模型训练得到的第一网络处理后的目标图像的效果更加全面和准确。

权利要求 :

1.一种基于强化学习的图像处理方法,其特征在于,所述方法包括:对目标图像进行特征提取,得到所述目标图像的特征图;

将所述目标图像的特征图输入强化学习的第一网络,得到所述目标图像中各像素点的目标处理方式;根据所述目标处理方式处理所述目标图像;

其中,所述第一网络是基于强化学习的方法训练目标网络模型得到的;所述目标网络模型包括:用于下采样的下采样网络、所述第一网络、用于输出图像质量的期望累积反馈信息的第二网络以及判别器网络,所述下采样网络中包括多个下采样层;所述第一网络和所述第二网络中分别包括多个升采样层;

指定神经网络层包括所述下采样层和/或所述升采样层;

在所述目标网络模型中,所述指定神经网络层提取的特征图包含多张子特征图分量,一张子特征图分量为一个通道;

所述指定神经网络层用于对各图像通道进行加权处理,具体包括:对每张子特征图分量分别进行全局最大池化和全局平均池化,得到各通道的最大池化特征和各通道的平均池化特征;

将所述各通道的最大池化特征输入第一全连接网络,得到最大掩码;以及,将所述各通道的平均池化特征输入第二全连接网络,得到平均掩码;

其中,所述第一全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;所述将所述各通道的最大池化特征输入第一全连接网络,得到最大掩码,具体包括:将所述各通道的最大池化特征输入所述第一类全连接层,得到第一特征;将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;将所述第二特征输入所述激活层,得到所述最大掩码;

利用所述最大掩码和所述平均掩码分别对所述指定神经网络层提取的特征图进行加权处理,得到与所述最大掩码对应的最大掩码特征图,以及与所述平均掩码对应的平均掩码特征图;

将所述最大掩码特征图和所述平均掩码特征图进行融合处理后输出处理后的特征图给下一神经网络层处理。

2.根据权利要求1所述的方法,其特征在于,所述第二全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;

所述将所述各通道的平均池化特征输入第二全连接网络,得到平均掩码,包括:将所述各通道的平均池化特征输入所述第一类全连接层,得到第一特征;

将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;

将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;

将所述第二特征输入所述激活层,得到所述平均掩码。

3.根据权利要求1或2所述的方法,其特征在于,采用所述指定神经网络层提取特征图,包括:

对输入所述指定神经网络层的特征图依次进行多次卷积处理,得到卷积特征;

对所述卷积特征进行批归一化处理,得到归一化特征;

利用激活函数对所述归一化特征进行处理,得到激活特征。

4.一种图像处理方法,其特征在于,图像数据包含多张子图像数据,一张子图像数据为一个通道,所述方法包括:

对每张子图像数据分别进行全局最大池化和全局平均池化,得到各通道的最大池化特征和各通道的平均池化特征;

将所述各通道的最大池化特征的图像数据输入第一全连接网络,得到最大掩码;以及,将所述各通道的平均池化特征的图像数据输入第二全连接网络,得到平均掩码;其中,所述第一全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;所述将所述各通道的最大池化特征的图像数据输入第一全连接网络,得到最大掩码,具体包括:将所述各通道的最大池化特征输入所述第一类全连接层,得到第一特征;将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;将所述第二特征输入所述激活层,得到所述最大掩码;

利用所述最大掩码和所述平均掩码分别对所述图像数据进行加权处理,得到与所述最大掩码对应的最大掩码图像数据,以及与所述平均掩码对应的平均掩码图像数据;

将所述最大掩码图像数据和所述平均掩码图像数据进行融合处理后输出处理后的图像数据。

5.根据权利要求4所述的方法,其特征在于,所述第二全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;

所述将所述各通道的平均池化特征的图像数据输入第二全连接网络,得到平均掩码,包括:

将所述各通道的平均池化特征的图像数据输入所述第一类全连接层,得到第一特征;

将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;

将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;

将所述第二特征输入所述激活层,得到所述平均掩码。

6.一种基于强化学习的图像处理装置,其特征在于,所述装置包括:特征提取模块,被配置为执行对目标图像进行特征提取,得到所述目标图像的特征图;

目标处理方式获取模块,被配置为执行将所述目标图像的特征图输入强化学习的第一网络,得到所述目标图像中各像素点的目标处理方式;

目标图像处理模块,被配置为执行根据所述目标处理方式处理所述目标图像;

其中,所述第一网络是基于强化学习的方法训练目标网络模型得到的;所述目标网络模型包括:用于下采样的下采样网络、所述第一网络、用于输出图像质量的期望累积反馈信息的第二网络以及判别器网络,所述下采样网络中包括多个下采样层;所述第一网络和所述第二网络中分别包括多个升采样层;

指定神经网络层包括所述下采样层和/或所述升采样层;

在所述目标网络模型中,所述指定神经网络层提取的特征图包含多张子特征图分量,一张子特征图分量为一个通道;

所述指定神经网络层用于对各图像通道进行加权处理,具体包括:对每张子特征图分量分别进行全局最大池化和全局平均池化,得到各通道的最大池化特征和各通道的平均池化特征;

将所述各通道的最大池化特征输入第一全连接网络,得到最大掩码;以及,将所述各通道的平均池化特征输入第二全连接网络,得到平均掩码;

其中,所述第一全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;所述将所述各通道的最大池化特征输入第一全连接网络,得到最大掩码,具体包括:将所述各通道的最大池化特征输入所述第一类全连接层,得到第一特征;将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;将所述第二特征输入所述激活层,得到所述最大掩码;

利用所述最大掩码和所述平均掩码分别对所述指定神经网络层提取的特征图进行加权处理,得到与所述最大掩码对应的最大掩码特征图,以及与所述平均掩码对应的平均掩码特征图;

将所述最大掩码特征图和所述平均掩码特征图进行融合处理后输出处理后的特征图给下一神经网络层处理。

7.根据权利要求6所述的装置,其特征在于,所述第二全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;

所述目标处理方式获取模块,被配置为执行将所述各通道的平均池化特征输入第二全连接网络,得到平均掩码,具体执行:将所述各通道的平均池化特征输入所述第一类全连接层,得到第一特征;

将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;

将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;

将所述第二特征输入所述激活层,得到所述平均掩码。

8.根据权利要求6或7所述的装置,其特征在于,所述特征提取模块,被配置为执行采用所述指定神经网络层提取特征图时,具体执行:对输入所述指定神经网络层的特征图依次进行多次卷积处理,得到卷积特征;

对所述卷积特征进行批归一化处理,得到归一化特征;

利用激活函数对所述归一化特征进行处理,得到激活特征。

9.一种图像处理装置,其特征在于,图像数据包含多张子图像数据,一张子图像数据为一个通道,所述装置包括:

特征获取模块,被配置为执行对每张子图像数据分别进行全局最大池化和全局平均池化,得到各通道的最大池化特征和各通道的平均池化特征;

掩码获取模块,被配置为执行将所述各通道的最大池化特征的图像数据输入第一全连接网络,得到最大掩码;以及,将所述各通道的平均池化特征的图像数据输入第二全连接网络,得到平均掩码;其中,所述第一全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;所述掩码获取模块,具体被配置为执行:将所述各通道的最大池化特征输入所述第一类全连接层,得到第一特征;将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;将所述第二特征输入所述激活层,得到所述最大掩码;

子图像数据获取模块,被配置为执行利用所述最大掩码和所述平均掩码分别对所述图像数据进行加权处理,得到与所述最大掩码对应的最大掩码图像数据,以及与所述平均掩码对应的平均掩码图像数据;

融合模块,被配置为执行将所述最大掩码图像数据和所述平均掩码图像数据进行融合处理后输出处理后的图像数据。

10.根据权利要求9所述的装置,其特征在于,所述第二全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;

所述掩码获取模块,被配置为执行将所述各通道的平均池化特征的图像数据输入第二全连接网络,得到平均掩码时,具体执行:将所述各通道的平均池化特征的图像数据输入所述第一类全连接层,得到第一特征;

将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;

将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;

将所述第二特征输入所述激活层,得到所述平均掩码。

11.一种电子设备,其特征在于,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据权利要求1‑5任一项所述的方法。

12.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序用于使计算机执行根据权利要求1‑5任一项所述的方法。

说明书 :

基于强化学习的图像处理方法、图像处理方法及相关装置

技术领域

[0001] 本公开涉及人工智能技术领域,尤其涉及一种基于强化学习的图像处理方法、图像处理方法及相关装置。

背景技术

[0002] 随着智能手机的普及和拍照设备的不断升级,用户可以很轻松地获得照片,来记录生活中精彩的瞬间。然而,目前的手机为了满足方便携带的特性,在相机硬件上不可避免
地会做出一些妥协,这导致了智能手机拍摄的图像质量与数码单反相机等先进设备相比相
差很大,智能手机相机中最常见的硬件限制是缺少大光圈镜头和光电二极管组成的小型传
感器,从而造成手机图像与单反等先进设备拍摄的图像相比有进光量不足、色彩不饱满、噪
声多、对比度较差等缺点。目前智能手机市场上新发布的产品大多主打手机摄影功能的提
升,在硬件提升方面花费很多精力,比如增加越来越多不同功能的摄像头来弥补手机摄影
硬件的缺陷,这需要提升手机的成本而且会影响手机的美观和便携性。为了克服这种固有
的硬件限制,因此从软件方面弥补硬件缺陷实现对于拍摄的图像的处理的方式更加高效和
经济。
[0003] 发明人发现,用户经常通过社交媒体以及网络平台发布自己的照片,而由于手机拍照硬件的限制可能对图像的效果不满意,在发布前往往会用一些图像处理软件矫正图像
的缺陷(比如曝光度不足、对比度差等),有时还夸大颜色、亮度和色调来实现夸张的视觉效
果。一般高质量图像的编辑处理通常由有经验的艺术家耗费大量的人工劳作来完成。市场
上一些专业的交互式图像处理软件可以帮助用户修饰图像。而这些专业的处理软件需要用
户花费大量时间学习和熟练才能掌握。同时修饰结果对参数非常敏感,用户可能没有专业
技能或者对参数的调整没有概念,导致最后的结果无法令人满意。
[0004] 目前,相关技术中采用的强化学习的图像处理工作中,使用简单的全卷积网络进行图像处理,但是该方法存在无法准确的处理图像从而导致处理效果差的问题。因此,一种
自动实现图像效果增强,且使得用户无需拥有专业技能就能获得令人满意的效果的图像处
理方法,是当下一项非常有研究意义的技术问题。

发明内容

[0005] 本公开实施例提供一种基于强化学习的图像处理方法、图像处理方法及相关装置,用以解决现有技术中存在的无法准确的处理图像从而导致处理效果差的问题。
[0006] 第一方面,本公开实施例提供的一种基于强化学习的图像处理方法,所述方法包括:
[0007] 对目标图像进行特征提取,得到所述目标图像的特征图;
[0008] 将所述目标图像的特征图输入强化学习的第一网络,得到所述目标图像中各像素点的目标处理方式;其中,所述第一网络是基于强化学习的方法训练目标网络模型得到的;
在所述目标网络模型中,对至少一个指定神经网络层提取的特征图的各图像通道进行加权
处理;
[0009] 根据所述目标处理方式处理所述目标图像。
[0010] 在一些实施例中,所述目标网络模型包括:用于下采样的下采样网络、所述第一网络、用于输出图像质量的期望累积反馈信息的第二网络以及判别器网络,所述下采样网络
中包括多个下采样层;
[0011] 所述第一网络和所述第二网络中分别包括多个升采样层;所述指定神经网络层包括所述下采样层和/或所述升采样层。
[0012] 在一些实施例中,所述下采样层和所述升采样层提取的特征图包含多张子特征图分量,一张子特征图分量为一个通道;
[0013] 所述对至少一个指定神经网络层提取的特征图的各图像通道进行加权处理,包括:
[0014] 对每张子特征图分别进行全局最大池化和全局平均池化,得到各通道的最大池化特征和各通道的平均池化特征;
[0015] 将得到所述各通道的最大池化特征后的特征图输入第一全连接网络,得到最大掩码;以及,将得到所述各通道的平均池化特征后的特征图输入第二全连接网络,得到平均掩
码;
[0016] 利用所述最大掩码和所述平均掩码分别对所述指定神经网络层提取的特征图进行加权处理,得到与所述最大掩码对应的最大掩码特征图,以及与所述平均掩码对应的平
均掩码特征图;
[0017] 将所述最大掩码特征图和所述平均掩码特征图进行融合处理后输出处理后的特征图。
[0018] 在一些实施例中,所述第一全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;
[0019] 所述将得到所述各通道的最大池化特征后的特征图输入第一全连接网络,得到最大掩码,包括:
[0020] 将得到所述各通道的最大池化特征后的特征图输入所述第一类全连接层,得到第一特征;
[0021] 将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0022] 将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0023] 将所述第二特征输入所述激活层,得到所述最大掩码。
[0024] 在一些实施例中,所述第二全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;
[0025] 所述将得到所述各通道的平均池化特征后的特征图输入第二全连接网络,得到平均掩码,包括:
[0026] 将得到所述各通道的平均池化特征后的特征图输入所述第一类全连接层,得到第一特征;
[0027] 将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0028] 将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0029] 将所述第二特征输入所述激活层,得到所述平均掩码。
[0030] 在一些实施例中,采用所述指定神经网络层提取特征图,包括:
[0031] 对输入所述指定神经网络层的特征图依次进行多次卷积处理,得到卷积特征;
[0032] 对所述卷积特征进行批归一化处理,得到归一化特征;
[0033] 利用激活函数对所述归一化特征进行处理,得到激活特征。
[0034] 第二方面,本公开实施例提供的一种图像处理方法,图像数据包含多张子图像数据,一张子图像数据为一个通道,所述方法包括:
[0035] 对每张子图像数据分别进行全局最大池化和全局平均池化,得到各通道的最大池化特征和各通道的平均池化特征;
[0036] 将得到所述各通道的最大池化特征后的图像数据输入第一全连接网络,得到最大掩码;以及,将得到所述各通道的平均池化特征后的图像数据输入第二全连接网络,得到平
均掩码;
[0037] 利用所述最大掩码和所述平均掩码分别对所述图像数据进行加权处理,得到与所述最大掩码对应的最大掩码图像数据,以及与所述平均掩码对应的平均掩码图像数据;
[0038] 将所述最大掩码图像数据和所述平均掩码图像数据进行融合处理后输出处理后的图像数据。
[0039] 在一些实施例中,所述第一全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;
[0040] 所述将得到所述各通道的最大池化特征后的图像数据输入第一全连接网络,得到最大掩码,包括:
[0041] 将得到所述各通道的最大池化特征后的图像数据输入所述第一类全连接层,得到第一特征;
[0042] 将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0043] 将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0044] 将所述第二特征输入所述激活层,得到所述最大掩码。
[0045] 在一些实施例中,所述第二全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;
[0046] 所述将得到所述各通道的平均池化特征后的图像数据输入第二全连接网络,得到平均掩码,包括:
[0047] 将得到所述各通道的平均池化特征后的图像数据输入所述第一类全连接层,得到第一特征;
[0048] 将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0049] 将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0050] 将所述第二特征输入所述激活层,得到所述平均掩码。
[0051] 第三方面,本公开实施例提供的一种基于强化学习的图像处理装置,所述装置包括:
[0052] 特征提取模块,被配置为执行对目标图像进行特征提取,得到所述目标图像的特征图;
[0053] 目标处理方式获取模块,被配置为执行将所述目标图像的特征图输入强化学习的第一网络,得到所述目标图像中各像素点的目标处理方式;其中,所述第一网络是基于强化
学习的方法通过训练模块训练目标网络模型得到的;在所述目标网络模型中,对至少一个
指定神经网络层提取的特征图的各图像通道进行加权处理;
[0054] 目标图像处理模块,被配置为执行根据所述目标处理方式处理所述目标图像。
[0055] 在一些实施例中,所述目标网络模型包括:用于下采样的下采样网络、所述第一网络、用于输出图像质量的期望累积反馈信息的第二网络以及判别器网络,所述下采样网络
中包括多个下采样层;
[0056] 所述第一网络和所述第二网络中分别包括多个升采样层;所述指定神经网络层包括所述下采样层和/或所述升采样层。
[0057] 在一些实施例中,所述下采样层和所述升采样层提取的特征图包含多张子特征图分量,一张子特征图分量为一个通道;
[0058] 所述目标处理方式获取模块,被配置为执行对至少一个指定神经网络层提取的特征图的各图像通道进行加权处理时,具体执行:
[0059] 对每张子特征图分别进行全局最大池化和全局平均池化,得到各通道的最大池化特征和各通道的平均池化特征;
[0060] 将得到所述各通道的最大池化特征后的特征图输入第一全连接网络,得到最大掩码;以及,将得到所述各通道的平均池化特征后的特征图输入第二全连接网络,得到平均掩
码;
[0061] 利用所述最大掩码和所述平均掩码分别对所述指定神经网络层提取的特征图进行加权处理,得到与所述最大掩码对应的最大掩码特征图,以及与所述平均掩码对应的平
均掩码特征图;
[0062] 将所述最大掩码特征图和所述平均掩码特征图进行融合处理后输出处理后的特征图。
[0063] 在一些实施例中,所述第一全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;
[0064] 所述目标处理方式获取模块,被配置为执行将得到所述各通道的最大池化特征后的特征图输入第一全连接网络,得到最大掩码时,具体执行:
[0065] 将得到所述各通道的最大池化特征后的特征图输入所述第一类全连接层,得到第一特征;
[0066] 将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0067] 将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0068] 将所述第二特征输入所述激活层,得到所述最大掩码。
[0069] 在一些实施例中,所述第二全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;
[0070] 所述目标处理方式获取模块,被配置为执行将得到所述各通道的平均池化特征后的特征图输入第二全连接网络,得到平均掩码,具体执行:
[0071] 将得到所述各通道的平均池化特征后的特征图输入所述第一类全连接层,得到第一特征;
[0072] 将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0073] 将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0074] 将所述第二特征输入所述激活层,得到所述平均掩码。
[0075] 在一些实施例中,所述特征提取模块,被配置为执行采用所述指定神经网络层提取特征图时,具体执行:
[0076] 对输入所述指定神经网络层的特征图依次进行多次卷积处理,得到卷积特征;
[0077] 对所述卷积特征进行批归一化处理,得到归一化特征;
[0078] 利用激活函数对所述归一化特征进行处理,得到激活特征。
[0079] 第四方面,本公开实施例提供一种图像处理装置,图像数据包含多张子图像数据,一张子图像数据为一个通道,所述装置包括:
[0080] 特征获取模块,被配置为执行对每张子图像数据分别进行全局最大池化和全局平均池化,得到各通道的最大池化特征和各通道的平均池化特征;
[0081] 掩码获取模块,被配置为执行将得到所述各通道的最大池化特征后的图像数据输入第一全连接网络,得到最大掩码;以及,将得到所述各通道的平均池化特征后的图像数据
输入第二全连接网络,得到平均掩码;
[0082] 子图像数据获取模块,被配置为执行利用所述最大掩码和所述平均掩码分别对所述图像数据进行加权处理,得到与所述最大掩码对应的最大掩码图像数据,以及与所述平
均掩码对应的平均掩码图像数据;
[0083] 融合模块,被配置为执行将所述最大掩码图像数据和所述平均掩码图像数据进行融合处理后输出处理后的图像数据。
[0084] 在一些实施例中,所述第一全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;
[0085] 所述掩码获取模块,被配置为执行将得到所述各通道的最大池化特征后的图像数据输入第一全连接网络,得到最大掩码时,具体执行:
[0086] 将得到所述各通道的最大池化特征后的图像数据输入所述第一类全连接层,得到第一特征;
[0087] 将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0088] 将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0089] 将所述第二特征输入所述激活层,得到所述最大掩码。
[0090] 在一些实施例中,所述第二全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;
[0091] 所述掩码获取模块,被配置为执行将得到所述各通道的平均池化特征后的图像数据输入第二全连接网络,得到平均掩码时,具体执行:
[0092] 将得到所述各通道的平均池化特征后的图像数据输入所述第一类全连接层,得到第一特征;
[0093] 将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0094] 将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0095] 将所述第二特征输入所述激活层,得到所述平均掩码。
[0096] 第五方面,本公开另一实施例还提供了一种电子设备,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处
理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执
行本公开第一方面和第二方面实施例提供的任一方法。
[0097] 第六方面,本公开另一实施例还提供了一种计算机存储介质,其中,所述计算机存储介质存储有计算机程序,所述计算机程序用于使计算机执行本公开第一方面和第二方面
实施例提供的任一方法。
[0098] 本公开实施例中,首先对目标图像进行特征提取,得到所述目标图像的特征图;将所述目标图像的特征图输入强化学习的第一网络,得到所述目标图像中各像素点的目标处
理方式;其中,所述第一网络是基于强化学习的方法训练目标网络模型得到的;在所述目标
网络模型中,对至少一个指定神经网络层提取的特征图的各图像通道进行加权处理;根据
所述目标处理方式处理所述目标图像。故此,得到的目标图像的目标处理方式是对特征图
的各图像通道进行加权处理,也即基于通道域的注意力机制,由于考虑到了不同通道的特
征信息,从而增强重要通道的特征信息,弱化不重要通道的特征信息,使得根据该目标处理
方式处理目标图像的结果更加准确和全面。

附图说明

[0099] 图1所示的为本公开实施例提供的一种训练目标网络模型的结构示意图;
[0100] 图2所示的为本公开实施例提供的一种通道域的注意力机制的结构示意图;
[0101] 图3所示的为本公开实施例提供的一种基于强化学习的图像方法的流程示意图;
[0102] 图4所示的为本公开实施例提供的一种图像方法的流程示意图;
[0103] 图5所示的为本公开实施例提供的消融实验的对比图;
[0104] 图6所示的为本公开实施例提供的一种基于强化学习的图像装置的结构示意图;
[0105] 图7所示的为本公开实施例提供的一种图像装置的结构示意图;
[0106] 图8所示的为本公开实施例提供的电子设备的结构示意图。

具体实施方式

[0107] 为了便于理解本公开实施例提供的技术方案,下面结合说明书附图对本公开实施例作进一步详细描述。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳
动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0108] 需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应理解这样的描述
在适当情况下可以互换,以便本公开的实施例能够以除了本公开的图示或描述的内容以外
的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施
方式。相反,它们仅是与所附权利要求书中所详述的、本公开的一些方面相一致的装置和方
法的例子。
[0109] 自动实现图像效果增强是一项艰巨的任务,因为难以同时生成具有良好效果和鲁棒性的增强图像。
[0110] 目前,为了增强图像的视觉效果,有必要在强化学习框架中添加局部处理的功能。因此,相关技术存在的方法,均致力于实现强化学习的局部处理能力。该类方法中的一种方
法的实现方式为,首先对输入的图像使用语义分割,然后对每个分割的块执行全局操作。然
而,这种方法使得图像效果增强结果非常依赖于语义分割结果,而语义分割结果对于复杂
场景无法很好地分割,从而导致较差的结果。该类方法中的另一种方法的实现方式为,在强
化学习框架基础上实现了一个完全卷积网络,以获取每个像素的简单图像操作,实现了图
像降噪,图像恢复和色彩增强等不同任务,导致图像特征提取结果不准确的问题。
[0111] 有鉴于此,为了能够较好的帮助神经网络理解和提取图像特征,进而保证可生成具有良好效果和鲁棒性的增强图像,本公开实施例中,提供了一种基于强化学习的图像处
理方法,其设计构思是对目标图像进行特征提取得到特征图后,将特征图输入到强化学习
的第一网络,得到对于目标图像中的各像素点的目标处理方式;最后根据得到的目标处理
方式处理目标图像,其中,第一网络可选的为策略网络。
[0112] 其中,设计构思中采用的第一网络是基于强化学习的方法预先训练目标网络模型得到的,并且,为了提高得到的目标处理方式的合理性,在所述目标网络模型中,对至少一
个指定神经网络层提取的特征图的各图像通道进行加权处理。例如在第二网络(例如价值
网络)、第一网络(例如策略网络)或特征提取网络中的至少一个神经网络层中添加了通道
域的注意力机制,以便于能够从通道维度上强化重要特征的作用,弱化次要特征的影响,使
得最终训练出的第一网络能够给出合理的符合高质量的视觉需求的目标处理方式,从而得
到较高质量的图像。
[0113] 此外,本公开中,针对相关技术中存在的依赖语义分割结果,并且在复杂场景下无法很好地分割导致的图像效果增强结果差的问题,通过本公开中基于强化学习的方法训练
的目标网络模型的网络结构,在训练时分割成块进行训练,并且是在像素级上进行图像效
果增强处理,因此通过本公开采用的目标网络模型进行图像效果增强时避免了依赖语义分
割结果。其次,针对相关技术中通过完全卷积网络进行图像处理任务存在的需要大量的配
对图像的缺陷,本公开基于下采样和升采样的网络架构,与第二网络和第一网络的结合,使
得提取的特征和得到的目标处理方式更加准确,并且在此基础上还采用了通道域的注意力
机制,使得提取的图像特征更加全面和合理。
[0114] 为便于理解本公开实施例提供的基于强化学习的图像处理方法,下面首先对训练时采用的目标网络模型的结构进行介绍和说明。
[0115] 目标网络模型的结构训练过程的说明
[0116] 参阅图1,为本公开实施例提供的一种训练目标网络模型的结构示意图,包括:用于下采样的下采样网络101、所述第一网络(例如策略网络)102、用于输入图像质量的期望
累积反馈信息的第二网络(例如价值网络)103以及判别器网络104,其中:
[0117] (1)下采样网络101中包括多个下采样层,用于对所述目标图像进行特征提取。
[0118] 首先,需要说明的是,图1中的目标网络模型仅为一种可能的实施例的示意图,并不用来限定本公开。
[0119] 例如,图1示出的下采样网络中为包含4个下采样层的实施例,并且,每个下采样层接收图像的输入,并输出特征提取后的特征图,且输出的特征图用于作为下一个下采样层
的输入特征图。一种可能的实施方式中,本公开在训练该目标网络模型时,将输入下采样网
络101的图像采用随机截取96*96的实施方式对该目标网络模型进行训练,因此对应的当输
入图像经过下采样网络,以及分别经过第一网络和第二网络后,输出的也是96*96的图像。
[0120] 其中,第一网络输出的通道维度为L,表示第一网络中预测的每个像素点的不同的动作集合的数目,输出每个像素点执行不同动作的概率分布,从而可以得到目标图像中各
像素点的目标处理方式。
[0121] 第二网络输出的通道维度为1,表示预测的每个像素点的期望累积反馈信息。其中,期望累积反馈信息表示预测的每个像素点的未来奖励值总和的期望,即在强化学习中
动作来自于动作空间,智能体对每次所处的状态用上一状态的瞬时反馈信息确定当前要执
行什么动作。执行动作要达到最大化期望(本公开中称之为各像素点的期望累积反馈信
息),直到最终算法收敛,所得的策略就是一系列动作的序列数据。
[0122] 上述实施方式中,输出下采样网络101的图像可以包括3个通道,例如,在RGB色彩模式下,3个通道则包括红色、绿色、蓝色通道。在输入图像经过下采样网络101中的每一个
下采样层后,会逐渐扩充通道的数目,各下采样层输出的特征图维度在图1中对应示出,例
如,在经过第一个下采样层后,输出特征图为48*48,且经过下采样后的通道变为32通道。通
过下采样网络101对于输入图像的特征提取,从而增加了感受野的大小。
[0123] 其次,所述下采样网络101最后一个下采样层提取的特征图分别输入给所述第一网络102和所述第二网络103;即如图1中所示,通过下采样网络提取的特征图,输入给第一
网络102,用于得到输入图像的目标处理方式;同时输入给第二网络103,用于得到输出图像
质量的期望累积反馈信息。
[0124] (2)所述第一网络102和所述第二网络103中分别包括多个升采样层。
[0125] 本公开采用的目标网络模型,为了得到更加合理的目标处理方式,从而实现根据得到的目标处理方式处理目标图像,基于采用下采样和上采样的网络结构的强化学习模
型,作为第一网络和第二网络的主干,从而得到本公开训练的目标网络模型。其中,采用下
采样和上采样的网络结构的强化学习模型,例如有U‑Net架构,该架构的感受野更大,因此
更利于提取纹理等细节信息;并且,下采样网络是用来通过对于输入图像的下采样逐渐展
现图像的细节特征信息,而上采样的过程是结合下采样各层信息和上采样网络的输入信息
来还原细节信息,从而逐步还原到输入图像的精度。
[0126] 实施时,如图1所示,其中第一网络102和第二网络103对应于下采样网络101中下采样层的数量,分别包括4个升采样层。其中,每个升采样层进行特征提取时,是基于上一个
相邻的升采样层输出的特征图以及对应的下采样层输出的特征信息的基础上进行的;例
如,图1中的C1所示,即每个下采样层和升采样层的左半部分实现的提取特征图的处理。
[0127] 上述实施方式中,各下采样层和各升采样层提取特征图的步骤,包括:
[0128] 步骤A1:对输入的特征图依次进行多次卷积处理,得到卷积特征。
[0129] 其中,多次卷积处理,例如是通过两个3*3的卷积层实现。
[0130] 步骤A2:对所述卷积特征进行批归一化处理,得到归一化特征。
[0131] 步骤A3:利用激活函数对所述归一化特征进行处理,得到激活特征。
[0132] (3)所述判别器网络104用于对处理后的目标图像进行识别,得到所述目标图像的质量评分,从而根据质量评分评估处理后的目标图像是真实图像的概率。
[0133] 此外,为了提高得到的目标处理方式的合理性,在所述目标网络模型中,对至少一个指定神经网络层中提取的特征图的各图像通道进行加权处理;一种可能的实施方式为,
采用通道域的注意力机制对提取的特征进行调整。其中,所述指定神经网络层包括所述下
采样层和/或所述升采样层。
[0134] 一种可能的实施方式中,如图1中的4个下采样层、第一网络中的4个升采样层以及第二网络的4个升采样层中,每个采样层均为指定神经网络层,即进行了对提取的特征图的
图像通道的加权处理。一种可能的实施方式为,采用通道域的注意力机制对各采样层提取
的特征进行调整;例如,图1中每个采样层的右侧都连接有C2层(即通道域的注意力机制层)
所示,即每个下采样层和升采样层的右半部分实现的采用通道域的注意力机制的处理。
[0135] 参阅图2,为本公开实施例提供的一种通道域的注意力机制的结构示意图,其中,所述下采样层和所述升采样层提取的特征图包含多张子特征图分量,一张子特征图分量为
一个通道;其对指定神经网络层提取的特征图的各图像通道进行加权处理的步骤包括:
[0136] 步骤B1:对每张子特征图分别进行全局最大池化和全局平均池化,得到各通道的最大池化特征和各通道的平均池化特征。
[0137] 假设输入子特征图像的尺寸为C*H*W,其中C表示输入子特征图像的通道数量,H*W表示特征图像的长度和宽度。实施时,对所述多通道特征图分别进行全局最大池化,得到每
个通道上的最大值,从而得到C*1*1的最大池化特征;同理,对所述多通道特征图分别进行
全局平均池化,得到每个通道上的各像素点的平均值,从而得到C*1*1的平均池化特征。
[0138] 步骤B2:将得到所述各通道的最大池化特征后的特征图输入第一全连接网络,得到最大掩码;以及,将得到所述各通道的平均池化特征后的特征图输入第二全连接网络,得
到平均掩码。
[0139] 其中,所述第一全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;则实施时将所述多通道特征图输入第一全连接网络,得到最大掩码的过程,
包括以下步骤:
[0140] 步骤B21max:将得到所述各通道的最大池化特征后的特征图输入所述第一类全连接层,得到第一特征;
[0141] 步骤B22max:将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0142] 其中,为了减少计算开支,可将第二类全连接层的通道数设为少于输入通道数C的数值,例如设为输入通道数的一半,在该情况下也可实现对于最大掩码的获取。
[0143] 步骤B23max:将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0144] 步骤B24max:将所述第二特征输入所述激活层,得到所述最大掩码。假设采用ATmax表示,其生成过程如以下公式1确定:
[0145] ATmax=σ(FC1(MaxPool(Q))  公式1
[0146] 其中,Q表示输入子特征图像;MaxPool表示对输入子特征图像Q进行最大池化处理得到最大池化特征MaxPool(Q);FC1表示对最大池化特征通过第一全连接网络,σ表示对经
过第一全连接网络后的特征输入激活层,得到最后的最大掩码ATmax。
[0147] 同理,第二全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;则实施时将所述多通道特征图输入第二全连接网络,得到平均掩码,包括:
[0148] 步骤B21mean:将得到所述各通道的平均池化特征后的特征图输入所述第一类全连接层,得到第一特征;
[0149] 步骤B22mean:将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0150] 步骤B23mean:将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0151] 步骤B24mean:将所述第二特征输入所述激活层,得到所述平均掩码。假设采用ATmean表示,其生成过程如以下公式2确定:
[0152] ATmean=σ(FC2(AvgPool(Q))  公式2
[0153] 其中,Q表示输入子特征图像;AvgPool表示对输入子特征图像Q进行平均池化处理得到平均池化特征AvgPool(Q);FC2表示对平均池化特征通过第二全连接网络,σ表示对经
过第二全连接网络后的特征输入激活层,得到最后的平均掩码ATmean。
[0154] 步骤B3:利用所述最大掩码和所述平均掩码分别对所述指定神经网络层提取的特征图进行加权处理,得到与所述最大掩码对应的最大掩码特征图,以及与所述平均掩码对
应的平均掩码特征图。
[0155] 实施时,将得到的最大掩码与输入子特征图像进行融合处理,实施为逐像素相乘,得到最大掩码特征图;同理,将得到的平均掩码与输出特征图像进行融合处理,实施为逐像
素相乘,得到平均掩码特征图。
[0156] 步骤B4:将所述最大掩码特征图和所述平均掩码特征图进行融合处理后输出处理后的特征图。
[0157] 实施时,假设输入子特征图像为Q,则输出子特征图像 可根据以下公式3确定:
[0158]
[0159] 另一种可能的实施方式中,还可仅对下采样层,或者仅对升采样层中采用通道域的注意力机制实现对于提取的特征进行调整,本公开对于采用通道域的注意力机制的指定
神经网络层不限定。
[0160] 为了更直观地理解本公开提供的目标网络模型中第一网络和第二网络的结构,以下通过表1说明一种可实现的实施例:
[0161] 表1第一网络和第二网络
[0162]
[0163] 其中,DoubleConv表示两个紧密连接的卷积层,从而实现多次卷积处理得到卷积特征;I,O,K,P,S等是卷积层的参数,其中I(Input)代表特征图的输入通道维度,O(Output)
表示输出通道维度,K(Kernel)表示卷积核的大小,P(Padding)是特征图四周补全的长度,S
(Stride)是卷积核的步长。BN(BatchNorm)表示批归一化处理层。
[0164] 然后,在每个BN层后面使用LeakyReLu激活函数进行激活,并且实现将参数限制在(0,1);Attention表示本公开前述介绍的通道域的注意力机制,在LeakyReLu激活层后使
用,该实施例提供的是在全部的下采样层和下采样层均采用通道域的注意力机制的实施方
式。
[0165] 进一步的,以下通过表2介绍判别器网络的结构:
[0166] 表2判别器网络
[0167]层号 判别器
L1 Conv(I3,O16,K4,P1,S2),LeakyRelu
L2 Conv(I16,O32,K4,P1,S2),LeakyRelu
L3 Conv(I32,O64,K4,P1,S2),LeakyRelu
L4 Conv(I64,O128,K4,P1,S2),LeakyRelu
L5 Conv(I128,O128,K4,P1,S2),LeakvRelu
L6 FC(I1152,O512),LeakyRelu
L7 FC(I512,O256),LeakyRelu
L8 FC(I256,O1)
[0168] 其中,FC表示全连接层,在判别器末端加入3层全连接层,从而实现不断缩小参数的作用;如图1中的判别器104中的C4指向的三层全连接层。
[0169] 图像处理过程
[0170] 基于前述实施方式,在得到第一网络所采用的目标网络模型的训练过程后,参阅图3,为本公开实施例提供的一种基于强化学习的图像方法的流程示意图,包括:
[0171] 步骤301:对目标图像进行特征提取,得到所述目标图像的特征图。
[0172] 步骤302:将所述目标图像的特征图输入强化学习的第一网络,得到所述目标图像中各像素点的目标处理方式。
[0173] 其中,所述第一网络是基于强化学习的方法训练目标网络模型得到的,训练过程如前述记载的实施例,在此不再赘述。在所述目标网络模型中,对至少一个指定神经网络层
中提取的特征图的各图像通道进行加权处理。例如采用通道域的注意力机制对所述指定神
经网络层进行处理,其中,通道域的注意力机制已经结合图2在前述实施例中进行说明,在
此不再赘述。
[0174] 步骤303:根据所述目标处理方式处理所述目标图像。
[0175] 通过本公开提供的结合通道域的注意力机制训练的目标网络模型,对目标图像进行特征提取,使得本公开中提取的特征关注到了重要通道的特征信息;并且,本公开提供的
通道域的注意力机制在实施时,将对输入的子特征图像分别进行最大池化和平均池化后,
对应输入到两个独立的全连接网络进行处理,从而得到最大掩码和平均掩码,使得最大掩
码更好地关注到了细节特性信息,而平均掩码更关注全局的特征信息,从而使得将最大掩
码特征图和平均掩码特征图进行融合处理后得到的处理后的特征图,更合理的提取到了特
征信息,为图像处理打下了基础。
[0176] 此外,相关技术中,通道域的注意力机制的实施方式主要包括两种,一种是仅对输入特征图像通过全局平均池化,从而压缩每个通道的特征,但此种实施方式忽略了通道的
一些细节纹理特征;另一种虽然对输入特征图像进行了全局平均池化和最大池化,但其将
得到的最大值和平均值输入到同一个神经网络中进行特征提取和权重分配,这导致最大池
化特征和平均池化特征之间会产生相互的影响,从而不能全面的考虑到特征提取和权重分
配。然后本申请中通过对输入的子特征图分别进行全局最大池化和平均池化之后,分别将
其输入到两个不同的全脸层网络中,从而实现将得到的最大掩码特征图和平均掩码特征图
再进行融合处理的实施方式,较好地保留了最大掩码特征图和平均掩码特征的特性。
[0177] 基于此,参阅图4,为本公开实施例提供的一种图像处理方法的流程示意图,需要说明的是,其中的图像数据包含多张子图像数据,一张子图像数据为一个通道,包括:
[0178] 步骤401:对每张子图像数据分别进行全局最大池化和全局平均池化,得到各通道的最大池化特征和各通道的平均池化特征。
[0179] 步骤402:将得到所述各通道的最大池化特征后的图像数据输入第一全连接网络,得到最大掩码;以及,将得到所述各通道的平均池化特征后的图像数据输入第二全连接网
络,得到平均掩码。
[0180] 实施时,所述第一全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;所述将得到所述各通道的最大池化特征后的图像数据输入第一全连接网
络,得到最大掩码,包括:将得到所述各通道的最大池化特征后的图像数据输入所述第一类
全连接层,得到第一特征;将所述第一特征输入所述第二类全连接层进行特征聚合,得到特
征聚合后的第一特征;将所述特征聚合后的第一特征输入所述第三类全连接层进行上采
样,得到第二特征;将所述第二特征输入所述激活层,得到所述最大掩码。
[0181] 实施时,所述第二全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;所述将得到所述各通道的平均池化特征后的图像数据输入第二全连接网
络,得到平均掩码,包括:将得到所述各通道的平均池化特征后的图像数据输入所述第一类
全连接层,得到第一特征;将所述第一特征输入所述第二类全连接层进行特征聚合,得到特
征聚合后的第一特征;将所述特征聚合后的第一特征输入所述第三类全连接层进行上采
样,得到第二特征;将所述第二特征输入所述激活层,得到所述平均掩码。
[0182] 步骤403:利用所述最大掩码和所述平均掩码分别对所述图像数据进行加权处理,得到与所述最大掩码对应的最大掩码图像数据,以及与所述平均掩码对应的平均掩码图像
数据。
[0183] 步骤404:将所述最大掩码图像数据和所述平均掩码图像数据进行融合处理后输出处理后的图像数据。
[0184] 通过本公开提供的图像处理方法,通过将输入图像数据分别得到的最大池化特征和平均池化特征分别输入第一全连接网络和第二全连接网络中,使得到的最大掩码关注到
了细节等特征信息、而平均掩码关注到了全局特征信息,然后再进行融合处理时,由于已经
实现了基于最大池化特征和平均池化特征进行特征提取和权重分配,因此对于最大掩码特
征图和平均掩码特征图的融合处理过程中相互之间的特征提取和权重分配不会再产生过
大的影响,从而得到了更加全面、合理和准确的特征信息和权重分配。
[0185] 为了便于理解通过本公开中训练的目标网络模型后能够获得较高质量的图像,下面结合实验结果数据对此进行说明。
[0186] 消融实验
[0187] 为了验证本公开实现的结合通道域的注意力机制的必要性,设计了消融实验来证明本公开的目标网络模型的训练方法在强化学习方法中的有效性。消融实验的核心思想是
删除通道域的注意力机制的部分,分别进行采用和不采用通道域的注意力机制时进行实验
得出结论,类似控制变量法。
[0188] 验证通道域的注意力机制作用的消融实验是通过移出通道域的注意力机制来衡量得到的图像效果。验证通道域的注意力机制作用的消融实验由于去掉了判别器网络,所
以只使用2450张配对图像训练即可。使用100张测试数据集进行测试,其中效果展示如图5
所示,第一列是原始输入图像,第二列是去除通道域的注意力机制后的图像结果,第三列对
应本公开方法的图像结果。
[0189] 由图5可知,去除通道域的注意力机制的结果会导致有明显的边界伪影,这是由于特征提取不精确造成的,图中出现伪影的地方用虚线框已经标出,如(a)的树木边缘,(b)的
酒杯阴影边缘,和(c)的云朵边缘。而本公开方法得到的图像结果没有出现明显伪影,证明
通道域的注意力机制帮助本公开基于强化学习方法训练的目标网络模型实现了精确特征
的提取,从而使得通过第一网络得到的目标处理方式进行目标图像的处理更加合理。
[0190] 客观评价结果与分析
[0191] 虽然图像效果增强有很多研究工作,但是仍然没有建立一个全面、客观的评价体系,即无法使用一套标准评价体系全面衡量所有情况下图像的质量。目前大多数方法是使
用人类主观的视觉评价,但是评价结果往往受到个人审美、个人喜好等诸多主观因素影响,
可能出现不一致的评价。为了保证结果的客观性,本公开将客观评价和主观结合,更加全面
验证方法的有效性。
[0192] 目前主流的客观评价指标主要有3种:均方损失MSE,峰值信噪比(PSNR,Peak Signal To Noise Ratio)和结构相似度(SSIM,Structural Similarity Index)。这些评价
指标适用于配对图像,衡量方法为确定输出图像和目标图像的差距,常用于去噪、图像恢复
等领域。
[0193] MSE在深度学习中应用广泛,用来衡量特征之间的差异,和目标图像的MSE越小表示越接近目标。MSE运算简单有效,是常用的衡量指标,设结果图像为s,对应目标图像为
尺寸是m×n,MSE表达如下公式4所示。
[0194]
[0195] PSNR也是目前广泛使用的客观评价指标,定义是图像最大信号与背景噪声的比值,比值越大意味着图像质量越接近目标图像,由于PSNR中包含了MSE,通常使用PSNR作为
客观指标,如下公式5所示。
[0196]
[0197] SSIM指标衡量图像和目标的亮度、对比度和结构轮廓的相似度,SSIM指标越高说明和目标图像越相似,如下公式6所示。
[0198]
[0199] 其中x,y分别表示结果图像和目标图像,μx,μy表示结果图像和目标图像的像素值均值, 表示结果图像和目标图像的像素值方差,σxy表示两者的协方差,c1,c2是常
数,避免值波动。为了加速计算,每次SSIM是对固定尺寸窗口计算,然后滑动窗口得到多个
SSIM,最后取平均得到整张图像的SSIM。
[0200] 本公开使用PSNR和SSIM指标来衡量强化学习修饰后的图像和人类专家修饰图像之间的差异。表3展现了消融实验的PSNR和SSIM结果。最终版本的PSNR和SSIM指标都要好于
去除全局反馈信息的指标,再次从客观指标证明了全局反馈信息结合局部反馈信息的必要
性。
[0201] 表3客观指标PSNR和SSIM对比
[0202]
[0203] 基于相同的发明构思,本公开实施例还提供一种基于强化学习的图像处理装置,该装置的原理和有益效果与上述方法实施例中所述内容相似,在此不再赘述。
[0204] 如图6所示,为该装置的结构示意图,所述装置包括:特征提取模块601、目标处理方式获取模块602、目标图像处理模块603;
[0205] 特征提取模块601,被配置为执行对目标图像进行特征提取,得到所述目标图像的特征图;
[0206] 目标处理方式获取模块602,被配置为执行将所述目标图像的特征图输入强化学习的第一网络,得到所述目标图像中各像素点的目标处理方式;其中,所述第一网络是基于
强化学习的方法通过训练模块训练目标网络模型得到的;在所述目标网络模型中,对至少
一个指定神经网络层提取的特征图的各图像通道进行加权处理;
[0207] 目标图像处理模块603,被配置为执行根据所述目标处理方式处理所述目标图像。
[0208] 在一些实施例中,所述目标网络模型包括:用于下采样的下采样网络、所述第一网络、用于输出图像质量的期望累积反馈信息的第二网络以及判别器网络,所述下采样网络
中包括多个下采样层;
[0209] 所述第一网络和所述第二网络中分别包括多个升采样层;所述指定神经网络层包括所述下采样层和/或所述升采样层。
[0210] 在一些实施例中,所述下采样层和所述升采样层提取的特征图包含多张子特征图分量,一张子特征图分量为一个通道;
[0211] 所述目标处理方式获取模块602,被配置为执行对至少一个指定神经网络层提取的特征图的各图像通道进行加权处理时,具体执行:
[0212] 对每张子特征图分别进行全局最大池化和全局平均池化,得到各通道的最大池化特征和各通道的平均池化特征;
[0213] 将得到所述各通道的最大池化特征后的特征图输入第一全连接网络,得到最大掩码;以及,将得到所述各通道的平均池化特征后的特征图输入第二全连接网络,得到平均掩
码;
[0214] 利用所述最大掩码和所述平均掩码分别对所述指定神经网络层提取的特征图进行加权处理,得到与所述最大掩码对应的最大掩码特征图,以及与所述平均掩码对应的平
均掩码特征图;
[0215] 将所述最大掩码特征图和所述平均掩码特征图进行融合处理后输出处理后的特征图。
[0216] 在一些实施例中,所述第一全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;
[0217] 所述目标处理方式获取模块602,被配置为执行将得到所述各通道的最大池化特征后的特征图输入第一全连接网络,得到最大掩码时,具体执行:
[0218] 将得到所述各通道的最大池化特征后的特征图输入所述第一类全连接层,得到第一特征;
[0219] 将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0220] 将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0221] 将所述第二特征输入所述激活层,得到所述最大掩码。
[0222] 在一些实施例中,所述第二全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;
[0223] 所述目标处理方式获取模块602,被配置为执行将得到所述各通道的平均池化特征后的特征图输入第二全连接网络,得到平均掩码,具体执行:
[0224] 将得到所述各通道的平均池化特征后的特征图输入所述第一类全连接层,得到第一特征;
[0225] 将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0226] 将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0227] 将所述第二特征输入所述激活层,得到所述平均掩码。
[0228] 在一些实施例中,所述特征提取模块601,被配置为执行采用所述指定神经网络层提取特征图时,具体执行:
[0229] 对输入所述指定神经网络层的特征图依次进行多次卷积处理,得到卷积特征;
[0230] 对所述卷积特征进行批归一化处理,得到归一化特征;
[0231] 利用激活函数对所述归一化特征进行处理,得到激活特征。
[0232] 基于相同的发明构思,本公开实施例还提供一种图像处理装置,该装置的原理和有益效果与上述方法实施例中所述内容相似,在此不再赘述。
[0233] 如图7所示,为该装置的结构示意图,其中图像数据包含多张子图像数据,一张子图像数据为一个通道,所述装置包括:特征获取模块701、掩码获取模块702、子图像数据获
取模块703及融合模块704;
[0234] 特征获取模块701,被配置为执行对每张子图像数据分别进行全局最大池化和全局平均池化,得到各通道的最大池化特征和各通道的平均池化特征;
[0235] 掩码获取模块702,被配置为执行将得到所述各通道的最大池化特征后的图像数据输入第一全连接网络,得到最大掩码;以及,将得到所述各通道的平均池化特征后的图像
数据输入第二全连接网络,得到平均掩码;
[0236] 子图像数据获取模块703,被配置为执行利用所述最大掩码和所述平均掩码分别对所述图像数据进行加权处理,得到与所述最大掩码对应的最大掩码图像数据,以及与所
述平均掩码对应的平均掩码图像数据;
[0237] 融合模块704,被配置为执行将所述最大掩码图像数据和所述平均掩码图像数据进行融合处理后输出处理后的图像数据。
[0238] 在一些实施例中,所述第一全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;
[0239] 所述掩码获取模块702,被配置为执行将得到所述各通道的最大池化特征后的图像数据输入第一全连接网络,得到最大掩码时,具体执行:
[0240] 将得到所述各通道的最大池化特征后的图像数据输入所述第一类全连接层,得到第一特征;
[0241] 将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0242] 将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0243] 将所述第二特征输入所述激活层,得到所述最大掩码。
[0244] 在一些实施例中,所述第二全连接网络包括第一类全连接层、第二类全连接层、第三类全连接层以及激活层;
[0245] 所述掩码获取模块702,被配置为执行将得到所述各通道的平均池化特征后的图像数据输入第二全连接网络,得到平均掩码时,具体执行:
[0246] 将得到所述各通道的平均池化特征后的图像数据输入所述第一类全连接层,得到第一特征;
[0247] 将所述第一特征输入所述第二类全连接层进行特征聚合,得到特征聚合后的第一特征;
[0248] 将所述特征聚合后的第一特征输入所述第三类全连接层进行上采样,得到第二特征;
[0249] 将所述第二特征输入所述激活层,得到所述平均掩码。
[0250] 关于基于强化学习的图像处理装置以及图像处理装置中各操作的实施以及有益效果可参见前文方法中的描述,此处不再赘述。
[0251] 在介绍了本公开示例性实施方式的一种基于强化学习的图像处理和图像处理方法和装置之后,接下来,介绍根据本公开的另一示例性实施方式的电子设备。
[0252] 所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完
全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统
称为“电路”、“模块”或“系统”。
[0253] 在一些可能的实施方式中,根据本公开的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得
处理器执行本说明书上述描述的根据本公开各种示例性实施方式的基于强化学习的图像
处理和图像处理方法中的步骤。例如,处理器可以执行如图3或图4所示的步骤。
[0254] 下面参照图8来描述根据本公开的这种实施方式的电子设备130。图8显示的电子设备130仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0255] 如图8所示,电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于:上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括
存储器132和处理器131)的总线133。
[0256] 总线133表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
[0257] 存储器132可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1321和/或高速缓存存储器1322,还可以进一步包括只读存储器(ROM)1323。
[0258] 存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325,这样的程序模块1324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及
程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0259] 电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备130交互的设备通信,和/或与使得该电子设备
130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通
信。这种通信可以通过输入/输出(I/O)接口135进行。并且,电子设备130还可以通过网络适
配器136与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特
网)通信。如图所示,网络适配器136通过总线133与用于电子设备130的其它模块通信。应当
理解,尽管图中未示出,可以结合电子设备130使用其它硬件和/或软件模块,包括但不限
于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据
备份存储系统等。
[0260] 在一些可能的实施方式中,本公开提供的基于强化学习的图像处理和图像处理方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机
设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本公开各种示例
性实施方式的基于强化学习的图像处理和图像处理方法中的步骤,例如,计算机设备可以
执行如图3或图4所示的步骤。
[0261] 程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外
线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非
穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、
只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储
器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0262] 本公开的实施方式的用于基于强化学习的图像处理和图像处理的程序产品可以采用便携式紧凑盘只读存储器(CD‑ROM)并包括程序代码,并可以在电子设备上运行。然而,
本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有
形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0263] 可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信
号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可
读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者
与其结合使用的程序。
[0264] 可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
[0265] 可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程
式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子
设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备
上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电
子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网
(WAN)—连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供
商来通过因特网连接)。
[0266] 应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多
单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可
以进一步划分为由多个单元来具体化。
[0267] 此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的
结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个
步骤分解为多个步骤执行。
[0268] 本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产
品的形式。
[0269] 本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0270] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指
令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。
[0271] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
[0272] 尽管已描述了本公开的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优
选实施例以及落入本公开范围的所有变更和修改。
[0273] 显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围
之内,则本公开也意图包含这些改动和变型在内。