基于图像金字塔和生成对抗网络的图像压缩方法及系统转让专利
申请号 : CN202110182844.2
文献号 : CN112991169B
文献日 : 2022-05-03
发明人 : 梅红岩 , 于恒 , 耿耀港
申请人 : 辽宁工业大学
摘要 :
权利要求 :
1.一种基于图像金字塔和生成对抗网络的图像压缩方法,其特征在于,包括:图像压缩阶段,在图像金字塔的下采样金字塔中进行,采用至少两层下采样结构的图像压缩框架,在每层下采样结构中均采用双三次线性插值方法对输入该层的图像进行层级压缩;其中,所述下采样金字塔的不同层级结构相对独立且对应不同比例的图像压缩;
图像重构阶段,在与所述下采样金字塔相对应的上采样金字塔中进行,采用与所述下采样金字塔的层级结构相对应的图像重构框架对输入该层的图像进行层级重构;其中,所述上采样金字塔的不同层级结构相对独立且对应不同比例的图像重构;以及,通过设置在所述上采样金字塔的每层中的生成器进行图像重构;且,利用生成对抗网络对所述上采样金字塔中每层级的生成器进行训练,在每层上采样结构中的生成器是相互独立的,同时,所述生成对抗网络的深度随着图像尺寸的增大而提高,所述生成器的网络深度随着图像尺寸的增大而提高;并且,
在所述上采样金字塔中每层级均采用与所述层级的生成器相对应的鉴别器,所述鉴别器的输入包括真实图像和同层级的生成器生成的图像,所述鉴别器通过迭代式训练加强对真实图像的学习以鉴别同层级的生成器生成图像的质量。
2.如权利要求1所述的基于图像金字塔和生成对抗网络的图像压缩方法,其特征在于,还包括:
压缩图像编解码阶段,用于通过编码器对经所述图像压缩阶段压缩的图像进行编码处理,以及通过解码器对编码后的图像数据进行解码处理。
3.如权利要求2所述的基于图像金字塔和生成对抗网络的图像压缩方法,其特征在于,所述图像压缩阶段采用的图像压缩框架为三层下采样结构的图像压缩框架;和/或所述图像重构阶段采用的图像重构框架为与所述下采样结构相对应的三层上采样结构的图像重构框架。
4.一种基于图像金字塔和生成对抗网络的图像压缩系统,其特征在于,包括:图像压缩单元,设置在图像金字塔的下采样金字塔中,用于采用至少两层下采样结构的图像压缩框架,在每层下采样结构中均采用双三次线性插值方法对输入该层的图像进行层级压缩;其中,所述下采样金字塔的不同层级结构相对独立且对应不同比例的图像压缩;
图像重构单元,设置在图像金字塔的上采样金字塔中,用于采用与所述下采样金字塔的层级结构相对应的图像重构框架对输入该层的图像进行层级重构;其中,所述上采样金字塔的不同层级结构相对独立且对应不同比例的图像重构;
其中,所述图像重构单元包括生成器和生成对抗网络,所述生成器设置在所述上采样金字塔的每层中,用于进行图像重构;所述生成对抗网络用于对所述上采样金字塔中每层级的生成器进行训练,在每层上采样结构中的生成器是相互独立的,同时,所述生成对抗网络的深度随着图像尺寸的增大而提高,所述生成器的网络深度随着图像尺寸的增大而提高;并且,
在所述上采样金字塔中每层级均采用与所述层级的生成器相对应的鉴别器,所述鉴别器的输入包括真实图像和同层级的生成器生成的图像,所述鉴别器通过迭代式训练加强对真实图像的学习以鉴别同层级的生成器生成图像的质量。
5.如权利要求4所述的基于图像金字塔和生成对抗网络的图像压缩系统,其特征在于,还包括:
压缩图像编解码单元,设置在所述图像压缩单元和所述图像重构单元之间,用于通过编码器对经图像压缩阶段压缩的图像进行编码处理,以及通过解码器对编码后的图像数据进行解码处理。
说明书 :
基于图像金字塔和生成对抗网络的图像压缩方法及系统
技术领域
背景技术
挑战,同时人们对图像的清晰度也有了更高的要求。因此,对图像压缩的需求越来越高。
空间冗余。然而,并不是所有类型图像都适用于这种方案,单个块变换后的量化不可避免地
会产生块效应。与此同时,当大量的数据在传输带宽非常有限时,为了实现低比特率编码,
总是将参数分配给编解码器,从而导致严重的模糊和振铃效应,为了有效的提高图像压缩
效率以及得到更清晰的解码图像,诸多基于深度学习的图像压缩方法由此被提出。
卷积神经网络的图像压缩方法并进行多次改进,该方法采用广义分歧归一化函数并结合卷
积网络的特性,在当时取得了比肩JPEG2000的图像压缩效果,但该方法的时效性低,重构图
像仍有提升清晰度的空间;Toderici等人提出了基于循环神经网络的图像压缩方法,该方
法实现小尺寸图像在给定图像质量的情况下的以优异的压缩率得到清晰的重构图像,但由
于图像间的依赖关系不足导致这种图像压缩方法只能在小尺寸图像中得以应用;Rippel等
人提出的基于生成对抗网络的图像压缩方法,其实现效果不仅超过了传统图像压缩方法,
并且提高了时效性;Agustsson E等人提出的方法使用生成对抗网络并结合语义标签信息,
实现了超低码率下的重构图像。
与真实图像有时会存在些许偏差。
发明内容
层级压缩;其中,所述下采样金字塔的不同层级结构相对独立且对应不同比例的图像压缩;
中,所述上采样金字塔的不同层级结构相对独立且对应不同比例的图像重构。
进行层级压缩;其中,所述下采样金字塔的不同层级结构相对独立且对应不同比例的图像
压缩;
样金字塔的不同层级结构相对独立且对应不同比例的图像重构。
高重构图像的分辨率。本发明主要有一下三个特点:
图像的真实性;
然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明
旨在包括所有这些方面以及它们的等同物。
附图说明
具体实施方式
在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
金子塔结构、拉普拉斯金字塔结构、双金字塔结构。
的数据处理模型。相对于传统模型,GAN克服了对真实模型的依赖,但训练的不稳定性、生成
图像单一也是GAN应用的制约。GAN的巧妙设计在于生成器与鉴别器相互博弈的思想,该思
想很好的体现在了其损失函数中,其计算公式如下所示:
(D,G),将输入的真实数据与噪声生成数据的期望进行对比,实现对D的最大值优化。当D接
近最优解后,根据当KL散度的值越小,两者的概率分布更为相似这一定义,使噪声生成数据
的概率分布无线接近真实数据的噪声分布,从而对G进行了优化,所以当D逼近最优时其生
成器G也会无限接近最优。GANs的这一损失函数也导致了它训练缓慢,并且当真实数据的概
率分布和噪声生成数据的概率分布完全不同的情况下会发生梯度消失的情况,这也使其训
练不稳定。
内,会对其参数进行直接裁剪,将大量的参数限制在一个很小的区间内,这浪费了深层次网
络模型的实际性能,同时也容易引起梯度消失、梯度爆炸问题。在后续的改进中WGAN‑GP中
采用了梯度惩罚的手段来平滑训练梯度,其公式如下:
取得了进步。本发明在损失函数设计上也会借鉴WGAN‑GP的经验优化鉴别器和生成器。
进行层级压缩;其中,所述下采样金字塔的不同层级结构相对独立且对应不同比例的图像
压缩;图像重构阶段,在与所述下采样金字塔相对应的上采样金字塔中进行,采用与所述下
采样金字塔的层级结构相对应的图像重构框架对输入该层的图像进行层级重构;其中,所
述上采样金字塔的不同层级结构相对独立且对应不同比例的图像重构。
塔层数增加图像尺寸变小,图像分辨率逐层降低的下采样图像的集合,这一下采样金字塔
也作为图像压缩框架中的图像压缩部分。上采样金字塔则以下采样后的图像作为输入,随
着金字塔层数的增加图像的尺寸与分辨率也随之增大,这一部分也将作为图像压缩的图像
重构部分。在训练时,上采样金字塔和下采样金字塔在自己所在的层级依次进行,在实际应
用时,上采样金字塔和下采样金子塔分别置于解编码器的两端构成端到端的图像压缩框
架。
构阶段恢复图像即可。因此,在一个具体实施例中,基于图像金字塔和生成对抗网络的图像
压缩方法还包括压缩图像编解码阶段,用于通过编码器对经所述图像压缩阶段压缩的图像
进行编码处理,以及通过解码器对编码后的图像数据进行解码处理。
架为有损压缩框架,其主要由三个部分构成,分别为用于图像压缩的下采样结构和用于图
像重构的上采样结构,以及设置在者两部分之间的编码器和解码器。
的实施例)中,采用了三层结构的图像压缩框架,具体的,在下采样结构中R3、R2、R1分别表
示对原图像进行不同比例的压缩图像。具体来说,原始图像首先经下采样金字塔的第一层
进行压缩处理得到第一比例的压缩图像R3,然后该第一比例的压缩图像R3再经下采样金字
塔的第二层进行压缩处理得到第二比例的压缩图像R2,最后第二比例的压缩图像R2再经下
采样金字塔的第三层进行压缩处理得到第三比例的压缩图像R1,R3、R2、R1的压缩比例逐级
递增。
后根据提取的图像特征进行图像压缩。
解码器复原的图像输入其对应的图像金字塔层中,通过该层中训练好的生成器G1、G2、G3,
得到的重构图像,以尽可能恢复到其上采样之前的图像效果,进而达到提升图像分辨率的
目的,图2中所示的F1、F2、F3分别表示重构图像。
经上采样金字塔的第二层进行重构处理得到第三比例的重构图像F3,最后第三比例的重构
图像F3再经上采样金字塔的第三层进行重构处理得到最终的重构图像,F1、F2、F3的恢复比
例逐级递增。
GAN,D CGAN)的鉴别器设计方法,在生成器上采用了残差网络结构。由于本发明采用的是基
于图像金字塔的对抗结构,因此,在每层上采样结构中的生成器都是相互独立的,同时,为
了提高压缩方法的时效性,在生成对抗网络结构的设计上,生成对抗网络的深度随着图像
尺寸的增大而提高,相应生成器的网络深度也随着图像尺寸的增大而提高。图4和图5分别
为根据本发明实施例的生成器和鉴别器的结构示意图。
存在的网络残差块的个数,在输出部分也均由卷积组成不存在全连接层。
LeakyRelu没有展示,是由于每个卷积操作后都添加一个BN层以及LeakyRelu激活函数。根
据不同层的金字塔结构,鉴别器运算的层数也不同。如在第一层时只需要训练到n=256时,
就可以直接进行最后一步卷积;在第二层训练时,经过n=256之后继续向前运算到n=512
后,才会进行最后一步卷积;第三层也是同样,经过第一层和第二层后才会进行最后的卷积
运算。
器的训练与该层金字塔结构的生成器形成一对,一同训练。
的学习用于更好的鉴别生成器生成图像的质量,生成器的图像以从解码端的低分辨率图像
作为输入生成高分辨率图像。
表示真实数据与生成数据的随机插值取样,其分布即为
i层金字塔结构中的真实图像,G(Fi)表示第i层金字塔结构中生成器G(.)生成的重构图像。
lgen则由鉴别器计算的值,故生成器的损失如公式(7)所示:
图6示出了根据本发明实施例的多层级图像金字塔的结构中一层的生成对抗网络的主要训
练流程,其它两层图像金字塔的对抗网络训练流程与其相同。如图6所示,真实图像代表该
层金字塔的原图像,重构图像代表该层金字塔结构的下采样图像,下采样图像的尺寸要比
真实图像更小同时分辨率也低于真实图像,将重构图像输入生成器后等到的图像与真实图
像尺寸相同且恢复了大量真实图像的细节纹理特征,这幅图像同时输入到鉴别器中,根据
损失函数设置,不断优化生成器,直到达到要求的训练次数为止。
出,在16倍压缩比的压缩实验中,本发明与采用变换技术的图像压缩方法和采用机器学习
方法的重构图像相比都有较高的清晰度,并且更加贴近原图像。从整体上看,本发明和PCA
方法在要比SVD和DTC更加清晰,SVD和DTC在视觉上存在明显的模糊感;从纹理上来看,本发
明所提出的方法在图像中交互的地方有更加清晰的线条。与不加入生成器只采用双三次线
性插值采样方法相比,加入生成器的重构图像还原了大部分的图像信息,不仅图像更为清
晰,且基本的重构了图像纹理特征。
SSIM的值分别如表1和表2所示,压缩比为64:1时PSNR和SSIM的值分别如表3和表4所示。
的PSNR值平均分别高1.96Db、2.54Db、1.51Db左右;SSIM值平均高于DTC、SVD和PCA的0.053、
0.024、0.096,这说明本发明的方法放在在16:1的情况下略优于其他方法,在图像的清晰度
和纹理细节方面更为优异,但与PCA相比相差不多,在放大图像上看PCA方法和本发明的方
法均有较为清晰的分辨率,PCA的图像更为清晰,本发明的方法纹理上较为明显。与只采用
bicubic相比,PSNR和SSIM分别高出了6.32Db和0.291,由此可见本发明引入的生成器结构
对图像的提升是有效的。
0.122,由此可见在一定的压缩比例范围内,随着压缩比增大,本发明de方法与DTC、PCA、SVD
这三种方法的数值相差也随之变大,这说明在高压缩比的情况下本发明对于重构图像的清
晰度以及细节纹理方面更有优势。使用bicubic进行下采样时会损失一定的图像信息,此时
bicubic的PSNR和SSIM的平均值只有20.18Db和0.408,而本发明的平均值则有28.28Db和
0.784,因此本发明还是恢复了一定的图像特征信息。
于机器学习的算法相比有一定的提升,因此,本发明无论是从性能的角度还是未来发展的
角度来看都是具有一定的应用前景。
也可以采用硬件实现,或者采用软件和硬件组合的方式实现。
缩单元710和图像重构单元730。其中,优选的方案时,基于图像金字塔和生成对抗网络的图
像压缩系统700还可以包括压缩图像编解码单元720。
该层的图像进行层级压缩;其中,所述下采样金字塔的不同层级结构相对独立且对应不同
比例的图像压缩;
的图像数据进行解码处理;
采样金字塔的不同层级结构相对独立且对应不同比例的图像重构。
构中的生成器都是相互独立的,同时,所述生成器的网络深度随着图像尺寸的增大而提高。
抗网络的图像压缩程序12。
施例中可以是电子设备1的内部存储单元,在另一些实施例中也可以是电子设备1的外部存
储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基
于图像金字塔和生成对抗网络的图像压缩程序的代码等,还可以用于暂时地存储已经输出
或者将要输出的数据。
Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存
储器11内的程序或者模块(例如会议系统语音数据采集程序等),以及调用存储在所述存储
器11内的数据,以执行电子设备1的各种功能和处理数据。所述总线被设置为实现所述存储
器11以及至少一个处理器10等之间的连接通信。
部件,或者不同的部件布置。
述的基于图像金字塔和生成对抗网络的图像压缩方法。具体的,作为示例,存储器11中存储
的基于图像金字塔和生成对抗网络的图像压缩程序12是多个指令的组合,在所述处理器10
中运行时,可以实现:
压缩;其中,所述下采样金字塔的不同层级结构相对独立且对应不同比例的图像压缩;
述上采样金字塔的不同层级结构相对独立且对应不同比例的图像重构。
技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。