基于零样本学习的多聚焦图像融合方法转让专利

申请号 : CN202110644185.X

文献号 : CN113313663B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 江俊君胡星宇刘贤明马佳义

申请人 : 哈尔滨工业大学

摘要 :

本发明提出基于零样本学习的多聚焦图像融合方法,使用多聚焦图像融合网络结构IM‑Net将输入的多聚焦图像中包含的信息进行融合,IM‑Net包括两个联合的子网络I‑Net和M‑Net,I‑Net对融合图像的深度先验建模,M‑Net对聚焦图的深度先验建模,通过提取的先验信息实现零样本学习,对IM‑Net施加了重构约束,以确保可以将源图像对的信息更好地传输到融合图像,高层语义信息可保持相邻像素的亮度一致性,并且引导损失为IM‑Net查找清晰区域提供了指导信息,实验结果表明了本发明方法的有效性。

权利要求 :

1.基于零样本学习的多聚焦图像融合方法,其特征在于,使用多聚焦图像融合网络结构IM‑Net将输入的多聚焦图像中包含的信息进行融合,所述IM‑Net包括两个联合的基于U‑NET沙漏型结构网络的子网络I‑Net和M‑Net,所述I‑Net对融合图像的深度先验建模,M‑Net对聚焦图的深度先验建模,通过提取的先验信息实现零样本学习;

所述方法包括以下步骤;

步骤一:从均匀分布中随机采样两个输入噪声Zi和Zm,步骤二:输入噪声Zi通过子网络I‑Net获得估计融合图像Ifused,输入噪声Zm通过子网络M‑Net获得估计聚焦图Im;

源图像 估计焦点图

其中,M和N分别表示源图像的高度和宽度,C表示源图像通道数;

所述估计融合图像Ifused的计算公式为:Ifused=IA⊙Im+IB⊙(1‑Im)其中,⊙表示逐元素乘积,1表示一个M×N大小的全1矩阵;

步骤三:重建损失函数,保证所生成的图像信息全部来自源图像;

步骤四:使用引导损失来引导网络学习清晰的信息,使用感知损失来增强Ifused的视觉感知;计算总体损失函数;

使用引导损失来引导网络学习清晰的信息:其中Is是初始焦点图,根据源图像的梯度信息计算得出:和 分别表示I‑Net和M‑NetIs=sign(abs(IA‑lp(IA))‑min(Abs(IA‑lp(IA)),abs(IB‑lp(IB))))其中lp表示低通滤波;

使用感知损失来增强Ifused的视觉感知:其中 表示一个预训练好的ResNet101;

总体损失函数为:

其中,α为引导损失的权重,β为感知损失的权重;

步骤五:完成源图像到融合图像的传输。

2.根据权利要求1所述方法,其特征在于:根据融合图像Ifused的计算公式推到重建损失:。

说明书 :

基于零样本学习的多聚焦图像融合方法

技术领域

[0001] 本发明属于多聚焦图像融合,具体地,涉及基于零样本学习的多聚焦图像融合方法。

背景技术

[0002] 在成像系统中,由于景深(DOF)的限制,相机焦平面外的物体将变得模糊,难以获得全聚焦图像,这将导致成像质量的大幅下降。近年来,研究者们提出了多种多聚焦图像融合(MFIF)算法来解决这一问题。多聚焦图像融合算法可以融合同一场景中具有不同焦距的源图像的聚焦区域,以获得高质量的全聚焦图像,具有广泛的应用,包括数字摄影,显微成像和高级视觉任务或者只是为了获得更好的视觉感知。
[0003] 近年来,多聚焦图像融合问题取得了令人瞩目的进展。通常,多聚焦图像融合方法可分为三类:基于变换域的方法,基于空间域的方法和基于深度学习的方法。基于变换域的方法使用图像分解算法将原始图像转到变换域,这一步是为了实现区分清晰图片几何特征的更好的编码,然后融合变换后的图像,最后执行逆变换以获得融合后的图像。
[0004] 这些基于变换域的方法已被广泛使用,因为它们可以避免由直接操纵像素引起的伪影,但是由于对高频分量的敏感性,它们也易于引起图像的失真。通过估计二值聚焦图,然后基于获得的聚焦图对源图像进行加权求和的基于空间域的方法开始引起关注。它们可以进一步分为基于块的方法和基于像素的方法。基于块的算法计算以每个像素为中心的块的活性度量,因此比较耗时。由于具有提供更准确分类的潜力,基于像素的方法开始流行。
[0005] 这些传统的基于先验的方法将设计活性度量和融合规则作为主要任务,并提出了许多手工设计的基于底层特征的活性度量,例如,边缘信息或梯度信息的减少,像素强度或对比度的减少。但是,这些手工提取的特征无法准确地表示图像是否清晰对焦。许多基于深度学习的方法被提出来减轻对手工设计的先验的依赖(包括手工设计的图像分解方法或手工制作的特征),通过这些方法可以同时优化活性度量和融合规则以获得更好的结果。基于深度学习的MFIF方法可以进一步分为基于监督学习的方法和基于非监督学习的方法。
[0006] 这些使用人工合成数据集的基于监督学习的模型可能与真正的成像过程存在差异,真实的成像过程需要考虑点扩散函数(PSF)以及物体与镜头之间的距离,但是估计点扩散函数和深度都是非常不适定的问题。因此,无监督学习成为一种自然的解决方案。尽管一些基于深度学习的方法已经达到了最先进的(SOTA)性能,但是大多数方法都是在监督学习的框架下或使用大规模图像集进行训练的方式工作的。为了解决这一具有挑战性且较少被讨论的问题,开发了一种新型的深度神经网络,该网络可以在不受监督和未经训练的方式下工作,同时实现较好的性能。

发明内容

[0007] 本发明为了确保可以将源图像对的信息更好地传输到融合图像,避免耗时耗力的数据收集和模型泛化能力的问题,提出了基于零样本学习的多聚焦图像融合方法。
[0008] 本发明是通过以下方案实现的:
[0009] 基于零样本学习的多聚焦图像融合方法,
[0010] 使用多聚焦图像融合网络结构IM‑Net将输入的多聚焦图像中包含的信息进行融合,所述IM‑Net包括两个联合的子网络I‑Net和M‑Net,所述I‑Net对融合图像的深度先验建模,M‑Net对聚焦图的深度先验建模,通过提取的先验信息实现零样本学习;
[0011] 所述方法包括以下步骤;
[0012] 步骤一:从均匀分布中随机采样两个输入噪声Zi和Zm,
[0013] 步骤二:输入噪声Zi通过子网络I‑Net获得估计融合图像Ifused,输入噪声Zm通过子网络M‑Net获得估计聚焦图Im;
[0014] 步骤三:重建损失函数,保证所生成的图像信息全部来自源图像;
[0015] 步骤四:使用引导损失来引导网络学习清晰的信息,使用感知损失来增强Ifused的视觉感知;计算总体损失函数;
[0016] 步骤五:完成源图像到融合图像的传输。
[0017] 进一步地,
[0018] 源图像 估计焦点图
[0019] 其中,M和N分别表示源图像的高度和宽度,C表示源图像通道数;
[0020] 所述估计融合图像Ifused的计算公式为:
[0021] Ifused=IA⊙Im+IB⊙(1‑Im)
[0022]
[0023] 其中,⊙ ⊙表示逐元素乘积,11表示一个M×N大小的全1矩阵。
[0024] 进一步地,
[0025] 根据融合图像Ifused的计算公式推到重建损失:
[0026]
[0027] 其中, 和 分别表示I‑Net和M‑Net。
[0028] 进一步地,
[0029] 使用引导损失来引导网络学习清晰的信息:
[0030]
[0031] 其中Is是初始焦点图,根据源图像的梯度信息计算得出:
[0032] Is=sign(abs(IA‑lp(IA))‑min(abs(IA‑lp(IA)),abs(IB‑lp(IB))))[0033] 其中lp表示低通滤波;
[0034] 使用感知损失来增强Ifused的视觉感知:
[0035]
[0036] 其中 表示一个预训练好的ResNet101;
[0037] 总体损失函数为:
[0038]
[0039] 其中,α为引导损失的权重,β为感知损失的权重。
[0040] 本发明有益效果
[0041] (1)本发明的是最先实现零样本的多聚焦图像融合的方法之一,可以在没有监督信息和大规模图像集的条件下预测清晰的融合图像;
[0042] (2)本发明受DIP的启发,应用了两个生成网络来同时估计清晰融合图像和聚焦图的深度先验,结合了基于聚焦图估计的方法可以很好地保留源图像的信息的优点,以及基于融合图像生成的可以提供良好的视觉效果方法的优点;
[0043] (3)本发明避免耗时耗力的数据收集和模型泛化能力的问题,同时获得良好的结果
[0044] (4)本发明在实验中将本发明的方法与当前几种SOTAs方法进行比较,证明了IM‑Net的有效性。

附图说明

[0045] 图1为本发明的IM‑Net的总体结构,两个生成网络I‑Net和M‑Net结合起来同时估计融合图像Ifused和聚焦图Im;
[0046] 图2为本发明的方法与其他5个SOTA方法的主观结果对比;
[0047] 图3为本发明的方法与不使用引导损失和不使用感知损失的主观结果对比。

具体实施方式

[0048] 下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049] 因为未经训练的网络可以用作许多底层视觉任务的先验,而且无需任何训练数据,所以可以使用多聚焦图像融合网络IM‑Net,IM‑Net包括两个联合的子网络I‑Net和M‑Net,I‑Net对融合图像的深度先验建模,M‑Net对聚焦图的深度先验建模,通过提取的先验信息实现了零样本学习。
[0050] 图1示了方法的主要结构。
[0051] 首先分别从均匀分布中随机采样两个输入噪声Zi和Zm,然后通过两个基于U‑Net(U‑net:Convolutional networks for biomedical image segmentation)的沙漏型结构网络I‑Net和M‑Net以获得融合图像Ifused和估计聚焦图Im。
[0052] 基于零样本学习的多聚焦图像融合方法,
[0053] 使用多聚焦图像融合网络结构IM‑Net将输入的多聚焦图像中包含的信息进行融合,所述IM‑Net包括两个联合的子网络I‑Net和M‑Net,所述I‑Net对融合图像的深度先验建模,M‑Net对聚焦图的深度先验建模,通过提取的先验信息实现零样本学习;
[0054] 所述方法包括以下步骤;
[0055] 步骤一:从均匀分布中随机采样两个输入噪声Zi和Zm,
[0056] 步骤二:输入噪声Zi通过子网络I‑Net获得估计融合图像Ifused,输入噪声Zm通过子网络M‑Net获得估计聚焦图Im;
[0057] 步骤三:重建损失函数,保证所生成的图像信息全部来自源图像;
[0058] 步骤四:使用引导损失来引导网络学习清晰的信息,使用感知损失来增强Ifused的视觉感知;计算总体损失函数;
[0059] 步骤五:完成源图像到融合图像的传输。
[0060] 将多聚焦图像融合转换为由两个生成网络组成的零样本自监督学习形式,[0061] MFIF多聚焦图像融合可以看作是源图像 估计焦点图
[0062] 其中,M和N分别表示源图像的高度和宽度,C表示源图像通道数;
[0063] 所述估计融合图像Ifused的计算公式为:
[0064] Ifused=IA⊙Im+IB⊙(1‑Im)
[0065] s.t.0≤(Im)i,j≤1,
[0066] 其中,⊙表示逐元素乘积,1表示一个M×N大小的全1矩阵。
[0067] DIP使用随机初始化的深度网络来拟合单个图像,并将提取出来的特征作为图像的深度先验,但是缺少大规模数据集使得模型易于过度拟合,设计良好的沙漏型网络可以大大缓解此问题。U‑Net擅长提取低层和高层信息,因此DIP采用U‑Net作为其骨干。
[0068] 下采样模块和上采样模块之间的非对称设计可以有效地避免平凡解,即,Ifused看起来与IA或IB相同,Im看起来完全是白色或黑色,这会使算法难以优化。大量的BatchNorm层还可以使网络更好地拟合高频分量。提出的IM‑Net的网络体系结构如图1所示。
[0069] 由于没有监督信息可以指导像素到像素的生成,据融合图像Ifused的计算公式推到重建损失:
[0070]
[0071] 其中, 和 分别表示I‑Net和M‑Net。
[0072] 重建损失保证了所生成图像的信息全部来自源图像,从而避免了伪影的出现。
[0073] 同时,在高层语义信息的指导下,基于生成的方法可以消除由基于选择的融合策略引起的亮度不一致的噪声,尤其是在聚焦和失焦区域之间的边界区域中,像素很容易被错误分类。因此,本发明的法结合了基于聚焦图估计的方法和基于融合图像生成的方法的优点。
[0074] 但是,由于缺乏对I‑Net获得的信息是清晰还是模糊的约束,并且实验表明DIP倾向于选择模糊区域而不是清晰区域。
[0075] 使用引导损失来引导网络学习清晰的信息:
[0076]
[0077] 其中Is是初始焦点图,根据源图像的梯度信息计算得出:
[0078] Is=sign(abs(IA‑lp(IA))‑min(abs(IA‑lp(IA)),abs(IB‑lp(IB))))[0079] 其中lp表示低通滤波;
[0080] 使用感知损失来增强Ifused的视觉感知:
[0081]
[0082] 其中 表示一个预训练好的ResNet101;
[0083] 总体损失函数为:
[0084]
[0085] 其中,α为引导损失的权重,β为感知损失的权重。
[0086] 实现细节:
[0087] 所提出的算法是使用Pytorch框架实现的,所有实验均在配备有NVIDIARTX 1080Ti GPU的服务器上进行。学习率设置为0.01,α和β分别设置为20和0.05。值得注意的是,经过一定次数的迭代(比如,800,而迭代总次数为1500)后,将α设置为0,这主要是因为假设处于融合的早期,Is的指导信息可以使DIP找到清晰的区域,而在之后的阶段中,引导损失将限制I‑Net的进一步优化。
[0088] 由于在生成模型中,将KL散度最小化等效于在高斯条件下对L2范数进行优化,因此L2范数具有平滑的优化特性,更适合于图像分类任务。在实验中广泛使用L1范数,因为它可以更好地保留边缘信息。另外,在最后的700次迭代中,在重建损失中用SSIM替换了L1,这与人类的视觉系统更加吻合。
[0089]
[0090] 实验设置:
[0091] 数据集和指标:广泛使用的真实数据集Lytro被用来证明IM‑Net的有效性和泛化性。Lytro数据集包含20对多聚焦图像,大小为520×520像素。由于没有可用的监督信息,因此无法直接将结果与潜在的真实数据进行比较。因此,许多工作提出了多种指标来对MFIF进行客观评估。选择Qen,Qabf,Qscd,Qsd作为本发明的量化指标,原因如下。Qen计算Ifused的熵,可以表示保留的信息量。Qabf是一种新型的用于图像融合的客观非参考质量评估指标,使用局部特征来估计显著信息的保存度,获得的Qabf值越高,表示融合图像的质量越好。Qscd是差异相关性的总和,较高的Qscd值表示较少的伪信息。Qsd是反映高频信息保存的标准差。
[0092] 比较方法:在本发明的实验中,将提出的IM‑Net与几种SOTA方法进行了比较,包括DCTVar(Multi‑focus image fusion for visual sensor networks in DCT domain),DSIFT(Multi‑focus image fusion with dense SIFT),CNN(Multi‑focus image fusion with adeep convolutional neural network),MFF‑GAN(MFF‑GAN:An unsupervised generative adversarial network with adaptive and gradient joint constraints for multi‑focus image fusion)和SESF(SESF‑Fuse:An Unsupervised Deep Model for Multi‑Focus Image Fusion)。其中,DCTVar和DSIFT是传统方法,分别基于变换域和空间域。CNN是第一个基于监督学习的基于方法的方法,它是在由1,000,000对包含正例负例的16×16大小的图像块组成的合成数据集上训练的。MFF‑GAN是在真实数据集Lytro和不具有监督信息的合成数据集上训练的基于无监督学习图像生成的方法。SESF是使用预训练的自编码器的无监督方法。与这些工作相比,本发明的方法是无监督的和未经训练的(没有用于训练的图像数据集)。
[0093] 对比实验:
[0094] 主观结果:Lytro选择的四个具有代表性的源图像上六种不同多聚焦图像融合方法的主观结果。可以看到,在基于聚焦图估计的方法(包括DSIFT,CNN和SESF)的结果中,在聚焦‑失焦边界区域出现了伪影。另外,CNN和SESF使用许多后处理步骤来使聚焦图在边界区域上更平滑,而这是不准确的,并且可能导致某些场景变得模糊。至于DCTVar,它无法消除严重的块效应。MFF‑GAN可以很好地消除模糊,但由于GAN训练的不稳定性具有容易产生噪声和振铃效应的趋势。得益于可保持相邻像素之间一致性的体系结构设计以及可保留边缘和纹理信息的重建损失设计,本发明的方法可以获得更精确的结果和更好的视觉感知。
[0095]
[0096]
[0097] 表1本发明的方法与其他5种SOTA方法的客观比较,前两个最好的结果被标记为加粗
[0098] 客观结果:表1使用上述指标列出了不同融合方法的客观性能。对于Qabf,基于深度学习的方法比传统方法具有更好的性能。这是因为Qabf可以反映视觉感知,而基于深度学习的方法可以大大提高图像质量。对于Qen,Qscd和Qsd,本发明的方法可以提供与SOTA相当的结果。主观和客观结果都表明本发明的方法可以极大地保留纹理,边缘信息和图像质量。尽管没有训练数据(零样本学习),但本发明的方法仍能获得有竞争力的客观表现。
[0099] 消融分析为了证明引导损失和感知损失的有效性,进行了消融实验。图3显示了两个示例源图像对和相应的Is。图3显示,如果没有来自Is的指导信息,IM‑Net往往会生成完全模糊的融合图像,这当然是不想要的结果。认为出现这种情况的原因是DIP的降噪特性使的低频信息的建模比高频信息更容易。
[0100] 通过比较引导图像和没有使用感知损失得到的聚焦图,可以发现提出的引导损失仅在早期阶段起作用的策略,在获得更一致的焦点图方面起着重要作用。由于U‑Net结构提供的高层语义信息,无论是否存在指导信息,DIP生成的聚焦图都趋于更加集中,呈现块状。并且,如果进一步将聚焦图与使用感知损失和不适用感知损失进行比较,会发现感知损失也有助于保持聚焦图的完整性,同时改善了图像质量。
[0101] 以上对本发明所提出的基于零样本学习的多聚焦图像融合方法,进行了详细介绍,本文中应用了数值模拟算例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。