基于视觉显著性先验知识的多聚焦图像融合方法转让专利

申请号 : CN202310008956.5

文献号 : CN115965844B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 于爽王泽宇王忠杰战永泽胡睿晗刘明义

申请人 : 哈尔滨工业大学

摘要 :

本发明公开了基于视觉显著性先验知识的多聚焦图像融合方法,包括以下步骤:获取显著性目标检测任务的数据集和自然图像的数据集,并基于所述自然图像的数据集,获取带有伪标签的伪多焦距图像;构建基于等距域变换的空域注意力模块和通道域注意力模块,并结合双分支结构网络构建基于视觉显著性先验融合模型;将所述显著性目标检测任务的数据集作为所述基于视觉显著性先验融合模型的预训练任务的输入,获得基于视觉显著性先验融合模型的预训练权重;通过所述带有伪标签的伪多焦距图像继续对所述基于视觉显著性先验融合模型进行下游任务的训练,获得融合图像。本发明采用显著性目标检测减少了预训练任务目标域与多聚焦图像融合任务目标域之间的差异。

权利要求 :

1.基于视觉显著性先验知识的多聚焦图像融合方法,其特征在于,包括以下步骤:

获取显著性目标检测任务的数据集和自然图像的数据集,并基于所述自然图像的数据集,获取带有伪标签的伪多焦距图像,具体包括:在全黑的掩模图像上生成具有低度和高度随机化的白色区域;在掩模的对照下,使用高斯滤波器分别处理自然图像上的黑色和白色区域,获得所述带有伪标签的伪多焦距图像;

构建基于等距域变换的空域注意力模块和通道域注意力模块,并结合双分支结构网络构建基于视觉显著性先验融合模型;构建所述基于等距域变换的空域注意力模块和通道域注意力模块包括:基于边缘保留理论和等势压缩理论进行等距域变换;基于等距域变换设计空域注意力模块和通道域注意力模块,获取所述基于等距域变换的空域注意力模块和通道域注意力模块;其中,所述基于等距域变换的通道域注意力模块用于改变特征图中不同通道的权重,获得通道域注意力图;所述基于等距域变换的空域注意力模块用于对边缘图中每个像素进行权重分配;

基于所述显著性目标检测任务的数据集对所述基于视觉显著性先验融合模型进行预训练,获得基于视觉显著性先验融合模型的预训练权重;通过所述带有伪标签的伪多焦距图像继续对所述基于视觉显著性先验融合模型进行下游任务的训练,获得融合图像。

2.如权利要求1所述的基于视觉显著性先验知识的多聚焦图像融合方法,其特征在于,基于边缘保留理论和等势压缩理论进行等距域变换的过程包括:d d

J[n]=(1‑a)I[n]+aJ[n‑1],

其中,{pi|i=1,2,...,n}∈ψ表示n个采样点;Ψ是非负实数的集合;S表示1D信号;c表示通道数量;j∈{1,2,...,c}表示第j个通道;τs是特征图中像素维度的标准偏差;τr是特征图中通道维度标准差的平均值;D(pi)表示pi处的等势域值;a∈[0,1]是反馈系数;d=D(pi)‑D(pi‑1)是指源图像中最近邻像素之间的距离;n指第n个采样点;I指输入特征图。

3.如权利要求1所述的基于视觉显著性先验知识的多聚焦图像融合方法,其特征在于,基于等距域变换设计所述空域注意力模块过程包括:将等距域变换引入所述空域注意力模块的上分支,对输入到所述空域注意力模块的特征图进行变换;

在所述空域注意力模块的下分支中,对输入到所述空域注意力模块下分支中的特征图执行卷积,并将卷积后的输出与所述空域注意力模块上分支中域变换的输出进行点积运算,获得输入特征图的每个空间位置的权重;

将所述空域注意力模块中输入特征图每个空间位置的权重与输入特征图进行点积运算,得到空间加权特征图。

4.如权利要求1所述的基于视觉显著性先验知识的多聚焦图像融合方法,其特征在于,基于等距域变换设计所述通道域注意力模块过程包括:将等距域变换引入所述通道域注意力模块的上分支,对输入到所述通道域注意力模块的特征图进行变换;

在所述通道域注意力模块的上分支中,对等距域变换的输出执行通道自适应池采样;

在所述通道域注意力模块的下分支中,对输入到所述通道域注意力模块的特征图执行卷积,并对卷积后的输出执行通道自适应池采样;

对所述通道域注意力模块上分支和下分支中分别通过自适应池采样获得的两个输出进行软级联,并将软级联的输出依次输入到两个全连接层中,得到输入特征图的每个通道的权重,并将所述权重与输入特征图的每个通道对应相乘,获得通道加权特征图。

5.如权利要求1所述的基于视觉显著性先验知识的多聚焦图像融合方法,其特征在于,基于等距域变换的空域注意力模块和通道域注意力模块结合双分支结构网络构建基于视觉显著性先验融合模型的方法包括:所述双分支结构网络分为两条路径,每条路径是对称的,操作相同且同步,将两张所述带有伪标签的伪多焦距图像分别输入两条路径中,所述双分支结构网络包含一个孪生编码器和一个孪生解码器,所述孪生编码器用于提取所述带有伪标签的伪多焦距图像的特征,所述孪生编码器包含四个卷积块,每个卷积块包括两个3*3的卷积层,填充和步长分别为1和1,两个BN,一个ReLU和一个2*2的最大池化层;所述四个卷积块中前两个卷积块在每个最大池化层之前嵌入所述空域注意力模块,所述四个卷积块中后两个卷积块在每个最大池化层之前嵌入所述通道域注意力模块;所述孪生解码器也包含四个卷积块,每个块由一个3*3的反卷积层、两个3*3的卷积层、两个批量归一化层和一个ReLU组成,对两条路径各自提取的所述带有伪标签的伪多焦距图像的特征,通过通道间级联和卷积核为1*1、步长为1的卷积运算进行融合特征构建所述基于视觉显著性先验融合模型。

6.如权利要求1所述的基于视觉显著性先验知识的多聚焦图像融合方法,其特征在于,通过所述带有伪标签的伪多焦距图像继续对所述基于视觉显著性先验融合模型进行下游任务的训练,获得融合图像的方法包括:基于所述带有伪标签的伪多焦距图像继续对所述基于视觉显著性先验融合模型进行epoch为2的下游任务的训练,获取决策图,基于所述决策图进行像素选择获得融合图像。

说明书 :

基于视觉显著性先验知识的多聚焦图像融合方法

技术领域

[0001] 本发明属于多焦距图像融合技术领域,尤其涉及基于视觉显著性先验知识的多聚焦图像融合方法。

背景技术

[0002] 现有的多聚焦图像融合算法大致可分为三类:基于变换域的算法、基于空域的算法和基于深度学习的算法。对于基于变换域的算法,缺点是空间连续性差。虽然基于空间域的算法可以避免这一问题,但决策图的生成通常依赖于滑动窗口,从而产生块效应。最近,由于强大的特征提取能力,各种深度学习技术已被用于处理多聚焦图像融合任务。然而,基于深度学习的融合方法在多聚焦图像融合领域仍面临一些挑战。第一,多聚焦图像融合模型的一个被忽视的问题是预训练任务的缺失或不适当。常用的预训练任务,如自然图像的编码和解码以及图像语义分割,对图像景深和散景效应不敏感,无法满足多聚焦图像融合任务的特点。第二,由于网络训练中没有足够的具有真实掩模的数据集,许多研究人员总是根据相应的手工掩模对自然图像进行区域滤波。尽管如此,这种一张一张伪造源图像的方法总是受到掩模数量的限制,并且该方法对于没有标签的自然图像无能为力。第三,多聚焦图像融合的关键问题是生成决策图,但从当前网络获得的决策图中的边缘通常不够精确。

发明内容

[0003] 本发明的目的在于提出基于视觉显著性先验知识的多聚焦图像融合方法,采用迁移学习的方式,选择显著性目标检测任务作为预训练任务来辅助多聚焦图像融合任务的学习,显著性目标检测的选择有效解决了多聚焦图像融合中图像景深和散景效应不敏感的问题;采用随机化生成方法,在有限的自然图像上生成大规模带有伪标签的训练集;提出了两个基于域变换的注意力模块,以迫使网络关注有效的边缘信息,从而优化决策图的边界;通过带有伪标签的伪多焦距图像继续对基于视觉显著性先验融合模型进行下游任务的训练,获得融合图像。
[0004] 为实现上述目的,本发明提供了基于视觉显著性先验知识的多聚焦图像融合方法,包括以下步骤:
[0005] 获取显著性目标检测任务的数据集和自然图像的数据集,并基于所述自然图像的数据集,获取带有伪标签的伪多焦距图像;
[0006] 构建基于等距域变换的空域注意力模块和通道域注意力模块,并结合双分支结构网络构建基于视觉显著性先验融合模型;
[0007] 基于所述显著性目标检测任务的数据集对所述基于视觉显著性先验融合模型进行预训练,获得基于视觉显著性先验融合模型的预训练权重;通过所述带有伪标签的伪多焦距图像继续对所述基于视觉显著性先验融合模型进行下游任务的训练,获得融合图像。
[0008] 可选的,基于所述自然图像的数据集,获取带有伪标签的伪多焦距图像的过程中采用随机生成方法,具体包括:
[0009] 在全黑的掩模图像上生成具有低度和高度随机化的白色区域;
[0010] 在掩模的对照下,使用高斯滤波器分别处理自然图像上的黑色和白色区域,获得所述带有伪标签的伪多焦距图像。
[0011] 可选的,构建所述基于等距域变换的空域注意力模块和通道域注意力模块包括:
[0012] 基于边缘保留理论和等势压缩理论进行等距域变换;
[0013] 基于等距域变换设计空域注意力模块和通道域注意力模块,获取所述基于等距域变换的空域注意力模块和通道域注意力模块;
[0014] 其中,所述基于等距域变换的通道域注意力模块用于改变特征图中不同通道的权重,获得通道域注意力图;
[0015] 所述基于等距域变换的空域注意力模块用于对边缘图中每个像素进行权重分配。
[0016] 可选的,基于边缘保留理论和等势压缩理论进行等距域变换的过程包括:
[0017]
[0018] J[n]=(1‑ad)I[n]+adJ[n‑1],
[0019] 其中,{pi|i=1,2,...,n}∈ψ表示n个采样点;Ψ是非负实数的集合;S表示1D信号;c表示通道数量;j∈{1,2,...,c}表示第j个通道;τs是特征图中像素维度的标准偏差;τr是特征图中通道维度标准差的平均值;D(pi)表示pi处的等势域值;a∈[0,1]是反馈系数;d=D(pi)‑D(pi‑1)是指源图像中最近邻像素之间的距离;n指第n个采样点;I指输入特征图。
[0020] 可选的,基于等距域变换设计空域注意力模块和通道域注意力模块的设计过程包括:
[0021] 将等距域变换分别引入所述通道域注意力模块和所述空域注意力模块的上分支;
[0022] 在所述通道域注意力模块中,对等距域变换的输出执行通道自适应池采样;
[0023] 对输入到所述通道域注意力模块下分支中的特征图执行卷积,并对卷积后的输出执行通道自适应池采样;
[0024] 对所述通道域注意力模块上分支和下分支中分别通过自适应池采样获得的两个输出进行软级联,并将软级联的输出依次输入到两个全连接层中,得到输入特征图的每个通道的权重;
[0025] 对输入到所述空域注意力模块下分支中的特征图执行卷积,并将卷积后的输出与所述空域注意力模块上分支中域变换的输出进行点积运算,得到输入特征图的每个空间位置的权重。
[0026] 可选的,所述基于视觉显著性先验融合模型包括:一个权重共享的孪生编码器、一个权重共享的孪生解码器和一个特征差异放大模块;所述孪生编码器用于提取输入源图像的特征,所述孪生解码器用于恢复丢失的边缘信息,所述特征差异放大模块用于放大所述双分支结构网络中相同位置上所述空域注意力模块和所述通道域注意力模块的输出的差异信息。
[0027] 可选的,所述孪生编码器包含四个卷积块,每个卷积块包括两个3*3的卷积层,填充和步长分别为1和1,两个BN,一个ReLU和一个2*2的最大池化层;所述四个卷积块中前两个卷积块在每个最大池化层之前嵌入所述空域注意力模块,所述四个卷积块中后两个卷积块在每个最大池化层之前嵌入所述通道域注意力模块。
[0028] 可选的,所述孪生解码器包括四个卷积块,每个卷积块由一个反卷积层、两个卷积层、一个BN和一个ReLU层组成。
[0029] 可选的,通过所述带有伪标签的伪多焦距图像继续对所述基于视觉显著性先验融合模型进行下游任务的训练,获得融合图像的方法包括:
[0030] 基于所述带有伪标签的伪多焦距图像继续对所述基于视觉显著性先验融合模型进行epoch为2的下游任务的训练,获得融合图像。
[0031] 本发明技术效果:本发明公开了基于视觉显著性先验知识的多聚焦图像融合方法,一方面,选择显著性目标检测作为预训练任务,它提供从先验知识中转移的知识。显著性目标检测不仅有助于网络建立对象的概念,而且大大减少了预训练任务的目标域与多聚焦图像融合任务目标域之间的差异。另一方面,鉴于缺乏可支撑网络训练的真实多聚焦图像融合训练集,使用随机化生成方法生成训练集,并在下游任务中使用伪标签来训练并更新网络参数。生成的伪标签迫使网络关注清晰度之间的差异。此外,本发明提出了两个基于边缘保留和等势压缩理论的空域和通道域注意力模块。大量对比实验和消融实验表明,本发明提出的融合模型,在不使用任何真实多聚焦图像融合训练集的前提下,其性能已经优于最新的模型。

附图说明

[0032] 构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0033] 图1为本发明实施例基于视觉显著性先验知识的多聚焦图像融合方法的流程示意图;
[0034] 图2为本发明实施例基于视觉显著性先验融合模型结构图;
[0035] 图3为本发明实施例验证实验流程图。

具体实施方式

[0036] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0037] 需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0038] 实施例一
[0039] 如图1‑2所示,本实施例中提供基于视觉显著性先验知识的多聚焦图像融合方法,包括以下步骤:
[0040] 获取显著性目标检测任务的数据集和自然图像的数据集,并基于所述自然图像的数据集,获取带有伪标签的伪多焦距图像;
[0041] 构建基于等距域变换的空域注意力模块和通道域注意力模块,并结合双分支结构网络构建基于视觉显著性先验融合模型;
[0042] 基于所述显著性目标检测任务的数据集对所述基于视觉显著性先验融合模型进行预训练,获得基于视觉显著性先验融合模型的预训练权重;通过所述带有伪标签的伪多焦距图像继续对所述基于视觉显著性先验融合模型进行下游任务的训练,获得融合图像。
[0043] 步骤一、应用显著性目标检测任务作为多聚焦图像融合的预训练任务;根据成像原理,总结了满足日常生活拍照场景的视觉显著性先验知识,并总结出多聚焦图像融合的两个基本关系:聚焦对象与背景之间的关系和图像清晰与模糊之间的关系。为了便于网络学习第一种关系,本发明在迁移学习框架下,使用显著性目标检测任务作为预训练任务来辅助多聚焦图像融合任务的学习。
[0044] 步骤二、采用随机化生成方法生成大量带有伪标签的多焦距图像训练集。鉴于缺乏可支撑网络训练的真实多聚焦图像融合数据集,本发明设计了一种随机化生成方法,从有限的无标签自然图像中获得大量带有伪标签的训练集。本发明旨在多聚焦图像融合下游任务中学习步骤一中总结出的多聚焦图像融合的第二个基本关系(图像清晰vs模糊)。由于通过该方法生成的训练集中对应的目标域与测试集(即真实多聚焦图像融合数据集)对应的目标域高度相似,所以在下游任务中使用伪造的训练集来调节网络权重。
[0045] 步骤三、设计基于等距域变换的空域注意力模块和通道域注意力模块。为了关注聚焦区域以产生更准确的决策图,本发明旨在从空间和通道的角度为特征图中的像素分配不同的权重。而边缘特征通常是聚焦区域和散焦区域之间的关键差异,因此边缘信息识别的越好,聚焦区域信息保留的越好。考虑到神经网络中的特征图位于不同的特征空间中,并且具有大量干扰信息(如伪影等),本发明提出了基于边缘保留理论和等势压缩理论的等距域变换,可以快速地将特征图统一映射到相同的特征空间中,从而有利于后续空域和通道域权重的分配。而空域注意力模块和通道域注意力模块是基于等距域变换设计的,用于关注显著和有用的边缘信息。
[0046] 步骤四、将步骤三设计的注意力模块引入到提出的双分支网络结构中构建基于视觉显著性先验的融合模型,网络被分成两条路径,分别对应于两张源图像IA和IB。它包含一个权重共享的孪生编码器和一个权重共享的孪生解码器,以及一个特征差异放大模块。通道域注意力模块和空域注意力模块插入到孪生编码器中。
[0047] 步骤五、根据步骤二中所提出的随机化生成方法从自然图像集中生成10000个带有伪标签的伪多焦距图像对,组成多聚焦图像融合训练集。加载根据步骤一中预训练后的基于视觉显著性先验的融合模型的权重,然后再进行epoch为2的下游融合任务的训练,在训练完成后得到最终的融合图像。
[0048] 进一步优化方案,所述步骤一中应用显著性目标检测任务作为预训练任务,根据成像原理,总结了满足日常生活拍照场景的视觉显著性先验知识,并总结出多聚焦图像融合的两个基本关系:聚焦对象与背景之间的关系和图像清晰与模糊之间的关系。为了便于网络学习第一种关系,本发明在迁移学习框架下,使用显著性目标检测任务作为预训练任务来辅助多聚焦图像融合任务的学习。具体是在预训练任务中,从显著性目标检测数据集(DUTS‑Train)中选择10000个图像对来构建预训练时的训练集,即,为了满足模型中孪生网络的需要,根据掩模对自然图像进行区域滤波,生成一对图像。该操作没有改变任何显著性信息和任何掩码,因此网络学习仍然可以视为执行显著性目标检测任务。在数据预处理时将这些训练图像中的每一幅都裁剪成大小为95×95的大小的图片后输入到网络中间训练2个epoch后保留相应训练权重便于后续加载权重进行再训练。具体分析应用显著性目标检测作为预训练任务的原因如下:1.显著性目标检测任务和多聚焦图像融合任务都对景深和散景效应的变化敏感。2.显著性目标检测训练集中存在真实的散景效应,有利于网络学习和识别真实的散景特征。3.作为一个备受关注的领域,显著性目标检测中有许多手工制作的训练集。多聚焦图像融合任务则相反。因此,显著性目标检测有利于网络减轻对伪造多聚焦图像融合训练集的依赖。4.两个任务的输出都是二进制图像,分别称为显著性检测图和决策图。显著性检测图反映聚焦对象,而决策图反映聚焦区域。
[0049] 进一步优化方案,所述步骤二中采用随机化生成方法生成大量带有伪标签的多焦距图像训练集。由于缺乏可支撑网络训练的真实多聚焦图像融合数据集,本发明设计了一种随机化生成方法,从有限的无标签自然图像中获得大量带有伪标签的训练集。本发明旨在多聚焦图像融合下游任务中学习步骤一中总结出的多聚焦图像融合的第二个基本关系(图像清晰vs模糊)。由于通过该方法生成的训练集中对应的目标域与测试集(即真实多聚焦图像融合数据集)对应的目标域高度相似,所以在下游任务中使用伪造的训练集来调节网络权重。
[0050] 具体来说,本发明首先在全黑的掩模图像上生成具有低度和高度随机化的白色区域。“低度随机化”方案指的是随机化位置、大小和面积。该方案中有五种固定形状,包括正方形、矩形、三角形、菱形和六边形。“高度随机化”包含“低度随机化”以外的区域(形状)随机化。“高度随机化”与“低度随机化”的区别在于区域的额外随机形状。
[0051] 然后,在掩模的对照下,使用高斯滤波器分别处理自然图像上的黑色和白色区域,以获得伪多焦距图像对。这些带有随机化白色区域的掩模图像被视为伪标签,并且伪图像对在训练阶段用作源图像。另外,掩模中的随机白色区域是不规则的。这种不规则性迫使网络对清晰度更加敏感。该方法的一个显著优点是能够为小图像数据集随机生成无限数量的掩模,从而形成无限数量的多焦距图像对。通过这种方式,多聚焦图像融合训练集的缺乏得到了很大程度的缓解。
[0052] 进一步优化方案,所述步骤三中设计基于等距域变换的通道域注意力模块与空域注意力模块。基于边缘保留理论和等势压缩理论进行等距域变换的过程包括:
[0053]
[0054] J[n]=(1‑ad)I[n]+adJ[n‑1],
[0055] 其中,{pi|i=1,2,...,n}∈ψ表示n个采样点;Ψ是非负实数的集合;S表示1D信号;c表示通道数量;j∈{1,2,...,c}表示第j个通道;τs是特征图中像素维度的标准偏差;τr是特征图中通道维度标准差的平均值;D(pi)表示pi处的等势域值;a∈[0,1]是反馈系数;d=D(pi)‑D(pi‑1)是指源图像中最近邻像素之间的距离;n指第n个采样点;I指输入特征图。
[0056] 首先,设计一种带有等距域变换的通道域注意力模块,即基于等距域变换的通道域注意力模块。如图2所示,本发明将等距域变换引入通道域注意力模块的上分支,旨在保留特征图中的边缘信息,同时过滤掉其他平滑信息。这是基于等距域变换的通道域注意力模块有效的主要原因。对等距域变换的输出执行通道自适应池采样,将每个二维特征映射到表征其全局边缘信息的实数,从而获得1*1*C的输出,其中C表示通道数。在基于等距域变换的通道域注意力模块的下分支中,首先对输入到该模块中的特征图执行卷积得到一个输出,以使等距域变换更好地匹配网络。然后,通过自适应池采样获得的两个分支的输出被软级联以获得尺寸为1*1*2C的输出S1。
[0057] 为了增强特征的鲁棒性,本发明将S1依次输入到两个全连接层中,分别获得两个尺寸为1*1*C的输出S2和S3。最后,得到了C个通道的权重。
[0058] 接下来,在考虑通道权重的情况下,提出了一种新的基于等距域变换的空域注意力模块。该模块改变了特征图中不同空间位置的权重,并生成了空域注意力图。图2显示了基于等距域变换的空域注意力模块的结构。与基于等距域变换的通道域注意力模块类似,基于等距域变换的空域注意力模块的上分支用于保留源图像的边缘信息。等距域变换的输出被称为边缘图。基于等距域变换的空域注意力模块的下分支为边缘图中的每个像素分配合理的权重,这确保了边界信息的保留和无用信息的抑制。
[0059] 最后,将两个分支相乘以获得特征图的最终权重。
[0060] 进一步优化方案,所述步骤四中将步骤三设计的注意力模块引入到提出的网络结构中构建基于视觉显著性先验的融合模型,具体的模型结构如图2所示。网络被分成两条路径,分别对应于两个源图像IA和IB。它包含一个权重共享的孪生编码器和一个权重共享的孪生解码器,以及一个特征差异放大模块。每个路径的编码器包含四个卷积块,每个卷积块由两个3*3的卷积层,填充和步长分别为1和1,两个BN,一个ReLU和一个2*2的最大池化层。此外,前两个卷积块分别在每个最大池化层之前嵌入空域注意力模块,而后两个卷积块在每个最大池化层之前分别嵌入通道域注意力模块。对于每个空域/通道域注意力模块,有两个输入,包括源图像和前一卷积层的输出。为了匹配源图像和来自前一卷积层的特征图的大小,本发明对源图像应用最大池化操作。为了保留源图像的内容,反向传播中不包括此最大池化操作。前两个卷积块使用基于等距域变换的空域注意力模块的原因是卷积层输出的特征图由于其较大的尺寸而具有相对丰富的空间信息。随着网络的深入,特征图的尺寸变小,即其空间被压缩,因此基于等距域变换的通道域注意力模块用于最后两个卷积块,以重点关注于更有价值的通道。
[0061] 每个路径的解码器还包含四个卷积块,每个卷积块由一个反卷积层、两个卷积层、一个BN和一个ReLU层组成。随着网络的深入,边缘信息逐渐丢失,因此需要在解码器中恢复丢失的边缘信息。因此,在相同的路径中,编码器中注意力模块输出的特征图将通过特征差异放大模块被重用,以在一定程度上恢复丢失的边缘信息。此外,路径维度的特征差异放大模块还用于放大两个路径在相同位置上基于等距域变换的空域/通道域注意力模块的输出之间的差异信息。
[0062] 特征差异放大模块消除了基于等距域变换的空域/通道域注意力模块在两条路径的相同位置上输出的特征图之间的共有信息,同时保留了相应的差异信息。对于这两条路径,差异信息是相对的。通过路径维度的特征差异放大模块,可以扩大聚焦区域和散焦区域之间的特征差异,有助于网络更准确地检测聚焦区域。
[0063] 最后,通过级联和卷积运算将从两条路径中提取的特征融合,以获得最终的决策图。最后一个卷积运算使用1*1的卷积层,步长为1,旨在将通道数调整为2。两条路径共享权重,这大大降低了网络的复杂性。
[0064] 进一步优化方案,所述步骤五中根据步骤二中所提出的随机化方法从自然图像集中生成10000个带有伪标签的伪多焦距图像对组成训练集。加载根据步骤一中预训练后的基于视觉显著性先验的融合模型的权重,然后再进行epoch为2的下游融合任务的训练,在训练完成后得到最终的融合图像。
[0065] 实施例二
[0066] 根据图3所示,本实施例提供了一种基于视觉显著性先验知识的多聚焦图像融合方法的验证试验,包括:
[0067] 步骤一、数据集的选取。共选取了四个多焦距图像集进行验证实验,分别为MFFW、LYTRO、STAND1和TSAI2数据集。另外选择显著性目标检测数据集中的图像作为预训练任务中的训练集。
[0068] 步骤二、数据预处理。对于预训练的任务中使用的数据集是由显著性目标检测数据集中选择的10000个图像对组成,然后将这些训练图像中的每一幅都裁剪成为95×95的大小。然后通过所提出的随机化方法从自然图像集中生成10000个带有伪标签的伪多焦距图像对;
[0069] 步骤三、实验的设置。实验将在Ubuntu OS机器的Pytorch框架中实现,并在具有Intel(R)Core(TM)i9‑9900K CPU、NVIDIA Geforce RTX 2080Ti(12GB)GPU和32GB RAM的平台上进行了训练和测试,再结合pycharm完成最终实验。实验中各参数设置如下:
[0070] 预训练迭代次数:2个epoch
[0071] 训练迭代次数:2个epoch
[0072] 优化器:Adam
[0073] 损失函数:basic cross entropy
[0074] 初始学习率:3e‑4
[0075] 批次处理batch size:130
[0076] 实验中使用本发明中提出的基于视觉显著性先验的融合网络结构来进行预训练以及下游的融合任务;
[0077] 步骤四、评价指标。现有的图像融合评估度量主要分为四类。从每个类别中选择至少一个度量作为定量度量,包括:
[0078] (a)基于信息理论的NMI、QTE、QNCIE、MI;
[0079] (b)基于图像特征的QG、QM;
[0080] (c)基于图像结构相似性的QY;
[0081] (d)基于人类感知激发的QCB。
[0082] 步骤五、图像融合结果的评估。通过比较训练不同模型的损失。预训练任务会根据指标细化性能。预训练任务的引入有助于网络学习对象边界的概念,从而输出高质量的决策图和融合图像。另外根据自然图像随机生成多聚焦图像融合图像的方法比手工方法更适合多聚焦图像融合任务,因为前者生成的数据集更具挑战性,从而提高了下游任务中网络对图像清晰度的敏感性。对于基于等距域变换的空域注意力模块带来的性能提升略高于基于等距域变换的通道域注意力模块带来的性能,原因是前者的位置比后者的位置更靠前,能学到更多聚焦区域和散焦区域之间的边界信息。此外,基于等距域变换的通道域注意力模块和空域注意力模块的组合显著提高了基线的性能。本发明提出的基于视觉显著性先验的融合模型同样拥有着优于经典U‑Net模型的性能。特征差异放大模块有效扩大了基于视觉显著性先验的融合模型中两个编码器之间的特征差异。通过特征差异放大模块和注意力模块的合作,进一步提高了网络性能。
[0083] 以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。