一种基于可变形注意力机制的红外-可见光目标检测方法转让专利

申请号 : CN202311330611.8

文献号 : CN117078920B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王青旺欧阳俊林沈韬陶智敏刘佳丽

申请人 : 昆明理工大学

摘要 :

本发明涉及一种基于可变形注意力机制的红外‑可见光目标检测方法,属于电数字数据处理、多模态协同感知技术领域。首先将红外与可见光图像均输入到特征提取器中,获得红外与可见光图像多层级特征图;将红外与可见光图像多层级特征图输入到可变形自注意力编码器中,得到经自注意力机制优化后特征向量;将按特征值大小降序排列,选择前项特征向量分别输入分类分支与回归分支中得到查询向量;根据查询向量在特征图上施加二维高斯分布,从而增强目标特征,同时抑制噪声信息,得到更新后的特征图;将查询向量与特征图输入到可变形交叉注意力解(56)对比文件魏月露.注意力机制引导下的多维度特征融合红外小目标检测方法.中国优秀硕士学位论文全文数据库 信息科技辑.2023,(第1期),第I138-2359页.Kai zeng等.NLFFTNet: A non-localfeature fusion transformer network formulti-scale objectdetection.Neurocomputing.2022,第493卷第15-27页.Wei Tang等.DATFuse: Infrared andVisible Image Fusion via Dual AttentionTransformer.IEEE Transactions on Circuitsand Systems for Video Technology.2023,第33卷(第7期),第3159-3172页.占哲琦等.融合双注意力的深度神经网络在无人机目标检测中的应用.现代计算机.2020,(第11期),第31-36页.刘家森等.基于改进Swin Transformer的中心点目标检测算法.计算机科学.2023,第1-14页.

权利要求 :

1.一种基于可变形注意力机制的红外‑可见光目标检测方法,其特征在于:Step1:将红外与可见光图像分别输入到特征提取器中,提取红外图像特征 和可见光图像特征 ;

Step2:将红外图像特征图 与可见光图像特征图 在特征图层级方向上拼接,得到拼接后特征图 ;

Step3:将拼接特征图 展平为向量形式 ,输入到Transfomer编码器中,采用可变形注意力机制进行自注意力计算,自适应地提取特征图 的全局语义信息,得到经可变形注意力机制优化后的特征向量 ;

Step4:将所述特征向量 ,根据其特征值大小,以降序排列,选取前 项作为预先知识向量 ,将 分别输入到分类分支与回归分支,得到内容查询向量 和坐标查询向量 ;

Step5:将特征向量 重塑为特征图 的形状,得到重塑后的特征图 ;

Step6:以坐标查询向量 为中心坐标点,在特征图 对应位置及其周围乘以二维高斯分数,得到更新后的特征图 ;

Step7:将内容查询向量 ,坐标查询向量 ,特征图 输入到Transfomer解码器中,采用可变形注意力机制对两个查询向量 、 与特征图 进行交叉注意力计算,输出内容预测向量 和坐标预测向量 ;

Step8:将内容预测向量 输入到一个线性映射层中;

Step9:计算内容预测向量 和坐标预测向量 与目标真实值之间的损失值;

Step10:基于损失值优化所述目标检测方法网络参数;

所述Step8具体为:

其中, , 为预测目标类别数量, 为线性映射层;

所述Step3中,输入到Transfomer编码器中,采用可变形注意力机制进行自注意力计算,具体为:;

其中, 分别是特征向量 经由三个线性变换 得到的向量, 为多头注意力机制中注意力头的数量,CN为可变形注意力在第 个注意力头的采样点总数,为第 个注意力头的可学习权重矩阵,  为第 个注意力头的采样点偏移量,将特征向量 与自注意力分数相乘,得到更新后的特征向量;

所述得到更新后的特征向量 具体为:;

式中, 表示更新后的特征向量;

所述Step6中,二维高斯分数具体为:;

其中, 和 分别是相较于坐标查询向量 的横向和纵向偏移量, 和 是二元高斯分布的均值向量, 和 是横向、纵向两个维度的标准差, 是横向、纵向两个维度的相关系数, ;

将对应特征层级的 与二维高斯分布分数相乘,得到更新后的特征图 ,具体实现如下:;

其中, ;

所述Step7具体为:

其中, 为多头注意力机制中注意力头的数量,CN为可变形注意力在第 个注意力头的采样点总数, 为第 个注意力头的可学习权重矩阵,  为第 个注意力头的采样点偏移量,内容预测向量 和坐标预测向量 具体为:;

其中, , 。

2.根据权利要求1所述的基于可变形注意力机制的红外‑可见光目标检测方法,其特征在于:所述特征提取器为 算法的主干网络,具体特征提取方式为:;

其中, 和 分别表示可见光和红外图像, ,分别表示所述特征提取器所提取的红外和可见光多层级特征图,为特征图层数, 为特征维度, 和 分别表示第 层特征图的高和宽, 。

3.根据权利要求1所述的基于可变形注意力机制的红外‑可见光目标检测方法,其特征在于,所述将红外图像特征图 与可见光图像特征图 在特征图层级方向上拼接的具体拼接方式为:;

其中, , 表示按特征图层级方向上拼接。

4.根据权利要求1所述的基于可变形注意力机制的红外‑可见光目标检测方法,其特征在于,所述Step4具体为:;

其中, 为分类分支, 为回归分支。

5.根据权利要求1所述的基于可变形注意力机制的红外‑可见光目标检测方法,其特征在于,所述将特征向量 重塑为特征图 的形状,具体重塑方式为:;

其中, 。

说明书 :

一种基于可变形注意力机制的红外‑可见光目标检测方法

技术领域

[0001] 本发明涉及一种基于可变形注意力机制的红外‑可见光目标检测方法,属于电数字数据处理、多模态协同感知技术领域。

背景技术

[0002] 目标检测作为计算机视觉领域的重要研究方向,已经被广泛应用于智能驾驶、工业检测、医疗诊断等诸多领域。研究者们在目标检测领域开展了大量研究,并提出了许多目标检测方法。然而,这些方法都是基于可见光图像实现的,不能在如大雾、黑夜等各种实际应用场景中保证检测系统的可靠性,特别是在低光照黑夜条件下,可见光图像中无法提供充足的前景目标信息。目前,研究者们通过引入多光谱图像来缓解这一问题。但是,由于不同模态之间存在着巨大的语义信息差距,模型很难做到在提取模态间互补信息的同时,抑制冗余信息,很难保证模型的检测精度和鲁棒性。在多模态目标检测算法中,如何缓解多模态数据信息不稳定问题,是保证模型稳定性与鲁棒性的重要研究方向之一。
[0003] 目前,为了融合可见光和红外图像的互补信息,研究人员采用了各种不同的注意力机制。这些机制可以帮助网络提取不同模态的关键区域特征,然后将这些特征融合,以实现多模态数据的互补信息融合。但是,现有的基于注意力机制实现的可见光和红外协同感知算法,都是使用两个模态的所有像素点进行注意力计算。因此,这些方法在利用注意力机制提取不同模态特征信息时的计算效率低下。此外,这些方法没有考虑到在融合不同模态互补信息的同时,也可能会引入无效背景噪声,降低模型的鲁棒性。所以,如何高效地利用注意力机制提取不同模态图像间的互补信息,同时抑制失效模态中的无效背景噪声是目前多模态协同感知领域亟待解决的问题。

发明内容

[0004] 本发明要解决的技术问题是提供一种基于可变形注意力机制的红外‑可见光目标检测方法,利用可变形注意力机制自适应地实现红外‑可见光模态之间的特征融合,来解决上述技术问题,即可以避免过多地引入低光照环境下可见光图像的背景环境噪声,同时也有减少模型计算量的作用。
[0005] 本发明的技术方案是:一种基于可变形注意力机制的红外‑可见光目标检测方法,具体步骤为:
[0006] Step1:将红外与可见光图像分别输入到特征提取器中,提取红外图像特征 和可见光图像特征 。
[0007] Step2:将红外图像特征图 与可见光图像特征图 在特征图层级方向上拼接,得到拼接后特征图 。
[0008] Step3:将拼接特征图 展平为向量形式 ,输入到Transfomer编码器中,采用可变形注意力机制进行自注意力计算,自适应地提取特征图 的全局语义信息,得到经可变形注意力机制优化后的特征向量 。
[0009] Step4:将所述特征向量 ,根据其特征值大小,以降序排列,选取前 项作为预先知识向量 ,将 分别输入到分类分支与回归分支,得到内容查询向量和坐标查询向量 。
[0010] Step5:将特征向量 重塑为特征图 的形状,得到重塑后的特征图 。
[0011] Step6:以坐标查询向量 为中心坐标点,在特征图 对应位置及其周围乘以二维高斯分数,以增强中心点及其有限范围内特征强度,同时抑制范围外特征强度,得到更新后的特征图 。
[0012] Step7:将内容查询向量 ,坐标查询向量 ,特征图 输入到Transfomer解码器中,采用可变形注意力机制对两个查询向量 、 与特征图 进行交叉注意力计算,输出内容预测向量 和坐标预测向量 。
[0013] Step8:将内容预测向量 输入到一个线性映射层中。
[0014] Step9:计算内容预测向量 和坐标预测向量 与目标真实值之间的损失值。
[0015] Step10:基于损失值优化所述目标检测方法网络参数。
[0016] 所述特征提取器为 算法的主干网络,具体特征提取方式为:
[0017]
[0018]
[0019] 其中, 和 分别表示可见光和红外图像, ,分别表示所述特征提取器所提取的红外和可见光多层级特征图,
为特征图层数, 为特征维度, 和 分别表示第 层特征图的高和宽, 。
[0020] 所述将红外图像特征图 与可见光图像特征图 在特征图层级方向上拼接的具体拼接方式为:
[0021]
[0022] 其中, , 表示按特征图层级方向上拼接。
[0023] 所述Step4具体为:
[0024]
[0025]
[0026] 其中, 为分类分支, 为回归分支。
[0027] 所述将特征向量 重塑为特征图 的形状,具体重塑方式为:
[0028]
[0029] 其中, 。
[0030] 所述Step8具体为:
[0031]
[0032] 其中, , 为预测目标类别数量, 为线性映射层。
[0033] 所述Step3中,输入到Transfomer编码器中,采用可变形注意力机制进行自注意力计算,具体为:
[0034]
[0035] 其中, 分别是特征向量 经由三个线性变换 得到的向量, 为多头注意力机制中注意力头的数量,CN为可变形注意力在第 个注意力头的采样点总数,为第 个注意力头的可学习权重矩阵,在实际应用中初始值设置为1。 为
第 个注意力头的采样点偏移量,在具体的实现中, 是 通过线性映射层得到的偏移
量。将特征向量 与自注意力分数相乘,得到更新后的特征向量。
[0036] 所述得到更新后的特征向量 具体为:
[0037]
[0038] 式中, 表示更新后的特征向量。
[0039] 所述Step6中,二维高斯分数具体为:
[0040]
[0041] 其中, 和 分别是相较于坐标查询向量 的横向和纵向偏移量, 和 是二元高斯分布的均值向量, 和 是横向、纵向两个维度的标准差, 是横向、纵向两个维度的相关系数, 。
[0042] 将对应特征层级的 与二维高斯分布分数相乘,得到更新后的特征图 ,具体实现如下:
[0043]
[0044] 其中, 。
[0045] 所述Step7具体为:
[0046]
[0047] 其中, 为多头注意力机制中注意力头的数量,CN为可变形注意力在第 个注意力头的采样点总数, 为第 个注意力头的可学习权重矩阵,在实际应用中初始值设置为1。 为第 个注意力头的采样点偏移量,在具体的实现中, 是 通过线
性映射层得到的偏移量。将内容查询向量 和坐标查询向量 相乘,得到内容预测向量
和坐标预测向量 具体为:
[0048]
[0049]
[0050] 其中, , 。
[0051] 传统的基于注意力机制实现的多模态图像特征融合方法,计算效率低下,同时在融合不同模态特征时,还会引入失效模态中的冗余噪声信息。通过本发明既可以提高模型整体的计算效率,同时能保留不同模态互补信息,抑制失效模态背景噪声的引入。
[0052] 本发明的有益效果是:本发明利用可变形注意力机制来自适应地提取红外与可见光图像特征信息,通过选取前景目标中心点及其周围限制区域,达到了抑制模态间冗余信息的目的,由此提高了检测算法的准确性和鲁棒性。同时,相较于现有基于注意力机制实现的多模态图像特征融合方法,本发明有效地降低了检测算法的时间复杂度和计算资源的需求。

附图说明

[0053] 图1是本发明特征强度可视化热力图;
[0054] 图2是本发明在低光照环境下的检测结果图;
[0055] 图3是本发明在不同场景下的检测结果图。

具体实施方式

[0056] 下面结合附图和具体实施方式,对本发明作进一步说明。
[0057] 本发明实施例采用可变形注意力机制对红外和可见光图像进行自适应特征提取,实现在某一模态失效的条件下,检测算法依然保持高精度检测目标的能力。
[0058] 实施例1:一种基于可变形注意力机制的红外‑可见光目标检测方法,具体步骤为:
[0059] Step1:首先将红外与可见光图像分别输入到特征提取器中,提取红外图像特征和可见光图像特征 ;所述特征提取器为 算法的主干网络,将红外与可见光图像分别输入到两个相同的特征提取器中,具体为:
[0060]
[0061] 其中, 和 分别表示可见光和红外图像,图像尺寸均为512*640*3。特征维度设置为256。
[0062] Step2:将红外图像特征 与可见光图像特征 在特征图层级方向上拼接,得到拼接后特征图 。
[0063] Step3:对原始特征图进行自注意力操作可以建立不同模态特征图、不同位置之间的关联性,提高特征的表征能力。将拼接特征图 展平为向量形式 ,输入到Transfomer编码器中,采用可变形注意力机制进行自注意力计算,自适应地提取特征图 的全局语义信息,得到经可变形注意力机制优化后的特征向量 。
[0064] Step4:将Step3中得到的特征向量 ,根据其特征值大小,以降序排列,选取前项,作为预先知识向量 ,默认设置 。将 分别输入到分类分支与回归分支,得到内容查询向量 和坐标查询向量 ,具体为:
[0065]
[0066] 其中, 为分类分支, 为回归分支。
[0067] Step5:将特征向量 重塑为特征图 的形状,得到重塑后的特征图 具体为:
[0068]
[0069] Step6:以坐标查询向量 为中心坐标点,在特征图 对应位置及其周围乘以二维高斯分数,以增强中心点及其有限范围内特征强度,同时抑制范围外特征强度,得到更新后的特征图 。
[0070] Step7:将内容查询向量 ,坐标查询向量 ,特征图 输入到Transfomer解码器中,采用可变形注意力机制对两个查询向量 、 与特征图 进行交叉注意力计算,输出内容预测向量 和坐标预测向量 。
[0071] 如图1所示,以热力图的形式展示了可变形注意力机制分别在可见光图像和红外图像中关注的区域。
[0072] Step8:将内容预测向量 输入到一个线性映射层中,具体为:
[0073]
[0074] 其中, , 为预测目标类别数量,在Dronevehicle数据集中设置目标类别数量 , 为线性映射层。
[0075] Step9:计算内容预测向量 和坐标预测向量 与目标真实值之间的损失值。检测算法的损失函数包括回归框损失 和分类损失 。回归框损失 采用smooth L1损
失,分类损失 采用Focal损失。最终算法损失函数为:
[0076]
[0077] 式中, 和 均设置为1。
[0078] Step10:基于损失值优化所述目标检测方法网络参数,使检测模型达到收敛状态。最终使用训练好的检测模型对在不同场景下拍摄的图片进行测试,模型检测结果如图2、图
3所示。
[0079] 本发明实例网络基于Pytorch框架实现,采用AdamW作为模型训练优化器,初始学‑1习率设置为0.0001,每3轮将学习率下调10 ,训练时长12轮。实验所采用数据集为多模态开源遥感数据集DroneVehicle,数据集一共标注了五类物体,汽车、公共汽车、卡车、货车、货运汽车,包含有28,439对已配对的红外‑可见光图像。在红外视角下,一共标注了389,779个目标物体。可见光视角下,一共标注了22,123个物体。根据不同的光照水平,DroneVehicle数据集中的图像分为三种情况,白天、黑夜、黑夜低光照,分别有14,478、5,468和8,493对图像。为了适应不用视角下的应用场景,DroneVehicle数据集中除了常规垂直视角下的15,
475对红外‑可见光图像外,如图3所示, 还涵盖有12,964对无人机在(白天,80m,45°)、(白天,120m,30°)、(黑夜,100m,15°)、(黑夜,120m,15°)、(黑夜低光照,100m,45°)、(黑夜低光照,80m,30°)六种不同角度、不同高度现实场景拍摄的红外‑可见光图像。
[0080] 以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。