一种双光多模型长时间目标跟踪方法、系统及存储介质转让专利

申请号 : CN202211177765.3

文献号 : CN115294176B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 何震宇毛凯歌田超杨超

申请人 : 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

摘要 :

本发明提供了一种双光多模型长时间目标跟踪方法、系统及存储介质,该双光多模型长时间目标跟踪方法包括预训练步骤、训练步骤、重参数化步骤和推理步骤。本发明的有益效果是:本发明使得可见光‑热红外双光目标跟踪器具有更好的鲁棒性和泛化能力,能够更准确更快速的实现对目标的长时间跟踪。

权利要求 :

1.一种双光多模型长时间目标跟踪方法,其特征在于,包括如下步骤:

预训练步骤:通过利用未标注的可见光‑热红外图像对双光融合模块进行互重建预训练,得到初始化权重参数;

训练步骤:使用预训练步骤中得到的初始化权重参数对双光融合模块进行权重初始化,在可见光‑热红外跟踪数据集上使用基于边界分布预测的回归损失函数和交并比感知的分类损失函数进行跟踪训练;

重参数化步骤:预训练步骤及训练步骤使用的均是具有残差结构的双光融合模块,通过重参数化将具有残差结构的双光融合模块转化为直筒式结构的双光融合模块;

推理步骤:对每帧输入的可见光‑热红外图像对执行如下步骤:

步骤a:使用双光融合模块提取输入图像帧的特征;

步骤b:当前的算法运行状态包括局部跟踪或全局检测,基于当前的算法运行状态,运行局部跟踪模块或全局检测模块;

基于步骤b得到的结果运行状态切换模块,评估当前帧是否成功跟踪,决定是否切换运行状态;

基于步骤b得到的结果,结合历史目标信息,通过更新控制模块评估当前帧是否应该对局部跟踪模块中的模板以及状态切换模块中的分类器进行更新;

在所述训练步骤中,基于边界分布预测的回归损失函数如公式5所示,

       公式4

在公式4中,e表示包围框的某一边界,E表示包围框的边界集合,  表示真实标签,表示真实标签的整数部分, 表示目标的边界 在 区间内落位于 处的概率,表示目标的边界e在[0, L]区间内落位于l+1处的概率;

             公式5

在公式5中, 表示常规的交并比损失, 分别表示预测目标包围框和真值目标包围框。

2.根据权利要求1所述的双光多模型长时间目标跟踪方法,其特征在于,所述双光融合模块由一个双流卷积网络构成,该双流卷积网络在不同的卷积层具有不同的耦合率,且耦合率随着双流卷积网络深度的增加逐渐变大,通过耦合的卷积核,双光融合模块能够提取到可见光和热红外两个模态的共有特征,而通过非耦合的卷积核则能够分别提取可见光/热红外图像的私有特征,双流卷积网络提取到的特征将被输入到一个通道注意力模块中进行融合。

3.根据权利要求1所述的双光多模型长时间目标跟踪方法,其特征在于,所述状态切换模块包括执行如下步骤:步骤1:局部跟踪模块或全局检测模块的预测结果将被输入到状态切换模的分类器中,分类器对该预测结果进行评估得到分数ss;

步骤2:判断当前算法的状态,若当前算法处于局部跟踪状态时,执行第一分支步骤;若当前算法处于全局检测状态时,执行第二分支步骤;

第一分支步骤:判断分数ss是否小于阈值γs,若是,则认为局部跟踪模块未成功对目标进行跟踪,将算法切换到全局检测状态,否则认为局部跟踪模块成功跟踪目标,继续保持局部跟踪状态;

第二分支步骤:判断分数ss是否大于阈值γs,若是,认为全局检测模块成功捕捉到了目标,将算法切换到局部跟踪状态并使用检测结果重置局部跟踪模块,否则认为未检测到目标,继续保持全局检测状态。

4.根据权利要求3所述的双光多模型长时间目标跟踪方法,其特征在于,状态切换模块包括分类器,在跟踪过程中根据预测结果对分类器进行更新,更新过程如下:首先在预测结果周围随机采样并根据其与预测结果的IoU划分为正负样本,之后用得到的正负样本对分类器进行训练以更新其参数,IoU为采样得到的框与预测结果框之间交叠率。

5.根据权利要求1所述的双光多模型长时间目标跟踪方法,其特征在于,更新控制模块由 LSTM和全连接层堆叠而成,如公式1所示,LSTM表示多层时间步长逐步缩短的长短期记忆网络,n代表LSTM的层数,通过将Xt输入到LSTM中对目标在时序上的上下文信息进行聚合,得到表征目标近期综合状态的特征,再通过全连接层FC后得到分数su,仅当分数su大于更新阈值γu时对局部跟踪模块和切换控制模块进行更新;

n n‑1 1

su =FC(LSTM(LSTM (…LSTM(Xt)…)))          公式1其中,Xt表示最近ts帧的状态信息组成目标的历史信息。

6.根据权利要求1所述的双光多模型长时间目标跟踪方法,其特征在于,在所述预训练步骤中,首先将可见光图像和热红外图像均匀划分为多个 大小的方格,之后从每张图片中随机选取 个方格并使用色块遮挡所选方格中的图像内容后得到, 分别表示被遮挡后的可见光图像和热红外图像,R表示实数空间,H、W分别表示图像长、宽;随机遮挡后的图像将作为双光融合模块的输入,可见光重建模块和热红外重建模块将利用双光融合模块提取到的特征对可见光图像和红外图像分别进行复原,得到 , 分别表示复原后的可见光图像和热红外图像;最后以原始图像作为真值,计算如公式2所示的均方差损失对模型进行训练直至模型收敛;在跟踪训练时,模型将加载预训练得到的双光融合模块的参数进行初始化,而可见光重建模块与热红外重建模块则会被丢弃;

            公式2;

其中LMSE表示图像对上的损失, 和 分别表示可见光原图和热红外原图, 表示复原后的可见光图像, 表示复原后的热红外图像。

7.根据权利要求1所述的双光多模型长时间目标跟踪方法,其特征在于,在所述训练步骤中,对于正样本,将其对应的标签由1调整为对应候选框与真值框之间的交并比;对于负样本,保持其对应的标签为0;最终得到的交并比感知的分类损失函数如公式6所示,通过交并比感知的分类损失函数对跟踪器的分类分支进行训练,其中Pos表示正样本集合, 表示其中第 个样本的置信度预测结果;

       公式6;

表示预测目标包围框和真实目标包围框之间的交叠率。

8.根据权利要求1所述的双光多模型长时间目标跟踪方法,其特征在于,在所述重参数化步骤中,双光融合模块由 卷积层以及旁边的 卷积分支和恒等映射分支构成,将 卷积和恒等映射都看作是卷积核参数除中心位置外的其他位置取值均为0的卷积,之后根据卷积的可加性,将三个分支的 卷积的参数相加,即可得到与原始模型输出完全相同的仅包含一个 卷积的单路模型,该过程如公式7所示,Parameters表示对应 卷积核的参数空间;

       公式7;

、 、 分别表示训练中得到的3*3卷积的参数、训练中得到的1*1卷积

的参数和训练中得到的恒等映射的参数, 表示 、 、 中的任意一个。

9.一种双光多模型长时间目标跟踪系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求

1-8中任一项所述双光多模型长时间目标跟踪方法的步骤。

10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-8中任一项所述的双光多模型长时间目标跟踪方法的步骤。

说明书 :

一种双光多模型长时间目标跟踪方法、系统及存储介质

技术领域

[0001] 本发明涉及目标跟踪技术领域,尤其涉及一种双光多模型长时间目标跟踪方法、系统及存储介质。

背景技术

[0002] 目标跟踪是计算机视觉中一个重要的研究方向,在无人驾驶、视频监控、智能机器人、人机交互等领域均有广泛的应用。目标跟踪的任务是在给定目标在第一帧中的位置信息后,对目标进行建模并结合视频上下文信息,预测出目标在后续帧中的位置信息。经过多年的发展,尤其是随着近些年来深度学习技术的应用,目标跟踪算法的性能不断提升。然而在恶劣环境下(如极端光照环境、遮挡、相似物干扰等),目标跟踪算法的性能还存在很大的提升空间,如何提高算法在这些场景下性能仍然是需要研究的问题。
[0003] 经典的长时间目标跟踪算法的基本框架如图1所示,主要由跟踪模块、检测模块、学习模块和整合器四部分组成。为了提高长时间跟踪场景下的跟踪效果,这类算法使用传统目标跟踪算法与目标检测算法分别进行跟踪,通过综合模块对两者的结果进行结合得到最终的跟踪结果,并提出学习模块不断对跟踪模块和检测模块进行在线更新以提高模型对目标形变、尺度变化、遮挡等挑战的适应能力,从而增强算法的鲁棒性。
[0004] 在数据使用方面,目前目标跟踪方法一般仅采用可见光(或热红外)图像进行训练,完成训练后,也仅在可见光(或热红外)数据上进行测试(应用)。此外还有一类“可见光‑热红外”双光(RGB‑T)跟踪算法,这类算法在模型训练和测试(实际应用)中,都使用成对的视角对齐的双模态数据;如附图2所示通常采用两个以上并列的特征提取器,分别提取各个模态的特征。其优点是能够利用双模态提供的互补信息,在复杂场景下跟踪效果更好。
[0005] 背景技术的缺陷:
[0006] 现有的可见光‑热红外融合模块分为图像级融合(使用相同的网络参数同时提取双光图像的特征)和特征级融合(使用不同的网络参数分别提取双光图像的特征,再将其融合在一起)。一般来说,可将光‑热红外图像对中既存在大量模态共享的特征,又存在部分模态特有的特征。因此图像级融合忽略了模态私有特征的存在,而特征级融合独立的特征提取过程和特征融合过程弱化了模态共有特征。
[0007] 在经典长时间目标跟踪算法处理每一帧的过程中,无论跟踪模块的输出结果是否可靠,都会启用检测模块对目标进行全局搜索。然而检测模块包含大量计算(如由三个级联分类器组成的检测器),每一帧都启用全局搜索导致算法运行速度较慢。此外,一些现有方法根据目标状态在多种不同目标跟踪方法之间进行切换。
[0008] 在经典长时间目标跟踪算法中当目标被成功跟踪后,学习模块会将跟踪结果当做正样本对目标模型进行更新,以提高算法对目标形状、尺度等变化的适应能力。然而当目标被遮挡且仍跟踪成功时,被遮挡的目标也会被当作正样本进行学习,此时被遮挡的目标会包含很多背景特征,这些背景特征被错误地学习并添加到模型的样本库中,在后续跟踪过程中影响算法的性能,导致跟踪结果漂移甚至跟踪失败。
[0009] 在训练方面,现有方法一般采用在大规模可见光数据集上预训练得到的参数对模型进行初始化,然而这种仅使用可见光图像预训练的网络不具有提取并融合可见光‑热红外双光图像特征的能力,因此未必能够很好的应用于可见光‑热红外双光跟踪场景中。
[0010] 在损失函数方面,现有方法直接预测目标包围框的坐标并与真实标注计算损失对回归分支进行训练,忽视了训练图像及实际测试场景中的弱不对齐问题带来的负面影响;现有方法通过二分类交叉熵损失训练分类分支,无法直接指导网络从多个候选预测框中选出最佳结果作为最终的预测结果。

发明内容

[0011] 为了解决现有技术中的问题,本发明提供了一种双光多模型长时间目标跟踪方法、系统及存储介质,提高极端光照、恶劣天气等环境下长时跟踪算法的性能。
[0012] 本发明提供了一种双光多模型长时间目标跟踪方法,包括如下步骤:
[0013] 预训练步骤:通过利用未标注的可见光‑热红外图像对双光融合模块进行互重建预训练,得到初始化权重参数;
[0014] 训练步骤:使用预训练步骤中得到的初始化权重参数对双光融合模块进行权重初始化,在可见光‑热红外跟踪数据集上使用基于边界分布预测的回归损失函数和交并比感知的分类损失函数进行跟踪训练;
[0015] 重参数化步骤:预训练步骤及训练步骤使用的均是具有残差结构的双光融合模块,通过重参数化将具有残差结构的双光融合模块转化为直筒式结构的双光融合模块;
[0016] 推理步骤:对每帧输入的可见光‑热红外图像对执行如下步骤:
[0017] 步骤a:使用双光融合模块提取输入图像帧的特征;
[0018] 步骤b:当前的算法运行状态包括局部跟踪或全局检测,基于当前的算法运行状态,运行局部跟踪模块或全局检测模块;
[0019] 基于步骤b得到的结果运行状态切换模块,评估当前帧是否成功跟踪,决定是否切换运行状态;
[0020] 基于步骤b得到的结果,结合历史目标信息,通过更新控制模块评估当前帧是否应该对局部跟踪模块中的模板以及状态切换模块中的分类器进行更新。
[0021] 作为本发明的进一步改进,所述双光融合模块由一个双流卷积网络构成,该双流卷积网络在不同的卷积层具有不同的耦合率,且耦合率随着双流卷积网络深度的增加逐渐变大,通过耦合的卷积核,双光融合模块能够提取到可见光和热红外两个模态的共有特征,而通过非耦合的卷积核则能够分别提取可见光/热红外图像的私有特征,双流卷积网络提取到的特征将被输入到一个通道注意力模块中进行融合。
[0022] 作为本发明的进一步改进,所述状态切换模块包括执行如下步骤:
[0023] 步骤1:局部跟踪模块或全局检测模块的预测结果将被输入到状态切换模的分类器中,分类器对该预测结果进行评估得到分数ss;
[0024] 步骤2:判断当前算法的状态,若当前算法处于局部跟踪状态时,执行第一分支步骤;若当前算法处于全局检测状态时,执行第二分支步骤;
[0025] 第一分支步骤:判断分数ss是否小于阈值γs,若是,则认为局部跟踪模块未成功对目标进行跟踪,将算法切换到全局检测状态,否则认为局部跟踪模块成功跟踪目标,继续保持局部跟踪状态;
[0026] 第二分支步骤:判断分数ss是否大于阈值γs,若是,认为全局检测模块成功捕捉到了目标,将算法切换到局部跟踪状态并使用检测结果重置局部跟踪模块,否则认为未检测到目标,继续保持全局检测状态。
[0027] 作为本发明的进一步改进,状态切换模块包括分类器,在跟踪过程中根据预测结果对分类器进行更新,更新过程如下:首先在预测结果周围随机采样并根据其与预测结果的IoU划分为正负样本,之后用得到的正负样本对分类器进行训练以更新其参数,IoU为采样得到的框与预测结果框之间交叠率。
[0028] 作为本发明的进一步改进,更新控制模块由 LSTM和全连接层堆叠而成,如公式1所示,LSTM表示多层时间步长逐步缩短的长短期记忆网络,l代表LSTM的层数,通过将Xt输入到LSTM中对目标在时序上的上下文信息进行聚合,得到表征目标近期综合状态的特征,再通过全连接层FC后得到分数su,仅当分数su大于更新阈值γu时对局部跟踪模块和切换控制模块进行更新;
[0029] su =FC(LSTMl(LSTMl‑1(…LSTM1(Xt)…)))          公式1
[0030] 其中,Xt表示最近ts帧的状态信息组成目标的历史信息。
[0031] 作为本发明的进一步改进,在所述预训练步骤中,首先将可见光图像和热红外图像均匀划分为多个 大小的方格,之后从每张图片中随机选取 个方格并使用色块遮挡所选方格中的图像内容后得到 , 分别表示被遮挡后的可见光图像和热红外图像,R表示实数空间,H、W分别表示图像长、宽;随机遮挡后的图像将作为双光融合模块的输入,可见光重建模块和热红外重建模块将利用双光融合模块提取到的特征对可见光图像和红外图像分别进行复原 ,得到
, 分别表示复原后的可见光图像和热红外图
像;最后以原始图像作为真值,计算如公式2所示的均方差损失对模型进行训练直至模型收敛;在跟踪训练时,模型将加载预训练得到的双光融合模块的参数进行初始化,而可见光重建模块与热红外重建模块则会被丢弃;
[0032]             公式2;
[0033] 其中L表示图像对上的损失, 和 分别表示可见光原图和热红外原图, 表示复原后的可见光图像, 表示复原后的热红外图像。
[0034] 作为本发明的进一步改进,在所述训练步骤中,基于边界分布预测的回归损失函数如公式5所示,
[0035]        公式4
[0036] 在公式4中,e表示包围框的某一边界,E表示包围框的边界集合,  表示真实标签,表示真实标签的整数部分, 表示目标的边界 在 区间内落位于处的概率,表示目标的边界e在[0, L]区间内落位于l+1处的概率;
[0037]              公式5
[0038] 在公式5中, 表示常规的交并比损失, 分别表示预测目标包围框和真值目标包围框。
[0039] 作为本发明的进一步改进,在所述训练步骤中,对于正样本,将其对应的标签由1调整为对应候选框与真值框之间的交并比;对于负样本,保持其对应的标签为0;最终得到的交并比感知的分类损失函数如公式6所示,通过交并比感知的分类损失函数对跟踪器的分类分支进行训练,其中Pos表示正样本集合, 表示其中第个样本的置信度预测结果;
[0040]        公式6;
[0041] 表示预测目标包围框和真实目标包围框之间的交叠率。
[0042] 作为本发明的进一步改进,在所述重参数化步骤中,双光融合模块由 卷积层以及旁边的 卷积分支和恒等映射分支构成,将 卷积和恒等映射都看作是卷积核参数除中心位置外的其他位置取值均为0的 卷积,之后根据卷积的可加性,将三个分支的 卷积的参数相加,即可得到与原始模型输出完全相同的仅包含一个 卷积的单路模型,该过程如公式7所示,Parameters表示对应 卷积核的参数空间;
[0043]        公式7;
[0044] 、 、 分别表示训练中得到的3*3卷积的参数、训练中得到的1*1卷积的参数和训练中得到的恒等映射的参数, 表示 、 、 中的任意一
个。
[0045] 本发明还提供了一种双光多模型长时间目标跟踪系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现双光多模型长时间目标跟踪方法的步骤。
[0046] 本发明还提供了一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现双光多模型长时间目标跟踪方法的步骤。
[0047] 本发明的有益效果是:本发明使得可见光‑热红外双光目标跟踪器具有更好的鲁棒性和泛化能力,能够更准确更快速的实现对目标的长时间跟踪。

附图说明

[0048] 图1是经典长时间目标跟踪算法框架图;
[0049] 图2是特征及融合RGBT跟踪大致流程图;
[0050] 图3是本发明整体框架图;
[0051] 图4是双光融合模块原理图;
[0052] 图5是状态切换模块的运行流程图;
[0053] 图6是可见光‑热红外图像互重建预训练图;
[0054] 图7是重参数化推理加速示意图。

具体实施方式

[0055] 本发明公开了一种双光多模型长时间目标跟踪方法,包括如下步骤:
[0056] 预训练步骤:通过利用大量未标注的可见光‑热红外图像对双光融合模块进行互重建预训练,得到更好的初始化权重参数;在正式训练前提出使用互重建作为代理任务在大量未标注的可见光‑热红外图像对上进行预训练;
[0057] 训练步骤:使用预训练步骤中得到的初始化权重参数对双光融合模块进行权重初始化,在可见光‑热红外跟踪数据集上使用基于边界分布预测的回归损失函数和交并比感知的分类损失函数进行跟踪训练;在正式训练中,使用基于边缘分布预测的回归损失函数对回归分支进行训练,提高算法在弱不对齐场景下的预测精度;在正式训练中,使用交并比感知的分类损失函数对分类分支进行训练,鼓励算法挑选出更精准的候选框作为最终结果;
[0058] 重参数化步骤:预训练步骤及训练步骤使用的均是具有残差结构的双光融合模块,通过重参数化将具有残差结构的双光融合模块转化为直筒式结构的双光融合模块,提高模型实际推理速度;
[0059] 推理步骤:
[0060] 本发明提出的算法整体框架如附图3所示。当模型初始化完成后,对每帧输入的可见光‑热红外对执行如下步骤:
[0061] 步骤a:使用双光融合模块提取输入图像帧的特征;
[0062] 步骤b:当前的算法运行状态包括局部跟踪或全局检测,基于当前的算法运行状态,运行局部跟踪模块或全局检测模块;
[0063] 基于步骤b得到的结果运行状态切换模块,评估当前帧是否成功跟踪,决定是否切换运行状态;采用状态切换模块对算法状态进行切换,避免每帧都耗费资源进行全局搜索;
[0064] 基于步骤b得到的结果,结合历史目标信息,通过更新控制模块评估当前帧是否应该对局部跟踪模块中的模板以及状态切换模块中的分类器进行更新。采用更新控制模块评估当前帧是否适合对目标状态进行更新,避免当目标被遮挡等情况下更新对后续跟踪产生不利影响。
[0065] 本发明在训练步骤和推理步骤使用结构不同但输出相同的双光融合模块,利用重参数化技术在速度和精度之间达到较好的平衡。
[0066] 本发明进行具体展开说明:
[0067] 一.双光融合模块:
[0068] 为了进一步提高在极端光照及雨、雪等恶劣天气场景下的长时目标跟踪效果,考虑到可见光和热红外在物理上的互补的特性,本发明采用可见光‑热红外图像对作为输入并引入双光融合模块对可见光和热红外双模态的特征进行融合,用于算法中的其他模块使用。
[0069] 双光融合模块如附图4所示,由一个双流卷积网络构成,该双流网络在不同的卷积层具有不同的耦合率(图4中由每个特征层共有部分的数字表示),且耦合率随着网络深度的增加逐渐变大。通过耦合的卷积核,该模型可以提取到可见光和热红外两个模态的共有特征,而通过非耦合的卷积核则可以分别提取可见光/热红外图像的私有特征。双流卷积网络提取到的特征将被输入到一个通道注意力模块中进行融合。
[0070] 二.状态切换模块:
[0071] 为了避免在局部跟踪模块成功实现对目标的跟踪时仍使用全局检测模块全局搜索,以降低长时跟踪方法的计算量,提高其运行速度,本发明引入状态切换模块。
[0072] 状态切换模块包含一个分类器和预先设定的阈值γs。
[0073] 如附图5所示,状态切换模块包括如下步骤:
[0074] 步骤1:局部跟踪模块或全局检测模块的预测结果将被输入到状态切换模的分类器中,分类器对该预测结果进行评估得到分数ss;
[0075] 步骤2:判断当前算法的状态,若当前算法处于局部跟踪状态时,执行第一分支步骤;若当前算法处于全局检测状态时,执行第二分支步骤;
[0076] 第一分支步骤:判断分数ss是否小于阈值γs,若是,则认为局部跟踪模块未成功对目标进行跟踪,将算法切换到全局检测状态,否则认为局部跟踪模块成功跟踪目标,继续保持局部跟踪状态;
[0077] 第二分支步骤:判断分数ss是否大于阈值γs,若是,认为全局检测模块成功捕捉到了目标,将算法切换到局部跟踪状态并使用检测结果重置局部跟踪模块,否则认为未检测到目标,继续保持全局检测状态。
[0078] 在长时目标跟踪中,由于目标的外观和形状等特征可能会发生较大变化,因此在跟踪过程中要不断根据预测结果对分类器进行更新。更新过程如下:首先在预测结果周围随机采样并根据其与预测结果的IoU划分为正负样本,之后用这些样本对分类器进行训练以更新其参数。
[0079] 三.更新控制模块:
[0080] 为了避免模型在不合适的时候(如目标被部分遮挡)对目标模型进行更新,从而导致跟踪漂移甚至失败,本发明引入基于历史信息的更新控制模块,基于目标的历史状态决定在当前帧是否要对局部跟踪模块及状态切换模块进行更新。
[0081] 在得到第t帧的跟踪结果后,本算法保存目标的如下信息:1. 局部跟踪模块预测的目标最小包围框;2. 局部跟踪模块预测的目标位置时的响应图;3. 根据1中的包围框提取目标在当前帧中的特征;4. 根据局部跟踪模块的初始信息提取目标在初始帧中的特征。其中1包含了目标最近的运动、尺度变化等信息,2包含了局部跟踪模块的可靠程度,3和4则包含了目标的外观变化。将上述信息映射为向量后拼接在一起构成目标在当前帧的状态信息xt。最近ts帧的状态信息组成目标的历史信息Xt。
[0082] 更新控制模块如公式1所示,由多层时间步长逐步缩短的长短期记忆网络(LSTM)和全连接层堆叠而成,其中l代表LSTM的层数。通过将Xt输入到LSTM网络中对目标在时序上的上下文信息进行聚合,得到表征目标近期综合状态的特征,再通过全连接层FC后得到分数su,仅当其大于更新阈值γu时对局部跟踪模块和切换控制模块进行更新。
[0083] su =FC(LSTMl(LSTMl‑1(…LSTM1(Xt)…)))          公式1
[0084] 四.可见光‑热红外图像互重建预训练:
[0085] 深度学习模型训练时的参数初始化对训练结果的性能有很大影响。为了提高模型的泛化能力和鲁棒性,本发明引入可见光‑热红外图像互重建预训练,利用大量未标注的可见光‑热红外图像对训练双光融合模块的特征提取能力,再以此作为初始参数进行目标跟踪训练。
[0086] 可见光‑热红外图像互重建预训练的过程如附图6所示,其中每个重建模块则由多个卷积操作和上采样操作构成的层堆叠而成。预训练中每个训练样本都由一对可见光‑热红外图像( )组成。首先将可见光和热红外两张图像均匀划分为多个大小的方格,之后从每张图片中随机选取 个方格并使用色块遮挡所选方格中的图像内容后得到 。随机遮挡后的图像将作为双光融合模块的输
入,重建模块将利用双光融合模块提取到的特征对可见光图像和红外图像分别进行复原,得到 。最后以原始图像作为真值,计算如公式2所示的均方差损失对
模型进行训练直至模型收敛。在跟踪训练时,模型将加载预训练得到的双光融合模块的参数进行初始化,而重建模块则会被丢弃。
[0087]             公式2
[0088] 五.基于边界分布预测的回归损失函数
[0089] 为了缓解由于可见光‑热红外图像对存在弱不对齐现象而导致的目标包围框边界具有不确定性的问题,不同于其他方法直接预测目标包各边界到回归中心的距离,本发明引入基于边界分布预测的回归损失函数,建模训练标签中的不确定性,提高模型对目标包围框的预测精度。
[0090] 具体来说,指定边界的分布区间为 ,则跟踪器的回归分支预测结果为,其中 表示了目标的边界 在上述区间内落位于处的概率。如公式3所示,对目标的边界 计算其对应分布的期望值即可得到模型预测的该边界的位置 。
[0091]                   公式3
[0092] 通常情况下,即使标签中具有不确定性,目标的实际位置应该位于其真实标签附近。因此当边界 的真实标签 位于区间 范围内时,预测的边界框分布概率和 也应该更大,为了鼓励模型在这些真值附近的位置预测出更大的概
率值,引入如公式4所示的损失函数:
[0093]        公式4
[0094] 跟踪器的回归分支整体损失函数如公式5所示,其中 表示常规的交并比损失, 分别表示预测目标包围框和真值目标包围框。
[0095]              公式5
[0096] 六.交并比感知的分类损失函数:
[0097] 跟踪器一般需要根据分类分支预测的置信度得分从候选框中选出最终的跟踪结果。为了促进分类分支挑选出更加准确的目标包围框,本发明引入交并比感知的分类损失函数对跟踪器的分类分支进行训练。
[0098] 由于预测包围框与真值包围框之间的交并比直接反映了预测结果的准确度,因此让分类分支学习预测每个候选框与真值框之间的交并比作为其置信度得分有助于挑选出最准确的预测结果。基于以上设想,本发明对传统的交叉熵损失函数进行改进:对于正样本,将其对应的标签由1调整为对应候选框与真值框之间的交并比;对于负样本,保持其对应的标签为0。最终得到的损失函数如公式6所示,其中Pos表示正样本集合, 表示其中第个样本的置信度预测结果。
[0099]        公式6
[0100] 七.重参数化推理加速:
[0101] 为了同时利用多分支模型训练时性能高的优势和单路模型推理速度快的优势,本发明对特征提取网络进行了重参数化,以使模型在推理速度和跟踪性能上得到较好的平衡。
[0102] 在预训练阶段和训练阶段,双光融合模块的基础构成单元如附图7所示,由卷积层以及旁边的 卷积分支和恒等映射分支构成。这样的结构相比于单个的卷积,可以通过构建残差连接产生大量子模型的隐式集成,进而提升模型的性能。而在训练完成后,如附图7所示,我们可以把 卷积和恒等映射都看作是卷积核参数除中心位置外的其他位置取值均为0的 卷积。之后根据卷积的可加性,将三个分支的 卷积的参数相加,即可得到与原始模型输出完全相同的仅包含一个 卷积的单路模型,达到提高模型推理速度的作用。该过程如公式7所示,Parameters表示对应 卷积核的参数空间。
[0103]        公式7
[0104] 本发明的潜在应用场景包括无人驾驶、辅助驾驶、智能安防、军事等领域。应用方式为将算法及模型部署到计算设备并对输入“红外+可见光”双路视频流中的指定目标进行跟踪。
[0105] 本发明的有益效果是:通过上述方案,此可见光‑热红外双光目标跟踪器具有更好的鲁棒性和泛化能力,能够更准确更快速的实现对目标的长时间跟踪。具体表现为:
[0106] 1.通过具有部分耦合卷积层的双光融合模块,更好的提取和融合可见光‑热红外图像对的特征,提高长时间跟踪算法在极端光照、恶劣天气等挑战下的鲁棒性。
[0107] 2. 通过引入状态切换模块在局部跟踪与全局检测间动态切换,避免因每一帧都要全局检测而带来的额外计算量,提高算法运行速度。
[0108] 3.通过引入更新控制模块维护更精准的目标模型,缓解因不可靠的在线更新带来的跟踪漂移甚至跟踪失败。
[0109] 4.在正式训练前通过互重建代理任务在未标注可见光‑热红外图像对上进行大规模预训练,提高模型的性能和泛化能力。
[0110] 5. 在训练中使用基于边界分布预测的回归损失函数,提高弱不对齐场景下的跟踪精度。
[0111] 6.在训练中使用交并比感知的分类损失函数,选择更好的候选框作为最终预测结果。
[0112] 7. 训练结束后通过重参数化将训练时使用的多分支大模型转化为等价的直筒式小模型,提高模型的推理速度。
[0113] 以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。