基于在线多特征选择的通道注意力目标跟踪方法转让专利

申请号 : CN202011098314.1

文献号 : CN112288772B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李晶刘天鹏常军肖雅夫洪燕姚博文

申请人 : 武汉大学

摘要 :

本发明公开了一种基于在线多特征选择的通道注意力目标跟踪方法。本发明对不同深度的特征根据跟踪目标的尺寸进行在线选择,并加入通道注意力机制来强化每层特征通道之间的相互依赖性,本发明还设计了一种新颖的体系结构单元,即“Cropping‑inside和Squeeze‑excitation Residual”(CSR)单元,它消除了填充的影响,并通过增强卷积特征通道之间的相互依赖性来提高网络的表示质量,通过堆叠CSR单元构建自裁剪和挤压激发残差网络(CSResNet)。在光照变化、尺度变化、遮挡、背景模糊和形变等极端的跟踪环境下,本发明方法依旧能保持较高的精度。

权利要求 :

1.一种基于在线多特征选择的通道注意力目标跟踪方法,其特征在于,包括如下步骤:步骤1,整体网络模型的构建:首先构建主干网络模型,所述主干网络模型包括两个分支,分别为检测分支和模板分支,每个分支包含三个支流,每个支流由多个CSR单元堆叠形成,用于输出不同深度的特征;然后利用特征动态选择机制对不同深度的特征进行选择,最后利用区域建议网络实现互相关操作,得到响应图;

三个支流中的每个支流均包含1个卷积层和1个池化层以及多个CSR单元,1个CSR单元包括1×1、3×3和1×1的卷积层;

步骤1中1个CSR单元对输入特征进行处理的具体过程如下,

输入特征 通过卷积获得带有填充的特征图U,H’、W’、C分别代表输入特征的高,宽和通道数,通过对U执行挤压操作以获取具有全局信息的向量:其中,uc是U的第c个通道,H,W是特征图U的高和宽,i和j代表特征高和宽的第i和j个像素;

然后进行释放操作;

δ是ReLU函数,W权是网络模型权重,W1和W2是子权重,它们的作用是对特征进行缩放,首先利用W1将特征尺寸减小为输入的1/r,r是缩减比率,然后通过ReLU并通过全连接层利用W2返回到原始尺寸;

选择Sigmoid激活函数以获得标准化权重,最后进行缩放操作以对每个通道加权标准化权重:其中 的是比例特征图,Scale是指 和U之间的通道方向乘法;

最后对 进行自剪裁操作,获得输出特征

步骤2,选取若干组模板帧和检测帧训练样本对步骤1构建的整体网络模型中进行训练,获得整体网络模型权重W权;

步骤3,将待检测的模板帧和检测帧喂入训练好的主干网络模型,实现不同深度的特征提取,每个支流分别输出1个特征;

步骤3,使用训练后得到的整体模型权重W权计算每个支流的回归损失,并利用特征动态选择机制计算得出三个支流中哪个支流输出的特征是当前跟踪帧下的最优选择;

利用特征动态选择机制对不同深度的特征进行选择的具体实现方式如下,其中, 是主干网络模型中支流j的回归损失,S用于计算目标和搜索区域之间的相对大小关系, 是主干网络模型中第j个支流,ζreg指区域建议网络中的回归分支,特征动态选择机制的目标函数设计为,于是,特征动态选择机制通过最小化以上目标函数来在线训练;

步骤4,利用步骤3选出的一组最优特征图,即响应图,预测目标的位置与尺度信息;

步骤5,输出每一帧图像的目标位置信息即完成跟踪。

2.如权利要求1所述的一种基于在线多特征选择的通道注意力目标跟踪方法,其特征在于:整体网络模型的损失函数概括为,其中(xi,zi)是第i组训练样本,li是对应的标签, 是主干网络模型中第j个支流,n是视频序列的帧数,m是主干网络支流的个数,W权是网络模型权重,ζ是区域建议网络,区域建议网络对主干网络模型输出的结果进行加权互相关操作,区域建议网络由分类分支和回归分支组成,其中,分类分支负责计算目标的粗略位置,而回归分支负责微调目标的粗略位置。

3.如权利要求1所述的一种基于在线多特征选择的通道注意力目标跟踪方法,其特征在于:主干网络模型中三个支流的网络结构如下,第一支流,包括依次连接的1个卷积层、1个池化层,1个卷积核个数分别为64、64和256的CSR单元,以及4个卷积核个数分别为128、128和512的CSR单元;

第二支流,包括依次连接的1个卷积层、1个池化层,2个卷积核个数分别为64、64和256的CSR单元,以及4个卷积核个数分别为128、128和512的CSR单元;

第三支流,包括依次连接的1个卷积层、1个池化层,3个卷积核个数分别为64、64和256的CSR单元,以及4个卷积核个数分别为128、128和512的CSR单元;

其中,卷积层中卷积核的大小为7×7,个数为64,步长为2,池化层采用2×2的最大池化,步长2。

说明书 :

基于在线多特征选择的通道注意力目标跟踪方法

技术领域

[0001] 本发明属于计算机视觉技术领域,具体涉及数字图像的目标跟踪技术领域,特别是涉及一种基于在线多特征选择的通道注意力目标跟踪方法。

背景技术

[0002] 目标跟踪是计算机视觉中的一个较为复杂的问题,需要解决两个主要任务:首先,挖掘有关感兴趣对象的某种程度的推理;其次,跟踪器必须建立帧与帧之间的对象对应关系,并估计视频序列中任意目标的位置,而仅将对象在初始帧中的位置。目标跟踪被广泛用于许多视觉应用中,例如监控、智能诊断、人工智能和自动驾驶等领域。
[0003] 基于孪生网络的跟踪器因其良好的精度和效率而备受关注。他们将目标跟踪问题转化为由神经网络实现的图片匹配问题,许多跟踪器都是高速和端到端网络。有学者将相关过滤器(CF)集成到网络层中,并将其嵌入基于孪生网络的框架中。SiamRPN将区域推荐网络模块用于目标检测以跟踪任务,并将原始相似度计算问题转换为回归和分类问题。基于孪生网络的跟踪器倾向于利用浅层特征图来训练目标的准确定位。尽管现有的基于深度跟踪器的孪生网络具有最先进的性能,但我们注意到大多数跟踪器的主干都相对较浅,例如SiamRPN与AlexNet,这些跟踪器都在类似于AlexNet等浅层网络上构建的主干网络。
[0004] 大多数孪生网络跟踪器将VGG或AlexNet用作主干,这些主干相对较浅,无法充分利用深度神经网络的功能。为了探索解决此问题的方法,有学者针对以下事实进行了深入的研究和大量的对比实验,即在孪生跟踪器中使用深层网络不会带来性能改进。他们发现,采用填充操作的深度网络的引入在学习中引起了位置偏差,并破坏了孪生网络中严格的平移不变性,从而限制了深度网络在跟踪任务中的应用。更深的网络意味着更深入的特征图,但是,只使用固定深度的网络无法有效利用浅层网络的空间位置信息和深层次网络的高层语义信息,导致训练出的模型在复杂环境下的鲁棒性受到限制。

发明内容

[0005] 为了解决上述技术问题,本发明提出了一种基于在线多特征选择的通道注意力目标跟踪方法。
[0006] 本发明方法将对不同深度的特征根据跟踪目标的尺寸进行在线选择,并加入通道注意力机制来强化每层特征通道之间的相互依赖性。
[0007] 本发明还设计了一种新颖的体系结构单元,即“Cropping‑inside和 Squeeze‑Excitation Residual”(CSR)单元,它消除了填充的影响,并通过增强卷积特征通道之间的相互依赖性来提高网络的表示质量。通过堆叠CSR单元构建自裁剪和挤压激发残差网络(CSResNet),在本发明提出的算法中,该CSResNet 被用作主干网络。
[0008] 另外,考虑到跨层次的特征选择的目标函数不应该使用类似Smooth L1这样带有距离信息的损失函数,本发明引入GIoU损失作为特征选择的目标函数。
[0009] 首先介绍关键模块,Cropping‑inside and Squeeze‑excitation Residual(CSR) 单元,该单元可以消除填充引起的位置偏差并增强通道之间的相互依赖性。然后,我们展示了如何通过堆叠CSR单元来构建CSResNet主干;最后,使用特征选择机制进行网络分支的在线选择,并引入了GIoU损失来代替RPN中的Smooth L1 损失,以提高跟踪性能。
[0010] 残差单元由于其鲁棒性和紧凑的结构,在残差网络中是至关重要的模块,它将填充添加到瓶颈卷积层以保留特征图的边界信息,它使输出大小与快捷方式相匹配,以简化网络设计的方向。Cropping‑inside Residual(CIR)单元是对残差单元的改进。它旨在通过添加特征后进行的裁剪操作来去除残差单元中的填充,裁剪操作可以减轻填充对严格平移不变性的影响,它是通过删除受到影响的特征图中的填充来实现的。
[0011] 本发明的技术方案为一种基于在线多特征选择的通道注意力目标跟踪方法,包括如下步骤:
[0012] 步骤1,整体网络模型的构建:首先构建主干网络模型,所述主干网络模型包括两个分支,分别为检测分支和模板分支,每个分支包含三个支流,每个支流由多个CSR单元堆叠形成,用于输出不同深度的特征;然后利用特征动态选择机制对不同深度的特征进行选择,最后利用区域建议网络实现互相关操作,得到响应图;
[0013] 三个支流中的每个支流均包含1个卷积层和1个池化层以及多个CSR单元, 1个CSR单元包括1×1、3×3和1×1的卷积层;
[0014] 步骤2,选取若干组模板帧和检测帧训练样本对步骤1构建的整体网络模型中进行训练,获得整体网络模型权重W权;
[0015] 步骤3,将待检测的模板帧和检测帧喂入训练好的主干网络模型,实现不同深度的特征提取,每个支流分别输出1个特征;
[0016] 步骤3,使用训练后得到的整体模型权重W权计算每个支流的回归损失,并利用特征动态选择机制计算得出三个支流中哪个支流输出的特征是当前跟踪帧下的最优选择;
[0017] 步骤4,利用步骤3选出的一组最优特征图,即响应图,预测目标的位置与尺度信息;
[0018] 步骤5,输出每一帧图像的目标位置信息即完成跟踪。
[0019] 进一步的,步骤1中1个CSR单元对输入特征进行处理的具体过程如下,[0020] 输入特征 通过卷积获得带有填充的特征图U,H’、W’、C分别代表输入特征的高,宽和通道数,通过对U执行挤压操作以获取具有全局信息的向量:
[0021]
[0022] 其中,uc是U的第c个通道,H,W是特征图U的高和宽,i和j代表特征高和宽的第i和j个像素;
[0023] 然后进行释放操作;
[0024]
[0025] δ是ReLU函数,W权是网络模型权重,W1和W2是子权重,它们的作用是对特征进行缩放,首先利用W1将特征尺寸减小为输入的1/r,r是缩减比率,然后通过ReLU并通过全连接层利用W2返回到原始尺寸;
[0026] 选择Sigmoid激活函数以获得标准化权重,最后进行缩放操作以对每个通道加权标准化权重:
[0027]
[0028] 其中 的是比例特征图,Scale是指 和U之间的通道方向乘法;
[0029] 最后对 进行自剪裁操作,获得输出特征
[0030] 进一步的,整体网络模型的损失函数概括为,
[0031]
[0032] 其中(xi,zi)是第i组训练样本, 是对应的标签, 是主干网络模型中第j 个支流,n是视频序列的帧数,m是主干网络支流的个数,W权是网络模型权重,ζ是区域建议网络,区域建议网络对主干网络模型输出的结果进行加权互相关操作,区域建议网络由分类分支和回归分支组成,其中,分类分支负责计算目标的粗略位置,而回归分支负责微调目标的粗略位置。
[0033] 进一步的,利用特征动态选择机制对不同深度的特征进行选择的具体实现方式如下,
[0034]
[0035] 其中, 是主干网络模型中支流j的回归损失,S用于计算目标和搜索区域之间的相对大小关系, 是主干网络模型中第j个支流,ζreg指区域建议网络中的回归分支,特征动态选择机制的目标函数设计为,
[0036]
[0037] 于是,特征动态选择机制通过最小化以上目标函数来在线训练。
[0038] 进一步的,主干网络模型中三个支流的网络结构如下,
[0039] 第一支流,包括依次连接的1个卷积层、1个池化层,1个卷积核个数分别为64、64和256的CSR单元,以及4个卷积核个数分别为128、128和512的 CSR单元;
[0040] 第二支流,包括依次连接的1个卷积层、1个池化层,2个卷积核个数分别为64、64和256的CSR单元,以及4个卷积核个数分别为128、128和512的 CSR单元;
[0041] 第三支流,包括依次连接的1个卷积层、1个池化层,3个卷积核个数分别为64、64和256的CSR单元,以及4个卷积核个数分别为128、128和512的 CSR单元;
[0042] 其中,卷积层中卷积核的大小为7×7,个数为64,步长为2,池化层采用2 ×2的最大池化,步长2。
[0043] 本发明与现有技术相比,具有以下优点:本发明的跟踪算法在高性能计算机上可以达到实时性的跟踪效果,即本发明具备实一定的经济效益。在光照变化、尺度变化、遮挡、背景模糊和形变等极端的跟踪环境下,本发明算法依旧能保持较高的精度。

附图说明

[0044] 图1是本发明实施例流程图。
[0045] 图2是本发明实施例CSR单元的处理流程图。

具体实施方式

[0046] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明做进一步详细说明应当理解,此处描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0047] 基于在线多特征选择的通道注意力目标跟踪方法,其主要思想是:不同层次特征图的语意侧重点不同,浅层特征具有更多的位置信息,而深层特征则更侧重语义信息。于是可以认为固定深度的跟踪网络给出的特征表示无法在任意情况下都取得良好的表现。因此本发明提出特征选择网络对跟踪过程中的特征进行在线选择,以求在跟踪任务中充分利用各层特征的信息。在分流不同层次特征表示的基础上,再对每个分流加入通道注意力机制,以达到更好的跟踪效果。考虑到跨层的特征图的在线选择目标函数,引入GIoU损失函数来对特征选择的过程进行指导。
[0048] 如图1所示,本发明放的整体流程为;
[0049] 步骤1,整体网络模型的构建:首先构建主干网络模型,所述主干网络模型包括两个分支,分别为检测分支和模板分支,每个分支包含三个支流,每个支流由多个CSR单元堆叠形成,用于输出不同深度的特征;然后利用特征动态选择机制对不同深度的特征进行选择,最后利用区域建议网络实现互相关操作,得到响应图;
[0050] 三个支流中的每个分支均包含1个卷积层和1个池化层以及多个CSR单元, 1个CSR单元包括1×1、3×3和1×1的卷积层;
[0051] 步骤2,选取若干组模板帧和检测帧训练样本对步骤1构建的整体网络模型中进行训练,获得整体网络模型权重W权;
[0052] 步骤3,将待检测的模板帧和检测帧喂入训练好的主干网络模型,实现不同深度的特征提取,每个支流分别输出1个特征;
[0053] 步骤3,使用训练后得到的整体模型权重W权计算每个支流的回归损失,并利用特征动态选择机制计算得出三个支流中哪个支流输出的特征是当前跟踪帧下的最优选择;
[0054] 步骤4,利用步骤3选出的一组最优特征图,即响应图,预测目标的位置与尺度信息;
[0055] 步骤5,输出每一帧图像的目标位置信息即完成跟踪。
[0056] 如图2所示,可以在从输入特征 映射到输出特征 映射的转换基础上构建一个Cropping‑Squeeze残差(CSR)单元,H’,W’,C分别代表输入特征的高,宽和通道数。输入通过卷积运算符Ftr获得带有填充的特征图U,通过对U执行Squeeze操作(挤压)以获取具有全局信息的向量:
[0057]
[0058] 其中,uc是U的第c个通道,它是局部描述符的集合,这些描述符配备了统计信息,构成了整个图像的全局平均池。i和j代表特征高和宽的第i和j个像素。
[0059] 旨在完全捕获基于通道的依赖关系,它来自公式Excitation(释放):
[0060]
[0061] δ是ReLU函数,W权是网络权重,W1和W2是子权重,首先将特征尺寸减小为输入的1/r,然后通过ReLU并通过全连接(FC)层返回到原始尺寸,而不是直接使用一个FC层。这种设计有两个优点:1)它可以学习通道之间的非线性相互作用;2)它大大减少了参数和计算量。考虑到跟踪器的实时要求,在性能和CSR模块增加的模型复杂性之间做出了很好的权衡。r是缩减比率,可以平衡与模块相关的计算负担。当r为16时,模型的复杂性和性能可以达到平衡。选择Sigmoid激活函数以获得标准化权重,最后进行Scale(缩放)操作以对每个通道加权标准化权重:
[0062]
[0063] 其中 的是比例特征图,H,W是加入填充操作后的高和宽。Scale 是指 和U之间的通道方向乘法。从压缩操作到Scale的过程可以看作是对通道加上自注意模块。
[0064] 本发明将Squeeze‑Excitation(挤压‑释放)机制集成到CIResNet中,CIResNet 是对残差网络的一个改进,它对残差网络加入了crop(自剪裁)操作,将深度网络带来的填充剪裁掉。本文使用上述方法获得Crops‑inside and Squeeze‑Excitation Residual(CSR)单元(见图2)。接下来,使用获得的CSR单元来构建所需的网络结构。
[0065] 堆叠CSR单元以形成所需的主干网络CSResNet,本文展示了几种CSResNet 网络结构,包括CSResNet‑16,19,22。下面详细介绍CSResNet‑22的结构,其他两个网络结构可以与前者类比来确认。CSResNet‑22由22个加权卷积层组成,分为三个阶段conv1,conv2和conv3。第一阶段,进行7×7像素的卷积和2×2 的最大池化实现下采样,然后进行裁剪操作将网络填充剪裁掉。阶段二,使用卷积核(分别为1×1像素,3×3像素与1×1像素,通道为64,64和256)的多个CSR单元对特征进行卷积,每一个CSR单元对输入特征进行挤压、释放、缩放的操作,实现深层特征的提取。与经典的残差网络类似,我们使用步长为2 的最大池化层在第一个CSR单元后进行特征下采样。在第三阶段,与阶段二处理过程一样,只是使用的CSR单元个数不一样,同样在第一个CSR单元加上最大池化层,以对特征图执行空间下采样。
[0066] 表1本文提出的主干网络的结构
[0067]
[0068] 表中,中括号代表一个CSR单元,其中的参数分别是,卷积核的像素,卷积核个数,括号外的参数为该组卷积核重复的次数。使用上文提出的结构替换 SiamRPN+算法中的主干网络,并使用不同的深度网络提取不同重点的特征表示。我们向这些功能图添加了在线调整机制,通过训练来自适应选择分支。
[0069] 特征层次结构支持不同空间分辨率的特征图,并将其引入不同的重点。浅层网络关注位置信息,这有助于准确地定位目标。相反,高层网络集中在语义信息上,这有利于分类。
[0070] 在基于孪生网络的跟踪方法中,数据分为两种类型:目标模板z图像和搜索图像x。将两种类型的数据输入到具有相同结构和相同参数的两个卷积神经网络中以进行特征提取。提取的两个特征数据根据获得的响应图互相关以指示目标位置。图1显示了孪生网络跟踪算法的示意图。
[0071] 孪生网络的跟踪公式为:
[0072]
[0073] 其中,ω表示互相关函数,是主干特征提取网络,f表示响应图。
[0074] 假设有n组模板帧z和检测帧x作为数据集。跟踪器的目标是获取目标的中心坐标,长度和宽度。这个目标可以通过两个主要步骤来实现。在热力图上生成粗略的目标位置,并通过微调位置来获得精确的位置信息。与传统的孪生跟踪器相比,我们的算法可以自适应地选择多个尺度的特征表示。然而,广泛使用的回归损失平滑L1损失显然不适用于跨尺度特征图选择,因此引入GIoU损失来指导自适应过程,目标函数可以概括为:
[0075]
[0076] 其中(xi,zi)是第i组训练样本, 是对应的标签。 是主干网络里第j个分流,n是视频序列的帧数,m是主干网络分流的支数。W权是网络权重,ζ是区域建议网络,区域建议网络对孪生网络(即主干网络)输出的结果进行加权互相关操作。区域建议网络由两个分支组成,分类分支负责计算目标的粗略位置,而回归分支负责微调粗略位置。
[0077] 网络结构的不同层提取的特征具有不同的重点。为了确保充分有效地利用网络的每一层,本发明设计了一种特征动态选择机制,可以为每组输入图像对自动选择最佳的网络结构,且该机制使网络可以根据目标对象的大小选择特征图表示。
[0078] 特征动态选择机制使用相应的标签和随机图像对(模板帧和检测帧)对回归损失Lreg执行离线训练。然后,该损失可用于判断在线推理过程中特征层次的选择,用来衡量机制区分度的公式被表述为:
[0079]
[0080] 其中,Lregi是每个分流的回归损失,S用于计算目标和搜索区域之间的相对大小关系,ζreg指区域建议网络中的回归分支。特征选择机制的目标功能设计为,[0081]
[0082] 于是,在线特征选择网络可以通过最小化以上损失来在线训练。
[0083] 本发明与现有技术相比,具有以下优点:本发明的跟踪算法在高性能计算机上可以达到实时性的跟踪效果,即本发明具备实一定的经济效益。在光照变化、尺度变化、遮挡、背景模糊和形变等极端的跟踪环境下,本发明算法依旧能保持较高的精度。