一种漂移检测的残差深度特征目标跟踪方法转让专利

申请号 : CN201810558287.8

文献号 : CN108961308B

文献日 : 2021-07-02

本发明公开了一种漂移检测的残差深度特征目标跟踪方法，通过卷积神经网络提取分层特征，然后在卷积神经网络加入残差结构，连接不同的网络层，实现浅层和深层特征的融合，不需要人为设计特征融合方式，网络结构能够自动实现特征融合的功能，用深度特征区分目标和背景，比传统特征更具有分辨力；在预测当前帧的目标位置时，提出了一个检测模型漂移的策略，设计了一个响应强度下降计数器，通过对比相邻帧响应强度的大小计数，根据计数器的数值，用来判断是否出现模型漂移，以采取相对应的模型更新方案作为补救措施，实现精确跟踪。

1.一种漂移检测的残差深度特征目标跟踪方法，其特征在于，包括以下步骤：步骤一、训练残差深度特征网络；

残差深度特征网络的结构包括4个卷积层、2个全连接层和1个残差结构；4个卷积层分别是conv1、conv2、conv3和conv4，2个全连接层分别是fc5和fc6，其中，conv1、conv2、conv3和conv4分别为第一卷积层、第二卷积层、第三卷积层和第四卷积层，fc5为第一全连接层，fc6为第二全连接层、也是网络输出层；

conv1、conv2、conv3、conv4、fc5和fc6依次顺序连接，残差结构用于将第二卷积层输出特征与第四卷积层输出特征进行线性相加，再通过激活函数输出，实现不同层的输出特征融合，对目标和背景进行分类；

步骤二、从当前帧裁剪得到的样本集，该样本集输入步骤一训练得到的残差深度特征网络，输出残差深度特征网络conv4的值，conv4输出值与相对应的回归标签构成训练样本集，根据训练样本集训练目标模板并且定位当前帧目标；

步骤二具体如下：

设训练样本集为(X,Y)，从当前帧裁剪得到的样本集，该样本集输入到步骤一训练完成的残差深度特征网络，残差深度特征网络中的conv4层输出的值为样本集特征X，Y表示X对应的回归标签；训练样本集中第i个样本表示为(xi,yi)，其中，xi表示训练样本集中第i个特征，yi表示xi对应的回归标签，i＝1,2,…N，N为训练样本总数；

训练样本集线性可分时，线性回归函数表示为f(xi)＝w xi，上标T表示转置，通过求解公式(1)，即最小化损失函数，确定w；

其中，f(xi)表示xi对应的预测回归标签，λ代表正则化系数，w表示权重系数，公式(1)写成矩阵形式为

其中X＝[x1,x2,...,xN] ，X中每一行代表一个训练样本，Y是列向量，Y中列向量的每个元素代表X中行代表的训练样本对应的回归标签，求解公式(2)得目标模板H ‑1 H

w＝(XX+λI) XY (3)其中上标H表示复共轭转置，I表示单位矩阵；

涉及到求逆运算，引入循环矩阵，训练样本集中的所有样本是由定义所跟踪的目标在图片中位置样本循环移位所得，定义跟踪的目标在图片中的位置的样本记为目标样本；所有的循环矩阵都能够在傅氏空间中使用离散傅里叶矩阵进行对角化，则其中，Xp是目标样本循环移位得到的训练样本集，每一行代表一个训练样本，xp代表目标样本，初始帧的目标样本是根据给定的需要定位的目标位置得到，随后的目标样本是根据当前帧的前一帧预测的位置得出置，是xp的傅里叶变换，上标∧均表示傅里叶变换，F是傅里叶变换矩阵；初始帧确定的训练样本集对应的回归标签记为y，带入公式(3)解得目标模板为

其中上标*表示共轭，⊙表示点乘；

若遇到训练样本集线性不可分，引入核函数φ(Xp)，训练样本集Xp映射到核空间线性可分；令K表示核空间的核矩阵，

其中表示Xp在变换空间上的自相关，若是循环矩阵，则目标模板检测阶段得到测试样本集ZP的响应矩阵，ZP是在检测阶段，根据上一帧预测当前帧目标位置确定的目标样本zp循环移位得到的测试样本集，表示XP和ZP在变换空间上的互相关；

响应矩阵fp计算如公式(9)所示，其中，φ(Zp)表示测试样本集Zp映射到核空间，则预测目标位置是fP中元素最大值位置，即

其中，p(r,c)表示预测出的目标位置；

步骤三、检测模型漂移策略；

通过确定响应矩阵的峰值强度PSR连续下降现象来确定目标模板出现问题的位置；具体如下：

响应矩阵fp是由当前帧测试样本集和初始帧训练样本集，根据计算得出，其中，ZP为测试样本集，XP为训练样本集，K表示核空间的核矩阵，上标∧均表示傅里叶变换；表示训练样本集Xp和测试样本集ZP在傅里叶变换域的互相关计算，其中表示XP进行傅里叶变换，表示ZP进行傅里叶变换；

响应矩阵的峰值强度计算如下式所示，其中PSR为峰值强度，max_fp表示响应矩阵fp中元素最大值，μ表示fp中旁瓣的平均值，σ表示fp中旁瓣的标准差；

定义一个响应强度下降计数器counter，初始帧数值为0，设置计数器阈值为η，通过计数器的数值判断PSR连续下降的现象是否出现；设第t帧的PSR为a，第(t+1)帧的PSR为b，若b‑a＜0，则counter数值加1，若b‑a＞＝0，则counter数值变为0，每一帧计算响应矩阵，计算counter数值，若counter＞η，判断当前帧跟踪出现问题，上一帧更新的目标模板不适合定位当前帧目标，出现模型漂移；

步骤四、更新目标模型；

目标模型包含目标模板和外观模型，通过更新目标模板和外观模型实现对目标的精确跟踪；

若counter＜＝η，判断当前帧定位准确，计算目标位置其中，r,c分别表示目标位置坐标的横坐标和纵坐标，按照以下公式对第(t+n)帧进行目标模板和外观模型的更新，其中n≥1；

model_wt+n＝(1‑γ)model_wt+n‑1+γwt+nmodel_xt+n＝(1‑γ)model_xt+n‑1+γxt+n其中model_wt+n‑1表示第(t+n‑1)帧的目标模板，wt+n表示第(t+n)帧的目标模板，model_wt+n表示更新后的目标模板；model_xt+n‑1表示第(t+n‑1)帧的外观模型，xt+n表示第(t+n)帧的外观模型，model_xt+n表示更新后的外观模型，γ表示比例系数，是决定前一帧模板信息与当前帧模板信息的融合权重；

若counter＞η，判断当前帧定位不准确，计算目标位置按照以下公式进行目标模板和外观模型的更新；

model_wt+n＝model_wt+n‑ηmodel_xt+n＝model_xt+n‑η目标模板和外观模型更新后，在下一帧图像，实现目标定位，再进行目标模板和外观模型更新，直至所有图像完成目标跟踪。

2.根据权利要求1所述的一种漂移检测的残差深度特征目标跟踪方法，其特征在于，λ设为1e‑4。

3.根据权利要求1所述的一种漂移检测的残差深度特征目标跟踪方法，其特征在于，η＝6。

4.根据权利要求1所述的一种漂移检测的残差深度特征目标跟踪方法，其特征在于，γ为0.01。

一种漂移检测的残差深度特征目标跟踪方法

技术领域

[0001] 本发明涉及图像处理和计算机视觉技术领域，特别是一种漂移检测的残差深度特征目标跟踪方法。

背景技术

[0002] 在各交通路段，都有着监控摄像头的身影，它们时刻观察着来往车辆，并对违规车辆进行身份信息确认和跟踪，其中，使用的目标跟踪技术，已是计算机视觉领域的核心研究
课题之一，在现实生活中有着广泛的应用，不仅仅在交通监控，智能手机，智能机器人，自动
驾驶，军事等领域都有它在发挥着重要作用。

[0003] 传统的目标跟踪算法遇到目标形变，光照变化，背景杂乱等困难时，并不能取得很好的跟踪效果，无法满足人们的需求。随着深度学习的蓬勃发展，对计算机视觉领域产生着
巨大的影响，人们开始在其中寻找解决问题的方法。近年来目标跟踪以2014年JF
Henriques等人(Henriques J F,Rui C,Martins P,et al.High‑Speed Tracking with
Kernelized Correlation Filters[J].IEEE Transactions on Pattern Analysis&
Machine Intelligence,2014,37(3):583‑596)提出的核相关滤波算法最具有代表性，有着
极高的跟踪速度，使人们看到了实时跟踪的可能性，但是使用的传统特征导致跟踪的效果
不佳。同一年，由K Simonyan等人(Simonyan K,Zisserman A.Very deep convolutional
networks for large‑scale image recognition[J].arXiv preprint arXiv:1409.1556,
2014.)提出的深度卷积神经网络在ILSVRC‑2014上大放异彩，深度学习开始在计算机视觉
上发挥作用，在2015年由K He等人(He K,Zhang X,Ren S,et al.Deep Residual Learning
for Image Recognition[J].2015:770‑778.)提出的残差网络，其中应用的残差结构为训
练更深的网络提供途径，但是跟踪的实时性无法很好地满足要求。在随后的研究中，将深度
网络作为端到端的跟踪，如2016年由H Nam等人(Nam H,Han B.Learning Multi‑domain
Convolutional Neural Networks for Visual Tracking[C]//Computer Vision and
Pattern Recognition.IEEE,2016:4293‑4302.)提出的学习多域的神经网络，将原始图像
作为输入，直接输出跟踪结果，还有将深度网络作为特征提取器，如M Danelljan等人
(Danelljan M, G,Khan F S,et al.Convolutional Features for Correlation
Filter Based Visual Tracking[C]//IEEE International Conference on Computer
Vision Workshop.IEEE Computer Society,2015:621‑629.)提出的有效的卷积操作用于
跟踪，取得了非常好的跟踪精度，仍然面临着跟踪速度满足不了实时跟踪需要的难题。同
时，M Danelljan等人(Danelljan M,Bhat G,Khan F S,et al.ECO:Efficient
Convolution Operators for Tracking[J].2016:6931‑6939.)探究了不同卷积层特征对
于跟踪的影响，得出浅层特征更适合跟踪的结论；而由C Ma等人(Ma C,Huang J B,Yang X,
et al.Hierarchical Convolutional Features for Visual Tracking[C]//IEEE
International Conference on Computer Vision.IEEE Computer Society,2015:3074‑
3082.)提出的卷积分层特征用于跟踪，阐述了神经网络浅层和深层特征对于跟踪的影响，
有效利用浅层和深层特征能够显著提升跟踪效果，但是人工选取特征融合的方式不利于精
确的目标跟踪。

[0004] 传统特征的片面性，传统跟踪模型对于模型漂移问题检测手段和补救措施的缺乏，限制着传统跟踪方法的性能。

发明内容

[0005] 本发明所要解决的技术问题是克服现有技术的不足而提供一种漂移检测的残差深度特征目标跟踪方法，本发明实现更加准确地跟踪目标，提取的深度融合特征能够应对
不同场景下目标遇到的困难，跟踪方法具有鲁棒性。

[0006] 本发明为解决上述技术问题采用以下技术方案：

[0007] 根据本发明提出的一种漂移检测的残差深度特征目标跟踪方法，包括以下步骤：

[0008] 步骤一、训练残差深度特征网络；

[0009] 残差深度特征网络的结构包括4个卷积层、2个全连接层和1个残差结构；4个卷积层分别是conv1、conv2、conv3和conv4，2个全连接层分别是fc5和fc6，其中，conv1、conv2、
conv3和conv4分别为第一卷积层、第二卷积层、第三卷积层和第四卷积层，fc5为第一全连
接层，fc6为第二全连接层、也是网络输出层；

[0010] conv1、conv2、conv3、conv4、fc5和fc6依次顺序连接，残差结构用于将第二卷积层输出特征与第四卷积层输出特征进行线性相加，再通过激活函数输出，实现不同层的输出
特征融合，对目标和背景进行分类；

[0011] 步骤二、从当前帧裁剪得到的样本集，该样本集输入步骤一训练得到的残差深度特征网络，输出残差深度特征网络conv4的值，conv4输出值与相对应的回归标签构成训练
样本集，根据训练样本集训练目标模板并且定位当前帧目标；

[0012] 步骤三、检测模型漂移策略；

[0013] 通过确定响应矩阵的峰值强度PSR连续下降现象来确定目标模板出现问题的位置；具体如下：

[0014] 响应矩阵fp是由当前帧测试样本集和初始帧训练样本集，根据计算得出，其中，ZP为测试样本集，XP为训练样本集，K表示核空间的核矩阵，上标∧均表示傅里
叶变换；

[0015] 响应矩阵的峰值强度计算如下式所示，

[0016]

[0017] 其中PSR为峰值强度，max_fp表示响应矩阵fp中元素最大值，μ表示fp中旁瓣的平均值，σ表示fp中旁瓣的标准差；

[0018] 定义一个响应强度下降计数器counter，初始帧数值为0，设置计数器阈值为η，通过计数器的数值判断PSR连续下降的现象是否出现；设第t帧的PSR为a，第(t)+1帧的PSR为
b，若b‑a＜0，则counter数值加1，若b‑a＞＝0，则counter数值变为0，每一帧计算响应矩阵，
计算counter数值，若counter＞η，判断当前帧跟踪出现问题，上一帧更新的目标模板不适
合定位当前帧目标，出现模型漂移；

[0019] 步骤四、更新目标模型；

[0020] 目标模型包含目标模板和外观模型，通过更新目标模板和外观模型实现对目标的精确跟踪；

[0021] 若counter＜＝η，判断当前帧定位准确，计算目标位置其中，r,c分别表示目标位置坐标的横坐标和纵坐标，按照以下公式对第(t+n)帧进行目标模板和
外观模型的更新，其中n≥1；

[0022] model_wt+n＝(1‑γ)model_wt+n‑1+γwt+n

[0023] model_xt+n＝(1‑γ)model_xt+n‑1+γxt+n

[0024] 其中model_wt+n‑1表示第(t+n‑1)帧的目标模板，wt+n表示第(t+n)帧的目标模板，model_wt+n表示更新后的目标模板；model_xt+n‑1表示第(t+n‑1)帧的外观模型，xt+n表示第(t
+n)帧的外观模型，model_xt+n表示更新后的外观模型，γ表示比例系数，是决定前一帧模板
信息与当前帧模板信息的融合权重；

[0025] 若counter＞η，判断当前帧定位不准确，计算目标位置按照以下公式进行目标模板和外观模型的更新；

[0026] model_wt+n＝model_wt‑1

[0027] model_xt+n＝model_xt‑1

[0028] 目标模板和外观模型更新后，在下一帧图像，实现目标定位，再进行目标模板和外观模型更新，直至所有图像完成目标跟踪。

[0029] 作为本发明所述的一种漂移检测的残差深度特征目标跟踪方法进一步优化方案，步骤二具体如下：

[0030] 设训练样本集为(X,Y)，从当前帧裁剪得到的样本集，该样本集输入到步骤一训练完成的残差深度特征网络，残差深度特征网络中的conv4层输出的值为样本集特征X，Y表示
X对应的回归标签；训练样本集中第i个样本表示为(xi,yi)，其中，xi表示训练样本集中第i
个特征，yi表示xi对应的回归标签，i＝1,2,…N，N为训练样本总数；

[0031] 训练样本集线性可分时，线性回归函数表示为f(xi)＝wTxi，上标T表示转置，通过求解公式(1)，即最小化损失函数，确定w；

[0032]

[0033] 其中，f(xi)表示xi对应的预测回归标签，λ代表正则化系数，w表示权重系数，公式(1)写成矩阵形式为

[0034]

[0035] 其中X＝[x1,x2,...,xN]T，X中每一行代表一个训练样本，Y是列向量，Y中列向量的每个元素代表X中行代表的训练样本对应的回归标签，求解公式(2)得目标模板

[0036] w＝(XHX+λI)‑1XHY (3)

[0037] 其中上标H表示复共轭转置，I表示单位矩阵；

[0038] 涉及到求逆运算，引入循环矩阵，训练样本集中的所有样本是由定义所跟踪的目标在图片中位置样本循环移位所得，定义跟踪的目标在图片中的位置的样本记为目标样
本；所有的循环矩阵都能够在傅氏空间中使用离散傅里叶矩阵进行对角化，则

[0039]

[0040] 其中，Xp是目标样本循环移位得到的训练样本集，每一行代表一个训练样本，xp代表目标样本，初始帧的目标样本是根据给定的需要定位的目标位置得到，随后的目标样本
是根据当前帧的前一帧预测的位置得出置，是xp的傅里叶变换，上标∧均表示傅里叶变
换，F是傅里叶变换矩阵；初始帧确定的训练样本集对应的回归标签记为y，带入公式(3)解
得目标模板为

[0041]

[0042] 其中上标*表示共轭，⊙表示点乘；

[0043] 若遇到训练样本集线性不可分，引入核函数φ(Xp)，训练样本集Xp映射到核空间线性可分；令K表示核空间的核矩阵，

[0044]

[0045] 其中表示Xp在变换空间上的自相关，若是循环矩阵，则目标模板

[0046]

[0047] 检测阶段得到测试样本集ZP的响应矩阵，ZP是在检测阶段，根据上一帧预测当前帧目标位置确定的目标样本zp循环移位得到的测试样本集，表示XP和ZP在变换空间上的
互相关；

[0048]

[0049] 响应矩阵fp计算如公式(9)所示，

[0050]

[0051] 其中，φ(Zp)表示测试样本集Zp映射到核空间，则预测目标位置是fP中元素最大值位置，即

[0052]

[0053] 其中，p(r,c)表示预测出的目标位置。

[0054] 作为本发明所述的一种漂移检测的残差深度特征目标跟踪方法进一步优化方案，λ设为1e‑4。

[0055] 作为本发明所述的一种漂移检测的残差深度特征目标跟踪方法进一步优化方案，η＝6。

[0056] 作为本发明所述的一种漂移检测的残差深度特征目标跟踪方法进一步优化方案，γ为0.01。

[0057] 本发明采用以上技术方案与现有技术相比，具有以下技术效果：

[0058] (1)本发明提出了漂移检测的残差深度特征目标跟踪算法，通过卷积神经网络提取分层特征，然后在卷积神经网络加入残差结构，连接不同的网络层，实现浅层和深层特征
的融合，不需要人为设计特征融合方式，网络结构能够自动实现特征融合的功能，用深度特
征区分目标和背景，比传统特征更具有分辨力；在预测当前帧的目标位置时，提出了一个检
测模型漂移的策略，设计了一个响应强度下降计数器，通过对比相邻帧响应强度的大小计
数，根据计数器的数值，用来判断是否出现模型漂移，以采取相对应的模型更新方案作为补
救措施，实现精确跟踪；

[0059] (2)通过将残差结构加入卷积神经网络来实现不同层特征的自动融合，同时在算法中加入一个模型漂移检测策略，用来判断是否出现响应强度连续下降的现象，判断当前
帧定位准确性，以此来指导目标外观和模板的更新；在与当下的几种跟踪算法进行对比，实
现更加准确地跟踪目标，提取的深度融合特征能够应对不同场景下目标遇到的困难，跟踪
算法具有鲁棒性。

附图说明

[0060] 图1是残差深度特征网络结构。

[0061] 图2是Board视频序列目标中心误差与响应强度曲线对比图。

[0062] 图3是本发明方法与对比算法OPE评估曲线；其中，(a)为跟踪精确率曲线图，(b)为跟踪遮挡目标精确率曲线图，(c)为跟踪平面外旋转目标精确率曲线图，(d)为跟踪成功率
曲线图，(e)为跟踪背景杂乱目标成功率曲线图，(f)为跟踪遮挡目标成功率曲线图。

[0063] 图4是本发明方法框架图。

具体实施方式

[0064] 为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

[0065] 如图4是本发明方法框架图，具体步骤如下：

[0066] (1)训练残差深度特征网络

[0067] 整个网络结构见图1，含有4个卷积层，2个全连接层和1个残差结构。Conv1包含的具体操作是卷积层→BN(Batch Normalization)层→池化层。卷积层含有多个卷积核，能够
提取不同方面的特征，这些特征能够最本质地分辨目标；BN层作为网络的归一化层，能够对
卷积层的输出做归一化处理，能够加速训练网络，防止“梯度弥散”，提升网络泛化性能；池
化层主要有两个作用，一个是不变性，包括平移，旋转特征不变性，另一个作用是保留主要
的特征同时减少参数，防止网络训练过拟合。Conv2包含的具体操作是卷积层→BN层；Conv3
包含的具体操作是卷积层→BN层；Conv4包含的具体操作是卷积层→BN层→池化层；加入的
残差结构实现的功能是将Conv2的输出与Conv4的卷积输出线性相加，再通过激活函数输出
(卷积层包括卷积核激活函数输出)，实现不同层的输出特征融合；Fc5表示全连接层；Fc6是
网络输出层。

[0068] 网络训练是在VOT2015数据集上训练。视频序列每帧图片裁剪若干个正样本(图片中含有目标)和若干个负样本(图片中不含有目标)。将训练视作二分类问题，训练网络识别
目标和背景，因此输出层采用softmax输出，输出2个概率值分别代表图片被网络判断为目
标和背景的概率。网络输入图片大小为224*224*3。一个迭代次数代表训练一个完整数据
集，再次训练需要打乱数据集样本顺序。重要的一点是，第一次迭代是从网络参数随机初始
化开始的，第二次迭代，Conv1‑Fc5网络参数使用第一次迭代训练好的对应层的参数进行训
练，而Fc6即分类层参数随机初始化再次训练，以此类推，训练100个迭代次数，网络收敛，保
存网络模型。在训练目标模板和定位阶段时，将网络的Conv4层输出值作为融合特征，输出
维度大小为56*56*64。

[0069] (2)训练目标模板并且定位当前帧目标；

[0070] 从当前帧裁剪得到的样本集，该样本集输入步骤一训练得到的残差深度特征网络，输出残差深度特征网络conv4的值，conv4输出值与相对应的回归标签构成训练样本集，
根据训练样本集训练目标模板并且定位当前帧目标；

[0071] 定位目标根据初始帧训练得到目标模板，在检测阶段，即随后的帧中，根据目标模板定位目标位置。

[0072] 设训练样本集为(X,Y)，从当前帧裁剪得到的样本集，该样本集输入到步骤一训练完成的残差深度特征网络，残差深度特征网络中的conv4层输出的值为样本集特征X，Y表示
X对应的回归标签。训练样本集中第i个样本表示为(xi,yi)，其中，xi表示训练样本集中第i
个特征，是训练样本输入预训练的残差融合特征网络(图1)Conv4输出值，yi表示xi对应的回
归标签，i＝1,2,…N，N为训练样本总数；

[0073] 训练样本集线性可分时，线性回归函数表示为f(xi)＝wTxi，上标T表示转置，通过求解公式(1)，即最小化损失函数，确定w；

[0074]

[0075] 其中，f(xi)表示xi对应的预测回归标签，λ代表正则化系数，w表示权重系数，公式(1)写成矩阵形式为

[0076]

[0077] 其中X＝[x1,x2,...,xN]T，X中每一行代表一个训练样本，Y是列向量，Y中列向量的每个元素代表X中行代表的训练样本对应的回归标签，求解公式(2)得目标模板

[0078] w＝(XHX+λI)‑1XHY (3)

[0079] 其中上标H表示复共轭转置，I表示单位矩阵。

[0080] 涉及到求逆运算，引入循环矩阵，训练样本集中的所有样本是由我们定义所跟踪的目标在图片中位置样本循环移位所得，定义跟踪的目标在图片中的位置的样本记为目标
样本。所有的循环矩阵都能够在傅氏空间中使用离散傅里叶矩阵进行对角化，则

[0081]

[0082] 其中，Xp是目标样本循环移位得到的训练样本集，每一行代表一个训练样本，xp代表目标样本，初始帧的目标样本是根据我们给定的需要定位的目标位置得到，随后的目标
样本是根据当前帧的前一帧预测的位置得出置，是xp的傅里叶变换，上标∧均表示傅里
叶变换，F是傅里叶变换矩阵；初始帧确定的训练样本集对应的回归标签记为y，带入公式
(3)解得目标模板为

[0083]

[0084] 其中上标*表示共轭，⊙表示点乘；

[0085] 若遇到训练样本集线性不可分，引入核函数φ(Xp)，训练样本集Xp映射到核空间线性可分；令K表示核空间(变换空间)的核矩阵，

[0086]

[0087] 其中表示Xp在变换空间上的自相关，若是循环矩阵，则目标模板

[0088]

[0089] 检测阶段得到测试样本集ZP的响应矩阵，ZP是在检测阶段，根据上一帧预测当前帧目标位置确定的目标样本zp循环移位得到的测试样本集，输入到残差融合特征网络的
Conv4输出值，表示XP和ZP在变换空间上的互相关；

[0090]

[0091] 响应矩阵fp计算如公式(9)所示，

[0092]

[0093] 其中，φ(Zp)表示测试样本集Zp映射到核空间。则预测目标位置是fP中元素最大值位置，即

[0094]

[0095] 其中，p(r,c)表示预测出的目标位置，r,c分别表示目标位置坐标的横坐标和纵坐标。

[0096] (3)检测模型漂移策略

[0097] 响应矩阵是定位的核心依据，响应矩阵是由目标模板当前帧测试样本集ZP和初始帧训练样本集XP按照公式(9)计算得出；目标在跟踪过程中不断发生变化，而当前的模型
只能含有之前目标样本信息，不能反映目标的变化。当目标变化较大时，无法识别出目标，
导致目标丢失；若快速更新目标模型，就会形成误差的积累，产生模型的漂移，导致计算出
的响应矩阵不准确，无法正确定位目标当前位置，而响应矩阵含有可以判断目标模板是否
定位正确的信息。响应矩阵峰值强度是实现模型漂移检测策略的基础，它的计算如公式
(11)所示，

[0098]

[0099] 其中PSR为峰值强度，max_fp表示响应矩阵fp中元素最大值，即峰值，μ表示fp中旁瓣的平均值，σ表示fp中旁瓣的标准差；

[0100] 响应矩阵峰值强度因为每个视频属性不同，无法通过简单的设置阈值认为峰值强度低于阈值就判定跟踪出现问题，出现模型漂移。这里以图2来说明这个问题。

[0101] 图2是Board视频序列计算出的每一帧对应的目标中心误差和PSR(峰值强度)曲线图。在图中竖线处，PSR最低值6.485是在第493帧出现，此时，它所对应的目标中心误差开始
急剧增加，在几帧内达到误差峰值。说明在第493帧时，更新的目标模板出现问题，出现模型
漂移，它已经不适合做目标定位了。

[0102] 根据图2，在目标中心误差较低的帧，PSR偶有波动，在目标中心误差开始急剧增加时，PSR开始在连续的帧数急剧下降，这种下降的现象在所有的跟踪出现问题的视频里都出
现了。因此，可通过确定PSR连续下降现象来确定目标模板出现问题的位置。

[0103] 因此，定义一个响应强度下降计数器counter，初始帧数值为0，设置计数器阈值为η(实验中η＝6)，通过计数器的数值判断下降的现象是否出现。设第t帧的PSR为a，第(t+1)
帧的PSR为b，即

[0104] PSR(t)＝a

[0105] PSR(t+1)＝b (12)

[0106] 若b‑a＜0，则counter数值加1，若b‑a＞＝0，则counter数值变为0，每一帧计算响应矩阵，计算counter数值，若counter＞η，判断当前帧跟踪出现问题，上一帧更新的目标模
板不适合定位当前帧目标，出现模型漂移，能够指导后续的模型更新，采取相对应的措施实
现目标精确跟踪。

[0107] (4)更新目标模板和外观模型

[0108] 判断模型是否漂移，即目标模板是否能够准确跟踪目标，是实现正确更新目标位置、目标外观和目标模板的前提条件，也是保证后续精确跟踪的前提条件。

[0109] 目标模板反映目标的本质特征，外观模型反映物体的外观特征。若counter＜＝η，判断当前帧定位准确，按照公式(10)计算目标位置，按照以下公式(13)和公式(14)对第(t+
n)帧进行目标模型和外观模型的更新。

[0110] model_wt+n＝(1‑γ)model_wt+n‑1+γwt+n (13)

[0111] model_xt+n＝(1‑γ)model_xt+n‑1+γxt+n (14)

[0112] 其中model_wt+n‑1表示第(t+n‑1)帧的目标模板，wt+n表示第(t+n)帧的目标模板，model_wt+n表示更新后的目标模板；model_xt+n‑1表示第(t+n‑1)帧的外观模型，xt+n表示第(t
+n)帧的外观模型，model_xt+n表示更新后的外观模型，γ表示比例系数，是决定前一帧模板
信息与当前帧模板信息的融合权重，实验设置为0.01。

[0113] 若counter＞η，判断当前帧定位不准确，按照公式(10)计算目标位置，按照以下公式(15)和公式(16)进行目标模型和外观模型的更新。

[0114] model_wt+n＝model_wt‑1 (15)

[0115] model_xt+n＝model_xt‑1 (16)

[0116] 与公式(13)和公式(14)的区别是，在当前帧定位不准确的前提下，将目标模板返回到连续下降帧的初始帧，同理，对于外观模型也进行相同的操作。

[0117] 目标模板和外观模型更新后，在下一帧图像，实现目标定位，再进行目标模板和外观模型更新，直至所有图像完成目标跟踪。

[0118] (5)实验验证与分析

[0119] 本发明提出的一种漂移检测的残差深度特征目标跟踪算法，跟踪核心部件是残差融合特征网络，将Conv4输出作为融合特征，残差深度特征网络结构能够自动实现特征融合
的功能，同时在跟踪算法中提出了检测模型漂移策略和相对应的更新模型方案作为补救措
施，实现精确跟踪。该网络是在VOT2015数据集预训练的，学习率设置为0.01，实验结果分析
基准为Visual Tracket Benchmark。

[0120] 为了测试本发明提出的跟踪算法的性能，实验中选择了共计35个视频作为测试的跟踪视频序列，这些视频是从OTB100数据集中精心选择的，不同视频中的跟踪目标有着不
同的场景，测试算法在目标遇到如光照变化，快速运动，目标遮挡，尺度变化，背景杂乱，平
面内旋转等跟踪困难时实现的跟踪结果。实验中将本发明算法与3种算法进行实验，并对跟
踪结果对比，这3种算法分别为RPT，KCF，CNT。

[0121] 实验部分采用visual tracking benchamark中的OPE准则评估跟踪算法性能，OPE(one pass evaluaton)常用两种评估方式精确度(precision)和成功率(success rate)，
精确度越高表明跟踪效果越好，成功率越高表明跟踪效果越好。测试视频采用OTB100精选
的30个视频。

[0122] 根据图3所示，在准确率曲线图3中的(a)中，本发明提出的算法在比较的4种算法中排第一，达到0.806，在成功率曲线图3中的(d)中，排第二，与第一名RPT跟踪算法相差
0.002，综合评分，本发明的跟踪效果优于其他5种算法。在具体的评比中，曲线图3中的(b)
目标被遮挡和曲线图3中的(c)目标发生平面外旋转，在这两项测试中，本发明的算法在准
确率上都排第一，同样在曲线图3中的(e)、(f)中，出现背景杂乱和目标遮挡，在成功率对比
中本发明算法也排第一。

[0123] 实验证明，本发明提出的一种漂移检测的残差深度特征目标跟踪算法，通过将残差结构加入卷积神经网络来实现不同层特征的自动融合，同时在算法中加入一个模型漂移
检测策略，用来判断是否出现响应强度连续下降的现象，判断当前帧定位准确性，以此来指
导目标外观和模板的更新。在与当下的几种跟踪算法进行对比，实现更加准确地跟踪目标，
提取的深度融合特征能够应对不同场景下目标遇到的困难，跟踪算法具有鲁棒性。

[0124] 以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应
涵盖在本发明的保护范围内。

一种漂移检测的残差深度特征目标跟踪方法转让专利

申请号 : CN201810558287.8

文献号 : CN108961308B

文献日 : 2021-07-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 胡昭华 , 郑伟 , 钱坤

申请人 : 南京信息工程大学

摘要 :

权利要求 :

说明书 :