一种漂移检测的残差深度特征目标跟踪方法转让专利
申请号 : CN201810558287.8
文献号 : CN108961308B
文献日 : 2021-07-02
发明人 : 胡昭华 , 郑伟 , 钱坤
申请人 : 南京信息工程大学
摘要 :
权利要求 :
1.一种漂移检测的残差深度特征目标跟踪方法,其特征在于,包括以下步骤:步骤一、训练残差深度特征网络;
残差深度特征网络的结构包括4个卷积层、2个全连接层和1个残差结构;4个卷积层分别是conv1、conv2、conv3和conv4,2个全连接层分别是fc5和fc6,其中,conv1、conv2、conv3和conv4分别为第一卷积层、第二卷积层、第三卷积层和第四卷积层,fc5为第一全连接层,fc6为第二全连接层、也是网络输出层;
conv1、conv2、conv3、conv4、fc5和fc6依次顺序连接,残差结构用于将第二卷积层输出特征与第四卷积层输出特征进行线性相加,再通过激活函数输出,实现不同层的输出特征融合,对目标和背景进行分类;
步骤二、从当前帧裁剪得到的样本集,该样本集输入步骤一训练得到的残差深度特征网络,输出残差深度特征网络conv4的值,conv4输出值与相对应的回归标签构成训练样本集,根据训练样本集训练目标模板 并且定位当前帧目标;
步骤二具体如下:
设训练样本集为(X,Y),从当前帧裁剪得到的样本集,该样本集输入到步骤一训练完成的残差深度特征网络,残差深度特征网络中的conv4层输出的值为样本集特征X,Y表示X对应的回归标签;训练样本集中第i个样本表示为(xi,yi),其中,xi表示训练样本集中第i个特征,yi表示xi对应的回归标签,i=1,2,…N,N为训练样本总数;
T
训练样本集线性可分时,线性回归函数表示为f(xi)=w xi,上标T表示转置,通过求解公式(1),即最小化损失函数,确定w;
其中,f(xi)表示xi对应的预测回归标签,λ代表正则化系数,w表示权重系数,公式(1)写成矩阵形式为
T
其中X=[x1,x2,...,xN] ,X中每一行代表一个训练样本,Y是列向量,Y中列向量的每个元素代表X中行代表的训练样本对应的回归标签,求解公式(2)得目标模板H ‑1 H
w=(XX+λI) XY (3)其中上标H表示复共轭转置,I表示单位矩阵;
涉及到求逆运算,引入循环矩阵,训练样本集中的所有样本是由定义所跟踪的目标在图片中位置样本循环移位所得,定义跟踪的目标在图片中的位置的样本记为目标样本;所有的循环矩阵都能够在傅氏空间中使用离散傅里叶矩阵进行对角化,则其中,Xp是目标样本循环移位得到的训练样本集,每一行代表一个训练样本,xp代表目标样本,初始帧的目标样本是根据给定的需要定位的目标位置得到,随后的目标样本是根据当前帧的前一帧预测的位置得出置, 是xp的傅里叶变换,上标∧均表示傅里叶变换,F是傅里叶变换矩阵;初始帧确定的训练样本集对应的回归标签记为y,带入公式(3)解得目标模板为
其中上标*表示共轭,⊙表示点乘;
若遇到训练样本集线性不可分,引入核函数φ(Xp),训练样本集Xp映射到核空间线性可分;令K表示核空间的核矩阵,
其中 表示Xp在变换空间上的自相关,若 是循环矩阵,则目标模板检测阶段得到测试样本集ZP的响应矩阵,ZP是在检测阶段,根据上一帧预测当前帧目标位置确定的目标样本zp循环移位得到的测试样本集, 表示XP和ZP在变换空间上的互相关;
响应矩阵fp计算如公式(9)所示,其中,φ(Zp)表示测试样本集Zp映射到核空间,则预测目标位置是fP中元素最大值位置,即
其中,p(r,c)表示预测出的目标位置;
步骤三、检测模型漂移策略;
通过确定响应矩阵的峰值强度PSR连续下降现象来确定目标模板出现问题的位置;具体如下:
响应矩阵fp是由当前帧测试样本集和初始帧训练样本集,根据 计算得出,其中,ZP为测试样本集,XP为训练样本集,K表示核空间的核矩阵,上标∧均表示傅里叶变换; 表示训练样本集Xp和测试样本集ZP在傅里叶变换域的互相关计算,其中 表示XP进行傅里叶变换, 表示ZP进行傅里叶变换;
响应矩阵的峰值强度计算如下式所示,其中PSR为峰值强度,max_fp表示响应矩阵fp中元素最大值,μ表示fp中旁瓣的平均值,σ表示fp中旁瓣的标准差;
定义一个响应强度下降计数器counter,初始帧数值为0,设置计数器阈值为η,通过计数器的数值判断PSR连续下降的现象是否出现;设第t帧的PSR为a,第(t+1)帧的PSR为b,若b‑a<0,则counter数值加1,若b‑a>=0,则counter数值变为0,每一帧计算响应矩阵,计算counter数值,若counter>η,判断当前帧跟踪出现问题,上一帧更新的目标模板不适合定位当前帧目标,出现模型漂移;
步骤四、更新目标模型;
目标模型包含目标模板和外观模型,通过更新目标模板和外观模型实现对目标的精确跟踪;
若counter<=η,判断当前帧定位准确,计算目标位置 其中,r,c分别表示目标位置坐标的横坐标和纵坐标,按照以下公式对第(t+n)帧进行目标模板和外观模型的更新,其中n≥1;
model_wt+n=(1‑γ)model_wt+n‑1+γwt+nmodel_xt+n=(1‑γ)model_xt+n‑1+γxt+n其中model_wt+n‑1表示第(t+n‑1)帧的目标模板,wt+n表示第(t+n)帧的目标模板,model_wt+n表示更新后的目标模板;model_xt+n‑1表示第(t+n‑1)帧的外观模型,xt+n表示第(t+n)帧的外观模型,model_xt+n表示更新后的外观模型,γ表示比例系数,是决定前一帧模板信息与当前帧模板信息的融合权重;
若counter>η,判断当前帧定位不准确,计算目标位置 按照以下公式进行目标模板和外观模型的更新;
model_wt+n=model_wt+n‑ηmodel_xt+n=model_xt+n‑η目标模板和外观模型更新后,在下一帧图像,实现目标定位,再进行目标模板和外观模型更新,直至所有图像完成目标跟踪。
2.根据权利要求1所述的一种漂移检测的残差深度特征目标跟踪方法,其特征在于,λ设为1e‑4。
3.根据权利要求1所述的一种漂移检测的残差深度特征目标跟踪方法,其特征在于,η=6。
4.根据权利要求1所述的一种漂移检测的残差深度特征目标跟踪方法,其特征在于,γ为0.01。
说明书 :
一种漂移检测的残差深度特征目标跟踪方法
技术领域
背景技术
课题之一,在现实生活中有着广泛的应用,不仅仅在交通监控,智能手机,智能机器人,自动
驾驶,军事等领域都有它在发挥着重要作用。
巨大的影响,人们开始在其中寻找解决问题的方法。近年来目标跟踪以2014年JF
Henriques等人(Henriques J F,Rui C,Martins P,et al.High‑Speed Tracking with
Kernelized Correlation Filters[J].IEEE Transactions on Pattern Analysis&
Machine Intelligence,2014,37(3):583‑596)提出的核相关滤波算法最具有代表性,有着
极高的跟踪速度,使人们看到了实时跟踪的可能性,但是使用的传统特征导致跟踪的效果
不佳。同一年,由K Simonyan等人(Simonyan K,Zisserman A.Very deep convolutional
networks for large‑scale image recognition[J].arXiv preprint arXiv:1409.1556,
2014.)提出的深度卷积神经网络在ILSVRC‑2014上大放异彩,深度学习开始在计算机视觉
上发挥作用,在2015年由K He等人(He K,Zhang X,Ren S,et al.Deep Residual Learning
for Image Recognition[J].2015:770‑778.)提出的残差网络,其中应用的残差结构为训
练更深的网络提供途径,但是跟踪的实时性无法很好地满足要求。在随后的研究中,将深度
网络作为端到端的跟踪,如2016年由H Nam等人(Nam H,Han B.Learning Multi‑domain
Convolutional Neural Networks for Visual Tracking[C]//Computer Vision and
Pattern Recognition.IEEE,2016:4293‑4302.)提出的学习多域的神经网络,将原始图像
作为输入,直接输出跟踪结果,还有将深度网络作为特征提取器,如M Danelljan等人
(Danelljan M, G,Khan F S,et al.Convolutional Features for Correlation
Filter Based Visual Tracking[C]//IEEE International Conference on Computer
Vision Workshop.IEEE Computer Society,2015:621‑629.)提出的有效的卷积操作用于
跟踪,取得了非常好的跟踪精度,仍然面临着跟踪速度满足不了实时跟踪需要的难题。同
时,M Danelljan等人(Danelljan M,Bhat G,Khan F S,et al.ECO:Efficient
Convolution Operators for Tracking[J].2016:6931‑6939.)探究了不同卷积层特征对
于跟踪的影响,得出浅层特征更适合跟踪的结论;而由C Ma等人(Ma C,Huang J B,Yang X,
et al.Hierarchical Convolutional Features for Visual Tracking[C]//IEEE
International Conference on Computer Vision.IEEE Computer Society,2015:3074‑
3082.)提出的卷积分层特征用于跟踪,阐述了神经网络浅层和深层特征对于跟踪的影响,
有效利用浅层和深层特征能够显著提升跟踪效果,但是人工选取特征融合的方式不利于精
确的目标跟踪。
发明内容
不同场景下目标遇到的困难,跟踪方法具有鲁棒性。
conv3和conv4分别为第一卷积层、第二卷积层、第三卷积层和第四卷积层,fc5为第一全连
接层,fc6为第二全连接层、也是网络输出层;
特征融合,对目标和背景进行分类;
样本集,根据训练样本集训练目标模板 并且定位当前帧目标;
叶变换;
b,若b‑a<0,则counter数值加1,若b‑a>=0,则counter数值变为0,每一帧计算响应矩阵,
计算counter数值,若counter>η,判断当前帧跟踪出现问题,上一帧更新的目标模板不适
合定位当前帧目标,出现模型漂移;
外观模型的更新,其中n≥1;
+n)帧的外观模型,model_xt+n表示更新后的外观模型,γ表示比例系数,是决定前一帧模板
信息与当前帧模板信息的融合权重;
X对应的回归标签;训练样本集中第i个样本表示为(xi,yi),其中,xi表示训练样本集中第i
个特征,yi表示xi对应的回归标签,i=1,2,…N,N为训练样本总数;
本;所有的循环矩阵都能够在傅氏空间中使用离散傅里叶矩阵进行对角化,则
是根据当前帧的前一帧预测的位置得出置, 是xp的傅里叶变换,上标∧均表示傅里叶变
换,F是傅里叶变换矩阵;初始帧确定的训练样本集对应的回归标签记为y,带入公式(3)解
得目标模板为
互相关;
的融合,不需要人为设计特征融合方式,网络结构能够自动实现特征融合的功能,用深度特
征区分目标和背景,比传统特征更具有分辨力;在预测当前帧的目标位置时,提出了一个检
测模型漂移的策略,设计了一个响应强度下降计数器,通过对比相邻帧响应强度的大小计
数,根据计数器的数值,用来判断是否出现模型漂移,以采取相对应的模型更新方案作为补
救措施,实现精确跟踪;
帧定位准确性,以此来指导目标外观和模板的更新;在与当下的几种跟踪算法进行对比,实
现更加准确地跟踪目标,提取的深度融合特征能够应对不同场景下目标遇到的困难,跟踪
算法具有鲁棒性。
附图说明
曲线图,(e)为跟踪背景杂乱目标成功率曲线图,(f)为跟踪遮挡目标成功率曲线图。
具体实施方式
提取不同方面的特征,这些特征能够最本质地分辨目标;BN层作为网络的归一化层,能够对
卷积层的输出做归一化处理,能够加速训练网络,防止“梯度弥散”,提升网络泛化性能;池
化层主要有两个作用,一个是不变性,包括平移,旋转特征不变性,另一个作用是保留主要
的特征同时减少参数,防止网络训练过拟合。Conv2包含的具体操作是卷积层→BN层;Conv3
包含的具体操作是卷积层→BN层;Conv4包含的具体操作是卷积层→BN层→池化层;加入的
残差结构实现的功能是将Conv2的输出与Conv4的卷积输出线性相加,再通过激活函数输出
(卷积层包括卷积核激活函数输出),实现不同层的输出特征融合;Fc5表示全连接层;Fc6是
网络输出层。
目标和背景,因此输出层采用softmax输出,输出2个概率值分别代表图片被网络判断为目
标和背景的概率。网络输入图片大小为224*224*3。一个迭代次数代表训练一个完整数据
集,再次训练需要打乱数据集样本顺序。重要的一点是,第一次迭代是从网络参数随机初始
化开始的,第二次迭代,Conv1‑Fc5网络参数使用第一次迭代训练好的对应层的参数进行训
练,而Fc6即分类层参数随机初始化再次训练,以此类推,训练100个迭代次数,网络收敛,保
存网络模型。在训练目标模板和定位阶段时,将网络的Conv4层输出值作为融合特征,输出
维度大小为56*56*64。
根据训练样本集训练目标模板 并且定位当前帧目标;
X对应的回归标签。训练样本集中第i个样本表示为(xi,yi),其中,xi表示训练样本集中第i
个特征,是训练样本输入预训练的残差融合特征网络(图1)Conv4输出值,yi表示xi对应的回
归标签,i=1,2,…N,N为训练样本总数;
样本。所有的循环矩阵都能够在傅氏空间中使用离散傅里叶矩阵进行对角化,则
样本是根据当前帧的前一帧预测的位置得出置, 是xp的傅里叶变换,上标∧均表示傅里
叶变换,F是傅里叶变换矩阵;初始帧确定的训练样本集对应的回归标签记为y,带入公式
(3)解得目标模板为
Conv4输出值, 表示XP和ZP在变换空间上的互相关;
只能含有之前目标样本信息,不能反映目标的变化。当目标变化较大时,无法识别出目标,
导致目标丢失;若快速更新目标模型,就会形成误差的积累,产生模型的漂移,导致计算出
的响应矩阵不准确,无法正确定位目标当前位置,而响应矩阵含有可以判断目标模板是否
定位正确的信息。响应矩阵峰值强度是实现模型漂移检测策略的基础,它的计算如公式
(11)所示,
急剧增加,在几帧内达到误差峰值。说明在第493帧时,更新的目标模板出现问题,出现模型
漂移,它已经不适合做目标定位了。
现了。因此,可通过确定PSR连续下降现象来确定目标模板出现问题的位置。
帧的PSR为b,即
板不适合定位当前帧目标,出现模型漂移,能够指导后续的模型更新,采取相对应的措施实
现目标精确跟踪。
n)帧进行目标模型和外观模型的更新。
+n)帧的外观模型,model_xt+n表示更新后的外观模型,γ表示比例系数,是决定前一帧模板
信息与当前帧模板信息的融合权重,实验设置为0.01。
的功能,同时在跟踪算法中提出了检测模型漂移策略和相对应的更新模型方案作为补救措
施,实现精确跟踪。该网络是在VOT2015数据集预训练的,学习率设置为0.01,实验结果分析
基准为Visual Tracket Benchmark。
同的场景,测试算法在目标遇到如光照变化,快速运动,目标遮挡,尺度变化,背景杂乱,平
面内旋转等跟踪困难时实现的跟踪结果。实验中将本发明算法与3种算法进行实验,并对跟
踪结果对比,这3种算法分别为RPT,KCF,CNT。
精确度越高表明跟踪效果越好,成功率越高表明跟踪效果越好。测试视频采用OTB100精选
的30个视频。
0.002,综合评分,本发明的跟踪效果优于其他5种算法。在具体的评比中,曲线图3中的(b)
目标被遮挡和曲线图3中的(c)目标发生平面外旋转,在这两项测试中,本发明的算法在准
确率上都排第一,同样在曲线图3中的(e)、(f)中,出现背景杂乱和目标遮挡,在成功率对比
中本发明算法也排第一。
检测策略,用来判断是否出现响应强度连续下降的现象,判断当前帧定位准确性,以此来指
导目标外观和模板的更新。在与当下的几种跟踪算法进行对比,实现更加准确地跟踪目标,
提取的深度融合特征能够应对不同场景下目标遇到的困难,跟踪算法具有鲁棒性。
涵盖在本发明的保护范围内。