基于低秩稀疏的视频目标跟踪方法转让专利

申请号 : CN201611120314.0

文献号 : CN106530330B

文献日 : 2017-07-25

相似专利: 请登录后查看

本发明提出一种基于低秩稀疏的视频目标跟踪方法，避免因为图像特征信息冗余导致的处理速度减慢等问题。该方法利用统计跟踪方法粒子滤波进行状态估计。通过建立字典对目标、粒子进行低秩稀疏表示，使得计算复杂度大大降低。利用重建错误预先删除部分粒子，再计算差别分数，最终选定下一帧目标。本发明所述方法对视频图像中的目标能够实时跟踪、准确性高、计算复杂度低，符合实际跟踪中应用的需要。

1.一种基于低秩稀疏的视频目标跟踪方法，其特征在于包括以下步骤：S1：初始化参数：

S11：给定图像序列{I1,I2,…,IM}，M为序列总数；随机选择图像序列中的一张图像中的一个对象为目标，手动选定该目标的左上角p1(x1,y1)，左下角p2(x2,y2)以及右上角p3(x3,y3)，且用矩阵P表示，生成相应的矩形框确定该目标在图像中的位置，记该目标矩形框的矢量形式为O，其宽和高分别为wi和he；

S12：压缩S11中选定的图像，设置压缩后的图像大小，宽为sz_w，高为sz_h，目标压缩后将其用向量表示，定义x为目标压缩后的图像构成的向量，其维度为sz_w*sz_h；

S13：初始化字典Dt

在目标矩形框O上，定义2*3维随机矩阵RAND，RAND中的元素为随机生成的且服从高斯分布；

设置正样本数为Np，生成Np个RAND，令Ti＝P+RANDi*δp(i＝1,2...Np)，得到Np正样本框，其中Ti指第i个样本框的坐标表示，δp是指正样本框离目标距离，值越大表明离目标越远，RANDi表示生成的第i个样本框；

同样的，设置负样本数为Nn，生成Nn个RAND，令 (i＝1,2...Nn)，得到Nn负样本框；其中Ti+p指第i+p个样本框的坐标表示，δn是指负样本框离目标距离，值越大表明离目标越远；表示生成的第i+Np个样本框；

定义Dt为t时刻的字典，将这Np+Nn个矩形框矢量化后得到第1时刻的字典D1；

S14：z为x在字典上的表示系数；如果Dt为完备字典，则有x＝Dtz，x、Dt已知,z为求解项，λ0是z的一范数前的系数；求解目标矩形框O在字典Dt上的表示系数z0：其中：x0是初始目标压缩后的图像构成的向量；

S15：仿射参数设置为：σ0＝[σ01,σ02,σ03,σ04,σ05,σ06]；

S16：用w表示Dt每个向量的权值，w为Np+Nn维向量，wi(i＝1,2...Np+Nn)为w的分量；设置wi(i＝1,2...Np+Nn)初始值为设置权值的最小阈值为τ，0<τ<1；

S2：视频跟踪过程：

S21：利用粒子滤波方法进行状态预测，在目标矩形框O的临近区域内随机选取n个与目标矩形O大小相同或相近的粒子，作为下一图像序列目标预测值候选者；

(1)将粒子作为目标候选框，将S15设置的仿射参数σ0＝[σ01,σ02,σ03,σ04,σ05,σ06]作为高斯分布参数，生成n个粒子，每个粒子有6个参数；生成n*6维随机矩阵T，令S＝T*diag(σ0)，生成n*6的仿射参数矩阵，代表n个粒子；

其中，

(2)利用S在Ii中截取图片，其中S可以转化为坐标矩阵，通过坐标矩阵截取n张图片，每张图片转化为sz_w*sz_h维向量，这n张图片在坐标矩阵P附近，与P的距离呈高斯分布，P为Ii-1时刻的目标图片坐标；这些图片作为粒子，构成X0，X0为(sz_w*sz_h)*n维矩阵，作为下一图像序列目标预测值候选者；

S22：构建重建错误，剔除与目标差距较大的粒子：

首先，定义e0i＝||X0i-Dz0||2(i＝1,2...n)，e0值越大，说明与目标的差距越大，X0i是矩阵X0的第i列向量，选出X0中e0最小的25个候选粒子构成矩阵X，方法如下：X＝X0j(j∈co)

其中，

S23：Zt为X在字典Dt上的表示系数矩阵，有X＝Dt×Zt；由于X是低秩，因此Zt也是低秩；由于25个候选粒子接近目标向量，因此Zt也是稀疏矩阵，因此求解Zt可以根据约束求解，约束设置如下：其中||E||1,1＝∑j(∑i|[E]ij|),

其中，||Zt||2,1项代表低秩稀疏，Z0为z0复制NP+Nn个后所组成的矩阵，||E||1,1为重建错误差表示计算X＝Dt×Zt时，Dt×Zt的结果与X的误差，误差越小，表明用字典Dt恢复的图像越接近原始图像；λi(i＝1,2,3)作为不同项的系数；

o b

S24：定义zi为zi正样本系数，为Np维向量，zi为zi负样本系数，为Nn维向量；设置差别分数Δz，Δz表示正样本系数绝对值的总和减去负样本系数绝对值总和，Δz计算方法如下：Δzi＝||zio||1-||zib||1(i＝1,2...n)其中i表示第i个粒子，将差别分数最小的向量作为目标向量，同时替换上一时刻目标表示系数z0，赋予z0新的值：其中，||zio||1＝(∑j(∑i|(zio)ij|))，||zib||1＝(∑j(∑i|(zib)ij|))；

z0即为新选出的目标在字典Dt上的表示系数；

S25：字典更新；

目标跟踪过程中，每一帧都要将权值进行更新，将权值阈值小于τ的向量进行更换，方法如下：令wi←wi*exp(zoi)(i＝1,2...Np+Nn)，如果wi＜τ，则令i0＝argmin1≤i≤nwi，其中表示图像t序列中字典Dt的第i0个分量，wi表示w的第i个分量，wi←wi*exp(zoi)(i＝1,2...Np+Nn)表示将wi*exp(zoi)赋值给wi，同理，表示将z0赋值给S26：重复S21～S25。

2.根据权利要求1所述的基于低秩稀疏的视频目标跟踪方法，其特征在于，S12中图像的压缩方法如下：如果有min(wi,he)≤50，则取S11中选定的目标大小，取值如下：sz_w＝wi，sz_h＝he

如果有min(wi,he)＞50，则将S11中选定的图像通过降采样，降到原分辨率的一半，取值如下：如果S11中选定的目标过大即max(wi,he)＞64，则将该目标大小通过降采样设置为定值：sz_w＝32，sz_h＝32。

3.根据权利要求1所述的基于低秩稀疏的视频目标跟踪方法，其特征在于，S13中，δn＞＞δp，δn＞＞δp表示δn远大于δp。

4.根据权利要求1所述的基于低秩稀疏的视频目标跟踪方法，其特征在于，S15中，σ01、

4 2 3 5 6

σ0的取值为0.01～0.05，σ0、σ0的取值为0.0001～0.0005，σ0、σ0的取值为1～5。

基于低秩稀疏的视频目标跟踪方法

技术领域

[0001] 本发明主要涉及到数字图像处理领域，特指一种低秩稀疏的视频跟踪方法。

背景技术

[0002] 运动目标的跟踪是视觉领域的一项重要课题。跟踪任务是在目标选定的情况下，估计后续帧中目标状态信息的过程。视频图像的运动跟踪问题通常也被认为是动态状态估计问题，根据应用的不同，目标的状态信息一般为目标的运动物理特征，如位置，大小等。虽然国内外研究人员经过多年研究提出了很多解决方案，但是对于光照变化，遮挡问题，运动模糊问题仍然不能很好的解决。当今监控视频日益增多，对目标跟踪需求力度也在增大，需要自动化跟踪可疑目标，对于工作人员不可能全部浏览完毕的巨大数据量进行全面清查，得到目标。

[0003] 视频目标跟踪方法总体分为两类：统计跟踪方法和确定性跟踪方法。虽然确定性跟踪方法近些年一直有新成果出现，但是仍然不能从根本上解决实时性问题。

[0004] 统计跟踪方法近些年受到越来越广泛的关注，它是利用状态空间和测量空间共同描述整个跟踪系统目标的动态变化过程，对状态的估计通过寻找在相应测量条件下状态的后验概率峰值完成。粒子滤波是统计跟踪方法中最为典型的一种方案，通过对采样粒子不断转移和预测并获取样本相应特征测量以对样本权重进行更新。利用样本近似对状态空间后验概率密度进行估计。

[0005] 近几年在视频跟踪领域国内外研究人员对外观模型进行了大量研究，总体分为两大类：产生式模型和判别式模型。

[0006] 产生式模型首先通过学习目标的外观特征，然后利用学习到的目标外观特征搜索相关图像区域，根据最小误差准则得到后续视频帧中的目标位置。较为典型的产生式外观模型有基于稀疏表达的外观模型，基于正交匹配的外观模型，增量学习方法等等。产生式外观模型问题在于，外观特征的学习需要的训练样本数目较多，为了降低计算复杂度，只能线下学习并假设目标外观在整个跟踪过程中是不变的。产生式模型不能充分利用目标附近的背景信息，不利于提升跟踪效果。

[0007] 判别式模型将跟踪问题看做二进制分类问题，其主要思想是将目标从背景中分离出来。比较典型的判别式模型有利用支持向量机分类器的跟踪，在线提升跟踪算法，半监督在线提升跟踪算法，多实例学习跟踪算法，压缩跟踪算法等。压缩跟踪算法具有较高的实用性和可靠性，但是有几个方面问题限制了其实用性：首先，其无法适应目标多尺度变化对跟踪效果的影响，导致目标丢失的可能性加大。其次，目前各种判别式跟踪方法在采集样本时往往利用目标位置在时间上的相关性，在固定的半径区域内选择，没有考虑目标运动的速度和加速度信息，对于快速目标移动因素的适应性较差；最后，目前各种判别式跟踪方法，分类器学习参数值固定，当目标长时间被遮挡时，分类器必然会将覆盖物误认为是目标从而导致目标跟丢。

发明内容

[0008] 为了克服现有技术中存在的问题，本发明提出一种基于低秩稀疏的视频目标跟踪方法，避免因为图像特征信息冗余导致的处理速度减慢等问题。该方法实时性强，能够适应目标尺度变化，跟踪结果鲁棒性高。

[0009] 本发明的技术方案是：

[0010] 一种基于低秩稀疏的视频目标跟踪方法，包含以下步骤：

[0011] S1：初始化参数：

[0012] S11：给定图像序列{I1,I2,…,IM}，M为序列总数；随机选择图像序列中的一张图像中的一个对象为目标，手动选定该目标的左上角p1(x1,y1)，左下角p2(x2,y2)以及右上角p3(x3,y3)，且用矩阵P表示，生成相应的矩形框确定该目标在图像中的位置，记该目标矩形框的矢量形式为O，其宽和高分别为wi和he。

[0013] S12：压缩S11中选定的图像，设置压缩后的图像大小，宽为sz_w,高为sz_h，目标压缩后将其用向量表示，定义x为目标压缩后的图像构成的向量，其维度为sz_w*sz_h。具体地，其压缩方法如下：

[0014] 如果有min(wi,he)≤50，则取S11中选定的目标大小，取值如下：

[0015] sz_w＝wi，sz_h＝he

[0016] 如果有min(wi,he)＞50，则将S11中选定的图像通过降采样，降到原分辨率的一半，取值如下：

[0017]

[0018] 如果S11中选定的目标过大即max(wi,he)＞64，则将该目标大小通过降采样设置为定值：

[0019] sz_w＝32，sz_h＝32。

[0020] S13：初始化字典Dt

[0021] 在目标矩形框O上，定义2*3维随机矩阵RAND，RAND中的元素为随机生成的且服从高斯分布。

[0022] 设置正样本数为Np，生成Np个RAND，令Ti＝P+RANDi*δp(i＝1,2...Np)，得到Np正样本框，其中Ti指第i个样本框的坐标表示，δp是指正样本框离目标距离，值越大表明离目标越远，RANDi表示生成的第i个样本框。

[0023] 同样的，设置负样本数为Nn，生成Nn个RAND，令得到Nn负样本框。其中Ti+p指第i+p个样本框的坐标表示，δn是指负样本框离目
标距离，值越大表明离目标越远；表示生成的第i+Np个样本框。δn＞＞δp，δn＞＞δp表示δn远大于δp。

[0024] 定义Dt为t时刻的字典，将这Np+Nn个矩形框矢量化后得到第1时刻的字典D1。

[0025] S14：z为x在字典上的表示系数。如果Dt为完备字典，则有x＝Dtz，x、Dt已知,z为求解项，λ0是z的一范数前的系数。求解目标矩形框O在字典Dt上的表示系数z0：

[0026]

[0027] 其中：x0是初始目标压缩后的图像构成的向量。

[0028] S15：仿射参数设置为：σ0＝[σ01,σ02,σ03,σ04,σ05,σ06]。一般地，σ01、σ04的取值为0.01～0.05，σ02、σ03的取值为0.0001～0.0005，σ05、σ06的取值为1～5。

[0029] S16：用w表示Dt每个向量的权值，w为Np+Nn维向量，wi(i＝1,2...Np+Nn)为w的分量；设置wi(i＝1,2...Np+Nn)初始值为设置权值的最小阈值为τ，0<τ<1。

[0030] S2：视频跟踪过程：

[0031] S21：利用粒子滤波方法进行状态预测，在目标矩形框O的临近区域内随机选取n个与目标矩形O大小相同或相近的粒子，作为下一图像序列目标预测值候选者。

[0032] (1)将粒子作为目标候选框，将S15设置的仿射参数σ0＝[σ01,σ02,σ03,σ04,σ05,σ06]作为高斯分布参数，生成n个粒子，每个粒子有6个参数。生成n*6维随机矩阵T，令S＝T*diag(σ0)，生成n*6的仿射参数矩阵，代表n个粒子。

[0033] 其中，

[0034] (2)利用S在Ii中截取图片，其中S可以转化为坐标矩阵，通过坐标矩阵截取n张图片，每张图片转化为sz_w*sz_h维向量，这n张图片在坐标矩阵P附近，与P的距离呈高斯分布，P为Ii-1时刻的目标图片坐标。这些图片作为粒子，构成X0，X0为(sz_w*sz_h)*n维矩阵，作为下一图像序列目标预测值候选者。

[0035] S22：构建重建错误，剔除与目标差距较大的粒子：

[0036] 首先，定义e0i＝||X0i-Dz0||2(i＝1,2...n)，e0值越大，说明与目标的差距越大，X0i是矩阵X0的第i列向量，选出X0中e0最小的25个候选粒子构成矩阵X，方法如下：

[0037]

[0038] X＝X0j(j∈co)

[0039] 其中，

[0040] S23：Zt为X在字典Dt上的表示系数矩阵，有X＝Dt×Zt；由于X是低秩，因此Zt也是低秩；由于25个候选粒子接近目标向量，因此Zt也是稀疏矩阵，因此求解Zt可以根据约束求解，约束设置如下：

[0041]

[0042] 其中||E||1,1＝∑j(∑i|[E]ij|),

[0043]

[0044]

[0045] 其中，||Zt||2,1项代表低秩稀疏，Z0为z0复制NP+Nn个后所组成的矩阵，||E||1,1为重建错误差表示计算X＝Dt×Zt时，Dt×Zt的结果与X的误差，误差越小，表明用字典Dt恢复的图像越接近原始图像。λi(i＝1,2,3)作为不同项的系数，令λ3＝1，λ1、λ2需要根据仿真结果确定其大小。

[0046] S24：定义zio为zi正样本系数，为Np维向量，zib为zi负样本系数，为Nn维向量；设置差别分数Δz，Δz表示正样本系数绝对值的总和减去负样本系数绝对值总和，Δz计算方法如下：

[0047] Δzi＝||zio||1-||zib||1(i＝1,2...n)

[0048] 其中i表示第i个粒子，将差别分数最小的向量作为目标向量，同时替换上一时刻目标表示系数z0，赋予z0新的值：

[0049]

[0050] 其中，||Y||1＝(∑j(∑i|Yij|))，如||zio||1＝(∑j(∑i|(zio)ij|))，||zib||1＝(∑jb(∑i|(zi)ij|))。

[0051] z0即为新选出的目标在字典Dt上的表示系数。

[0052] S25：字典更新；

[0053] 目标跟踪过程中，每一帧都要将权值进行更新，将权值阈值小于τ的向量进行更换，方法如下：

[0054] 令wi←wi*exp(zoi)(i＝1,2...Np+Nn)，如果wi＜τ，则令i0＝argmin1≤i≤nwi，[0055]

[0056] 其中表示图像t序列中字典Dt的第i0个分量，wi表示w的第i个分量，wi←wi*exp(zoi)(i＝1,2...Np+Nn)表示将wi*exp(zoi)赋值给wi，同理，表示将z0赋值给

[0057] S26：重复S21～S25。

[0058] 该方法具有如下优点：利用l2,1范数，实现图像的稀疏以及低秩，减少原始高维特征即可对目标进行有效建模，使得本发明所述方法计算复杂度低，能够实时跟踪目标。

附图说明

[0059] 图1为本发明的流程图；

具体实施方式

[0060] 下面结合附图，对本发明作进一步的说明。

[0061] S1：初始化参数：

[0062] S11：给定图像序列{I1,I2,…,IM}，M为序列总数；随机选择图像序列中的一张图像中的一个对象为目标，手动选定该目标的左上角p1(x1,y1)，左下角p2(x2,y2)以及右上角p3(x3,y3)，且用矩阵P表示，生成相应的矩形框确定该目标在图像中的位置，记该目标矩形框的矢量形式为O，其宽和高分别为wi和he。

[0063] S12：压缩S11中选定的图像，设置压缩后的图像大小，宽为sz_w,高为sz_h，目标压缩后将其用向量表示，定义x为目标压缩后的图像构成的向量，其维度为sz_w*sz_h。具体地，其压缩方法如下：

[0064] 如果有min(wi,he)≤50，则取S11中选定的目标大小，取值如下：

[0065] sz_w＝wi，sz_h＝he

[0066] 如果有min(wi,he)＞50，则将S11中选定的图像通过降采样，降到原分辨率的一半，取值如下：

[0067]

[0068] 如果S11中选定的目标过大即max(wi,he)＞64，则将该目标大小通过降采样设置为定值：

[0069] sz_w＝32，sz_h＝32。

[0070] S13：初始化字典Dt

[0071] 在目标矩形框O上，定义2*3维随机矩阵RAND，RAND中的元素为随机生成的且服从高斯分布。

[0072] 设置正样本数为20，生成20个RAND，令Ti＝P+RANDi*δp(i＝1,2...20)，得到20个正样本框，其中Ti指第i个样本框的坐标表示，δp是指正样本框离目标距离，值越大表明离目标越远，RANDi表示生成的第i个样本框。

[0073] 同样的，设置负样本数为30，生成30个RAND，令Ti+20＝P+RANDi+20*δn(i＝1,2...30)，得到30个负样本框。其中Ti+p指第i+p个样本框的坐标表示，δn是指负样本框离目标距离，值越大表明离目标越远；RANDi+20表示生成的第i+20个样本框。δn＞＞δp，δn＞＞δp表示δn远大于δp。

[0074] 定义Dt为t时刻的字典，将这50个矩形框矢量化后得到第1时刻的字典D1。

[0075] S14：z为x在字典上的表示系数。如果Dt为完备字典，则有x＝Dtz，x、Dt已知,z为求解项，λ0是z的一范数前的系数。求解目标矩形框O在字典Dt上的表示系数z0：

[0076]

[0077] 其中：x0是初始目标压缩后的图像构成的向量。

[0078] S15：仿射参数设置为：σ0＝[0.03,0.0005,0.0005,0.03,1,1]。

[0079] S16：用w表示Dt每个向量的权值，w为50维向量，wi(i＝1,2...50)为w的分量；设置wi(i＝1,2...50)初始值为设置权值的最小阈值为τ＝0.6。

[0080] S2：视频跟踪过程：

[0081] S21：利用粒子滤波方法进行状态预测，在目标矩形框O的临近区域内随机选取n个与目标矩形O大小相同或相近的粒子，作为下一图像序列目标预测值候选者。

[0082] (1)将粒子作为目标候选框，将S15设置的仿射参数σ0＝[0.03,0.0005,0.0005,0.03,1,1]作为高斯分布参数，生成400个粒子，每个粒子有6个参数。生成400*6维随机矩阵T，令S＝T*diag(σ0)，生成400*6的仿射参数矩阵，代表400个粒子。

[0083] 其中，

[0084] (2)利用S在Ii中截取图片，其中S可以转化为坐标矩阵，通过坐标矩阵截取400张图片，每张图片转化为sz_w*sz_h维向量，这400张图片在坐标矩阵P附近，与P的距离呈高斯分布，P为Ii-1时刻的目标图片坐标。这些图片作为粒子，构成X0，X0为(sz_w*sz_h)*400维矩阵，作为下一图像序列目标预测值候选者。

[0085] S22：构建重建错误，剔除与目标差距较大的粒子：

[0086] 首先，定义e0i＝||X0i-Dz0||2(i＝1,2...400)，e0值越大，说明与目标的差距越大，X0i是矩阵X0的第i列向量，选出X0中e0最小的25个候选粒子构成矩阵X，方法如下：

[0087]

[0088] X＝X0j(j∈co)

[0089] 其中，

[0090] S23：Zt为X在字典Dt上的表示系数矩阵，有X＝Dt×Zt；由于X是低秩，因此Zt也是低秩；由于25个候选粒子接近目标向量，因此Zt也是稀疏矩阵，因此求解Zt可以根据约束求解，约束设置如下：

[0091]

[0092] 其中||E||1,1＝∑j(∑i|[E]ij|),

[0093]

[0094]

[0095] 其中，||Zt||2,1项代表低秩稀疏，Z0为z0复制NP+Nn个后所组成的矩阵，||E||1,1为重建错误差表示计算X＝Dt×Zt时，Dt×Zt的结果与X的误差，误差越小，表明用字典Dt恢复的图像越接近原始图像。λi(i＝1,2,3)作为不同项的系数，令λ＝[1,1,1]。

[0096] S24：定义zio为zi正样本系数，为20维向量，zib为zi负样本系数，为30维向量；设置差别分数Δz，Δz表示正样本系数绝对值的总和减去负样本系数绝对值总和，Δz计算方法如下：

[0097] Δzi＝||zio||1-||zib||1(i＝1,2...400)

[0098] 其中i表示第i个粒子，将差别分数最小的向量作为目标向量，同时替换上一时刻目标表示系数z0，赋予z0新的值：

[0099]

[0100] 其中，||Y||1＝(∑j(∑i|Yij|))，如||zio||1＝(∑j(∑i|(zio)ij|))，||zib||1＝(∑j(∑i|(zib)ij|))。

[0101] z0即为新选出的目标在字典Dt上的表示系数。

[0102] S25：字典更新；

[0103] 目标跟踪过程中，每一帧都要将权值进行更新，将权值阈值小于τ的向量进行更换，方法如下：

[0104] 令wi←wi*exp(zoi)(i＝1,2...50)，如果wi＜τ，则令i0＝argmin1≤i≤nwi，[0105] 其中表示图像t序列中字典Dt的第i0个分量，wi表示w的第i个分量，wi←wi*expi i(zo)(i＝1,2...50)表示将wi*exp(zo)赋值给wi，同理，表示将z0赋值给

[0106] S26：重复S21～S25。

[0107] 如上所述，本发明利用统计跟踪方法粒子滤波进行状态估计。通过建立字典对目标、粒子进行低秩稀疏表示，使得计算复杂度大大降低。利用重建错误预先删除部分粒子，再计算差别分数，最终选定下一帧目标。本发明所述方法对视频图像中的目标能够实时跟踪、准确性高、计算复杂度低，符合实际跟踪中应用的需要。

基于低秩稀疏的视频目标跟踪方法转让专利

申请号 : CN201611120314.0

文献号 : CN106530330B

文献日 : 2017-07-25

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 刘煜 , 王咪 , 赖世铭 , 徐玮 , 熊志辉

申请人 : 中国人民解放军国防科学技术大学

摘要 :

权利要求 :

说明书 :