一种目标跟踪方法转让专利

申请号 : CN201510037323.2

文献号 : CN104574445B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 魏振忠阮洋

申请人 : 北京航空航天大学

摘要 :

本发明公开了一种目标跟踪方法及装置,该方法包括:在初始化帧中,设计一个特殊的映射环节将图像转换成多向量混合特征;采用提取的多向量混合特征训练多向量相关滤波器;针对随后的序列图像,采用训练好的多向量相关滤波器生成所有搜索位置的置信图;选取置信图的峰值为目标位置,对此位置像第一步相同的方式提取多向量混合特征,并在线更新相关滤波器。采用本发明能够跟踪无先验信息的目标,对光照、旋转、遮挡等挑战性因素有很强鲁棒性,并且能够实现快速跟踪。

权利要求 :

1.一种目标跟踪方法,其特征在于实现步骤如下:

步骤1:在初始化帧中,以目标中心位置为中心,对当前帧进行密度采样,并对图像块经过余弦窗(cosine window)进行预处理,得到输入训练样本,利用映射环节将训练样本转换成多向量混合特征;

步骤2:采用提取的多向量混合特征训练多向量相关滤波器,将各个训练样本及样本所对应的置信度输入相关滤波器,此过程将多向量特征与多向量相关滤波器进行卷积,所有训练样本及样本所对应的置信度完成输入后,训练结束;

步骤3:针对随后的序列图像,首先会根据上一帧的目标位置,在搜索半径内提取待检测的图像块集,图像块此时需要采用步骤1中相同的方式获得多向量混合特征,将混合特征输入训练好的多向量相关滤波器,可以得到此位置上的置信度,对每个待检测位置计算后,可生成全部搜索位置的置信图;

步骤4:选取置信图的峰值为目标位置,对此位置像步骤1一样提取多向量混合特征,并在线更新相关滤波器;

步骤5:对于随后未处理的序列图像,逐帧计算,反复应用步骤3及步骤4,检测出目标位置,并在线更新跟踪器,由更新后的跟踪器在下一帧图像中进行目标检测,反复进行此循环,对于每一帧新图像,重新执行一次步骤3和步骤4,若视频流最后一帧处理完,循环结束。

2.根据权利要求1所述的目标跟踪方法,其特征在于:所述步骤1中映射环节将训练样本转换成多向量混合特征,具体实现如下:(1)根据待组成的多特征混合描述子来确定多个特征空间,每一个特征空间对应唯一的映射矩阵,而这些映射矩阵作为元素来组成总映射;

(2)将同一训练样本通过不同映射矩阵会生成不同的单向量特征;

(3)将这些单向量特征通过特征融合生成多向量混合特征。

说明书 :

一种目标跟踪方法

技术领域

[0001] 本发明涉及计算机视觉技术,特别涉及一种目标跟踪方法及装置。

背景技术

[0002] 目标跟踪已经被研究了很多年,有很多优秀的算法被提出来处理各种各样不同的任务。由于目标会受到光照、形变、遮挡等多种因素影响,目标跟踪在计算机视觉领域仍然是一项非常具有挑战性的研究任务。它在实际生活中应用广泛,包括视频监控、人机交互以及视频检索等。
[0003] 单目标跟踪是最常见的跟踪问题,大多数算法都跟踪一个不指定的目标,没有任何先验信息可利用。在视频第一帧中给出目标的初始化状态(位置信息和尺度信息),跟踪的目的是在后续的视频帧中评估目标的状态,计算目标的位置和尺度信息。
[0004] 一个传统的跟踪系统由四部分组成:目标初始化、外表建模、运动估计、目标定位。
[0005] 目标初始化分为手动或自动两种。手动初始化通过人工在图像中标选目标,常用矩形框来表示。而自动初始化采用检测器来自动识别出目标,例如人脸检测器。
[0006] 外表建模由特征描述和统计学建模组成。特征描述关注于采用怎么样的具有区别性的特征构建描述子来描述目标。统计学建模关注于如何去组织特征建立有效性的数学模型对目标进行识别。
[0007] 运动估计常采用线性回归、粒子滤波、卡尔曼滤波等方法在新一帧中对目标位置进行预估计。
[0008] 目标定位是根据运动估计的位置为依据,寻找到置信度最大的矩形目标框作为目标位置。
[0009] 特征描述常采用局部特征或者是全局特征,局部特征往往描述一个图形区域中的局部统计信息,而全局特征描述一个图形区域中的全局统计信息。一般,基于感兴趣点集的局部特征主要分为七种:基于局部模板、基于分割、基于SIFT、基于MSER、基于SURF、基于角点特征、基于特征池和基于显著检测。而全局特征描述主要包括:纯像素描述、光流描述、直方图描述、互相关描述、基于小波滤波器描述和基于有效的轮廓描述。
[0010] 跟踪算法基于统计学建模被归类为增长型或差异型两种。增长型算法通过学习模型来代 表被跟踪目标,然后用此模型在每帧中搜索最相似的那个区域。差异型算法将跟踪问题看为一个二分类任务,目的是为了找到决策边缘从而在背景中找到跟踪目标。
[0011] 使用静态模型的跟踪算法是无法克服重大的外表改变,大部分算法采用在线更新的外表模型,被称为在线跟踪算法。在线更新的方法很大程度影响目标持续跟踪的能力,如果一个外表模型更新时带有明显的噪声,误差将会积累,最终导致明显漂移甚至跟踪失败。
[0012] 综上所述,在现有的目标跟踪方法中,大部分方法为了提高跟踪精度而以牺牲速度为代价,无法满足30Hz的实时性要求。即便有些方法计算速度很快,但由于设计过于简单,导致跟踪精度较低。

发明内容

[0013] 有鉴于此,本发明的主要目的在于提供一种目标跟踪方法及装置,采用本发明能够跟踪无先验信息的目标,对光照、旋转、遮挡等挑战性因素有很强鲁棒性,并且能够实现快速跟踪。
[0014] 本发明技术解决方案:一种目标跟踪方法。该方法包括:在初始化帧中,设计一个特殊的映射环节将图像转换成多向量混合特征;采用提取的多向量混合特征训练多向量相关滤波器;针对随后的序列图像,采用训练好的多向量相关滤波器生成全部搜索位置的置信图;选取置信图的峰值为目标位置,对此位置像第一步的相同方式提取多向量混合特征,并在线更新相关滤波器。
[0015] 具体实现步骤如下:
[0016] 步骤1:在初始化帧中,以目标中心位置为中心,在当前帧中密度采样图像块并对其经过余弦窗(cosine window)进行预处理后得到输入训练样本(密度采样是相对于稀疏采样的概念,就是指在采样区域以最低步长扫描图像块,而稀疏采样是在相同区域以较大步长或者随机采样较少的图像块),设计一个映射环节将训练样本转换成多向量混合特征;
[0017] 步骤2:采用提取的多向量混合特征训练多向量相关滤波器,将各个训练样本及样本所对应的置信度输入相关滤波器,此过程将多向量特征与多向量相关滤波器进行卷积,所有训练样本及样本所对应的置信度完成输入后,训练结束。
[0018] 步骤3:针对随后的序列图像,首先会根据上一帧的目标位置,在搜索半径内提取待检测的图像块集,图像块此时需要采用步骤1中相同的方式获得多向量混合特征,将混合特征输入训练好的多向量相关滤波器,可以得到此位置的置信度。对每个待检测位置计算后,可生成所有搜索位置的置信图;
[0019] 步骤4:选取置信图的峰值为目标位置,对此位置像步骤1一样提取多向量混合特征,并在线更新相关滤波器。
[0020] 步骤5:对于随后未处理的序列图像,逐帧计算,反复应用步骤3及步骤4,检测出目标位置,并在线更新跟踪器,由更新后的跟踪器在下一帧图像中进行目标检测,反复进行此循环,对于每一帧新图像,重新执行一次步骤3和步骤4,若视频流最后一帧处理完,循环结束。
[0021] 所述步骤1中映射环节将训练样本转换成多向量混合特征具体实现如下:
[0022] (1)根据待组成的多特征混合描述子来确定多个特征空间,每一个特征空间对应唯一的映射矩阵,而这些映射矩阵作为元素来组成总映射;
[0023] (2)将同一训练样本通过不同映射矩阵会生成不同的单向量特征;
[0024] (3)将这些单向量特征通过特征融合生成多向量混合特征。
[0025] 本发明还提供一种目标跟踪装置,包括提取单元,训练单元,跟踪单元;其中,[0026] 所述提取单元,用于图像的预处理,并将处理后的图像采用提出的设计映射方式,生成多向量混合特征,将此特征传递给训练单元。
[0027] 所述训练单元,用于多向量相关滤波器的在线更新,此过程需要提取单元生成的混合特征。
[0028] 所述跟踪单元,用于在随后的序列图像中,检测出目标位置。
[0029] 本发明与现有技术相比的优点在于:本发明提供的目标跟踪方法及装置,能够跟踪无先验信息的目标,对光照、旋转、遮挡等挑战性因素有很强鲁棒性,并且能够实现快速跟踪。

附图说明

[0030] 图1为本发明目标跟踪实现流程图;
[0031] 图2为本发明多向量结构滤波器示意图;
[0032] 图3为本发明目标跟踪的装置结构示意图;
[0033] 图4为本发明跟踪效果示意图;
[0034] 图5为与本发明对比Struck方法跟踪效果示意图;
[0035] 图6为与本发明对比TLD方法跟踪效果示意图;
[0036] 图7为本发明跟踪精度及成功率示意图,其中左侧为精度示意图,右侧为成功率示意图。

具体实施方式

[0037] 如图1所示,本发明方法实现步骤如下:
[0038] 1.在初始化帧中,设计一个特殊的映射环节将图像转换成多向量混合特征。
[0039] 一般来说,单个特征对应于一个向量描述。存在一个映射将图像块映射至一个向量。对于多特征描述子,需要采用复合映射将多个特征映射成不同的向量。
[0040] 已知图像q,每个向量特征被定义为Xi=φi(q), v,其中v是多向量特i i征总 数,X表示第i个向量特征,其对应映射为φ 。
[0041] 多通道向量X=[X1,X2,…,Xv]为相关滤波器的输入。元素是一个M×N×Di维矩阵,其中M×N为元素大小,Di是通道数。 是一个M×N维矩阵,表i
示在第i个元素X中第Di个通道中的值。每个元素都有各自不同的通道数。输入X的维数D为 其中元素的总数量为v。多向量特征X作为一个整体,输入多向量相关滤波器中进行卷积。
[0042] 有必要关注不同Xi的元素尺度大小,这里需要一个预处理的操作,将每个不同向量的元素尺度大小都转化为M×N。各个元素的维数不一定相同。这里为CN-HOG混合特征的提取过程做一个简要的说明。此混合特征由F.S.Khan等首先提出,并被证明在目标检测领域是一种非常有效的特征描述子。对于HOG描述子,亮度通道需要被首先计算,整个描述子需要在图像中的每个核上进行单独计算。若核大小为n×n。元素XHOG特征尺度大小下降为(M/n)×(N/n),而其通道数为31维。一个相似的处理在图像中的每个核中计算元素XCN。这样它们两个不同的特征就能获得相同的尺度信息。对于CN特征,标准的三通道RGB图像被首先映射至11维颜色命名CN彩色空间。这样一个混合特征XCN-HOG作为一个整体,它的大小为(M/n)×(N/n),而此混合向量的维数为42维。
[0043] 2.采用提取的多向量混合特征训练多向量相关滤波器。
[0044] 图2为本发明多向量结构滤波器示意图。给出训练样本及其置信度,一个分类器f(x)被训练,目的是找到可以使总体系统风险最小的参数。一个线性分类器有如下的形式f(x)=+b,其中<,>表示点积。其他类型的分类器也可以被使用,比如高斯分类器或者多项式分类器。风险最小化问题按照如下形式表示:
[0045]
[0046] 其中L(y,f(x))是损失函数,x为输入训练样本,其对应的置信度为y,λ为控制正则化的参数,w为输入样本的线性组合,f为分类器的函数。RLS采用二次损失函数2
L(y,f(x))=(y-f(x))。多向量个数为v,第m个向量的通道数为Dm。对于每个特征通道,m,d
有其相对应的分类器f (x),其中m∈{1,…,v}, 每个特征通道
的置信得分通过累加得到一个单通道置信图结果。置信图的峰值为目标在此帧图像中的位置。
[0047] 映射 将训练样本映射至高维特征空间,定义核函数为可以 将式(1)中的解表达成输入样本的线性组合 分类器f(x)被训练的目的就是找到解w。当得到解w后,在线分类器的参数通过解的结果进行更新。
[0048] 下面的部分讨论简单近似解的问题,采用循环行列式矩阵,可以很好地进行傅里叶分析。通过快速傅里叶变换,这样有利于进行快速目标检测。基于核函数的RLS有如下形式的简单近似解:
[0049]
[0050] 其中置信度向量y的元素为yi,而F和F-1分别指代傅里叶变换及其反变换。向量ik的元素为ki=κ(x,P x), P是由x循环每一个元素生成的矩阵。
[0051] 高斯核函数有如下的定义:
[0052]
[0053] 其中 表示元素间的乘积,而*表示复共轭,而F指代傅里叶变换。
[0054] 还有很多的其他核函数可以使用。最简单的核函数是线性核函数,直接在原始空间进行点积。线性核函数的形式为:κ(x,x′)=
[0055] 总的来说,通过将各个训练样本及样本所对应的置信度输入相关滤波器进行训练,训练结束后相关滤波器中相应的参数会被更新。图2为本发明多向量结构滤波器示意图;
[0056] 3.针对随后的序列图像,采用训练好的多向量相关滤波器生成所有搜索位置的置信图。
[0057] 针对随后的序列图像,首先会根据上一帧的目标位置,在搜索半径内提取待检测的图像块集,图像块需要采用步骤1中相同的方式获得多向量混合特征,将混合特征输入训练好的多向量相关滤波器,可以得到此位置的置信度。对每个待检测位置计算后,可生成所有搜索位置的置信图。
[0058] 下面主要介绍快速检测的方法,仅以灰度图像进行说明。在新的一帧中,首先提取一个灰度图像块,它的大小为M×N。应用FFT快速傅里叶变换可以快速的训练和评估基于核函数的分类器。对于每一个待评估的输入图像块,分类器都会给出其相对应的结果。所有的结果被一并计算,由此目标的置信图被获得。所有位置的置信度得分 按如下公式计算:
[0059]
[0060] 其中,置信度得分 核函数的RLS的简单近似解α, 表示元素间的乘积,F和F-1分别表示傅里叶变换及其逆变换。由灰度块生成的向量 有如下元素 i=1,…,n。目标外表模型 被更新。在计算当前帧的外表模型时会考虑之前所有图像帧。目标位置为置 信图中最大得分位置。
[0061] 4.选取置信图的峰值为目标位置,对此位置像步骤1中一样提取多向量混合特征,并在线更新相关滤波器。
[0062] 这里主要介绍相关滤波器的更新策略。目标外表模型 和分类器参数α都需要在线更新。
[0063] 为了更新模型,当前帧之前的所有帧都被考虑,从第一帧到当前帧p。每一帧各自j的外表模型分别为{x:j=1,…,p}。每一帧j都配有不同的权重参数βj。其中βj>0。
权重参数βj由学习率参数γ进行设置。由此式子(1)需要重新写成如下形式:
[0064]
[0065] 其中L(y,f(x))是损失函数,λ为控制正则化的参数,w为输入样本的线性组合,每一帧j都配有不同的权重参数βj,第j帧的第i个通道的输入特征为xi,j,而此特征对应的置信度为yi,j。
[0066] 式子(2)中解α也需要重新表述为:
[0067]
[0068] 其中F和F-1分别表示傅里叶变换及其逆变换,权重参数βj,p为从第一帧到当前i帧的总帧数,λ为控制正则化的参数,由输入样本生成的向量k的元素为ki=κ(x,P x), 而y为输入样本对应的置信度。
[0069] 代价函数被最小化通过Ap=F(αp)。目标的外表模型 是一个M×N×D维矩阵,其中向量个数为v, 是一个M×N×Di维矩阵。为了更新模板外表模型,需要分别为每个向量设置不同的学习率 在每一个新的图像帧中,更新如下:
[0070]
[0071] 其中右上角标p表示第p帧中的变量,F表示傅里叶变换,解的傅里叶变换为 p pA=F(α ),其中它的分子为 分母为 学习率参数为γ,λ为控制正则化的参数,i
目标的外表模型 由输入样本生成的向量k的元素为ki=κ(x,P x),
而y为输入样本对应的置信度。
[0072] 这个更新框架并没有存储之前所有的外表模型,只有当前帧的外表模型需要被存储。
[0073] 此步骤完成后单次目标跟踪过程完成。为了继续跟踪后续图像序列,需要反复应用步骤3及步骤4。检测出目标位置,并在线更新跟踪器,由更新后的跟踪器在新一帧图像中进行目标检测,反复进行此循环。
[0074] 为了实现上述方法,本发明还提供了一种目标跟踪装置,如图3所示,该装置包括:提取单元,训练单元,跟踪单元;其中,提取单元,用于图像的预处理,并将处理后的图像采用提出的设计映射方式,生成多向量混合特征,将此特征传递给训练单元。训练单元,用于多向量相关滤波器的在线更新,此过程需要提取单元生成的混合特征。跟踪单元,用于在随后的序列图像中,检测出目标位置。
[0075] 下面结合实施例对本发明再作进一步详细的描述。实施例
[0076] 在本实施例中,采用由Y.Wu建立的目标跟踪标准测试视频集。这些视频序列提供大量场景变化及目标的运动。其中包括光照变化,大的尺度和姿态变化,快速移动,相似信息等具有挑战性的影响因素。所有的实验在一台2.7Ghz PC机上进行,它拥有2.0GB RAM。计算速度帧每秒采用FPS表示。
[0077] 采用当前最常用的两种评价标准精度(Precision)和成功率(Success Rate)来进行质量评价。一个广泛使用的跟踪评价方法是centre location error(CLE),它代表被跟踪目标的中心位置与手动标记的真值的欧式距离。作为精度的评分,对于每个跟踪器我们都设定一个20像素的阈值,计算CLE小于此阈值的所有图像的百分比。另外一个评价方法是Pascal VOC overlap ratio(VOR),计算成功的帧数,若此帧的跟踪框与真值的重叠率(overlap)大于一个给定的阈值,此阈值常常被定为0.5。Pascal VOC overlap ratio(VOR)就是这些帧数占全部帧数的百分比。
[0078] 为了描述方便,将本发明提供的目标跟踪方法称为基于多向量滤波器结构的目标跟踪方法,简称为MVCF(Multi-Vector Correlation Filter)。为了证明本发明方法是一种十分优秀的目标跟踪方法,采用TLD方法和Struck方法与本发明方法MVCF进行比较,它们是最近几年目标跟踪领域极具影响力的优秀算法。为了公平比较,仔细调整每种方法的参数,采用5次中最好的结果。
[0079] 表1展示本发明方法MVCF与前面提到TLD及Struck方法在标准测试视频集的跟踪结果。结果用成功率与精度表示。同时,表中给出每个方法的平均FPS。由结果可以看到,无论是成功率还是精度,本发明方法优于另外两种优秀方法。并且在计算时间上,FPS达到了83,属于非常高速的跟踪方法。而其他两种方法的FPS低于20。
[0080] 表1综合结果
[0081]
[0082] 图7展示了本发明的精度图和成功图。图例中给出50%重叠率数据和20pixel精度数据。图中可以看到,本发明方法优于其他相比较的优秀方法。
[0083] 在标准测试视频集中,有些视频的难度相对更大。为了证明本发明方法对于极具挑战性视频也有很好的鲁棒性,这里给出标准测试视频集中最具有挑战性5个视频结果。这五个视频分别是Basketball、Bolt、David3、Singer2和Woman。表2和表3分别给出成功率和精度结果。在某些较低难度的测试视频上,TLD和Struck方法与本发明方法MVCF都表现很好,然而表2和表3中的极具挑战性视频可以发现,本发明方法相比这两种方法在跟踪性能上优势明显。
[0084] 图4为本发明跟踪效果示意图,图5为与本发明对比Struck方法跟踪效果示意图,图6为与本发明对比TLD方法跟踪效果示意图。本发明可以很好的跟踪这些视频,而TLD和Struck方法会丢失目标。
[0085] 表2成功率结果
[0086]
[0087] 表3精度结果
[0088]
[0089] 本发明未详细阐述部分属于本领域技术人员公知技术。
[0090] 提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。