基于深度信息的相关滤波跟踪方法及装置转让专利

申请号 : CN201711124878.6

文献号 : CN107784663B

文献日 : 2020-10-20

本发明公开了一种基于深度信息的相关滤波跟踪方法及装置，其方法包括：基于深度图的图像分割技术，自适应性量化深度信息，得到深度图像分割结果；利用深度图像分割结果，根据不同场景构建相应的三维空间模型的分层结构；利用分层结构，并结合核相关滤波跟踪算法处理目标尺度变化及检测遮挡。本发明一方面过滤前景和背景信息减少跟踪的干扰因素，结合成熟的图像特征提取技术；另一方面这样的分层结构简化了深度信息的使用方法，使得处理目标尺度变化以及检测遮挡更为容易。结合核相关滤波跟踪算法实现了使用二维表观模型在空间结构下的跟踪方法，能够有效应对遮挡和处理目标尺度变化，提高视觉跟踪效果。

1.一种基于深度信息的相关滤波跟踪方法，其特征在于，包括以下步骤：基于深度图的图像分割技术，自适应性量化深度信息，得到深度图像分割结果；

利用所述深度图像分割结果，根据不同场景构建相应的三维空间模型的分层结构；

利用所述分层结构，并结合核相关滤波跟踪算法处理目标尺度变化及检测遮挡；

所述基于深度图的图像分割技术，自适应性量化深度信息，得到深度图像分割结果的步骤包括：使用目标深度值的统计结果来初始化K-Means聚类的相关参数，并估计相关参数，所述相关参数包括聚类中心和类簇个数K；

根据估计的相关参数进行K-Means聚类过程，得到聚类结果标签图；

对所述聚类结果标签图进行滤波处理，得到深度图像分割结果；

所述使用目标深度值的统计结果来初始化K-Means聚类的相关参数，并估计相关参数的步骤包括：初始化K值为3，选择深度直方图中的局部峰值；

对于深度直方图剩余的区间，计算其与所有聚类中心点的距离，取其中最小值，即找到与其最近的聚类中心点的距离；

从所有最近的距离中选出具有最大值的区间作为下一个聚类中心点；

重复上述寻找聚类中心点的过程，直到得到K个中心点或者上述循环过程中出现的距离最近的聚类中心点的最大距离小于阈值。

2.根据权利要求1所述的方法，其特征在于，所述根据估计的相关参数进行K-Means聚类过程，得到聚类结果标签图的步骤包括：找到深度直方图中距离每个区间距离最近的聚类中心点，并分为该类别，根据新的聚类结果更新聚类中心点，迭代上述过程直至收敛，得到聚类结果标签图。

3.根据权利要求1-2中任一项所述的方法，其特征在于，所述利用所述深度图像分割结果，根据不同场景构建相应的三维空间模型的分层结构的步骤包括：将得到的深度图像分割结果映射到RGB图像上，得到相应的分割结果，接着把图像分割所得的各个图像块按照其平均深度进行排序，即为分层操作，构建出简化的三维空间模型。

4.根据权利要求1-2中任一项所述的方法，其特征在于，所述方法还包括：对图像分层策略、跟踪算法的有效性进行验证和分析。

5.一种基于深度信息的相关滤波跟踪装置，其特征在于，包括存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时实现如权利要求1-4中任一项所述的方法的步骤。

基于深度信息的相关滤波跟踪方法及装置

技术领域

[0001] 本发明涉及视觉目标跟踪技术领域，尤其涉及一种基于深度信息的相关滤波跟踪方法及装置。

背景技术

[0002] 视觉目标跟踪属于视频分析，作为计算机视觉领域的一个重要分支，它的基本任务是根据给定的目标在初始帧的位置信息，预测目标在视频序列中的位置、区域以及运动轨迹。视频分析支持很多应用，如对物体的运动进行检测，对目标进行分类，理解目标的行为等等，涉及到了计算机视觉研究领域的中高层处理阶段，包括研究视频序列中的物体运动规律，进而为系统的决策提供语义和非语义的信息。近年来，随着各类跟踪算法的不断创新，深度学习的飞速发展以及计算机处理速度的提升，实时的甚至高速的目标跟踪算法出现，有力地推动视频智能处理领域的发展，它在智能人机交互、虚拟现实、视频监控等应用领域都具有巨大的潜力。

[0003] 遮挡是三维世界投影到二维平面的信息损失导致的，因此出现一些使用深度信息的二维或三维跟踪方法，借助三维空间结构来帮助解决这些难题，并取得了一定的进展。目前基于深度信息的跟踪算法分为两类，其中二维跟踪方法不能有效的使用深度信息，没有把深度信息与已有的跟踪算法深度融合。而三维跟踪方法由于缺乏比较成熟的三维特征提取技术，目标的三维表观模型并不鲁棒，进而影响其跟踪效果。但是在目标被遮挡、目标尺度变化或处于复杂背景等情况下，尤其是目标被长时间或者严重遮挡的时候，如何准确跟踪目标仍是困扰着研究者们的难题。这些问题中部分存在的原因是因为三维世界的信息映射到二维平面导致的信息损失，如果可以获得帮助标定三维空间位置的信息，就可以在一定程度上解决遮挡、复杂背景等问题。

发明内容

[0004] 本发明提供一种基于深度信息的相关滤波跟踪方法及装置，结合核相关滤波跟踪算法实现了使用二维表观模型在空间结构下的跟踪方法，能够有效应对遮挡和处理目标尺度变化，提高视觉跟踪效果。

[0005] 为实现上述目的，本发明提供一种基于深度信息的相关滤波跟踪方法，包括以下步骤：

[0006] 基于深度图的图像分割技术，自适应性量化深度信息，得到深度图像分割结果；

[0007] 利用所述深度图像分割结果，根据不同场景构建相应的三维空间模型的分层结构；

[0008] 利用所述分层结构，并结合核相关滤波跟踪算法处理目标尺度变化及检测遮挡。

[0009] 其中，所述基于深度图的图像分割技术，自适应性量化深度信息，得到深度图像分割结果的步骤包括：

[0010] 使用目标深度值的统计结果来初始化K-Means聚类的相关参数，并估计相关参数，所述相关参数包括聚类中心和类簇个数K；

[0011] 根据估计的相关参数进行K-Means聚类过程，得到聚类结果标签图；

[0012] 对所述聚类结果标签图进行滤波处理，得到深度图像分割结果。

[0013] 其中，所述使用目标深度值的统计结果来初始化K-Means聚类的相关参数，并估计相关参数的步骤包括：

[0014] 初始化K值为3，选择深度直方图中的局部峰值；

[0015] 对于深度直方图剩余的区间，计算其与所有聚类中心点的距离，取其中最小值，即找到与其最近的聚类中心点的距离；

[0016] 从所有最近的距离中选出具有最大值的区间作为下一个聚类中心点；

[0017] 重复上述寻找聚类中心点的过程，直到得到K个中心点或者上述循环过程中出现的距离最近的聚类中心点的最大距离小于阈值。

[0018] 其中，所述根据估计的相关参数进行K-Means聚类过程，得到聚类结果标签图的步骤包括：

[0019] 找到深度直方图中距离每个区间距离最近的聚类中心点，并分为该类别，根据新的聚类结果更新聚类中心点，迭代上述过程直至收敛，得到聚类结果标签图。

[0020] 其中，所述利用所述深度图像分割结果，根据不同场景构建相应的三维空间模型的分层结构的步骤包括：

[0021] 将得到的深度图像分割结果映射到RGB图像上，得到相应的分割结果，接着把图像分割所得的各个图像块按照其平均深度进行排序，即为分层操作，构建出简化的三维空间模型。

[0022] 其中，所述方法还包括：

[0023] 对图像分层策略、跟踪算法的有效性进行验证和分析。

[0024] 本发明还提出一种基于深度信息的相关滤波跟踪装置，包括存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时实现如上所述的方法的步骤。

[0025] 相比现有技术，本发明提出了一种基于深度信息的相关滤波跟踪方法及装置，使用自适应量化的深度信息，根据不同场景建立相适应的分层结构。一方面过滤前景和背景信息减少跟踪的干扰因素，结合成熟的图像特征提取技术，包括HOG特征和颜色属性直方图特征等，建立目标鲁棒的目标表观模型；另一方面这样的分层结构简化了深度信息的使用方法，使得处理目标尺度变化以及检测遮挡更为容易。在分层结构的基础上，提出在取样之前完成目标尺度估计的策略，以及快速检测遮挡的策略，结合核相关滤波跟踪算法实现了使用二维表观模型在空间结构下的跟踪方法，能够有效应对遮挡和处理目标尺度变化，提高视觉跟踪效果。

附图说明

[0026] 图1是本发明WiFi热点扫描控制方法第一实施例的流程示意图；

[0027] 图2a、图2b及图2c是本发明深度图像分割结果示意图；

[0028] 图3a、图3b及图3c是本发明整个场景的分割示意图；

[0029] 图4a和图4b是分层结构不同视角示意图；

[0030] 图5是本发明摄像机成像时物距、焦距、物体尺寸与成像尺寸的关系；

[0031] 图6是本发明分层结构下估计目标尺度示意图；

[0032] 图7是本发明检测遮挡示意图；

[0033] 图8是本发明完全遮挡时搜索区域示意图；

[0034] 图9是本发明像素点属于目标的概率图和某位置为目标的得分图。

[0035] 本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

[0036] 应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0037] 具体地，请参照图1，图1是本发明提出的基于深度信息的相关滤波跟踪方法较佳实施例的流程示意图。

[0038] 如图1所示，本发明第一实施例提出一种基于深度信息的相关滤波跟踪方法，包括：

[0039] 步骤S1，基于深度图的图像分割技术，自适应性量化深度信息，得到深度图像分割结果；

[0040] 具体地，首先使用目标深度值的统计结果来初始化K-Means聚类的相关参数，并估计相关参数，所述相关参数包括聚类中心和类簇个数K；

[0041] 然后，根据估计的相关参数进行K-Means聚类过程，得到聚类结果标签图；

[0042] 最后，对所述聚类结果标签图进行滤波处理，得到深度图像分割结果。

[0043] 其中，所述使用目标深度值的统计结果来初始化K-Means聚类的相关参数，并估计相关参数的步骤包括：

[0044] 初始化K值为3，选择深度直方图中的局部峰值；

[0045] 对于深度直方图剩余的区间，计算其与所有聚类中心点的距离，取其中最小值，即找到与其最近的聚类中心点的距离；

[0046] 从所有最近的距离中选出具有最大值的区间作为下一个聚类中心点；

[0047] 重复上述寻找聚类中心点的过程，直到得到K个中心点或者上述循环过程中出现的距离最近的聚类中心点的最大距离小于阈值。

[0048] 所述根据估计的相关参数进行K-Means聚类过程，得到聚类结果标签图的步骤包括：

[0049] 找到深度直方图中距离每个区间距离最近的聚类中心点，并分为该类别，根据新的聚类结果更新聚类中心点，迭代上述过程直至收敛，得到聚类结果标签图。

[0050] 步骤S2，利用所述深度图像分割结果，根据不同场景构建相应的三维空间模型的分层结构；

[0051] 具体地，将得到的深度图像分割结果映射到RGB图像上，得到相应的分割结果，接着把图像分割所得的各个图像块按照其平均深度进行排序，即为分层操作，构建出简化的三维空间模型。

[0052] 步骤S3，利用所述分层结构，并结合核相关滤波跟踪算法处理目标尺度变化及检测遮挡。

[0053] 进一步地，所述方法还包括：

[0054] 对图像分层策略、跟踪算法的有效性进行验证和分析。

[0055] 以下对本发明方案进行详细阐述：

[0056] 本发明主要基于RGB-D图像的相关滤波跟踪算法。不同于现有使用深度信息的二维跟踪算法，本发明通过使用二维鲁棒的表观模型实现三维空间下的目标跟踪任务。三维空间模型需要依靠深度信息来建立，其基本思路是基于深度图的图像分割技术，实现自适应性量化深度信息，根据不同场景构建相适应的简化的三维模型。提出使用自适应量化的深度信息，根据场景特点构建相适宜的分层结构，一方面过滤前景和背景信息减少跟踪的干扰因素，结合成熟的图像特征提取技术，包括HOG特征和颜色属性直方图特征，建立目标鲁棒的目标表观模型；另一方面这样的分层结构简化了深度信息的使用，可以更加简单的处理目标尺度以及检测遮挡的发生。最终结合相关滤波跟踪算法实现了可以有效应对遮挡和处理目标尺度变化的鲁棒的跟踪方法。

[0057] 具体地，其中，基于深度图的图像分割算法原理如下：

[0058] 根据深度信息对图像分层，那么首先要聚类把深度接近的像素点分在同一层，操作在深度图上即为对深度图依据灰度值的相似性进行分割。本发明使用基于K-Means聚类的图像分割算法，把原始深度值当做灰度值进行分割。

[0059] 根据深度信息将场景分层，目的是区分出遮挡物，目标和背景，那么不同的场景深度值分布有很大差异，并且在视频序列中目标或者其他物体都是在不断移动的。那么我们需要根据每个视频帧和前一帧目标具体情况初始化K-Means的相关参数，包括初始聚类中心和类簇个数K，以达到自适应的量化深度信息的目的。算法具体以下三个步骤：

[0060] (1)初始化和估计参数

[0061] 传统K-Means算法是随机初始化聚类中心，用户指定类族个数K。在本算法中，为了适应不同场景的深度分布及不同目标的深度分布，我们使用目标深度值的统计结果来初始化K-Means聚类的相关参数。默认初始化K值为3，目的是使得聚类结果至少区分出前景、目标和背景区域。但是K值是需要根据搜索区域的深度直方图来调整，如果深度直方图的局部峰值个数大于K，则需以局部峰值个数初始化K。使用极大极小算法(Maximin algorithm)来初始化聚类中心。初始聚类中心点首先选择深度直方图中的局部峰值。对于深度直方图剩余的区间，计算其与所有聚类中心点的距离，取其中最小值，即找到与其最近的聚类中心点的距离。在这些“最近距离”中选出具有最大值的区间作为下一个聚类中心点。重复这个寻找聚类中心点的过程，直到得到K个中心点或者上述循环过程中出现的距离最近的中心点的最大距离小于阈值Thd。阈值Thd根据前一帧对目标深度值的高斯分布估计得来，前一帧目标深度值服从高斯分布N～(μ,σ2)，则Thd＝4σ，目的是为了保证目标不会被分割在不同区域。

[0062] (2)K-Means聚类过程

[0063] 根据上一步估计的参数开始K-Means聚类过程，首先找到深度直方图中距离每个区间距离最近的聚类中心点，并分为该类别，根据新的聚类结果更新聚类中心点，迭代上述过程直至收敛。其具体迭代过程如算法2-1所示：

[0064] 算法2-1K-Means聚类过程

[0065] 输入：深度直方图B，聚类中心点向量C，类簇个数K

[0066] 输出：聚类结果标签图

[0067] 步骤：

[0068] 1、计算深度直方图区间Bi＝(vi)与中心点的欧氏距离(Euclidean distance) 根据距离聚类中心点的距离对每个灰度直方图的区间Bi进行分类，分到距离其最近的中心点的类族。

[0069]

[0070] 2、更新K个聚类中心点。中心点更新的公式如下，其中B(Bi)是灰度直方图在区间Bi的像素数量。

[0071]

[0072] 3、计算所有区间距离其最近中心点的距离总和：

[0073]

[0074] 当两次迭代结果的中心点稳定，即|Δt+1-Δt|小于某一阈值时，说明聚类收敛了，此时迭代终止，否则返回第1步。

[0075] (3)去除噪声

[0076] 为了去除噪声和不必要的细节的分割，需要对标签图做滤波处理。对标签图上位置为(x,y)的像素做直方图统计，计算如公式(3-1)：

[0077]

[0078] 其中Ω(x,y)为以(x,y)为中心的大小为N×N的窗口，那么位置(x,y)处的标签l(x′,y′)按照公式(3-2)所示计算：

[0079]

[0080] 即使用以(x,y)为中心的大小为N×N的窗口中数量最多的标签设置点(x,y)的标签。

[0081] 对于过度分割，即聚类结果空间面积过小，舍弃这一类族，用邻居区域内最大面积的类别来替换，如图2a、图2b及图2c所示为图像分割结果，图2a为原深度图、图2b为聚类结果、图2c为去噪结果。

[0082] 初始化类簇的中心点使用的是等距深度直方图的局部最大值，这样就可以根据每个视频序列的不同特点找到合适的类簇个数，使用目标深度值的高斯分布来限制聚类中心点的距离，保证目标不会被分割到不同的区域。最后在标签图像平面中，使用滤波器去除噪声，并去除区域面积很小的聚类结果，避免过度分割。图像分割的速度受多个因素影响，包括类簇个数、参与聚类的图像面积等。为了保证聚类速度，跟踪过程中每一帧只对搜索区域进行聚类和图像分割，而图3a、图3b及图3c是整个场景的分割示意图，其中，图3a是原RGB图、图3b是原深度图，图3c是深度图分割结果。

[0083] 其中，利用深度图像分割结果构建分层结构的原理如下：

[0084] 将得到的深度图像分割结果映射到RGB图像上，得到相应的分割结果，接着把图像分割所得的各个图像块按照其平均深度进行排序，即为分层操作，构建出简化的三维空间模型，如图4a和图4b所示，其中，图4a和图4b是分层结构不同视角示意图。

[0085] 这样，得到的简化三维模型可以在空间上区分出目标区域、遮挡区域和背景区域。在我们锁定目标位置时，不仅仅得到其在二维平面内的所属区域，即目标框位置，还确定了其所在的层，根据该层深度映射出目标距离摄像头的距离，从侧面表达了目标在三维空间的位置。搜索区域也从二维平面变为三维空间区域的限制。目标跟踪的过程变为层见寻找目标，即在当前帧中找到距离上一帧目标深度最近的层开始进行目标搜索，未找到时去下一层搜索。因为目标帧间位移不会过大，深度变化也不会太大，所以多数情况下会在距离上一帧目标深度最近的层中找到目标，该层包含的信息很少，过滤了前景和背景信息只有目标信息，所以对排除背景的干扰有天然的优势。

[0086] 这个分层结构实现了自适应的量化深度信息，量化之后的深度信息更加便于使用，对后续估计目标尺度和遮挡检测都有直接的影响。

[0087] 其中，利用分层结构处理目标尺度变化的原理如下：

[0088] 对于相关滤波一类跟踪算法由于使用密集采样的目标搜索策略，应对目标尺度变化一直是短板，所以出现了多种应对尺度的改进方法。最常规的策略多尺度缩放图像块进行目标检测，取得响应值最大的图像尺度即为目标尺度。SAMF算法使用这个策略，建立尺度池，使用双线性插值法将样本缩放到原始目标大小计算响应值和更新目标模型。DSST算法训练两个滤波器一个用来寻找目标位置，一个用来估计目标尺度，两个滤波器使用不同的特征以适应不同的要求，同样达到了不错的目标尺度估计效果。对于使用颜色直方图的非相关滤波跟踪算法DAT首先根据颜色直方图得到的概率图上使用适应性的阈值去掉背景干扰，然后在前景区域内找到平均概率最大的闭合矩形框即为目标当前帧的尺度大小。

[0089] 虽然上述方法都能实现对目标尺度的估计，但是都是遵循先确定目标位置，再估计目标尺度的顺序。利用目标的深度信息的变化，即目标与摄像头距离的变化，可以直接估计目标尺度的变化。比如使用深度信息估计目标尺度，虽然在估计目标尺度时比上述几种方式有更加快速和准确，但其策略依然是确定目标大致位置之后，根据目标区域的深度值分布来估计目标的尺度。不同于以上传统方法，本发明的目标尺度估计策略可以在取样之前就可以比较准确的确定目标的尺度，利用的就是分层建立的简化的三维模型。

[0090] 具体算法如下：

[0091] 根据摄像头焦距f、物体距离摄像头距离d、物体大小及物体成像大小的关系，如图5所示，即摄像头焦距与物体距离摄像头的距离的比等于物体在图像中成像大小与物体实际尺寸的比，可以按照物体长宽分别表示，如公式(3-3)所示。

[0092]

[0093] 式中size_W，size_H——分别表示物体实际的宽及高；

[0094] size_w，size_h——分别表示该物体在图像中成像的宽及高。

[0095] 根据这个关系，可以得出同一物体在距离摄像头不同距离时成像大小的关系，以物体在图中成像的宽度为例，推导过程如公式(3-4)所示。

[0096]

[0097] 同理可得成像高度与距离的关系如公式(3-5)所示。可知同一物体在距离摄像头不同距离时，成像大小与距离成反比。

[0098]

[0099] 得到同一物体在距离摄像头不同距离时成像大小的关系后，利用已经构建好的分层结构来确定目标尺度。当目标在第t帧时处于第Lt层，在t+1帧时，计算所有层与第t帧的Lt层的深度差，深度差最小的记为L层，则目标可能出现的位置被限定在{L-2,L-1,L,L+1,L+2}层之中，那么接下来搜索目标的策略是按照L,L-1,L+1,L-2,L+2的顺序进行搜索。在取样之前就可以根据其所在层数确定目标的尺度，即根据其所在层的平均深度与初始帧目标平均深度确定该层目标大小，如公式(3-6)所示。

[0100]

[0101] 式中depth0——为初始帧目标距离摄像机的深度；

[0102] size0——为初始帧目标距离摄像机的目标尺度。

[0103] 根据初始帧与当前层的深度关系可以计算出当前帧在第l层时的目标尺度，如图6所示为同一目标处于不同层时尺度是可以估计的。

[0104] 这样利用分层结构实现了在确定目标位置之前估计目标在相应位置的尺度大小，提前对图像块缩放到模板尺寸，得到更加精准的匹配结果。这样省去传统策略中估计目标尺度时使用多个尺度的样本与模板匹配的计算过程。

[0105] 其中，利用分层结构处理遮挡的原理如下：

[0106] 在目标跟踪任务中诸多困难，比如光照变化、目标形变、快速运动等，遮挡是最棘手的困难。遮挡是指目标物是一部分或者全部对于摄像头不可见，且遮挡是发生以及持续时间是不可预知的。不管是生成模型还是判别式模型都没有直接对遮挡物进行建模，一方面是因为遮挡的发生情况复杂，包括部分遮挡、严重遮挡、连续遮挡、遮挡物移动或者目标移动等情况；另一方面遮挡物也是不断变化的，同样面临光照变化、形变等问题；使得对遮挡建模甚至比对目标建模更加困难。当模型不能区分是遮挡的发生还是目标本身的形变的时候就会出现模型的漂移或退化。

[0107] 有效的处理遮挡问题，需要模型对遮挡期间目标的运动状态有预测能力。比如粒子滤波算法可以应对部分和短暂的遮挡，但是面对复杂和长时间的遮挡时其精度会大打折扣。还有对目标进行分块跟踪的策略在应对部分遮挡时有不错的表现，但是模型复杂，计算耗时。比如使用额外检测模块来应对遮挡发生时的目标丢失，在跟踪过程中不断训练检测器，以保证检测器跟随目标表观更新，实现了长时间跟踪，这个过程并没有对遮挡物进行检测也没有对遮挡的发生进行预测。

[0108] 遮挡的发生是因为三维世界投影到在二维平面上时损失了空间信息，如果可以获得目标在三维空间的位置，就可以唯一化标定目标，即可直接判断遮挡是否发生，所以利用深度信息使得遮挡检测更加容易。使用深度信息来检测和判断遮挡的发生的方法，类似于增加遮挡发生时检测目标的模块，使用目标框内的深度分布或者深度直方图来判断遮挡的发生，与主体跟踪算法割裂开来，不能有效利用所有信息。基于粒子滤波算法，在每个“粒子”上增加一个是否遮挡的标志位，来预测遮挡的发生和检测后重新出现的目标，融合颜色和深度信息实现了处理部分及复杂的遮挡问题，取得较好的跟踪效果，但是并没有很好的利用深度信息，同时也是以牺牲跟踪速度为代价的，只能达到0.9FPS。

[0109] 本发明在简化三维模型下，给出的目标位置信息pt＝(Prect,L)，间接指示了目标的三维空间位置，可以实现遮挡的检测及完全遮挡下目标的重新搜索。在第t-1帧时，目标在层，那么对于第t帧搜索框所得到的层有集合假设对于所有的L∈Lt，距离最近，那么在搜索空间中，得分最高的候选目标框作为
目标区域，判断目标状态是否被遮挡，需要根据遮挡物占据目标框面积的比例来判断。对于所有距离摄像机比目标距离摄像机更近的物体都认为是遮挡物，即出现在层之前的物体都是遮挡物，如图7所示，定义如公式(3-7)所示。

[0110]

[0111] 则对于给定目标区域出现遮挡的定义如公式(3-8)所示。

[0112]

[0113] 其中Φ(Ωocc)表示求在目标区域内遮挡物像素点所占的比例，例如取λocc＝0.30表示遮挡物面积超出30％时认为发生了部分遮挡。公式第二部分，是为了应对目标快速超摄像头运动的情况，速度较快可能会把目标物本身当作遮挡物，会出现误判。这时，如果对于搜索空间内回归模型计算得到的最大得分大于某一阈值时，认为检测到的目标的可信度比较高，不考虑遮挡的出现。

[0114] 在发生严重遮挡或者完全遮挡时，需要重新检测目标。当遮挡发生时，我们需要扩大目标的搜索区域，来应对可能出现的严重遮挡及完全遮挡。事实上，目标在遮挡物周围逐渐消失，在遮挡物周围的区域重新出现的概率比较高。可以根据遮挡物以及前一帧最佳目标候选的位置来确定目标搜索区域。在第t+1帧的目标搜索区域与前一帧的目标区域、遮挡区域都有关系。第t帧遮挡物的区域是是Ωocc，目标区域是Ωobj，则如公式(3-9)定义当前帧目标搜索区域。

[0115]

[0116] 式中 ——在第t+1帧，根据第t帧的目标深度找到的搜索层级的集合。

[0117] 这样就可以计算遮挡情况下的目标搜索区域了，如图8所示，图8是完全遮挡时搜索区域示意图，黄色框为遮挡物，红色为上一帧中目标出现的位置，蓝色框为建立的搜索区域。

[0118] 对于颜色属性直方图

[0119] 由于颜色属性可以反应颜色的本质属性，能够鲁棒的应对由于光照、阴影等因素引起的颜色失真，所以本发明使用颜色属性代替RGB颜色，使用DAT算法中利用颜色直方图构建目标在图像中某位置出现的概率图的策略，简化DAT算法中背景加权抑制检测干扰的步骤，把RGB三通道上的直方图分箱操作替换为11种颜色属性直方图，实现颜色的鲁棒表示，以应对运动模糊和目标形变。去掉DAT算法中背景加权抑制的部分，因为在建立简化三维模型时，分层操作已经精确的过滤掉大部分背景干扰，不需要为小概率可能出现的干扰因素牺牲速度。

[0120] 给输入图像I建立一个颜色属性直方图，计算图像I在x位置上概率最大颜色属性来替换原始的观察颜色，记录在标记图L上。但是单个像素的颜色属性有一定的片面性，为了增加鲁棒性，根据像素之间的区域相似性，即相似的颜色总是聚集在一起，求取位置x0的颜色属性，表示L(x0)，即以x0为中心的某区域取得的概率和最大的颜色属性为该点的颜色属性。

[0121]

[0122] 其中，φk(·)——RGB值与颜色属性的映射概率函数；

[0123] N(·)——表示高斯函数，其目的是距离x较近的点有较高的权重；

[0124] σ——为高斯分布的标准差；

[0125] Ωc(x0)——表示以x0为中心，半径为c的区域。

[0126] 本发明所使用颜色属性直方图区间个数为12，因为在分层操作过程后需要对每层没有像素的位置进行填充，为了不对目标的颜色属性产生影响，使用透明色(使用-1表示)而不是黑色进行填充，所以11个颜色属性加上透明色共12个区间。表示图像I中在Ω区域位置x处属于区间bx的统计个数，其求取公式如(3-11)所示。

[0127]

[0128] 其中O——表示目标区域；

[0129] S——表示背景区域；

[0130] ——表示区域Ω∈I的颜色属性直方图，即分别求出目标区域和背景区域的颜色属性直方图；

[0131] indic(flag)——指示函数，如果flag取值为0，则indic(flag)＝1，如果flag取值为非0，则indic(flag)＝0。

[0132] 求出目标区域和背景区域的颜色属性直方图后，结合DAT算法中使用贝叶斯公式估计得到位置x的像素属于目标区域的概率，得到使用颜色属性直方图求取的目标出现概率，使用颜色属性直方图近似其概率公式得到如(3-12)所示公式。

[0133]

[0134] 在超出目标和背景O∪S的区域，给定x其位置属于目标的概率是0.5。对于深度图转化的灰度图，同样根据其灰度直方图，使用贝叶斯公式得到在深度图D中位置x的像素属于目标区域的概率如公式(3-13)所示。

[0135]

[0136] 其中 ——表示深度图中目标区域O∈D中位置x处像素属于区间bx的统计个数；

[0137] ——表示目标的背景区域S∈D中位置x处像素属于区间bx的统计个数。

[0138] 联合RGB图像的颜色属性直方图和深度图的灰度直方图，得到最终的目标模型如公式(3-14)所示。

[0139] P(x∈O|,bx)＝λP(x∈O|O,S,I,bx)+(1-λ)P(x∈O|O,S,D,bx)(3-14)其中λ是预先定义的参数，实验得到其值取0.8。

[0140] 接下来根据颜色属性直方图得到的概率图，计算在图像I中位置x出现目标的可能性的得分，如图9所示，图9是像素点属于目标的概率图和某位置为目标的得分图，如图9中(d)所示的得分图，使用积分图来加快计算，得分最高的位置为目标的具体位置。

[0141] 观察根据颜色属性直方图得到的在图像I中位置x出现目标的可能性的得分，与相关滤波模板作用在样本空间时，根据样本与目标模板的相似度所得到的响应值有类似的形式，所以本文使用相关滤波使用模板特征得到响应图与颜色属性直方图概率特征的得分图做线性加权作为最后的得分图，如公式(3-15)所示。

[0142] f(x)＝ηfilterffilter(x)+ηhistfhist(x) (3-15)

[0143] 在第t-1帧时，记目标位置为Ot-1，记第t帧目标的位置为则第t帧的目标位置在得分与距离得分乘积取得最大处，如公式(3-16)所示。

[0144]

[0145]

[0146] 式中Ot,i——第t帧第i个候选目标框；

[0147] ct-1——第t-1帧时目标位置；

[0148] Sv(·)——相关滤波响应值与颜色属性直方图得分的线性加权和；

[0149] Sd(·)——距离分数，是当前估计位置与第t-1帧的目标的欧氏距离。

[0150] 这里不仅要计算其在平面图像上的距离，还要把深度距离差计算进去，距离分数用来惩罚帧间过大的位移。

[0151] 4.1实验设置

[0152] 为了验证本方法的有效性，将本方法应用到普林斯顿跟踪数据集进行实验。

[0153] 普林斯顿跟踪数据集包括100个跟踪视频序列，每个视频序列包含RGB图像和深度图像，以及手工标注的目标框。其中95个跟踪视频序列是测试集，并不对外公布标注结果，5个跟踪视频序列作为验证集给出标注结果。数据采集使用的设备是微软Kinect 1.0，由于该设备获取深度数据使用的是红外光，在户外阳光直射的条件下会受到非常大的干扰，所以该数据集所有数据采集自室内；受限于Kinect 1.0采集深度数据的范围，该数据集的目标与摄像头的距离分布在0.5到10米之间。

[0154] 本方法实验开发环境如表4-1所示：

[0155] 表4-1实验开发环境

[0156]

[0157] 普林斯顿跟踪测评使用的评价指标有准确率和成功率两个。其中准确率使用中心位置误差(center position error，CPE)，是计算跟踪结果输出目标框与真实目标框中心位置的欧氏距离。跟踪结果目标框与真实目标框重合率是评价跟踪精度的指标，根据重合率可以进一步定义跟踪成功率。

[0158] 4.2图像分层策略的有效性验证

[0159] 本发明在KCF算法的基础上实现了分层跟踪，加入对尺度的处理后其应对复杂背景干扰和部分遮挡时的鲁棒性有所增加，在普林斯顿跟踪数据测试集上的实验结果，成功率如表4-2所示。

[0160] (1)KCF核相关滤波，使用HOG特征、Gaussian核函数；

[0161] (2)KCF+Layer在核相关滤波基础上实现分层结构，使用HOG特征和Gaussian核函数；

[0162] (3)KCF+Layer+Occ在核相关滤波基础上实现分层和处理遮挡的模块，使用HOG特征、Gaussian核函数。

[0163] 表4-2 KCF算法增加分层结构的实验成功率结果对比

[0164]

[0165] 以上三个算法在五个验证集上的表现如表4-3所示，本发明使用中心点误差20以内的准确率及重叠率为50％时的成功率来衡量跟踪算法的性能。由于这五个视频序列中bear_front、new_ex_move_1没有持续的部分遮挡，都是由部分遮挡已很快的速度进入完全遮挡状态，相比KCF算法结果没有明显的提升，但是在测试集中basketball2.2，dog_occ_3，tracking7.1，bear_change等视频序列存在部分遮挡和复杂背景，可以看出加入分层结构时对部分遮挡和背景干扰有更强的鲁棒性，证明了利用深度信息把图像分层构造简化三维模型的策略的有效性。而加入遮挡处理模块后，有跟踪效果明显提升。

[0166] 由于KCF算法的以循环变换的方式进行采样，这个策略是其把计算转换到傅里叶域的基础，同时循环也带了了边界效应，作者使用余弦窗来缓解这个问题，但是没有根本解决；本文采用分层结构进行跟踪，直接过滤掉目标背景，即大部分背景被改成无色，这进一步缓解了循环变换带来的边缘效应。另一方面，KCF的模型更新策略是线性的，并且固定搜索范围，只能应对短时间遮挡问题，所以加入利用分层信息检测遮挡，扩大遮挡时的搜索范围可以直接提升其应对遮挡的鲁棒性。

[0167] 表4-3验证集上平均准确率和成功率

[0168]

[0169] 4.3特征选择对比试验

[0170] 本小节实现了多种特征的组合方式，验证得出验证颜色属性直方图是有效的。所使用的特征组合如下：

[0171] (1)LT+HOG(LT，Layer Tracker)即为上一节KCF+Layer+Occ方法，在核相关滤波基础上实现分层和处理遮挡的模块，使用RGB图的HOG特征、Gaussian核函数；

[0172] (2)LT+RGBD_HOG在核相关滤波基础上实现分层和处理遮挡的模块，使用RGB图的HOG特征和深度图特征D-HOG、Gaussian核函数；

[0173] (3)LT+RGBD_HOG+CH在LT基础上加入颜色直方图(Color Histogram)，以直接线性加权得分图的方式融合，其中颜色直方图维度为32*32*32；

[0174] (4)LT+RGBD_HOG+CNH在LT基础上加入颜色属性直方图(Color Name Histogram)，维度为12，以直接线性加权得分图的方式融合。

[0175] 表4-4 KCF算法增加分层结构与否的实验结果成功率对比

[0176]

[0177] 在普林斯顿跟踪数据集上的结果如表4-4所示，四种不同特征在验证集上的表现如表4-5所示，可以看到加入颜色特征后算法表现有所提升，而颜色属性直方图表现更好一点。

[0178] 表4-5验证集上平均准确率和成功率

[0179]

[0180] 深度的梯度变化随着目标距离摄像头的距离变大越来越不明显，可提取的特征只有在目标较大距离摄像头较近时，才有较强的表征能力，所以对小目标和较远目标效果不好。由于KCF算法使用的HOG特征能够很好的描述物体纹理信息，但对形变和快速运动效果不好，但是颜色特征对物体形变和运动模糊不敏感，两者相互补充，跟踪效果有所提升。但是颜色特征对对光照敏感，受背景相似颜色干扰较大，这两个问题分别被颜色属性特征和分层结构大大缓解，因为颜色属性特征是对自然界多种多样的颜色与潜在的颜色属性之间的映射的统计，反映颜色的本质，对光照鲁棒；而分层结构过滤掉绝大部分背景信息，缓解背景颜色对颜色属性特征的干扰。HOG特征、颜色属性特征和分层量化的深度信息完美结合，使相关滤波跟踪算法效果达到最佳。

[0181] 4.4跟踪算法有效性验证及分析

[0182] 本发明在普林斯顿数据集上与使用深度信息的跟踪算法及未使用深度信息跟踪算法做了对比，对比的算法有5种，其中前3种使用深度信息，其余2种未使用深度信息。再普林斯顿测试集上的成功率如表4-6所示，其中排名一列指标为算法在普林斯顿跟踪测评使用RGB-D图像分组中的排名，排名结果是算法在所有类别数据中的成功率排名的平均值，其中算法Staple和KCF未使用深度信息在该分组中不计其排名。

[0183] (1)DS-KCF基于KCF算法，使用HOG特征和颜色特征，使用深度信息作为辅助处理遮挡及目标尺度；

[0184] (2)SAMF-Depth实现多特征融合核相关滤波和多尺度相关滤波相结合，使用HOG特征和颜色属性特征。

[0185] (3)KCF核相关滤波，使用HOG特征；

[0186] (4)Staple使用多核相关滤波，分别估计目标位置及目标尺度，使用HOG特征结合颜色直方图；

[0187] (5)Ours基于深度信息分层结构下核相关滤波，使用颜色属性特征以及RGBD-HOG特征。

[0188] 表4-6八种跟踪算法在普林斯顿跟踪测试集上的成功率

[0189]

[0190] 从表中可以发现，本发明提出的使用自适应的量化深度信息，根据不同场景构建相适应的分层结构，实现使用成熟二维表观模型在空间结构下的跟踪算法很有效果。

[0191] 此外本发明还提出一种基于深度信息的相关滤波跟踪装置，包括存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时实现如上所述的方法的步骤。

[0192] 此外本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现如上所述的方法的步骤。

[0193] 相比现有技术，本发明提出提出的使用自适应的量化深度信息，根据不同场景构建相适应的分层结构，实现使用成熟二维表观模型在空间结构下的跟踪算法很有效果。

[0194] 以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

基于深度信息的相关滤波跟踪方法及装置转让专利

申请号 : CN201711124878.6

文献号 : CN107784663B

文献日 : 2020-10-20

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王轩 , 刘新卉 , 漆舒汉 , 蒋琳 , 廖清 , 姚霖 , 李晔 , 关键 , 刘泽超 , 吴宇琳 , 李化乐 , 贾丰玮

申请人 : 哈尔滨工业大学深圳研究生院

摘要 :

权利要求 :

说明书 :