基于目标特征敏感性和深度学习的车辆跟踪方法转让专利

申请号 : CN201911408023.5

文献号 : CN111062973B

文献日 : 2021-01-01

本发明公开了一种基于目标特征敏感性和深度学习的车辆跟踪方法，主要解决了现有技术在车辆跟踪过程中由于发生遮挡、光照变化等容易将与车辆目标相似的干扰物判断为车辆目标，导致跟踪失败的问题。本发明的步骤为：构建并训练判别式连体网络，通过训练好的公用网络模型提取特征并挑选对车辆目标更敏感的滤波器，使用判别式连体网络和挑选过的敏感滤波器实现对车辆目标的跟踪。本发明引入了挑选敏感滤波器组和操作，具有鲁棒性强、跟踪效果好、计算量低、易于实现的优点。

1.一种基于目标特征敏感性和深度学习的车辆跟踪方法，其特征在于，构建并训练判别式连体网络，通过训练好的公用网络模型提取跟踪车辆的特征，从训练好的公用网络模型中挑选对车辆目标更敏感的滤波器，使用判别式连体网络和挑选出的敏感滤波器实现对车辆目标的跟踪，该方法的具体步骤包括如下：步骤1，构建判别式连体网络：

搭建两个完全相同的子网络，每个子网络为五层其结构依次为：第一卷积层→第一下采样层→第二卷积层→第二下采样层→第三卷积层；将第一、第二、第三卷积层的卷积核个数依次设置为16、32、1，尺寸依次设置为3×3、3×3、1×1；将第一、第二下采样层的过滤器尺寸均设置为2×2；

将两个子网络上下并行设置后再与互相关层XCorr相连接，构成判别式连体网络；将判别式连体网络的损失函数设置为对比损失函数；

步骤2，生成训练集：

从连续视频中随机采集至少1000张图片，每张图片包含至少一个目标并对目标进行标注；将图片中标注后的目标裁剪为127×127大小的图片，随机将图片中的背景裁剪为127×

127大小的图片；

将裁剪后的目标图片和背景图片随机两两组合为图片对，每个图片对中至少包含一个目标图片；若图片对中的两幅图片为同一个目标，则将图片对的标签设置为1；若图像对中的两幅图片为两个不同的目标图片或目标图片和背景图片，则将图片对的标签设置为0；将所有的图片对及其标签组成训练集；

步骤3，训练判别式连体网络：

将训练集输入到判别式连体网络中，使用Adam优化算法迭代更新网络权重，直到对比损失函数收敛，得到训练好的判别式连体网络；

步骤4，计算滤波模板：

第一步，在跟踪视频的第一帧中紧贴跟踪车辆目标周围做一个矩形框，提取该矩形框范围内的所有像素点组成真实目标图片，以该矩形框的中心点为中心，宽度和高度各扩大二倍的矩形框内的所有像素点组成初始滤波样本图片；

第二步，利用滤波标签生成公式，生成与初始滤波样本图片中每个像素点一一对应的初始滤波标签，将所有像素点的初始滤波标签组成标签图片；

第三步，将初始滤波样本图片输入到训练好的公用网络模型中，输出与该模型最后一层滤波器相同个数的二维子特征矩阵，将所有二维子特征矩阵中相同位置的元素求和，得到初始滤波样本图片的二维深层特征矩阵；

第四步，利用滤波模板计算公式，由标签图片和初始滤波样本图片的二维深层特征矩阵生成滤波模板；

步骤5，确定敏感滤波器组合：

第一步，用初始滤波图片中每个二维子特征矩阵与滤波模板做相关滤波操作，得到与滤波器相同个数的响应图；

第二步，比较每个响应图中每个响应点值的大小并确定每个响应图的最大响应点；

第三步，求每个响应图的最大响应点与标签图片中心点的距离，按照从小到大排序，找出与前100个距离值对应的滤波器，组成敏感滤波器组合；

步骤6，将跟踪视频的第一帧设置为当前帧；

步骤7，对当前帧的下一帧图像中的跟踪车辆目标进行定位；

步骤8，生成待评价目标图片：

在当前帧的下一帧中以定位好的位置为中心，提取与步骤4第一步生成的真实目标图片大小相同的区域内的所有像素点组成待评价目标图片；

步骤9，将真实目标图片与待评价目标图片输入到步骤3训练好的判别式连体网络，判断判别式连体网络的输出是否为1，若是，则将当前帧的下一帧设置为当前帧后执行步骤

11；否则，视为跟踪失败，执行步骤10；

步骤10，重新定位跟踪目标：

将当前帧的下一帧输入到公用的检测器中输出待跟踪车辆目标的位置，将输出的目标位置做为当前帧的下一帧中跟踪车辆目标的位置，将当前帧的下一帧设置为当前帧后执行步骤11；

步骤11，判断当前帧是否为跟踪视频的最后一帧，若是，则执行步骤12，否则，执行步骤

7；

步骤12，完成车辆跟踪过程。

2.根据权利要求1所述的基于目标特征敏感性和深度学习的车辆跟踪方法，其特征在于：步骤4第二步中所述的滤波标签生成公式如下：其中，g(x,y)表示与滤波样本中位于(x,y)处像素点对应的初始滤波标签，π表示圆周率，σ表示取值为0.5的控制参数，e表示以自然常数为底的指数操作，xc表示初始滤波样本图片的中心像素点的横坐标值，yC表示初始滤波样本图片的中心像素点的纵坐标值。

3.根据权利要求1所述的基于目标特征敏感性和深度学习的车辆跟踪方法，其特征在于：步骤4第三步所述训练好的公用网络模型指的是深度至少有19层并采用规模大于十万张图片的公用数据库对该公用网络模型进行训练。

4.根据权利要求1所述的基于目标特征敏感性和深度学习的车辆跟踪方法，其特征在于：步骤4第四步所述的滤波模板计算公式如下：其中，F(·)表示傅里叶变换操作，h表示滤波模板，*表示共轭转置操作，g表示标签图片，f表示初始滤波样本图片的二维深层特征矩阵。

5.根据权利要求1所述的基于目标特征敏感性和深度学习的车辆跟踪方法，其特征在于：步骤7所述的对当前帧的下一帧图像中的跟踪车辆目标进行定位的具体步骤如下：第一步，读取跟踪视频的当前帧中跟踪车辆目标的位置和大小，以该车辆目标的中心点位置为中心，宽度和高度各扩大二倍获得搜索区域范围；

第二步，在跟踪视频当前帧的下一帧图像上提取搜索区域范围内的所有像素点组成搜索区域图片，将搜索区域图片输入到公用网络模型，将步骤5确定的敏感滤波器组合中每个滤波器提取的敏感子特征求和得到搜索区域图片的敏感特征；

第三步，将敏感特征与滤波模板做相关滤波操作，得到敏感响应图；

第四步，比较敏感响应图中每个响应点值的大小并确定最大响应点，将最大响应点的位置做为下一帧图像中跟踪车辆目标的位置。

基于目标特征敏感性和深度学习的车辆跟踪方法

技术领域

[0001] 本发明属于图像处理技术领域，更进一步涉及到目标跟踪技术领域中的一种基于目标特征敏感性和深度学习的车辆跟踪方法。本发明可用于对无人驾驶、辅助驾驶和智慧交通中行驶的车辆进行跟踪。

背景技术

[0002] 车辆跟踪的任务就是在给定视频序列初始帧的车辆大小和位置的情况下，预测后续帧中车辆的大小和位置，基于相关滤波的跟踪因其实时性被广泛关注。基于相关滤波的跟踪以上一帧的跟踪结果为训练数据更新滤波模板，求得滤波模板后与当前帧提取的特征求相关得到响应图，响应图上最大响应点的位置就是车辆目标的位置。为了解决跟踪过程中目标的外形变化情况，人们设计了不同的特征描述子，如HOG特征，SIFT特征等。随着深度学习在目标检测、图像分类和图像分割领域的快速发展，将深层神经网络作为特征提取器应用到车辆跟踪领域也成为了最新的趋势。

[0003] 南京邮电大学在其申请的专利文献“一种基于多特征融合的道路车辆跟踪方法”(专利申请号：201910793516.9，公开号：CN 110517291A)中公开了一种基于多特征空间融合的道路车辆跟踪方法。该方法首先读入一段视频并将其分割成图像帧，选取车辆目标所在区域，将输入的图像帧从RGB颜色空间转换至HSV颜色空间，将颜色直方图作为颜色特征；接着通过构建积分图计算水平边缘特征、垂直边缘特征和对角边缘特征，获取Haar-like形状特征；然后分别在垂直边缘特征空间、水平边缘特征空间、对角边缘特征空间和颜色特征空间中建立目标模型和候选模型，利用Bhattacharyya系数计算这两个模型之间的相似度，使用均值漂移算法迭代计算出当前帧中与目标模型最相似的候选模型的位置；分别在颜色特征空间、水平边缘特征空间、垂直边缘特征空间和对角边缘特征空间中找到四个可能的目标位置，将加权融合得到目标的最终位置。该方法存在的不足之处是，由于该方法采用Haar-like形状特征来描述车辆的外形特征，当发生光照变化、车辆互相遮挡和车辆运动模糊时，Haar-like特征很容易将与车辆目标相似的干扰物判断为车辆目标，导致跟踪失败。
而在实际路况下的车辆实时跟踪中，车辆之间互相遮挡的情况非常普遍，因此该方法的鲁棒性达不到实际路况下的车辆跟踪的要求。

发明内容

[0004] 本发明的目的是针对上述现有技术存在的不足，提出了一种基于目标特征敏感性和深度学习的车辆跟踪方法，用于解决车辆跟踪过程中由于遮挡、光照变化等造成的跟踪失败的问题。

[0005] 实现本发明目的的思路是：构建并训练判别式连体网络，通过训练好的公用网络模型提取特征并挑选对车辆目标更敏感的滤波器，使用判别式连体网络和挑选过的敏感滤波器实现对车辆目标的跟踪。

[0006] 本发明实现的具体步骤包括如下：

[0007] 步骤1，构建判别式连体网络：

[0008] 搭建两个完全相同的子网络，每个子网络为五层其结构依次为：第一卷积层→第一下采样层→第二卷积层→第二下采样层→第三卷积层；将第一、第二、第三卷积层的卷积核个数依次设置为16、32、1，尺寸依次设置为3×3、3×3、1×1；将第一、第二下采样层的过滤器尺寸均设置为2×2；

[0009] 将两个子网络上下并行设置后再与互相关层XCorr相连接，构成判别式连体网络；将判别式连体网络的损失函数设置为对比损失函数；

[0010] 步骤2，生成训练集：

[0011] 从连续视频中随机采集至少1000张图片，每张图片包含至少一个目标并对目标进行标注；将图片中标注后的目标裁剪为127×127大小的图片，随机将图片中的背景裁剪为127×127大小的图片；

[0012] 将裁剪后的目标图片和背景图片随机两两组合为图片对，每个图片对中至少包含一个目标图片；若图片对中的两幅图片为同一个目标，则将图片对的标签设置为1；若图像对中的两幅图片为两个不同的目标图片或目标图片和背景图片，则将图片对的标签设置为0；将所有的图片对及其标签组成训练集；

[0013] 步骤3，训练判别式连体网络：

[0014] 将训练集输入到判别式连体网络中，使用Adam优化算法迭代更新网络权重直到对比损失函数收敛，得到训练好的判别式连体网络；

[0015] 步骤4，计算滤波模板：

[0016] 第一步，在跟踪视频的第一帧中紧贴跟踪车辆目标周围做一个矩形框，提取该矩形框范围内的所有像素点组成真实目标图片，以该矩形框的中心点为中心，宽度和高度各扩大二倍的矩形框内的所有像素点组成初始滤波样本图片；

[0017] 第二步，利用滤波标签生成公式，生成与初始滤波样本图片中每个像素点一一对应的初始滤波标签，将所有像素点的初始滤波标签组成标签图片；

[0018] 第三步，将初始滤波样本图片输入到训练好的公用网络模型中，输出与该模型最后一层滤波器相同个数的二维子特征矩阵，将所有二维子特征矩阵中相同位置的元素求和，得到初始滤波样本图片的二维深层特征矩阵；

[0019] 第四步，利用滤波模板计算公式，由标签图片和初始滤波样本图片的二维深层特征矩阵生成滤波模板；

[0020] 步骤5，确定敏感滤波器组合：

[0021] 第一步，用初始滤波图片中每个二维子特征矩阵与滤波模板做相关滤波操作，得到与滤波器相同个数的响应图；

[0022] 第二步，比较每个响应图中每个响应点值的大小并确定每个响应图的最大响应点；

[0023] 第三步，求每个响应图的最大响应点与标签图片中心点的距离，按照从小到大排序，找出与前100个距离值对应的滤波器，组成敏感滤波器组合；

[0024] 步骤6，将跟踪视频的第一帧设置为当前帧；

[0025] 步骤7，对当前帧的下一帧图像中的跟踪车辆目标进行定位；

[0026] 步骤8，生成待评价目标图片：

[0027] 在当前帧的下一帧中以定位好的位置为中心，提取与步骤4第一步生成的真实目标图片大小相同的区域内的所有像素点组成待评价目标图片；

[0028] 步骤9，将真实目标图片与待评价目标图片输入到步骤3训练好的判别式连体网络，判断判别式连体网络的输出是否为1，若是，则将当前帧的下一帧设置为当前帧后执行步骤11；否则，视为跟踪失败，执行步骤10；

[0029] 步骤10，重新定位跟踪目标：

[0030] 将当前帧的下一帧输入到公用的检测器中输出待跟踪车辆目标的位置，将输出的目标位置做为当前帧的下一帧中跟踪车辆目标的位置，将当前帧的下一帧设置为当前帧后执行步骤11；

[0031] 步骤11，判断当前帧是否为跟踪视频的最后一帧，若是，则执行步骤12，否则，执行步骤7；

[0032] 步骤12，完成车辆跟踪过程。

[0033] 本发明与现有技术相比具有以下优点：

[0034] 第一，本发明通过挑选对车辆目标更敏感的滤波器，当发生相似干扰时，能够准确的提取跟踪车辆目标的特征，从而克服了现有技术在发生光照变化、车辆互相遮挡和车辆运动模糊时容易将与车辆目标相似的干扰物判断为车辆目标的问题，使得本发明具有计算量低、鲁棒性强的优点。

[0035] 第二，本分明通过构建并训练判别式连体网络，能够对跟踪结果做出评估，当跟踪失败后能够重新定位车辆目标，克服了现有技术在跟踪失败后难以继续跟踪的问题，使得本发明具有跟踪准确率高的优点。

附图说明

[0036] 图1是本发明的流程图；

[0037] 图2是本发明的滤波标签图；

[0038] 图3是本发明构建的判别式连体网络结构图。

具体实施方式

[0039] 下面结合附图对本发明的技术方案和效果做进一步的详细描述。

[0040] 参照附图1，对本发明的具体实现步骤做进一步的详细描述。

[0041] 步骤1，构建判别式连体网络。

[0042] 搭建两个完全相同的子网络，每个子网络为五层，其结构从左到右依次为：第一卷积层→第一下采样层→第二卷积层→第二下采样层→第三卷积层；将第一、第二、第三卷积层的卷积核个数依次设置为16、32、1，尺寸依次设置为3×3、3×3、1×1；将第一、第二下采样层的过滤器尺寸均设置为2×2。

[0043] 将两个子网络上下并行设置后再与互相关层XCorr相连接，构成判别式连体网络；将判别式连体网络的损失函数设置为对比损失函数。

[0044] 参照附图2，对本发明构建好的判别式连体网络做进一步的描述。

[0045] 图2中的上下两层分别代表两个子网络，每个子网络的各层设置参见图2从左到右依次为第一卷积层、第一下采样层、第二卷积层、第二下采样层和第三卷积层，两个子网络并联后再与互相关层XCorr相连接。

[0046] 步骤2，生成训练集。

[0047] 从连续视频中随机采集至少1000张图片，每张图片包含至少一个目标并对目标进行标注；将图片中标注后的目标裁剪为127×127大小的图片，随机将图片中的背景裁剪为127×127大小的图片。

[0048] 将裁剪后的目标图片和背景图片随机两两组合为图片对，每个图片对中至少包含一个目标图片；若图片对中的两幅图片为同一个目标，则将图片对的标签设置为1；若图像对中的两幅图片为两个不同的目标图片或目标图片和背景图片，则将图片对的标签设置为0；将所有的图片对及其标签组成训练集。

[0049] 步骤3，训练判别式连体网络。

[0050] 将训练集输入到判别式连体网络中，使用Adam优化算法迭代更新网络权重，直到对比损失函数收敛，得到训练好的判别式连体网络。

[0051] 步骤4，计算滤波模板。

[0052] 第1步，在跟踪视频的第一帧中紧贴跟踪车辆目标周围做一个矩形框，提取该矩形框范围内的所有像素点组成真实目标图片，以该矩形框的中心点为中心，宽度和高度各扩大二倍的矩形框内的所有像素点组成初始滤波样本图片。

[0053] 第2步，利用下述的滤波标签生成公式，生成与初始滤波样本图片中每个像素点一一对应的初始滤波标签，将所有像素点的初始滤波标签组成标签图片：

[0054]

[0055] 其中，g(x,y)表示与滤波样本中位于(x,y)处像素点对应的初始滤波标签，π表示圆周率，σ表示取值为0.5的控制参数，e表示以自然常数为底的指数操作，xc表示初始滤波样本图片的中心像素点的横坐标值，yC表示初始滤波样本图片的中心像素点的纵坐标值。

[0056] 参照附图3，对本发明生成的标签图片做进一步的描述。

[0057] 图3的大小与初始滤波样本图片的大小相同，图3中心的白点代表初始滤波样本图片中跟踪的车辆目标的位置。

[0058] 第3步，将初始滤波样本图片输入到训练好的公用网络模型中，输出与该模型最后一层滤波器相同个数的二维子特征矩阵，将所有二维子特征矩阵中相同位置的元素求和，得到初始滤波样本图片的二维深层特征矩阵。

[0059] 第4步，利用下述的滤波模板计算公式，由标签图片和初始滤波样本图片的二维深层特征矩阵生成滤波模板。

[0060]

[0061] 其中，F(·)表示傅里叶变换操作，h表示滤波模板，*表示共轭转置操作，g表示标签图片，f表示初始滤波样本图片的二维深层特征矩阵。

[0062] 步骤5，确定敏感滤波器组合。

[0063] 第1步，用初始滤波图片中每个二维子特征矩阵与滤波模板做相关滤波操作，得到与滤波器相同个数的响应图。

[0064] 第2步，比较每个响应图中每个响应点值的大小并确定每个响应图的最大响应点。

[0065] 第3步，求每个响应图的最大响应点与标签图片中心点的距离，按照从小到大排序，找出与前100个距离值对应的滤波器，组成敏感滤波器组合。

[0066] 步骤6，将跟踪视频的第一帧设置为当前帧。

[0067] 步骤7，对当前帧的下一帧图像中的跟踪车辆目标进行定位。

[0068] 第1步，读取跟踪视频的当前帧中跟踪车辆目标的位置和大小，以该车辆目标的中心点位置为中心，宽度和高度各扩大二倍获得搜索区域范围。

[0069] 第2步，在跟踪视频当前帧的下一帧图像上提取搜索区域范围内的所有像素点组成搜索区域图片，将搜索区域图片输入到公用网络模型，将步骤5确定的敏感滤波器组合中每个滤波器提取的敏感子特征求和得到搜索区域图片的敏感特征。

[0070] 第3步，将敏感特征与滤波模板做相关滤波操作，得到敏感响应图。

[0071] 第4步，比较敏感响应图中每个响应点值的大小并确定最大响应点，将最大响应点的位置做为下一帧图像中跟踪车辆目标的位置。

[0072] 步骤8，生成待评价目标图片。

[0073] 在当前帧的下一帧中以定位好的位置为中心，提取与步骤4第一步生成的真实目标图片大小相同的区域内的所有像素点组成待评价目标图片。

[0074] 步骤9，将真实目标图片与待评价目标图片输入到步骤3训练好的判别式连体网络，判断判别式连体网络的输出是否为1，若是，则将当前帧的下一帧设置为当前帧后执行步骤11；否则，视为跟踪失败，执行步骤10。

[0075] 步骤10，重新定位跟踪目标。

[0076] 将当前帧的下一帧输入到公用的检测器中输出待跟踪车辆目标的位置，将输出的目标位置做为当前帧的下一帧中跟踪车辆目标的位置，将当前帧的下一帧设置为当前帧后执行步骤11。

[0077] 步骤11，判断当前帧是否为跟踪视频的最后一帧，若是，则执行步骤12，否则，执行步骤7。

[0078] 步骤12，完成车辆跟踪过程。

[0079] 下面结合仿真实验对本发明的效果做进一步的描述。

[0080] 1.仿真条件：

[0081] 本发明的仿真是在CPU为Intel(R)Core(TM)i8、主频3.5GHz，内存为128G的Ubuntu14.04系统上用MATLAB R2014软件以及MatConvnet深度学习工具包上进行的。

[0082] 2.仿真内容及结果分析：

[0083] 使用本发明与现有技术的三种方法(核相关滤波算法缩写为KCF，用于跟踪的全卷积连体网络算法缩写为Siam_FC，用于跟踪的层次卷积特征缩写为HCFT)分别对仿真实验数据中的车辆跟踪进行了仿真。

[0084] 在仿真实验中，采用的三个现有技术是指：

[0085] 现有技术核相关滤波算法KCF是指，Henriques等人在“High-Speed Tracking with Kernelized Correlation Filters[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,37(3):583-596.”中提出的目标跟踪算法，简称KCF算法。

[0086] 现有技术用于跟踪的全卷积连体网络算法Siam_FC是指，Bertinetto L等人在“Bertinetto L,Valmadre J,Henriques, F,et al.Fully-Convolutional Siamese Networks for Object Tracking[J].2016.”中提出实时目标算法，简称Siam_FC算法。

[0087] 现有技术用于跟踪的层次卷积网络HCFT是指，Zhang H等人在“Ma C,Huang JB,Yang X,et al.Hierarchical Convolutional Features for Visual Tracking[C]//2017IEEE International Conference on Computer Vision(ICCV).IEEE Computer Society,2017”中提出目标跟踪算法，简称HCFT算法。

[0088] 本发明所用的仿真实验数据为公用跟踪数据库OTB和TColor-128，OTB数据库包含了100个视频序列，TColor-128包含了128个视频序列。利用两个评价指标(距离准确率DP和重叠成功率OP)分别对四种方法的跟踪结果进行评价。利用下面公式计算两个数据库中所有视频的距离准确率DP和重叠成功率OP，并将OTB数据库和TColor-128数据库的平均距离准确率和平均重叠成功率绘制成表1和表2：

[0089]

[0090]

[0091] 下面结合表1和表2的仿真图对本发明的效果做进一步的描述。

[0092] 表1 OTB数据库距离精确率和重叠成功率对比图

[0093]

[0094] 表2 TColor-128数据库距离精确率和重叠成功率对比图

[0095]

[0096] 从表1和表2可以看出，本发明在OTB100和TColor-128数据库上无论是距离精确率还是重叠成功率都取得较好的结果，能够得到更好的跟踪效果，这主要是因为本发明能够通过敏感滤波器组合得到更能描述跟踪车辆目标的特征，并在跟踪失败后重新定位跟踪目标，因此得到了较高、较稳健的跟踪效果。

基于目标特征敏感性和深度学习的车辆跟踪方法转让专利

申请号 : CN201911408023.5

文献号 : CN111062973B

文献日 : 2021-01-01

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 韩冰 , 李凯 , 杨铮 , 朱考进 , 郭凯珺

申请人 : 西安电子科技大学

摘要 :

权利要求 :

说明书 :