一种基于车辆计数感知注意力的稠密车辆检测方法转让专利

申请号 : CN202011081936.3

文献号 : CN112200089B

文献日 : 2021-09-14

相似专利: 请登录后查看

本发明公开了一种基于车辆计数感知注意力的稠密车辆检测方法，基于深度学习网络模型检测密集环境下的车辆，网络模型包括车辆数量感知网络模型和稠密目标检测网络模型，通过车辆计数感知注意力模块将两个网络模型集成，增强了车辆检测的有效特征，通过构建车辆计数密度图有效地表示车辆的语义信息和空间信息，计算基于交叉熵的车辆数量感知损失函数，监督模型学习车辆的语义信息和空间信息，提高了网络模型的车辆检测效果。

1.一种基于车辆计数感知注意力的稠密车辆检测方法，其特征在于，包括如下步骤：S1：构建数据集，从道路监控视频中选取车辆密集的图片构成密集场景车辆检测数据集，并划分为训练集和测试集；

S2：数据预处理，将获得的图片数据进行尺寸缩放，并根据需要采用水平/垂直翻转、旋转、缩放、裁剪、剪切、平移、对比度、色彩抖动、噪声对原始图像进行预处理，并对其进行车辆框的标注；

S3：构建网络模型：网络模型包括特征提取网络、车辆计数感知注意力模块以及目标分类与回归网络，所述车辆计数感知注意力模块接收获得的特征，并输出蕴含图片中车辆数量信息的注意力图谱，

车辆计数感知注意力模块结构如下：

将特征提取网络提取获得的特征先经过一个通道注意力模块，得到通道权重加权的特征；对加权后的特征进行取最大值与平均值的操作，得到维度为2*1*h*w的特征谱，再沿着通道维度进行合并，合并后输入到滤波器大小为2*1*1*2的卷积层，得到一个维度大小为2*h*w的特征谱，再通过sigmoid操作并取其中的前景通道作为该模块输出的计数感知注意力图谱，将车辆计数感知注意力模块输出的注意力图谱与特征提取网络提取获得的特征的每个通道都相乘，获得改进的密集场景车辆检测特征；

S4：构建稠密目标检测模型，将得到的改进的密集场景车辆检测特征输入到感兴趣区域生成网络，并得到一系列感兴趣区域，其中所述感兴趣区域生成网络用于分类对应区域是否为感兴趣区域以及回归感兴趣区域的位置；

S5：模型训练，将训练集数据输入到构建好的网络模型中，输入的图片数据获取到感兴趣区域后，计算每个感兴趣区域的交并比，并根据交并比将感兴趣区域划分为正负样本，并计算损失函数；

S6：检测结果输出，将测试图像数据集输入到训练好的网络模型中，获得一系列感兴趣区域，通过非极大值抑制算法进行处理，得到最终的感兴趣区域，并输入到池化层获得池化后的感兴趣区域特征，并将池化后的特征输入到分类器与回归器获得一系列预测结果，对预测结果再次利用非极大值抑制算法筛选获得最终检测结果。

2.根据权利要求1所述的基于车辆计数感知注意力的稠密车辆检测方法，其特征在于，步骤S4中，输入到感兴趣区域生成网络的图像中，每隔s个像素点以L个像素为基准长度，并以设定的长宽比与面积比生成k个锚框，对于特征图上的每个位置，分类分支会分别输出该位置对应的k个锚框是否为感兴趣区域的概率，回归分支会分别输出该位置对应的k个锚框的位置调整参数，结合回归分类分支与回归分支的输出，进而初步得到一系列感兴趣区域。

3.根据权利要求2所述的基于车辆计数感知注意力的稠密车辆检测方法，其特征在于，所述车辆计数感知注意力模块的输出通过车辆计数感知损失来监督，所述损失函数计算过程如下：

首先将每个图片数据的标注框内部都置为1，背景部分置为0，得到车辆计数密度图，对特征向量进行sigmoid操作获得前景与背景的概率，通过得到的车辆计数密度图与该向量计算交叉熵，最终计算得到车辆计数感知损失，分类、回归损失通过Faster RCNN中的分类损失和定位损失计算获得，总损失L为分类、回归损失和车辆计数感知损失之和。

4.根据权利要求3所述的基于车辆计数感知注意力的稠密车辆检测方法，其特征在于，步骤S5模型训练时，输入的数据包括经预处理的图片以及图片对应所标注的车辆框。

5.根据权利要求4所述的基于车辆计数感知注意力的稠密车辆检测方法，其特征在于，步骤S6中，利用非极大值抑制算法对初步得到的感兴趣区域处理过程如下：从前景概率最高的初步感兴趣区域开始，计算所有与其有重合部分的初步感兴趣区域对于其的交并比，若存在某感兴趣区域与作为前景概率最高的感兴趣区域的交并比超过阈值t1，则去除该感兴趣区域，直至找出所有应保留的感兴趣区域；

将经过非极大值抑制算法处理得到的感兴趣区域中取前景的概率最高的m个感兴趣区域作为最终感兴趣区域。

6.根据权利要求5所述的基于车辆计数感知注意力的稠密车辆检测方法，其特征在于，步骤S6中，对得到的预测结果按照其对应的交并比进行阈值为t2的非极大值抑制算法进行处理，并保留最大概率大于阈值t3的结果作为最终的检测结果。

一种基于车辆计数感知注意力的稠密车辆检测方法

技术领域

[0001] 本发明涉及车辆检测技术领域，特别涉及一种基于车辆计数感知注意力的稠密车辆检测方法

背景技术

[0002] 随着我国城市化建设和汽车普及进程的加快，机动车俨然成为了主流的交通方式。城市道路基础设施的建设速度根本无法满足车辆保有量高速增长的需求，由此所带来
的交通安全、道路堵塞、环境污染等问题日益凸显。实际场景中密集分布的车辆不仅会直接
导致交通事故的发生，还会影响到城市基础设施的服务能力。如何高效地分析稠密分布的
车辆，保证出行安全、道路畅通已经成为智能交通分析系统急需解决的问题，这首先涉及到
稠密车辆检测技术。

[0003] 不同场所的监控摄像头采集到的图像或视频数据不仅具有复杂多样的背景，而且所拍摄车辆的尺度、视角会发生剧烈变化。在自然场景下进行采集很容易受到光线、分辨
率、几何光度学变化的影响，即使是同一辆车往往也表现出不同的外观细节。与非稠密车辆
相比，稠密分布的车辆呈现出较大的外表、尺度、视角差异，并且车辆之间很容易相互遮挡。
这些客观因素一方面导致较小的车辆丢失较多的外观细节，检测器很难捕捉到所有车辆的
特征；另一方面会造成车辆重叠到一起，检测器很难区分单个车辆的位置。

[0004] 深度学习技术依靠深层结构具有较强的数据拟合能力，能够全方位考虑目标的视觉特征分布，虽然现有基于深度学习的车辆检测技术已经取得了重大的突破，但是这些技
术大多是针对检测自然场景中的车辆，没有考虑到复杂场景所带来的挑战，难以直接解决
稠密车辆的检测问题。现有方法往往会出现漏检、多检等问题。

发明内容

[0005] 为解决上述问题，本发明提供了一种基于车辆计数感知注意力的稠密车辆检测方法，通过对所有车辆的数量信息进行建模，弥补遮挡所造成的信息丢失。

[0006] 本发明提供了一种基于车辆计数感知注意力的稠密车辆检测方法，具体技术方案如下：

[0007] S1：构建数据集，从道路监控视频中选取车辆密集的图片构成密集场景车辆检测数据集，并划分为训练集和测试集；

[0008] S2：数据预处理，将获得的图片数据进行尺寸缩放，并根据需要采用水平/垂直翻转、旋转、缩放、裁剪、剪切、平移、对比度、色彩抖动、噪声等方式对原始图像进行预处理，并
对其进行车辆框的标注；

[0009] S3：构建网络模型：网络模型包括特征提取网络、车辆计数感知注意力模块以及目标分类与回归网络，所述车辆计数感知注意力模块接收获得的特征，并输出蕴含图片中车
辆数量信息的注意力图谱，

[0010] 车辆计数感知注意力模块结构如下：

[0011] 将特征提取网络提取获得的特征先经过一个通道注意力模块，得到通道权重加权的特征；对加权后的特征进行取最大值与平均值的操作，得到维度为2*1*h*w的特征谱，再
沿着通道维度进行合并，合并后输入到滤波器大小为2*1*1*2的卷积层，得到一个维度大小
为2*h*w 的特征谱，再通过sigmoid操作并取其中的前景通道作为该模块输出的计数感知
注意力图谱，将车辆计数感知注意力模块输出的注意力图谱与特征提取网络提取获得的特
征的每个通道都相乘，获得改进的密集场景车辆检测特征；

[0012] S4：构建稠密目标检测模型，将得到的改进的密集场景车辆检测特征输入到感兴趣区域生成网络，并得到一系列感兴趣区域，其中所述感兴趣区域生成网络用于分类对应
区域是否为感兴趣区域以及回归感兴趣区域的位置；

[0013] S5：模型训练，将训练集数据输入到构建好的网络模型中，输入的图片数据获取到感兴趣区域后，计算每个感兴趣区域的交并比，并根据交并比将感兴趣区域划分为正负样
本，并计算损失函数；

[0014] S6：检测结果输出，将测试图像数据集输入到训练好的网络模型中，获得一系列感兴趣区域，通过非极大值抑制算法进行处理，得到最终的感兴趣区域，并输入到池化层获得
池化后的感兴趣区域特征，并将池化后的特征输入到分类器与回归器获得一系列预测结
果，对预测结果再次利用非极大值抑制算法筛选获得最终检测结果。

[0015] 进一步的，步骤S4中，输入到感兴趣区域生成网络的图像中，每隔s个像素点以L个像素为基准长度，并以设定的长宽比与面积比生成k个锚框，对于特征图上的每个位置，分
类分支会分别输出该位置对应的k个锚框是否为感兴趣区域的概率，回归分支会分别输出
该位置对应的k个锚框的位置调整参数，结合回归分类分支与回归分支的输出，进而初步得
到一系列感兴趣区域。

[0016] 进一步的，所述车辆计数感知注意力模块的输出通过车辆计数感知损失来监督，所述损失函数计算过程如下：

[0017] 首先将每个图片数据的标注框内部都置为1，背景部分置为0，得到车辆计数密度图，对特征向量进行sigmoid操作获得前景与背景的概率，通过得到的车辆计数密度图与该
向量计算交叉熵，最终计算得到车辆计数感知损失，分类、回归损失通过Faster RCNN中的
分类损失和定位损失计算获得，总损失L为分类、回归损失和车辆计数感知损失之和。

[0018] 进一步的，步骤S5模型训练时，输入的数据包括经预处理的图片以及图片对应所标注的车辆框。

[0019] 进一步的，步骤S6中，利用非极大值抑制算法对初步得到的感兴趣区域处理过程如下：

[0020] 从前景概率最高的初步感兴趣区域开始，计算所有与其有重合部分的初步感兴趣区域对于其的交并比，若存在某感兴趣区域与作为前景概率最高的感兴趣区域的交并比超
过阈值 t1，则去除该感兴趣区域，直至找出所有应保留的感兴趣区域；

[0021] 将经过非极大值抑制算法处理得到的感兴趣区域中取前景的概率最高的m个感兴趣区域作为最终感兴趣区域。

[0022] 进一步的，步骤S6中，对得到的预测结果按照其对应的交并比进行阈值为t2的非极大值抑制算法进行处理，并保留最大概率大于阈值t3的结果作为最终的检测结果。

[0023] 本发明的有益效果如下：

[0024] 1、针对稠密场景下车辆检测的特点，设计了车辆数量信息监督驱动注意力模块，该模块能够将车辆数量信息有效融入车辆检测算法框架，增强车辆检测的有效特征，弥补
了稠密场景下造成的信息丢失，进而提高了该场景下车辆检测的效果。

[0025] 2、对经过预处理图片对应的所标注的车辆框进行标记，将标注框内部和背景部分通过 0和1标记，获得车辆计数密度图，完整有效地表示车辆语义和空间信息。

[0026] 3、通过车辆计数密度图和对应向量计算出交叉熵，获得车辆数量感知损失函数来监督网络模型进行训练，优化了模型对稠密车辆的空间信息的学习，并提升模型对遮挡的
鲁棒性，提高了模型训练学习效果，最终获得的模型能更好的适用于稠密场景下车辆视角
变化多样以及车辆相互遮挡的问题。

[0027] 4、采用非极大值抑制算法对获得的感兴趣区域进行处理，通过计算打分值较高的感兴趣区域和其重合部分的感兴趣区域的交并比，并将比值与阈值t1进行比较筛选保留的
感兴趣区域，输入池化层再进行分类回归获得预测结果，对预测结果再进行阈值t2的非极
大值抑制算法处理，保留结果中最大概率大于t3的结果作为最终检测结果，提高了车辆检
测结果的准确性。

附图说明

[0028] 图1为本发明方法的流程示意图；

[0029] 图2为本发明网络模型结构示意图；

[0030] 图3为本发明车辆计数感知注意力模块结构示意图。

具体实施方式

[0031] 在下面的描述中对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本
领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明
保护的范围。

[0032] 下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。

[0033] 本发明的实施例提供了一种基于车辆计数感知注意力的稠密车辆检测方法，如图1所示，方法包括如下步骤：

[0034] S01，在道路监控视频中选取5000张车辆密集的图片构成密集场景车辆检测数据集，其中，训练集3500张，测试集1500张。

[0035] S02，对采集的图片数据集采用水平/垂直翻转、旋转、缩放、裁剪、剪切、平移、对比度，色彩抖动，噪声等方式进行处理，并通过LabelImg标注出图片数据中的车辆框，获得预
处理后的图片数据。

[0036] S03，将预处理后的图片数据输入到ResNet50特征提取网络中提取出有效的语义特征和空间信息特征。

[0037] S04，构建网络模型，包括特征提取网络，车辆计数感知注意力模块，目标分类与回归网络；

[0038] 采用ResNet50作为特征提取网络。

[0039] 目标分类与回归网络由特征提取网络RPN以及分类与回归卷积层构成。

[0040] 车辆计数感知注意力网络模块能够输出蕴含图片中车辆数量信息的注意力图谱，构建过程如下：

[0041] 由特征提取网络提取的特征，经过一个通道注意力模块，输出通道权重加权后的特征，在通道维度对通道权重加权的特征进行取最大值与平均值的操作，得到维度为2*1*
h*w的特征谱，再沿着通道维度进行合并，然后输入到滤波器大小为2*1*1*2的卷积层，得到
一个维度大小为2*h*w的特征谱，h*w为输出特征谱的高和宽；

[0042] 再通过sigmoid操作并取其中的前景通道作为该模块输出的计数感知注意力图谱，将计数感知注意力网络输出的注意力图谱与特征提取网络提取获得的特征的每个通道
都相乘，获得改进的密集场景车辆检测特征。

[0043] 本实施例中所述车辆计数感知注意力网络模块的输出通过车辆计数感知损失来监督，损失函数计算过程如下：

[0044] 如上所述，图片数据经过特征提取输入到车辆计数感知注意力模块中2*1*1*2的卷积层后得到一个维度为2×h×w的注意力图谱，该矩阵的两个通道上的值分别代表对应
的特征谱上的每个点属于前景与背景的概率；

[0045] 再利用输入图片数据所标注的车辆框GroundTruth，将每个GroundTruth的标注框内部都置为1，背景部分置为0，获得车辆计数密度图；

[0046] 通过得到的车辆计数掩膜分布密度图与注意力图谱计算交叉熵，最终计算得到车辆计数感知损失Lcount，计算公式如下所示：

[0047]

[0048] 其中h和w分别为注意力图谱的高宽，和为注意力图谱上每个点属于前景与背景的概率。

[0049] S05，设计稠密目标检测模型，将改进的密集场景车辆检测特征输入感兴趣区域生成网络RPN中，感兴趣区域生成网络含有两个平行的全连接层，分别用于分类对应区域是否
为感兴趣区域以及回归感兴趣区域的位置；

[0050] 本实施例中，输入的图片数据，每隔16个像素点以16个像素为基准长度并以长宽比 [0.5,1,2]与面积比[0.5,1,2]互相两两组合生成9个锚框。对于特征图上的每个位置，
分类分支会分别输出该位置对应的9个锚框是否为感兴趣区域的概率；回归分支会分别输
出该位置对应的9个的位置调整参数。结合回归分类分支与回归分支的输出，初步得到一系
列感兴趣区域。

[0051] S06：网络模型训练，本实施例中设置学习率为0.005，训练周期为30个训练阶段，并且选用权重衰减值为0.0001，动量为0.9的随机梯度下降优化器作为模型的优化方法，将
获得的感兴趣区域从前景概率最高的开始进行交并比计算，所述交并比为，当前感兴趣区
域和与其有重合部分的初步感兴趣区域的交集面积与并集面积的比值，对于每个感兴趣区
域，经计算得到与其交并比最高的感兴趣区域，如果交并比大于t4，则认为该感兴趣区域为
正样本，否则认为该感兴趣区域为负样本，本实施例中t4＝0.7；按照正负样本比例随机选
取若干样本数据；

[0052] 其中，候选区域生成网络在训练过程中的采样个数为256，正负样本比例为1：2；目标检测网络训练过程中采样个数为512，正负样本比例为1：4。

[0053] 对所有选取的感兴趣区域分别计算分类、回归损失和计数感知损失，总的损失L为：

[0054] L＝Lconf+Lloc+Lcount

[0055] 其中Lconf和Lloc分别为Faster RCNN定义的分类损失(交叉熵)和定位损失(SmoothL1)。

[0056] S07：检测结果输出，测试集图像数据在预处理中，尺寸缩放为1280*720，对预处理后的数据输入到训练好的网络模型中，得到初步感兴趣区域，再对所述感兴趣区域采用非
极大值抑制算法(NMS)处理，过程如下：

[0057] 将得到的初步感兴趣区域，从前景概率最高的初步感兴趣区域开始，依次计算与其有重合部分感兴趣区域的交并比，如果存在某感兴趣区域与前景概率最高的感兴趣区域
的交并比超过阈值t1，则删去该感兴趣区域，本实施例中t1＝0.7；重复该过程，直到找出所
有应保留的感兴趣区域。

[0058] 经NMS处理得到的感兴趣区域中取作为前景的概率最高的m个感兴趣区域作为最终得到的感兴趣区域(ROI)，本实施例中m＝2000。

[0059] 将得到的ROI输入ROI池化层，所述ROI池化层将输入的每个ROI对应的特征均匀分成一个7*7的区域，对每个区域，取该区域中的元素的最大值作为该区域的值，得到池化后
的特征。

[0060] 将池化后的ROI特征输入分类器与回归器，得到一系列预测的结果，对得到的预测结果采用NMS算法进行处理，处理过程如上所述，预测结果的NMS处理阈值t2为0.5，获得最
终预测结果。

[0061] 对最终预测结果再进行NMS算法进行处理，处理过程如上所述，处理阈值t3为0.05，获得最终保留的车辆检测结果并输出。

[0062] 本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

一种基于车辆计数感知注意力的稠密车辆检测方法转让专利

申请号 : CN202011081936.3

文献号 : CN112200089B

文献日 : 2021-09-14

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 吴晓 , 李威 , 王震霆 , 彭强

申请人 : 西南交通大学

摘要 :

权利要求 :

说明书 :