一种基于深度学习级联网络的交通信号标识检测识别方法转让专利

申请号 : CN201910174085.8

文献号 : CN110032935A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李学伟刘宏哲魏威徐成

申请人 : 北京联合大学

摘要 :

本发明公开了一种基于深度学习级联网络的交通信号标识检测识别方法,本方法首先对训练数据集进行预处理,进行模型训练,把训练的交通标识识别模型输出,然后把测试图片输入进行测试,把识别出的目标扣出进行进一步的分类过滤,把过滤后的信息融合返还到原图,最后输出信息文件。把准备好的训练样本进行预处理,对训练数据中标定的目标框调整,调整标定目标的名称的错误标定以及目标框在图片边界时位置调整,因为训练时处理数据是会出现错误,标定目标的名称会影响目标准确识别。输入训练数据用调整的网络进行初次训练。本发明可以对交通道路场景中的交通信号标识有很好的识别效果,可以很好的识别多尺度目标及特征极为相似的目标。

权利要求 :

1.一种基于深度学习级联网络的交通信号标识检测识别方法,其特征在于:本方法首先对训练数据集进行预处理,然后进行模型训练,把训练的交通标识识别模型输出,然后把测试图片输入进行测试,把识别出的目标扣出进行进一步的分类过滤,然后把过滤后的信息融合返还到原图,最后输出信息文件;

把准备好的训练样本进行预处理,对训练数据中标定的目标框调整,调整标定目标的名称的错误标定以及目标框在图片边界时位置调整,因为训练时处理数据是会出现错误,标定目标的名称会影响目标准确识别;输入训练数据用调整的网络进行初次训练;

(1)训练阶段:A)把对练数据进行预处理,主要是对标记好的目标框进行调整:一是调整框的标签名同一类的大小写等格式完全相同;二是调整目标在图片边界处时框的位置,因为在训练时边界上的框处理时会出现loss为nan的现象;B)把处理好的数据输入进行模型训练并进行调参训练,并输出初次检测模型;C)对标定的目标进行抠出,对抠出的目标细致分类过滤的二次模型进行训练,并输出二次分类检测模型;D)编写脚本把两个模型进行两个模型的链接,使测试时测试数据能够没有中间操作,一次性的得出测试结果;

(2)测试阶段:A)输入需要检测的数据,进行初次的检测分类;B)根据初次分类的检测结果数据在图片上抠出对应的位置,连同初次分类结果信息一并输入二次分类模型;C)把抠出的图片放入二次分类模型进行细致的分类,并得到细致的分类检测结果;D)把两次的检测分类结果进行信息融合保存并将融合后的目标标签以及目标的坐标位置返还图片中,显示最终的图片并输出最终识别信息。

2.根据权利要求1所述的一种基于深度学习级联网络的交通信号标识检测识别方法,其特征在于:FPN网络直接在原来的单网络上做修改,每个分辨率的feature map引入后一分辨率缩放两倍的feature map做element-wise相加的操作;通过这样的连接,每一层预测所用的feature map都融合了不同分辨率、不同语义强度的特征,融合的不同分辨率的feature map分别做对应分辨率大小的物体检测;这样保证了每一层都有合适的分辨率以及强语义特征;同时,由于此方法只是在原网络基础上加上了额外的跨层连接,在实际应用中几乎不增加额外的时间和计算量。

3.根据权利要求2所述的一种基于深度学习级联网络的交通信号标识检测识别方法,其特征在于:FPN网络整体框架:(1)Conv layers提取特征图:

作为一种CNN网络目标检测方法,首先使用一组基础的conv+relu+pooling层提取input image的feature maps,该feature maps会用于后续的RPN层和全连接层;

其中outputsize为输出图片的尺寸大小,kernelsize为

过滤器的大小,pad为卷积,stride是步长;

经过Conv layers,图片大小变成(M/16)*(N/16),即:60*40(1000/16≈60,600/16≈

40);则,Feature Map就是60*40*512-d(注:VGG16是512-d,ZF是256-d),表示特征图的大小为60*40,数量为512;

(2)RPN:

RPN网络主要用于生成region proposals,首先生成一堆Anchor box,对其进行裁剪过滤后通过softmax判断anchors属于前景或者后景,即是物体或不是物体,所以这是一个二分类;同时,另一分支bounding box regression修正anchor box,形成较精确的proposal;

在每一个scale层,都定义了不同大小的anchor,对于P2,P3,P4,P5,P6这些层,定义anchor的大小为32^2,64^2,128^2,256^2,512^2,另外每个scale层都有3个长宽对比度:1∶2,1∶1,

2∶1;所以整个特征金字塔有15种anchor;

Softmax公式 计算各分类的概率值;;Softmax Loss公式

RPN进行分类时,即寻找最小Loss值

在’rpn-data’中已经为预测框anchor box进行了标记,并且计算出与gt_boxes之间的偏移量,利用RPN网络进行训练;

RPN生成roi后对应feature时在level上位:k0是在C4取的取的feature map,k0=4(C5相当于fc,也有在C5取的,在后面再多添加fc),比如roi是w/2,h/2,那么k=k0-1=4-1=3,就在P3取(3)Roi Pooling:

根据不同尺度的候选框map into到不同大小的特征图;

(4)Classifier:

会将Roi Pooling层形成固定大小的feature map进行全连接操作,利用Softmax进行具体类别的分类,同时,利用L1Loss完成boundingbox regression回归操作获得物体的精确位置。

说明书 :

一种基于深度学习级联网络的交通信号标识检测识别方法

技术领域

[0001] 本发明属于计算机视觉图像处理技术,具体为一种基于深度学习的交通信号 标识识别方法,可以用于无人驾驶技术、辅助驾驶以及交通信号标识维护等方面。

背景技术

[0002] 汽车的普及极大方便了人们的出行、生活和工作,同时也不可避免的产生了 很多的交通问题。交通安全问题成为人们日常生活中最常见的问题之一,受到了 政府、科研机构以及汽车生产厂家的高度重视。据统计2017年全国发生交通事 故203049起,死亡人数为63772人;造成直接财产损失为121311.3万元。提高 车辆行驶安全已经成为亟待解决的问题,车辆智能驾驶技术对车辆行驶安全和提 升交通系统的运输效率有重大价值。智能交通系统及智能车的应用中有着重要的 作用。
[0003] 交通标识在指导汽车驾驶员行驶中非常重要,通过规范驾驶以保障交通道路 安全。因此,道路交通标识的自动检测成为智能驾驶领域的一个重要研究课题。 在道路交通标识的研究进程中,虽有突破性的进展,但仍存在一些问题有待解决。 在如今交通网络如此发展的时代,设计一个实时性好和准确率高的道路交通标识 检测与识别系统显得尤为重要。解决交通安全问题的途径之一是准确、有效地设 立道路交通标志,为驾驶员提供丰富的禁令、警告、指示等信息,从而起到减少 交通事故的作用。为了确保能过及时准确的获取交通标识的信息,交通标志自动 识别系统受到了国内外学者的关注。交通标志自动识别系统在辅助驾驶、交通标 志维护以及无人驾驶技术中有十分重要作用。
[0004] 亚洲的日本就已经开始研究道路交通标志的识别。1987年,日本学者针对 限速标志,提出采用阈值分割和模板匹配的方法进行识别。自上个世纪九十年代 无人驾驶汽车问世以来,德国、意大利、法国、美国等一些国家都先后纷纷加入 了道路交通标志的检测和识别系统研究这一行列。1992年,法国Saint-Blancard 开发出红色标志识别系统,该系统采用颜色滤波、边缘及闭合曲线检测进行边缘 检测,再用神经网络方法加以识别。1994年Daimler-Benz公司推出了当时最先 进的实时交通标志识别系统,系统采用颜色分割、形状分析和统计图识别等技术, 识别率达到90%。
[0005] 1993年美国研制的ADS系统,用颜色聚类的方法来检测判别。1994年,意 大利的Piccioli等利用图像几何形状(线条、三角形、圆形等)对交通标志进行 检测,并作为特征输入到标准图像库用相似性测度的方法将目标与数据库中标准 图像加以比较识别。同年,西班牙利用颜色阈值分割和最优角点检测器进行检测, 利用神经网络进行分类识别,识别率均在90%以上。2001年,威斯康星大学的 Liu和Ran1开发了识别停止标志的系统,采用HSV空间的颜色分割法进行检测 用神经网络的方法加以分类和识别。
[0006] 2005年Fleyeh等人提出利用形状信息对交通标识进行识别,但是依靠形状 识别交通标志和信号灯也存在一定的问题,因为周围环境车辆与标志或信号灯之 间的夹角会影响物体的感知形状,从而产生新的形状变化。2009年de Carette等 人研究一种车载摄像头实时交通信号灯识别系统,该系统的方法主要是基于点光 源的检测算法,能够检测到来自远距离的光。2012年Siogkas等人提出一种单目 摄像机在交通灯检测方法,该系统结合了颜色预处理模块,以增强图像中红色和 绿色区域的分辨力,并处理在这种场景中经常观察到的“绽放效应”。2014年Cerri 设计了一种自适应相机设置系统,该系统根据图像上部像素的亮度来改变快门和 增益设置。
[0007]
[0008] 随着无人车技术快速发展,智能交通系统得到了极大的关注。2012年,中 南大学黄振威等人对交通信号灯检测进行了研究,他们采用Gabor+2DPCA特征 提取算法,通过提取候选区域的特征并使用模板匹配识别其类型。2015年,北 京理工大学张立天等人研究了交通信号灯识别系统,该系统包括了检测、跟踪、 定位、识别功能。2016年,清华大学张长水等人针对光照对检测的影响进行了 研究,提出的自适应背景抑制算法能很好地解决该问题。2017年,北京联合大 学鲍泓、王迪等人提出了一种用于圆形交通信号灯的深度学习网络的算法来检测 交通信号灯。

发明内容

[0009] 深度学习的方法比传统的方法更快。现有的深度学习的方法大多对多尺度的 目标(尤其是小目标)检测效果不好,对特征相似的目标检测识别效果很差。该 软件能很好的检测识别多尺度的目标(尤其是小目标),针对特征相似的目标该 软件进行级联网络进行二次检测识别:首先,用一个网络模型进行大的检测识别; 然后,把目标进行扣出去掉背景,针对目标表征特征,再用一个小的网络模型进 行分类识别。
[0010] 本发明采用的技术方案为一种基于深度学习级联网络的交通信号标识检测 识别方法,本方法首先对训练数据集进行预处理,然后进行模型训练,把训练的 交通标识识别模型输出,然后把测试图片输入进行测试,把识别出的目标扣出进 行进一步的分类过滤,然后把过滤后的信息融合返还到原图,最后输出信息文件。
[0011] 该技术方案的详细步骤如下,A.把准备好的训练样本进行预处理,主要是对 训练数据中标定的目标框调整,主要是调整标定目标的名称的错误标定以及目标 框在图片边界时位置调整,因为训练时处理数据是会出现错误,标定目标的名称 会影响目标准确识别。B.输入训练数据用调整的网络进行初次训练。
[0012] 技术方案的详细步骤为:(1)训练阶段:A.把对练数据进行预处理,主要是 对标记好的目标框进行调整:一是调整框的标签名同一类的大小写等格式完全相 同;二是调整目标在图片边界处时框的位置,因为在训练时边界上的框处理时会 出现loss为nan的现象。B.把处理好的数据输入进行模型训练并进行调参训练, 并输出初次检测模型。C.对标定的目标进行抠出,对抠出的目标细致分类过滤的 二次模型进行训练,并输出二次分类检测模型。D.编写脚本把两个模型进行两个 模型的链接,使测试时测试数据能够没有中间操作,一次性的得出测试结果。(2) 测试阶段:A.输入需要检测的数据,进行初次的检测分类。B.根据初次分类的检 测结果数据在图片上抠出对应的位置,连同初次分类结果信息一并输入二次分类 模型。C.把抠出的图片放入二次分类模型进行细致的分类,并得到细致的分类检 测结果。D.把两次的检测分类结果进行信息融合保存并将融合后的目标标签以及 目标的坐标位置返还图片中,显示最终的图片并输出最终识别信息。
[0013] 多尺度目标检测是计算机视觉领域的一个基础且具挑战性的课题。在图像金 字塔基础上构建的特征金字塔(Featurized Image Pyramids)是传统解决思路,具 有一定意义的尺度不变性。FPN利用CNN的金字塔层次结构特性(具有从低到 高级的语义),构建具有高级语义的特征金字塔。得到的特征金字塔网络(FPN) 是通用的。FPN增加了特征映射的分辨率(即在更大的feature map上面进行操 作)这样可以获得更多关于小目标的有用信息。
[0014] FPN网络直接在原来的单网络上做修改,每个分辨率的feature map引入后 一分辨率缩放两倍的feature map做element-wise相加的操作。通过这样的连接, 每一层预测所用的feature map都融合了不同分辨率、不同语义强度的特征,融 合的不同分辨率的feature map分别做对应分辨率大小的物体检测。这样保证了 每一层都有合适的分辨率以及强语义特征。同时,由于此方法只是在原网络基础 上加上了额外的跨层连接,在实际应用中几乎不增加额外的时间和计算量。
[0015] FPN网络整体框架:
[0016] (1)Conv layers提取特征图:
[0017] 作为一种CNN网络目标检测方法,首先使用一组基础的conv+relu+pooling 层提取input image的feature maps,该feature maps会用于后续的RPN层和全连 接层。
[0018] 卷积公式: 其中outputsize为输出图片的尺寸大小, kernelsize为过滤器的大小,pad为卷积,stride是步长。
[0019] 经过Conv layers,图片大小变成(M/16)*(N/16),即:60*40(1000/16≈60, 600/16≈40);则,Feature Map就是60*40*512-d(注:VGG16是512-d,ZF是256-d), 表示特征图的大小为60*40,数量为512。
[0020] (2)RPN(Region Proposal Networks):
[0021] RPN网络主要用于生成region proposals,首先生成一堆Anchor box,对其进 行裁剪过滤后通过softmax判断anchors属于前景(foreground)或者后景 (background),即是物体或不是物体,所以这是一个二分类;同时,另一分支 boundingbox regression修正anchorbox,形成较精确的proposal。在每一个scale 层,都定义了不同大小的anchor,对于P2,P3,P4,P5,P6这些层,定义anchor 的大小为32^2,64^2,128^2,256^2,512^2,另外每个scale层都有3个长宽对 比度:1:2,1:1,2:1。所以整个特征金字塔有15种anchor。
[0022] Softmax公式 计算各分类的概率值;;Softmax  Loss公式RPN进行分类时,即寻找最小Loss值
[0023] 在’rpn-data’中已经为预测框anchorbox进行了标记,并且计算出与gt_boxes 之间的偏移量,利用RPN网络进行训练。
[0024] RPN生成roi后对应feature时在level上位:k0是在C4取的取的feature map,k0=4(C5相当于fc,也有在C5取的,在后面再多添加fc),比如roi是 w/2,h/2,那么k=k0-1=4-
1=3,就在P3取
[0025] (3)Roi Pooling:
[0026] 根据不同尺度的候选框map into到不同大小的特征图。
[0027] (4)Classifier:
[0028] 会将Roi Pooling层形成固定大小的feature map进行全连接操作,利用 Softmax进行具体类别的分类,同时,利用L1Loss完成boundingbox regression 回归操作获得物体的精确位置。
[0029] 与现有技术相比较,本发明提出一种基于深度学习的级联网络对交通信号 标识进行分类识别,可以对交通道路场景中的交通信号标识(包括交通信号灯和 交通标识牌)有很好的识别效果,可以很好的识别多尺度目标(尤其是小目标) 及特征极为相似的目标。

附图说明

[0030] 图1目标识别工作流程图。
[0031] 图2二次分类主要流程图。
[0032] 图3特征金字塔网络特征融合图。
[0033] 图4本发明的识别提取结果文件图和结果图片。
[0034] 图5FPN特征金字塔网络图。
[0035] 图6FPN网络结构图。

具体实施方式

[0036] 由于交通标识的复杂性,采用基于深度学习的级联网络对目标进行分类识别。 首先通过一个深层的网络对目标进行识别,并得到目标大致分类和其位置;然后 再通过一个小的网络对识别出的目标进行分类过滤,使检测到的目标分类更准确。 FPN网络对多尺度的目标有良好的检测效果,使用特征金字塔网络FPN作为初 次检测分类模型。在二次分类上,为了简便快速用一个小的分类网络进行细致的 分类(使用的是Google Net),使能够对特征相似的目标有正确分类。调参使模 型有相对好的识别分类效果。
[0037] 本方案是基于深度学习的交通标识检测识别,根据FPN具有对小目标检测 效果好、能够较好的处理多尺度目标原因,本方法采用类似的方法进行检测识别。 特征金字塔是多尺度目标检测系统中的一个基本组成部分,但是由于特征金字塔 在计算量和用时上很大,近年来深度学习目标检测都没有重点研究。作者利用了 深度卷积神经网络固有的多尺度、多层级的金字塔结构去构建特征金字塔网络。 使用一种自上而下的侧边连接,在所有尺度构建了高级语义特征图,这种结构就 叫特征金字塔网络(FPN),其在特征提取上改进明显。
[0038] 多尺度目标检测是计算机视觉领域的一个基础且具挑战性的课题。在图像金 字塔基础上构建的特征金字塔(featurized image pyramids)是传统解决思路,具 有一定意义的尺度不变性。论文的目标是利用CNN的金字塔层次结构特性(具 有从低到高级的语义),构建具有高级语义的特征金字塔。得到的特征金字塔网 络(FPN)是通用的。
[0039] 由图5可以看出网络有三条线路,一个是左面的CNN网络,称之为Bottom-up pathway;另一条则是将CNN得到的高语义化不断升采样,称之为top-down pathway;最后是将它们融合起来的侧边通道,称之为lateral connections。
[0040] 自下而上的路径:CNN的前馈计算就是自下而上的路径,特征图经过卷积 核计算,通常是越变越小的,也有一些特征层的输出和原来大小一样,称为“相 同网络阶段”(same network stage)。对于本方法的特征金字塔,作者为每个阶 段定义一个金字塔级别,然后选择每个阶段的最后一层的输出作为特征图的参 考集。这种选择是很自然的,因为每个阶段的最深层应该具有最强的特征。具 体来说,对于ResNets,作者使用了每个阶段的最后一个残差结构的特征激活输 出。将这些残差模块输出表示为{C2,C3,C4,C5},对应于conv2,conv3, conv4和conv5的输出,并且注意它们相对于输入图像具有{4,8,16,32} 像素的步长。考虑到内存占用,没有将conv1包含在金字塔中。
[0041] 自上而下的路径和横向连接:the top-down pathway结合低层高分辨率的特 征方法就是把更抽象语义更强的高层特征图进行上取样,然后把该特征横向连接 lateral connections至前一层特征,因此高层特征得到加强。值得注意的是,横向 连接的两层特征在空间尺寸上要相同。这样做应该主要是为了利用底层的定位细 节信息。
[0042] 图3显示连接细节。把高层特征做2倍上采样(最邻近上采样法),然后将 其和对应的前一层特征结合(前一层要经过1*1的卷积核才能用,目的是改变 channels,应该是要和后一层的channels相同),结合方式就是做像素间的加法。 重复迭代该过程,直至生成最精细的特征图。迭代开始阶段,在C5层后面加了 一个1*1的卷积核来产生最粗略的特征图,最后,用3*3的卷积核去处理已经 融合的特征图(为了消除上采样的混叠效应),以生成最后需要的特征图。{C2, C3,C4,C5}层对应的融合特征层为{P2,P3,P4,P5},对应的层空间尺 寸是相通的。金字塔结构中所有层级共享分类层(回归层),就像featurized  image pyramid中所做的那样。固定所有特征图中的维度(通道数,表示为d)。设置d =256,因此所有额外的卷积层(比如P2)具有256通道输出。这些额外层没有 用非线性,而非线性会带来一些影响。
[0043] 一方面将FPN放在RPN网络中用于生成proposal但是现在要将FPN嵌在 RPN网络中,生成不同尺度特征并融合作为RPN网络的输入;另一方面将FPN 用于Fast R-CNN的检测部分,在分类层和卷积层之前添加了2个1024维的全连 接层。