基于深度学习的车道线检测方法转让专利
申请号 : CN201910672937.6
文献号 : CN110363182B
文献日 : 2021-06-18
发明人 : 王超 , 付子昂
申请人 : 北京信息科技大学
摘要 :
权利要求 :
1.基于深度学习的车道线检测方法,其特征在于,该方法包括以下步骤:步骤一、从TuSimple数据集中随机选取出M张图像,并对选取出的M张图像中包含的车道线进行标注,获得标注后图像;
步骤二、将步骤一获得的标注后图像输入全卷积神经网络FCN8s,利用输入图像对全卷积神经网络FCN8s进行训练,直至损失函数值不再减小时停止训练,获得训练好的全卷积神经网络FCN8s;
所述步骤二中采用的损失函数为Focal Loss,对于待测图像中的任一像素,该像素的真实类别为y,该像素预测为类别y的概率为p,则该像素的损失值FL(p,y)为:γ
FL(p,y)=‑αt(1‑pt) log(pt)其中: αt和γ均代表权重系数;
将待测图像中所有像素的损失值做加和运算,获得总的损失值;
直至总的损失值不再减小时停止训练;
步骤三、将待进行车道线检测的图像输入步骤二训练好的全卷积神经网络FCN8s,得到全卷积神经网络FCN8s输出的二值化车道线掩码图;
步骤四、对步骤三的二值化车道线掩码图进行后处理,获得后处理过的二值化车道线掩码图;
步骤五、提取后处理过的二值化车道线掩码图中的全部车道线点,并对提取出的车道线点进行聚类,以将每个车道线点归类到对应的车道线;
根据聚类结果,提取出驾驶系统当前所在车道的左侧车道线上的车道线点以及右侧车道线上的车道线点;其具体过程为:将后处理过的二值化车道线掩码图的左上角顶点作为坐标原点,以二值化车道线掩码图的宽度方向为x轴、高度方向为y轴,从左上角顶点到右下角坐标依次增大;
设定高度阈值Q,高度阈值Q的设定原则为:将后处理过的二值化车道线掩码图中所有车道线点在y轴方向的最低点加上25,获得高度阈值Q的取值;
利用高度阈值Q对后处理过的二值化车道线掩码图中的全部车道线点进行筛选,即筛选出y轴方向坐标大于等于Q的车道线点;
对筛选出的车道线点进行聚类,以将筛选出的每个车道线点归类到对应的车道线;
提取出驾驶系统当前所在车道的左侧车道线上的车道线点以及右侧车道线上的车道线点;
步骤六、分别对提取出的两条车道线上的点进行拟合,得到驾驶系统当前所在车道的左侧车道线以及右侧车道线;
步骤七、将步骤六拟合得到的左侧车道线以及右侧车道线显示在待测图像中,完成待测图像中的车道线检测。
2.根据权利要求1所述的基于深度学习的车道线检测方法,其特征在于,所述步骤二中采用的损失函数为带权交叉熵损失函数,对于待测图像中的任一像素,该像素的真实类别为y,该像素预测为类别y的概率为p,则该像素的交叉熵损失值WCE(p,y)为:WCE(p,y)=‑αtlog(pt)其中: αt代表权重系数;
将待测图像中所有像素的交叉熵损失值做加和运算,获得总的交叉熵损失值;
直至总的交叉熵损失值不再减小时停止训练。
3.根据权利要求1所述的基于深度学习的车道线检测方法,其特征在于,所述步骤六中采用的拟合方法为线性回归或多项式岭回归。
4.根据权利要求3所述的基于深度学习的车道线检测方法,其特征在于,所述步骤四的具体过程为:
经过形态学闭运算将步骤三获得的二值化车道线掩码图中同一条车道线上存在的断点进行连接,并对全部的车道线点进行平滑,获得平滑后的二值化车道线掩码图;
对平滑后的二值化车道线掩码图进行去噪处理,获得后处理过的二值化车道线掩码图。
说明书 :
基于深度学习的车道线检测方法
技术领域
背景技术
术、自动控制技术、计算机技术和人工智能等技术,代表着未来汽车技术的战略制高点,是
汽车产业转型升级的关键,也是目前世界公认的发展方向。其中车道线检测是自动驾驶的
核心技术,传统的车道线检测方法多是手工特征提取或采用霍夫变换进行检测,这种方法
耗时且泛化性差,特别是对于车道线的检测精度较低。
发明内容
积神经网络FCN8s;
和背景,再通过后处理和DBSCAN聚类方法提取当前车道两侧的左右车道线坐标,最后通过
拟合算法对左右车道线进行拟合,本发明方法对视频检测达到平均50帧每秒,检测精度能
够达到92.3%,可以实现精确快速的检测效果,有效克服了传统的车道线检测方法耗时且
检测的精度低的问题。
附图说明
具体实施方式
积神经网络FCN8s;
化;对图像进行缩放的目的是使输入图像与网络训练时图像尺寸保持一致。
征图尺寸以及补充说明,此外在解码层对转置卷积涉及的Dilation和Output_padding参数
取值额外进行了说明。
(Conv)作为编码层,避免层数越深时,下采样过程中对车道线信息全部丢失。编码层的输入
是一个三通道的320*160的图像,每次卷积运算后接上Relu激活函数和批处理层,能使模型
学习到的特征更复杂,且能优化训练过程。在卷积运算中,卷积核大小设置为3*3、步长为1、
padding为1,这样使得每次进行卷积运算后不改变特征图的尺寸,经过2‑3次卷积提取特征
后使用最大池化层(Maxpooling)使特征图尺寸折半进行下采样,而通道个数不发生改变,
下一个卷积层中使特征图的通道翻倍,直到放大到512维通道数时通道不再增加。在编码层
中,从320*160的三通道图像输入,最终生成10*5的512通道的特征图,输出到解码层。
采样两倍尺寸,得到20*10的特征图,再与Maxpooling4得到的特征图相加并再进行两倍上
采样,得到40*20的特征图,再与Maxpooling3得到的特征图相加后再进行两倍上采样,得到
80*40的特征图。这是因为每次进行上采样都会结合在编码层得到的浅层特征,从浅层特征
图中能很好的获得关于图片的语义信息,尤其是对于车道线检测来说,下采样的层数越深,
由于车道线占图片总比例非常小,通常情况下学习的多为背景的特征信息,所以在解码过
程中上采样与浅层特征的结合尤为重要。FCN8s网络结构通常的做法是在第21层转置卷积
层TransConv3将与Maxpooling3叠加的特征图直接从40*20上采样8倍恢复到320*160的尺
寸,但是本发明在设计中分三次转置卷积运算(TransConv3、TransConv4、TransConv5)进行
上采样,每次上采样两倍,这种方式可以与直接上采样8倍达到相同的效果,同时使模型在
解码层的学习效果更好。
一化,每个像素点的所属类别为类别向量中概率最大的类,最终生成二值化的车道线掩码
图。
一像素,该像素的真实类别为y(y=1代表该像素为车道线点,否则该像素点为非车道线
点),该像素预测为类别y的概率为p,则该像素的交叉熵损失值WCE(p,y)为:
较少的类别也能学习的很好。使得样本少的样本的总损失与样本多的样本的总损失平衡,
以解决样本不均衡的问题。
Vision,2013,104(2):154‑171.)的方法,确定αt的取值;
保证c+pclass>1,ln(c+pclass)>0,接着计算对数的倒数 超参数的取值和概率
的取值范围共同限制了αt的取值范围为[1,50],对于样本较少的类别,该类的权值会较大,
最大取值为50,对于样本较多的类别,该类的权值会较小,最小取值为1。
Object Detection[J].IEEE Transactions on Pattern Analysis&Machine
Intelligence,2017,PP(99):2999‑3007),对于待测图像中的任一像素,该像素的真实类别
为y,该像素预测为类别y的概率为p,则该像素的损失值FL(p,y)为:
预测概率为0.7和0.3,则前者为易分类样本点,后者为难分类样本点。对于易分类样本点
γ γ
(前者)通过乘以(1‑0.7) ,使得该损失值相对缩小,而难分类样本点通过乘以(1‑0.3) 使
得其损失值要大于易分类样本点损失值,从而更好的学习难分类样本点;γ参数用于调节
易分类与难分类样本学习的权重,也需要提前给定。
类像素点的加权比例,γ取0时,Focal Loss损失函数转化为带权交叉熵损失函数,γ一般
取值为0.5,1,1.5,2等。
三步进行:第一,计算每类车道线的中点坐标,记为MeanLi,计算其与当前车道中点的距离,
记为DistLi;第二,找到每类车道线最底端的横坐标,并计算其与当前车辆中点横坐标的差
值,记为DiffLi,这是因为根据最低端的横坐标可以判断该车道是在当前车辆的左边或是右
边;第三,从当前车辆右边的车道中(Diff≥0)找到这些车道距离车辆中点MeanLi最小的一
个车道,视为当前车道右车道,同样的从当前车辆左边的车道中(Diff<0)找到这些车道距
离车辆中点MeanLi最小的一个车道,视为当前车道左车道,将左车道和右车道上的点的坐标
输出,用于车道线的拟合。
道线点数较少时采用线性回归(最小二乘法)进行拟合,否则采用多项式岭回归进行曲线拟
合。
道线掩码图;
个数和每个车道线点对应的坐标,给定噪声区域的阈值,若某个邻接区域中车道线点个数
少于噪声区域的阈值,则将该邻接区域视作噪声区域,从平滑后的二值化车道线掩码图中
去掉,获得后处理后的二值化车道线掩码图。
掩码图中被很好的连接上,有利于聚类模块更好的归类。而在两幅图的实线圈区域可以看
到由于进行了闭运算操作,不同车道线在距离较远的位置由于拍摄视角的原因较为接近,
以至于被误连接。对于这种情况,通过舍去车道线距离较远的位置的车道线点,以此来提高
聚类模块的精度和稳定性。
challange)。
含5组不同参数情况下的Focal Loss的对比、1组带权交叉熵损失函数和1组标准交叉熵损
失函数,下面的表2中将对这7组实验参数和实验结果进行详细说明。
输入归一化参数为每个通道的均值和方差,数值上为mean=[0.36221257,0.4058522,
0.4073866],std=[0.19146983,0.21310195,0.23031688],该数值通过计算所有TuSimple
样本每个RGB通道的像素值统计得出。
型;在训练集上γ取1的Focal Loss训练的模型取得最高的IoU指标得分0.4,γ取2.5训练
的模型在训练集上呈现上升的趋势。
型;在训练集上Weighted CE取得最高的Recall指标得分0.98,但是在后续的实验中发现,
Weighted CE训练的模型的泛化性不强;在Focal Loss训练的模型中,γ取1时的模型在训
练集上取得0.81。
呈现相反的结果,CE训练的模型在训练集上Precision指标收敛在0.64,说明CE训练的模型
对于车道线点的准确率很高;Focal Loss训练的模型中,各参数均取得相似的收敛结果,为
0.4左右。
周围点也都预测为了车道线,因此车道线分割结果与真实标注的结果的IoU和Precision指
标值就相对偏低。
Recall指标的表现上都比较差,这说明CE训练的模型对于车道线点虽然准确率高,但是全
面预测能力较弱,所以不考虑CE训练的模型;我们还可以看出在本次实验中,γ取1的Focal
Loss训练的模型在三种指标上较优于WEIGHTED CE和其他γ取值的Focal Loss训练的模
型,所以,我们选取采用γ取1的Focal Loss损失函数在Epoch为30训练的模型作为训练模
型权重。
下,对Eps和MinPts两个参数分别取值,共设计8组对比实验,如表4所示,从中选取最优参
数。
道线之间间隔越小,对于间隔越大的车道线,DBSCAN参数对聚类效果影响较小,但是对于间
隔越小的车道线,Eps和MinPts两个参数有可能会使得两个车道线被分类为同一条。
MinPts=1或Eps=1和MinPts=2时,平均归类正确的准确率最大且为98.0%,当Eps小于1
时,准确率为0%;Eps大于1时准确率逐渐降低。本发明选取Eps=1、MinPts=1作为DBSCAN
聚类算法的输入参数。
构核,并进行1次闭运算,邻域分析结束后对样本点(即车道线点)个数少于70的邻域区间进
行舍去,保留主要的车道线;接着在聚类模块中对于320*160分辨率的图像舍去纵坐标低于
某一个阈值(车道线纵轴最低点加上25)的车道线点,再对剩余车道线点进行归类并提取当
前车道所在车道线,在拟合模块对两条车道线进行分别拟合,其中拟合模块的判断阈值选
取为100,若左右两条车道线中至少有一条样本个数少于100,则采用线性回归方式拟合,若
左右两条车道线的样本点个数均等于或大于100,则采样2阶多项式岭回归拟合,最终将拟
合结果显示在图像上。
确,取决于在同一高度下与真实标注的同一条车道线的像素点的距离差,是否小于像素数
阈值。若小于像素数阈值,则称该车道线像素点预测正确,否则预测错误。像素数阈值的计
算过程如下代码所示:
图像的时间。
时3ms,拟合2ms,最后拟合车道线展示在图像上用时1ms,总计用时19ms,相当于平均20ms每
张图像,视频检测平均50帧每秒,可满足实时性检测的要求。
做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明
的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。