一种基于持续学习的语义分割方法及系统转让专利

申请号 : CN202110879932.8

文献号 : CN113569774B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张新钰李骏李志伟刘华平刘玉超韩威

申请人 : 清华大学

摘要 :

本发明公开了一种基于持续学习的语义分割方法及系统,所述方法包括:通过车载单目相机实时采集路面的RGB图像;基于RGB图像识别当前场景的类型,基于场景的类型,获取其对应的最优骨架模型;将实时采集到的RGB图像输入所述最优骨架模型,输出目标检测结果。本发明的方法提高了现有目标检测的骨架模型在复杂多场景下的平均性能。

权利要求 :

1.一种基于持续学习的语义分割方法,所述方法包括:通过车载单目相机实时采集路面的RGB图像;

基于RGB图像识别当前场景的类型,基于场景的类型,获取其对应的最优骨架模型;

将实时采集到的RGB图像输入所述最优骨架模型,输出目标检测结果;

所述方法还包括:在车载系统中部署多个场景及其对应的最优骨架模型;具体包括:构建N个结构不同的骨架模型;

使用车载单目相机采集路面的RGB图像,对目标像素和行驶过程中不同场景进行标注;

对待训练的K个类型的场景进行排序;

对于排序后的每个场景,将标注后的RGB图像作为训练集,使用持续学习算法分别对N个骨架模型进行训练;使用该场景的测试集对训练好的N个骨架模型进行识别精度计算,将精度最高的骨架模型作为该场景的最优骨架模型;由此,得到在每个场景对应的最优骨架模型;

将每个场景对应的最优模型部署于车载系统中;

所述骨架模型包括:LaneAF、ENet‑SAD、LaneNet和SCNN。

2.根据权利要求1所述的基于持续学习的语义分割方法,其特征在于,对待训练的K个类型的场景进行排序,具体为:按照K个类型场景的训练样本数量,对K个场景进行升序或降序排列。

3.根据权利要求1所述的基于持续学习的语义分割方法,其特征在于,对待训练的K个类型的场景进行排序,具体为:按照K个类型场景的识别难度,对K个场景进行升序或降序排列。

4.根据权利要求1所述的基于持续学习的语义分割方法,其特征在于,对于排序后的每个场景,将标注后的RGB图像作为训练集,使用持续学习算法分别对N个骨架模型进行训练;

具体包括:

排序后的第k个场景下参数为θ的骨架模型的损失函数为Lk(θ):(k)

Lk(θ)=Lk‑1(θ)+λR(θ)其中,1≤k≤K,K为场景的总数,Lk‑1(θ)为第k‑1个场景下参数为θ的骨架模型的损失函(k)

数,λ是正则项的超参数;R(θ) 为对应第k个场景的惩罚项:其中,Np是模型中参数的总数量,θi参数θ的第i个参数, 是训练第l个场景后的模型(l)

参数 的第i个参数, 是第l个场景下Fisher信息矩阵F 的第i个对角线元素,定义为:(l)

其中,|X |是第l个场景的训练数据集的批数量,是模型在参数 下x处的预测值。

5.根据权利要求1所述的基于持续学习的语义分割方法,其特征在于,对于排序后的每个场景,将标注后的RGB图像作为训练集,使用持续学习算法分别对N个骨架模型进行训练;

具体包括:

排序后的第k个场景下参数为θ的骨架模型的损失函数为Lk(θ):(k)

Lk(θ)=Lk‑1(θ)+λR(θ)其中,1≤k≤K,K为场景的总数,Lk‑1(θ)为第k‑1个场景下参数为θ的骨架模型的损失函(k)

数,λ是正则项的超参数;R(θ) 为对应第k个场景的惩罚项:其中,Np是模型中参数的总数量,θi为参数θ的第i个参数, 是训练第k‑1个场景后的模型参数 的第i个参数,第i个参数的重要性矩阵Ωi为:(k)

其中,|X |是第k个场景的训练数据集的批数量, 是骨架模型输出的l2范数,xj为k个场景的训练数据集中的第j批数据。

6.根据权利要求1所述的基于持续学习的语义分割方法,其特征在于,所述方法还包括:

存储识别结果置信度小于阈值的路面RGB图像;

在离线阶段,对存储的RGB图像进行标注,并使用持续学习算法对部署的最优骨架模型进行优化。

7.一种基于持续学习的语义分割系统,其特征在于,所述系统包括:预先部署在车载系统的多个场景及其对应的最优骨架模型、数据采集模块和目标检测模块;

所述数据采集模块,用于通过车载单目相机实时采集路面的RGB图像;

所述目标检测模块,用于基于RGB图像识别当前场景的类型,基于场景的类型,获取其对应的最优骨架模型;将实时采集到的RGB图像输入所述最优骨架模型,输出目标检测结果;

在车载系统中部署多个场景及其对应的最优骨架模型;具体包括:构建N个结构不同的骨架模型;

使用车载单目相机采集路面的RGB图像,对目标像素和行驶过程中不同场景进行标注;

对待训练的K个类型的场景进行排序;

对于排序后的每个场景,将标注后的RGB图像作为训练集,使用持续学习算法分别对N个骨架模型进行训练;使用该场景的测试集对训练好的N个骨架模型进行识别精度计算,将精度最高的骨架模型作为该场景的最优骨架模型;由此,得到在每个场景对应的最优骨架模型;

将每个场景对应的最优模型部署于车载系统中;

所述骨架模型包括:LaneAF、ENet‑SAD、LaneNet和SCNN。

说明书 :

一种基于持续学习的语义分割方法及系统

技术领域

[0001] 本发明属于自动驾驶技术领域,具体涉及一种基于持续学习的语义分割方法及系统。

背景技术

[0002] 感知车辆周围环境对自动驾驶具有重要作用。车道线检测作为一种重要的感知技术,为车辆在自动驾驶过程中提供各个车道的准确位置以保障乘客和行人的安全。
[0003] 当前车道线检测工作主要存在以下局限:(1)不同场景下的数据不平衡问题使得算法难以在所有场景中获得一致的性能。车道线检测模型在数据量最多的情况下会出现过
拟合现象,而在数据量较少的情况下会得到较差的结果;(2)现实场景中的车道数量和类型
是动态变化的,这使得需要通过单个车道存在判别作为辅助任务提高识别精度的模型,无
法得到预期识别效果;(3)对于自动驾驶中大多数现实世界的车道检测任务,需要多阶段的
数据采集来提高整个驾驶过程中的性能。
[0004] 传统的训练方法使用一系列数据微调车道检测模型,用于解决存在灾难性遗忘的问题。当新的观测数据(即:即将到来的场景)与旧的观测数据(即:过去的场景)分布不同
时,车道线检测模型往往对新的观测结果过拟合,而忘记了从旧的观测结果中学到的知识,
因此不能在所有复杂的现实场景中获得一致的性能。

发明内容

[0005] 本发明的目的在于克服上述技术缺陷,提供了一种基于持续学习的语义分割方法,所述方法包括:
[0006] 通过车载单目相机实时采集路面的RGB图像;
[0007] 基于RGB图像识别当前场景的类型,基于场景的类型,获取其对应的最优骨架模型;
[0008] 将实时采集到的RGB图像输入所述最优骨架模型,输出目标检测结果。
[0009] 进一步的,所述方法还包括:在车载系统中部署多个场景及其对应的最优骨架模型;具体包括:
[0010] 构建N个结构不同的骨架模型;
[0011] 使用车载单目相机采集路面的RGB图像,对目标像素和行驶过程中不同场景进行标注;
[0012] 对待训练的K个类型的场景进行排序;
[0013] 对于排序后的每个场景,将标注后的RGB图像作为训练集,使用持续学习算法分别对N个骨架模型进行训练;使用该场景的测试集对训练好的N个骨架模型进行识别精度计
算,将精度最高的骨架模型作为该场景的最优骨架模型;由此,得到在每个场景对应的最优
骨架模型;
[0014] 将每个场景对应的最优模型部署于车载系统中。
[0015] 进一步的,所述骨架模型包括:LaneAF、ENet‑SAD、LaneNet和SCNN。
[0016] 进一步的,对待训练的K个类型的场景进行排序,具体为:按照K个类型场景的训练样本数量,对K个场景进行升序或降序排列。
[0017] 进一步的,对待训练的K个类型的场景进行排序,具体为:按照K个类型场景的识别难度,对K个场景进行升序或降序排列。
[0018] 进一步的,对于排序后的每个场景,将标注后的RGB图像作为训练集,使用持续学习算法分别对N个骨架模型进行训练;具体包括:
[0019] 排序后的第k个场景下参数为θ的骨架模型的损失函数为Lk(θ):
[0020] Lk(θ)=Lk‑1(θ)+λR(θ)(k)
[0021] 其中,1≤k≤K,K为场景的总数,Lk‑1(θ)为第k‑1个场景下参数为θ的骨架模型的损(k)
失函数,λ是正则项的超参数;R(θ) 为对应第k个场景的惩罚项:
[0022]
[0023] 其中,Np是模型中参数的总数量,θi参数θ的第i个参数, 是训练第l个场景后的(l)
模型参数 的第i个参数, 是第l个场景下Fisher信息矩阵F 的第i个对角线元素,定
义为:
[0024]
[0025] 其中,|X(l)|是第1个场景的训练数据集的批数量,
[0026] 是模型在参数 下x处的预测值。
[0027] 进一步的,对于排序后的每个场景,将标注后的RGB图像作为训练集,使用持续学习算法分别对N个骨架模型进行训练;具体包括:
[0028] 排序后的第k个场景下参数为θ的骨架模型的损失函数为Lk(θ):
[0029] Lk(θ)=Lk‑1(θ)+λR(θ)(k)
[0030] 其中,1≤k≤K,K为场景的总数,Lk‑1(θ)为第k‑1个场景下参数为θ的骨架模型的损(k)
失函数,λ是正则项的超参数;R(θ) 为对应第k个场景的惩罚项:
[0031]
[0032] 其中,Np是模型中参数的总数量,θi为参数θ的第i个参数, 是训练第k‑1个场景后的模型参数 的第i个参数,第i个参数的重要性矩阵Ωi为:
[0033](k)
[0034] 其中,|X |是第k个场景的训练数据集的批数量, 是骨架模型输出的l2范数,xj为k个场景的训练数据集中的第j批数据。
[0035] 进一步的,所述方法还包括:
[0036] 存储识别结果置信度小于阈值的路面RGB图像;
[0037] 在离线阶段,对存储的RGB图像进行标注,并使用持续学习算法对部署的最优骨架模型进行优化。
[0038] 本发明还提供了一种基于持续学习的语义分割系统,所述系统包括:预先部署在车载系统的多个场景及其对应的最优骨架模型、数据采集模块和目标检测模块;
[0039] 所述数据采集模块,用于通过车载单目相机实时采集路面的RGB图像;
[0040] 所述目标检测模块,用于基于RGB图像识别当前场景的类型,基于场景的类型,获取其对应的最优骨架模型;将实时采集到的RGB图像输入所述最优骨架模型,输出目标检测
结果。
[0041] 与现有技术相比,本发明的优势在于:
[0042] 1、本发明的方法构建了一个真实自动驾驶场景下适应多步数据采集和复杂场景的鲁棒车道线检测方案;并在车道线检测模型中引入持续学习算法,可以有效缓解在复杂
多场景下车道线检测遇到的灾难性遗忘问题;
[0043] 2、本发明的方法提高了现有车道线检测模型在复杂多场景下的平均性能。

附图说明

[0044] 图1为本发明的实施例1的基于持续学习的语义分割方法的流程图。

具体实施方式

[0045] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
[0046] 在介绍本发明实施例之前首先对本发明实施例中涉及到的相关名词作如下释义:
[0047] RGB图像:是指通过车载相机采集到的RGB图片,为三通道图像。
[0048] 场景:是指车辆行驶过程中,环境变化产生的场景。例如,在周围车辆较多时的拥挤场景,车前侧遭受光照时的闪光场景,以及夜晚行车的黑暗场景等。
[0049] 持续学习算法:是指通过特定模型定制、正则化优化和特定数据优化三种方式,减轻深度学习模型在原任务数据集上学习后,在新任务数据集上继续学习时存在的灾难性遗
忘问题。实现良好的持续学习算法需要解决以下问题:(1)无论有多少场景出现,持续学习
所占用的存储空间应当恒定;(2)持续学习算法不应该仅适用于特定的模型和数据集,应当
具有模型数据无关性;(3)持续学习算法应当能够在既有模型基础上继续学习和优化模型。
[0050] 课程学习算法:人类和动物的学习过程一般都遵循着由易到难的顺序,而课程学习借鉴了这种学习思想。相较于不加区分的机器学习的一般范式,课程学习算法主张让模
型先从容易的样本开始学习,并逐渐进阶到复杂的样本和知识。良好的课程学习能够:加速
机器学习模型的训练并使模型获得更好的泛化性能,即能让模型训练到更好的局部最优值
状态。
[0051] 如图1所示,本发明的实施例1提供了一种基于持续学习的语义分割方法,包括以下步骤:
[0052] 步骤1)获取多个场景的路面RGB图像;
[0053] 采用安装在行驶车辆上的前向单目相机或前向单目摄像头采集路面图像信息。前向单目相机采集的是行驶车辆的行车方向正前方和路面上方的路面图像信息。即采集的路
面图像信息是对应于采集车辆的行车方向的正前方和路面上方的信息的透视图。
[0054] 在本实施例中,在行驶车辆上安装配置前向单目相机后,开始路面数据信息采集。同时,为配合后续持续学习算法,应对RGB图像进行场景标注,并采集较长时间较丰富场景
的RGB图像数据。
[0055] 步骤2)标注车道线;
[0056] 对获取的路面图像进行像素级车道线标注。
[0057] 具体的,应构建同RGB图像相同大小的灰度图像,并对其上的背景像素和车道线像素分别使用不同灰度值进行绘制,以实现像素级车道线标注。
[0058] 步骤3)对车道线检测模型进行持续学习训练;具体包括:
[0059] 步骤301)构建多个不同结构的车道检测骨架模型;
[0060] 构建多个具有较高精度的基于语义分割技术的车道线检测模型,即骨架模型1~骨架模型N,其采用的模型包括:LaneAF、ENet‑SAD、LaneNet和SCNN等。需要说明的是,为了
提高骨架模型泛化能力,应当移除模型中识别固定数量车道线是否存在的分支(如:ENet‑
SAD和SCNN)。同时,为提高识别效率和持续学习性能,不使用需要进行后处理的车道线检测
模型。
[0061] 步骤302)使用标注后的RGB图像数据对N个骨架模型分别进行持续学习训练。
[0062] 鉴于本领域技术人员应当理解神经网络模型的训练过程,描述如下:
[0063] 基于工具PyTorch构建的N个不同的骨架模型,按照对应参考工作中的最优参数,设定各网络隐藏层超参数、训练批处理数量、训练轮次数量并选择对应的损失函数等。在进
行持续学习训练前,需要对RGB图像进行预处理,将图像都裁剪为(800,288,3)的大小。
[0064] 选择基于正则化优化的持续学习算法可以适应任意车道线检测模型,具有较好的鲁棒性。EWC(Elastic Weight Consolidation)和MAS(Memory Aware Synapses)是在计算
机视觉领域性能较好的两种基于正则化优化的持续学习算法。为方便叙述,定义第k个场景
下参数为θ的车道线检测模型的损失函数为Lk(θ),则有:
[0065] Lk(θ)=Lk‑1(θ)+λR(θ)(k)
[0066] 其中,Lk‑1(θ)为第k‑1个场景下参数为θ的骨架模型的损失函数,R(θ)(k)为对应场景k的惩罚项,用以惩罚模型参数的改变。λ是正则项的超参数,用来控制惩罚的程度。惩罚
项度量当前场景中模型的重要参数,防止模型遗忘之前场景中的重要领域知识。需要说明
的是,在车道线检测任务中λ一般设置为0.8或0.9。
[0067] 下面叙述EWC和MAS持续学习算法。
[0068] 对于划分的K个场景,EWC中重要性参数的计算基于Fisher信息矩阵的近似,第k个场景的惩罚项为:
[0069]
[0070] 其中,Np是模型中参数的总数量, 是训练第l个场景后的模型参数 的第i个(l)
参数, 是第l个场景下Fisher信息矩阵F 的第i个对角线元素,被定义为:
[0071]
[0072] 其中,|X(l)|是第l个场景的训练数据集的批数量,是模型在参数 下x处的预测值。
[0073] MAS的重要性参数是根据学习函数对参数变化敏感性的近似来计算的,第k个场景的惩罚项为:
[0074]
[0075] 其中, 是训练第k‑1个场景后的模型参数 的第i个参数,第i个参数的重要性矩阵Ωi为:
[0076](k)
[0077] 其中,|X |是第k个场景的训练数据集的批数量, 是骨架模型输出的l2范数,xj为k个场景的训练数据集中的第j批数据。
[0078] 使用上述EWC和MAS两种持续学习算法,对于第k个场景,使用其数据集分别对N个骨架模型进行训练,然后使用该场景的测试集对训练好的N个骨架模型进行识别精度计算,
将精度最高的骨架模型作为该场景的最优模型;由此,可得到在每个场景对应的最优模型。
[0079] 需要说明的是,训练场景的次序会在一定程度上影响车道线检测的精度。一般地,可以根据以下几种方式设置训练场景的次序:
[0080] (1)按照各场景的样本数量的升序或降序安排训练场景;
[0081] (2)按照各场景的识别难度的升序或降序安排训练场景:各场景的识别难度可以通过使用传统深度学习训练得到的模型在不同场景上使用统一的评估指标评估得到(如:
F1‑Score),F1‑Score越低说明识别难度越大;
[0082] (3)按照各场景的语义安排训练场景:根据课程学习的理念,人类持续学习知识是从简单概念开始逐渐过渡到复杂问题的渐进式过程。因此,通过赋予不同场景语义,并由简
单到复杂安排场景顺序,可以提高持续学习效果,实现更高精度车道线检测。例如,先学习
车辆较少的场景再学习车辆拥挤的场景,先学习阴影较多的场景和高光较多的场景再学习
夜晚的场景等。
[0083] 步骤4)部署模型并实时检测车道线;
[0084] 将每个场景对应的最优模型部署于车载系统。通常情况下,场景的数量大于骨架模型的数量,因此,一个骨架模型为多个场景的最优骨架模型,例如,将第一个模型A1应用
于场景1、3、4下,将第N个模型应用于场景5、7、10,由此实现对各类复杂场景的高精度识别。
[0085] 根据激光雷达和RGB相机采集的数据识别行驶车辆所处的场景,根据其场景获取其对应的最优模型作为当前测车道检测模型,用于实时车道检测。
[0086] 步骤5)储存置信度较低的路面RGB图像;
[0087] 在实时检测过程中,遇到部分场景的部分路面RGB图像,如果识别为车道线的置信度低于设定阈值,则自动储存该RGB图像于车载系统中并标注对应场景,用以进行后续持续
学习。
[0088] 在车辆结束行驶后,对保存的多场景RGB图像进行标注,并使用持续学习算法对原最优骨架模型进行优化,持续提高车道线检测模型识别精度,提升车道线检测模型识别鲁
棒性。
[0089] 本发明的实施例2提供了一种基于持续学习的语义分割系统,所述系统包括:预先部署在车载系统的多个场景及其对应的最优骨架模型、数据采集模块和目标检测模块;
[0090] 所述数据采集模块,用于通过车载单目相机实时采集路面的RGB图像;
[0091] 所述目标检测模块,用于基于RGB图像识别当前场景的类型,基于场景的类型,获取其对应的最优骨架模型;将实时采集到的RGB图像输入所述最优骨架模型,输出目标检测
结果。
[0092] 最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方
案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明
的权利要求范围当中。