一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法转让专利

申请号 : CN202010818329.4

文献号 : CN111967373B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 殷国栋彭湃庄伟超耿可可徐利伟王金湘张宁卢彦博

申请人 : 东南大学

摘要 :

本发明公开一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法,所述方法包括:利用卷积神经网络分别提取目标的摄像头图像和激光雷达投影图的图像特征,分别得到第一图像特征和第二图像特征;自适应地分配第一图像特征和第二图像特征的权重,根据分配的第一权重对第一图像特征加权得到第三图像特征,根据分配的第二权重对第二图像特征加权得到第四图像特征,对第三图像特征和第四图像特征进行强化融合;根据所述融合后的图像特征,利用实时实例分割网络输出目标的类别、置信度、边界框、掩模,获取目标的实例分割结果。本发明能够在复杂环境下实时、精确且鲁棒地实现目标实例分割,在智能网联车辆感知领域具有广泛的应用前景。

权利要求 :

1.一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法,其特征在于,所述方法包括:

S10,特征提取:利用卷积神经网络分别提取目标的摄像头图像和激光雷达投影图的图像特征,得到对应摄像头图像的第一图像特征和对应激光雷达投影图的第二图像特征;

S20,自适应强化融合:将所述第一图像特征和所述第二图像特征输入到一个权重网络,自适应地分配第一图像特征和第二图像特征的权重,根据分配的第一权重对第一图像特征加权得到第三图像特征,根据分配的第二权重对第二图像特征加权得到第四图像特征,对第三图像特征和第四图像特征进行强化融合,得到融合后的图像特征;

S30,网络输出:根据所述融合后的图像特征,利用实时实例分割网络输出目标的类别、置信度、边界框、掩模,获取目标的实例分割结果;

其中,所述特征提取具体包括:

S11,将目标的摄像头图像和激光雷达点云时间同步:由时间同步算法获取与当前激光雷达帧的最近的摄像头图像帧,得到时间同步后的摄像头图像帧和激光雷达点云帧;

S12,生成激光雷达投影图:

根据激光雷达坐标系到摄像头坐标系的外参矩阵Me,以及摄像头的内参矩阵Mi,激光雷达点云的某一点(X Y Z)可以由下式投影到摄像头图像上,对应的坐标为(u v):T T

z·(u v 1) =Mi·Me·(X Y Z)式中,z表示摄像头图像坐标系下的该点的深度;

在投影时过滤掉摄像头图像视场外的点云,并用深度z或由对应的反射率值r填充(u v)的像素值,得到激光雷达点云深度投影图作为激光雷达投影图;

S13,提取摄像头图像和激光雷达投影图的图像特征:将时空一致的摄像头图像和激光雷达深度投影图作为特征提取网络的输入,利用所述特征提取网络分别提取对应摄像头图像的第一图像特征 和对应激光雷达投影图的第二图像特征 其中,C、H和W分别代表特征图的通道数、高度和宽度;

其中,所述自适应强化融合具体包括:S21,自适应权重分配:

将所提取的第一图像特征 和第二图像特征 作为自适应强化融合网络的输入;首先将 和 沿通道C方向拼接,得到拼接特征图 然后利用C个2C×1×1卷积核将 维度减小为C,得到权重特征图 最后利用sigmoid层将 归一化,得到最终的权重系数矩阵 其中分别对第一图像特征 和第二图像特征 进行权重分配,得到加权后的第三图像特征 和第四图像特征式中,⊙代表Hadamard乘积;

S22,加权特征强化融合:

逐元素比较加权第三图像特征 和第四图像特征 取其中的较大值组成特征矩阵fp;计算 的均值m,令均值矩阵 所有元素都为m;并按照下式逐元素对和 进行强化融合:

式中, 为强化系数。

2.根据权利要求1所述的方法,其特征在于,所述第一图像特征和第二图像特征为多尺度的高层语义特征。

3.根据权利要求1所述的方法,其特征在于,所述实时实例分割网络使用YOLACT++中的预测网络。

4.根据权利要求1所述的方法,其特征在于,所述激光雷达线束不小于40线。

5.根据权利要求1所述的方法,其特征在于,所述特征提取网络使用ResNet‑50作为基础网络,并利用特征金字塔网络提取多尺度的高层语义信息。

6.根据权利要求1所述的方法,其特征在于,所述加权特征强化融合中的强化系数为:

说明书 :

一种基于摄像头和激光雷达的自适应强化融合实时实例分割

方法

技术领域

[0001] 本发明属于智能网联汽车的目标实例分割技术领域,特别是一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法。

背景技术

[0002] 智能网联汽车在提高道路安全和交通效率方面具有很大的潜力,而对交通环境的精确感知是智能网联汽车进行规划、决策和控制的基础。摄像头作为智能网联汽车感知系
统最常用的传感器,能够获取周围环境的详细形状和纹理信息。近些年,基于视觉的深度学
习算法在环境感知方面已经取得了令人瞩目的成果。但是摄像头容易受到光线和天气条件
的影响,导致算法性能严重降低甚至失效。所以,智能网联汽车的感知系统通常配备多种传
感器,如摄像头、激光雷达、毫米波雷达、超声波雷达等,来获取全面的、互补的感知信息。由
于激光雷达能够精确感知周围环境的三维信息且不易受环境变化影响,很多研究工作通过
融合摄像头和激光雷达信息来获取鲁棒、精确、实时的环境感知能力。
[0003] 中国发明专利申请“基于视觉、激光雷达和毫米波雷达的目标检测方法”(申请号:202010380040.9,公开日:2020.06.30)通过融合激光雷达点云鸟瞰图和摄像头图像来进行
目标检测。目标检测利用边界框来定位图像中的目标,但是边界框中通常还包含来自背景
以及其他目标的噪声;而实例分割利用掩模来精确分割图像中的目标个体,对环境的解析
更详细、更自然。
[0004] 中国发明专利申请“一种基于多传感器信息融合的三维目标检测方法及装置” (申请号:201911269486.8,公开日:2019.12.11)和“一种基于多传感器数据融合的3D目标
检测方法”(申请号:201911423880.2,公开日:2020.05.29)公开了融合激光雷达和摄像头
数据的两阶段三维目标检测方法,首先确定可能存在目标的感兴趣区域,然后再在该区域
上进行目标检测,此类方法处理速度较慢,目前无法实际应用在智能网联汽车感知系统上。
[0005] 在融合方式上,中国发明专利申请“一种基于单目视觉和激光雷达融合的车辆检测方法”(申请号:202010124991.X,公开日:2020.06.16)和“一种摄像头和激光雷达融合的
端到端目标检测方法”(申请号:201911118301.3,公开日: 2019.11.15)利用级联、求和或
按元素取均值等方式来融合图像和激光雷达特征图。但是,此类融合方式并没有考虑不同
模态信息对于最后感知结果的贡献程度,如激光雷达在夜间通常比摄像头提供更多的环境
信息,使得网络无法充分利用两个模态的互补特征,导致网络性能受限。
[0006] 总之,现有技术存在的问题是:仅依赖单模态传感器无法精确、鲁棒的感知外部环境;而目前基于摄像头和激光雷达的融合感知方法的目标定位精度低且实时性较差,并且
所采用的融合方法无法自适应地学习不同模态的互补特征。

发明内容

[0007] 本发明的目的在于提供一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法,该方法可以自适应地利用不同模态的互补特征,有效实现对复杂交通环境下不
同交通要素目标的实时实例分割。
[0008] 实现本发明目的的技术解决方案为:
[0009] 一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法,所述方法包括:
[0010] S10,特征提取:利用卷积神经网络分别提取目标的摄像头图像和激光雷达投影图的图像特征,得到对应摄像头图像的第一图像特征和对应激光雷达投影图的第二图像特
征;
[0011] S20,自适应强化融合:将所述第一图像特征和所述第二图像特征输入到一个权重网络,自适应地分配第一图像特征和第二图像特征的权重,根据分配的第一权重对第一图
像特征加权得到第三图像特征,根据分配的第二权重对第二图像特征加权得到第四图像特
征,对第三图像特征和第四图像特征进行强化融合,得到融合后的图像特征;
[0012] S30,网络输出:根据所述融合后的图像特征,利用实时实例分割网络输出目标的类别、置信度、边界框、掩模,获取目标的实例分割结果。
[0013] 进一步地,所述特征提取具体包括:
[0014] S11,将目标的摄像头图像和激光雷达点云时间同步:
[0015] 由时间同步算法获取与当前激光雷达帧的最近的摄像头图像帧,得到时间同步后的摄像头图像帧和激光雷达点云帧;
[0016] S12,生成激光雷达投影图:
[0017] 根据激光雷达坐标系到摄像头坐标系的外参矩阵Me,以及摄像头的内参矩阵Mi,激光雷达点云的某一点(X Y Z)可以由下式投影到摄像头图像上,对应的坐标为(u v):
[0018] z·(u v 1)T=Mi·Me·(X Y Z )T
[0019] 式中,z表示摄像头图像坐标系下的该点的深度;
[0020] 在投影时过滤掉摄像头图像视场外的点云,并用深度z或由对应的反射率值 r填充(u v)的像素值,得到激光雷达点云深度投影图作为激光雷达投影图;
[0021] S13,提取摄像头图像和激光雷达投影图的图像特征:
[0022] 将时空一致的摄像头图像和激光雷达深度投影图作为特征提取网络的输入,利用所述特征提取网络分别提取对应摄像头图像的第一图像特征 和对应激光雷
达投影图的第二图像特征 其中,C、H和W分别代表特征图的通道数、高度和宽
度。
[0023] 进一步地,所述自适应强化融合具体包括:
[0024] S21,自适应权重分配:
[0025] 将所提取的第一图像特征 和第二图像特征 作为自适应强化融合网络的输入;首先将 和 沿通道C方向拼接,得到拼接特征图 然后利用C个2C×1
×1卷积核将 维度减小为C,得到权重特征图 最后利用sigmoid层将 归
一化,得到最终的权重系数矩阵 其中分别对第一图像特征 和第二图像特征
进行权重分配,得到加权后的第三图像特征 和第四图像特征
[0026]
[0027]
[0028] 式中,⊙代表Hadamard乘积。
[0029] S22,加权特征强化融合:
[0030] 逐元素比较加权第三图像特征 和第四图像特征 取其中的较大值组成特征矩阵fp;计算 的均值m,令均值矩阵 所有元素都为m;并按照下式逐元
素对 和 进行强化融合:
[0031]
[0032] 式中, 为强化系数。
[0033] 进一步地,所述第一图像特征和第二图像特征为多尺度的高层语义特征。
[0034] 进一步地,所述实时实例分割网络使用YOLACT++中的预测网络。
[0035] 进一步地,所述激光雷达线束不小于40线。
[0036] 进一步地,所述特征提取网络使用ResNet‑50作为基础网络,并利用特征金字塔网络提取多尺度的高层语义信息。
[0037] 进一步地,所述加权特征强化融合中的强化系数为:
[0038]
[0039] 通过以上技术方案,相对于现有技术,本发明具有以下有益效果:
[0040] 1、实时性高:所提出的融合实例分割方法基于一个单阶段的端到端实时实例分割网络YOLACT++;且网络直接使用激光雷达投影图作为输入,避免了投影图上采样产生的大
量计算开销,可直接应用于工程实践。
[0041] 2、定位精度高:所提出的融合方法利用掩模来对目标进行定位,定位精度高。
[0042] 3、适应性好且精确度、鲁棒性高:利用网络自适应地分配给每个模态不同的权重,并对加权后的各模态特征进行强化融合,能够适应复杂天气和光照变化,感知的精度和鲁
棒性高。

附图说明

[0043] 下面结合附图和实施例对本发明进一步说明。
[0044] 图1是本发明提供的一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法的网络结构图;
[0045] 图2是本发明提供的一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法的流程图;
[0046] 图3是本发明特征提取方法流程图;
[0047] 图4是本发明自适应强化融合方法流程图。

具体实施方式

[0048] 如图1所示,本发明的一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法,包括如下步骤:
[0049] S10,特征提取:分别用卷积神经网络从时空一致的摄像头图像和激光雷达点云投影图中提取多尺度的高层语义特征;
[0050] 结合图2,所述特征提取步骤包括:
[0051] S11,摄像头和激光雷达时间同步:
[0052] 由时间同步算法获取与当前激光雷达帧的最近的摄像头图像帧,得到时间同步后的激光雷达点云帧和摄像头图像帧。
[0053] S12,生成激光雷达点云投影图:
[0054] 根据激光雷达坐标系到摄像头坐标系的外参矩阵Me,以及摄像头的内参矩阵Mi,激光雷达点云的某一点(X Y Z)可以由下式投影到摄像头图像上,对应的坐标为(u v):
[0055] z·(u v 1)T=Mi·Me·(X Y Z)T
[0056] 式中,z表示摄像头坐标系下的该点的深度;
[0057] 在投影时过滤掉摄像头视场外的点云,并用深度z或由对应的反射率值r填充(u v)的像素值,由此可以分别得到激光雷达的点云深度投影图和反射率投影图。
[0058] 优选地,所述激光雷达线束不小于40线。
[0059] S13,激光雷达投影图和摄像头图像特征提取:
[0060] 结合图1,将时空一致的摄像头图像和激光雷达深度投影图(或反射率投影图)作为特征提取网络的输入,利用该网络提取各模态数据的高层语义特征,分别记为
和 其中,C、H和W分别代表特征图的通道数、高度和宽度。
[0061] 优选地,所述特征提取网络使用ResNet‑50作为基础网络,并利用特征金字塔网络(Feature Pyramid Network)提取多尺度的高层语义信息。
[0062] S20,自适应强化融合:根据所提取的高层语义特征利用一个权重网络来自适应地分配每个模态的权重,并将加权之后的高层语义特征进行强化融合;
[0063] 其中,各个模态分别为目标的摄像头图像和激光雷达云投影图。
[0064] 结合图3,所述自适应强化融合步骤包括:
[0065] S21,自适应权重分配:
[0066] 如图1所示,将所提取的激光雷达投影图和摄像头图像的高层语义特征 和作为自适应强化融合网络的输入。首先将 和 沿通道C方向拼接,得到拼接特征图
然后利用C个2C×1×1卷积核将 维度减小为 C,得到权重特征图
最后利用sigmoid层将 归一化,得到最终的权重系数矩阵 按
照下式分别对摄像头图像和激光雷达投影图的高层语义特征图 和 进行权重分配,得
到加权后的高层语义特征 和
[0067]
[0068]
[0069] 式中,⊙代表Hadamard乘积。
[0070] S22,加权特征强化融合:
[0071] 逐元素比较加权高层语义特征 和 取其中的较大值组成特征矩阵fp;计算的均值m,令均值矩阵 所有元素都为m;并按照下式逐元素对 和
进行强化融合:
[0072]
[0073] 式中, 为强化系数;
[0074] 所述S 22加权特征强化融合中的强化系数按下式计算:
[0075]
[0076] S30,网络输出:根据融合后的特征图,利用实时实例分割算法YOLACT++ 中的预测网络输出目标的类别、置信度、边界框、掩模,即获取目标的实例分割信息。
[0077] 本发明基于单阶段实时实例分割网络YOLACT++,且使用摄像头图像和激光雷达稀疏投影图作为网络输入,能够实现实时处理;利用掩模进行目标定位,精度较高;并且能够
自适应地调整每个模态的权重系数,并对加权后的各模态特征图进行强化融合,充分利用
多模态的互补信息,能够适应复杂的天气和光照变化,感知精度和鲁棒性高。基于以上优
点,本发明提出的基于摄像头和激光雷达的自适应强化融合实时实例分割方法在智能网联
车辆感知领域具有广泛的应用前景。
[0078] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该
理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意
义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0079] 本申请中所述的“和/或”的含义指的是各自单独存在或两者同时存在的情况均包括在内。
[0080] 以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术
性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。