一种基于视觉和毫米波融合的全天候目标检测方法转让专利

申请号 : CN202011595732.1

文献号 : CN112835037B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张新钰刘华平

申请人 : 清华大学

摘要 :

本发明公开了一种基于视觉与毫米波融合的全天候目标检测方法,所述方法包括:使用车载相机和毫米波雷达两种传感器,同时采集连续的图像数据和点云数据;对图像数据和点云数据进行预处理;使用预先建立的融合模型对预处理后图像数据和点云数据进行融合,输出融合后的特征图;将融合后的特征图输入YOLOv5的检测网络进行检测,采用非极大值抑制输出目标检测结果。本发明的方法充分将毫米波雷达回波强度、距离信息和车载相机图像进行融合,通过分析毫米波雷达点云不同的特征,用不同的特征提取结构和方式与图像信息进行融合,使两种传感器数据优势互补,提升了车辆在复杂道路场景下的感知能力,提高了目标检测的准确性。

权利要求 :

1.一种基于视觉与毫米波融合的全天候目标检测方法,所述方法包括:使用车载相机和毫米波雷达两种传感器,同时采集连续的图像数据和点云数据;

对图像数据和点云数据进行预处理;

使用预先建立的融合模型对预处理后图像数据和点云数据进行融合,输出融合后的特征图;

将融合后的特征图输入YOLOv5的检测网络进行检测,采用非极大值抑制输出目标检测结果;

所述融合模型包括:特征提取模块和特征融合模块;

所述特征提取模块包括第一特征提取通道、第二特征提取通道以及三个特征拼接单元;第一特征提取通道采用三个依次连接的卷积单元,对雷达点云的散射截面强度信息进行特征提取;第二特征提取通道采用包括三个卷积单元的CSPDarkNet53,对图像数据的特征进行提取;

所述第一特征提取通道的第一个卷积单元对点云数据的散射截面强度信息进行处理得到第一RCS特征,将第一RCS特征输出至第一拼接单元;CSPDarkNet53的第一个卷积单元对图像数据进行处理得到第一视觉特征,将第一视觉特征输出至第一拼接单元;第一拼接单元将第一RCS特征和第一视觉特征进行拼接,生成融合特征图F1并输出至特征融合模块;

所述第一特征提取通道的第二个卷积单元对第一RCS特征进行处理得到第二RCS特征,将第二RCS特征输出至第二拼接单元;CSPDarkNet53的第二个卷积单元对第一视觉特征进行处理得到第二视觉特征,将第二视觉特征输出至第二拼接单元;第二拼接单元将第二RCS特征和第二视觉特征进行拼接,生成融合特征图F2并输出至特征融合模块;

所述第一特征提取通道的第三个卷积单元对第二RCS特征进行处理得到第三RCS特征,将第三RCS特征输出至第三拼接单元;CSPDarkNet53的第三个卷积单元对第二视觉特征进行处理得到第三视觉特征,将第三视觉特征输出至第三拼接单元;第三拼接单元将第三RCS特征和第三视觉特征进行拼接,生成融合特征图F3并输出至特征融合模块;

所述特征融合模块包括:第三特征提取通道、三个融合单元和PANet结构;第三特征提取通道采用三个依次连接的卷积单元;

所述第三特征提取通道的第一个卷积单元对点云数据的距离信息和速度信息进行处理得到第一点云特征,将第一点云特征输出至第一融合单元;第一融合单元将第一点云特征和融合特征图F1进行像素级叠加,生成融合特征图P1并输出至PANet结构;

所述第三特征提取通道的第二个卷积单元对第一点云特征进行处理得到第二点云特征,将第二点云特征输出至第二融合单元;第二融合单元将第二点云特征和融合特征图F2进行像素级叠加,生成融合特征图P2并输出至PANet结构;

所述第三特征提取通道的第三个卷积单元对第二点云特征进行处理得到第三点云特征,将第三点云特征输出至第三融合单元;第三融合单元将第三点云特征和融合特征图F3进行像素级叠加,生成融合特征图P3并输出至PANet结构;

融合特征图P1,融合特征图P2和融合特征图P3经过PANet结构,分别输出特征图A1,特征图A2和特征图A3。

2.根据权利要求1所述的基于视觉与毫米波融合的全天候目标检测方法,其特征在于,所述方法还包括:对两种传感器的坐标系进行坐标系标定。

3.根据权利要求1所述的基于视觉与毫米波融合的全天候目标检测方法,其特征在于,所述对图像数据和点云数据进行预处理;具体包括:对毫米波雷达的点云数据进行补全;以及对车载相机的图像数据进行补全。

4.根据权利要求3所述的基于视觉与毫米波融合的全天候目标检测方法,其特征在于,所述方法还包括:融合模型的训练步骤,具体包括:建立训练集;

对超参数进行设置,包括:初始学习率lr=0.001,每次更新参数使用的批量值b=32,迭代训练次数为epoch=300,优化器采用SGD;

对损失函数进行设置,包括:在分类方面采用二值交叉熵损失函数,回归损失函数采用GIOU损失函数;对学习率的进行更新并使用余弦退火策略进行降低;

基于nuScenes数据集和自行采集的道路目标数据集,以及设置的参数对融合模型的参数进行训练。

5.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1‑4任一项所述的方法。

6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1‑4任一项所述的方法。

说明书 :

一种基于视觉和毫米波融合的全天候目标检测方法

技术领域

[0001] 本发明涉及自动驾驶技术领域,具体涉及一种基于视觉与毫米波融合的全天候目标检测方法。

背景技术

[0002] 近年来,无人驾驶技术领域发展十分迅速,汽车依赖于激光雷达、相机、毫米波雷达、轮速里程计等传感器的环境感知,实现如车道线检测、行人检测、碰撞检测等诸多自动
驾驶基础功能。其中环境感知可以为汽车反馈道路信息,以便修正对驾驶行为的控制,从而
提高驾驶的安全性和舒适性。
[0003] 自动驾驶车辆的环境感知主流采用相机图像进行感知,但摄像头与人类似,在强光、大雾、夜间等复杂场景下,环境感知能力十分有限。而要实现自动驾驶,必须实现在复杂
场景下稳定的环境感知,因此学者通常会增加不同的传感器进行融合感知,其中毫米波雷
达的毫米波波段的电磁波不会受到雨、雾、灰尘等常见的环境因素影响,在这些场景下都能
顺利工作,且相机、毫米波雷达价格低的优势使基于视觉、毫米波雷达融合的车辆感知系统
极易大规模商用部署。
[0004] 毫米波雷达反馈数据包含距离、速度、方向、反射强度等信息,能对场景进行简单感知,但需要结合所有信息进行融合感知并不容易,且毫米波原有的杂波和数据稀疏问题,
都对目标检测能力有巨大影响。

发明内容

[0005] 本发明的目的在于克服现有技术的不足,提出了一种基于视觉与毫米波融合的全天候目标检测方法,该方法在数据预处理先基于连续帧对毫米波数据进行补全,再综合利
用RCS(散射截面强度)、距离信息和速度信息以不同的方式与视觉信息进行融合并进行目
标检测,提升在强光、大雾、夜间等复杂场景下的检测精度和鲁棒性。
[0006] 为实现上述目的,本发明的实施例1提出了一种基于视觉与毫米波融合的全天候目标检测方法,所述方法包括:
[0007] 使用车载相机和毫米波雷达两种传感器,同时采集连续的图像数据和点云数据;
[0008] 对图像数据和点云数据进行预处理;
[0009] 使用预先建立的融合模型对预处理后图像数据和点云数据进行融合,输出融合后的特征图;
[0010] 将融合后的特征图输入YOLOv5的检测网络进行检测,采用非极大值抑制输出目标检测结果。
[0011] 作为上述方法的一种改进,所述方法还包括:对两种传感器的坐标系进行坐标系标定。
[0012] 作为上述方法的一种改进,所述对图像数据和点云数据进行预处理;具体包括:对毫米波雷达的点云数据进行补全;以及对车载相机的图像数据进行补全。
[0013] 作为上述方法的一种改进,所述融合模型包括:特征提取模块和特征融合模块;
[0014] 所述特征提取模块包括第一特征提取通道、第二特征提取通道以及三个特征拼接单元;第一特征提取通道采用三个依次连接的卷积单元,对雷达点云的散射截面强度信息
进行特征提取;第二特征提取通道采用包括三个卷积单元的CSPDarkNet53,对图像数据的
特征进行提取;
[0015] 第一特征提取通道的第一个卷积单元对点云数据的散射截面强度信息进行处理得到第一RCS特征,将第一RCS特征输出至第一拼接单元;CSPDarkNet53的第一个卷积单元
对图像数据进行处理得到第一视觉特征,将第一视觉特征输出至第一拼接单元;第一拼接
单元将第一RCS特征和第一视觉特征进行拼接,生成融合特征图F1并输出至特征融合模块;
[0016] 第一特征提取通道的第二个卷积单元对第一RCS特征进行处理得到第二RCS特征,将第二RCS特征输出至第二拼接单元;CSPDarkNet53的第二个卷积单元对第一视觉特征进
行处理得到第二视觉特征,将第二视觉特征输出至第二拼接单元;第二拼接单元将第二RCS
特征和第二视觉特征进行拼接,生成融合特征图F2并输出至特征融合模块;
[0017] 第一特征提取通道的第三个卷积单元对第二RCS特征进行处理得到第三RCS特征,将第三RCS特征输出至第三拼接单元;CSPDarkNet53的第三个卷积单元对第二视觉特征进
行处理得到第三视觉特征,将第三视觉特征输出至第三拼接单元;第三拼接单元将第三RCS
特征和第三视觉特征进行拼接,生成融合特征图F3并输出至特征融合模块;
[0018] 特征融合模块包括:第三特征提取通道、三个融合单元和PANet结构;第三特征提取通道采用三个依次连接的卷积单元;
[0019] 第三特征提取通道的第一个卷积单元对点云数据的距离信息和速度信息进行处理得到第一点云特征,将第一点云特征输出至第一融合单元;第一融合单元将第一点云特
征和融合特征图F1进行像素级叠加,生成融合特征图P1并输出至PANet结构;
[0020] 第三特征提取通道的第二个卷积单元对第一点云特征进行处理得到第二点云特征,将第二点云特征输出至第二融合单元;第二融合单元将第二点云特征和融合特征图F2
进行像素级叠加,生成融合特征图P2并输出至PANet结构;
[0021] 第三特征提取通道的第三个卷积单元对第二点云特征进行处理得到第三点云特征,将第三点云特征输出至第三融合单元;第三融合单元将第三点云特征和融合特征图F3
进行像素级叠加,生成融合特征图P3并输出至PANet结构;
[0022] 融合特征图P1,融合特征图P2和融合特征图P3经过PANet结构,分别输出特征图A1,特征图A2和特征图A3。
[0023] 作为上述方法的一种改进,所述方法还包括:融合模型的训练步骤,具体包括:
[0024] 建立训练集;
[0025] 对超参数进行设置,包括:初始学习率lr=0.001,每次更新参数使用的批量值b=32,迭代训练次数为epoch=300,优化器采用SGD;
[0026] 对损失函数进行设置,包括:在分类方面采用二值交叉熵损失函数,回归损失函数采用GIOU损失函数;对学习率的进行更新并使用余弦退火策略进行降低;
[0027] 基于nuScenes数据集和自行采集的道路目标数据集,以及设置的参数对融合模型的参数进行训练。
[0028] 本发明的实施例2提出了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述
的方法。
[0029] 本发明的实施例3提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求上述的方
法。
[0030] 与现有技术相比,本发明的优势在于:
[0031] 1、本发明的方法充分利用了毫米波雷达数据中的距离、速度、反射强度等信息,使其与车载相机图像的融合效果更加明显;
[0032] 2、本发明的方法能够利用序列对毫米波信息进行数据补全、增强,使后期的融合感知更加鲁棒和稳定;
[0033] 3、本发明的方法充分将毫米波雷达回波强度、距离信息和车载相机图像进行融合,不仅仅是将毫米波雷达的所有信息作为额外特征不加区分的进行同种方式的融合,而
是通过分析毫米波雷达点云不同的特征,用不同的特征提取结构和方式与图像信息进行融
合,使两种传感器数据优势互补,提升了车辆在复杂道路场景下的感知能力,提高了目标检
测的准确性。

附图说明

[0034] 图1为本发明的实施例1的融合模型的示意图。
[0035] 具体实施方法
[0036] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不
用于限定本发明。
[0037] 在复杂场景下,针对单纯使用车载相机或毫米波雷达目标检测准确率低的问题,一种新颖的思路是融合多类传感器的信息,提高对车辆周边道路环境的感知能力。一种主
流的思路是在毫米波雷达点云和相机图像上分别进行目标检测,再对检测结果进行融合,
这种方法没有充分利用两种传感器数据之间信息的互补作用。还有一种主流思路是将毫米
波雷达点云映射到相机图像平面生成点云图像,用毫米波雷提供的速度、方向、反射强度等
多种信息进行融合,这类方法不加区分的将所有毫米波点云信息与图像信息进行特征融
合,没有考虑到不同信息的特有属性,也没有充分利用二者信息的互补性。本发明经过分析
毫米波点云不同信息的特征,将不同的信息以不同的方式与图像信息融合,充分利用二者
信息的互补性。
[0038] 本发明的实施例1提供了一种基于视觉与毫米波融合的全天候目标检测方法,包括如下步骤:
[0039] 步骤1)通过毫米波雷达获得距离、速度、反射强度等信息,通过车载相机获得视频图像。
[0040] 将经过预处理补全的毫米波雷达散射点投影到对应的视觉平面,根据雷达散射点的三维信息绘制线条从地面开始向上延伸3米,并用数值表示反射强度和距离信息,稀疏的
点云信息转化为较为密集的线簇,这种对毫米波雷达点云的预处理方法在一些学者的研究
中已经应用,本发明也只是采用了这种相似预处理手段,重点在于融合方法的不同。
[0041] 步骤2)通过设计好的融合模型对毫米波雷达信息和相机图像信息进行融合,本网络搭建、训练、测试的硬件和软件平台为Ubuntu16.04+NVIDIA RTX 2080Ti+Pytorch1.5+
cuda10.0+cudnn8.0+python3.7。
[0042] 融合模型的设计步骤包括:
[0043] 1)如图1所示,利用了CSPDarkNet53网络作为图像信息的特征提取网络,每一步都是RGB图像进入网络不同特征提取的模块进行特征提取,同时雷达信息(RCS)采用一个卷积
层提取特征形成和图像特征尺寸相同的特征张量,然后二者特征进行通道叠加生成融合特
征,形成互补的语义信息;然后进入下一阶段的特征提取模块分别提取特征,经过三个阶段
的不断地融合,最终的融合特征通过SPP结构生成特征金字塔。
[0044] 2)特征融合中有三分支的输出来进行下一步的检测部分,三个分支输出的特征图再用速度距离信息与其进行融合,速度距离信息的特征相当于是一种注意力机制,来增强
空间中重要的区域的特征的学习。对于距离较远或者速度较高的目标所反馈的点云,在特
征上有着更高的权重,这样用来提高对于距离较远和速度较快的目标的检测精度。融合方
式采用逐像素相加(Addition),来增强空间中重要的区域的特征的学习。对于距离较远或
者速度较高的目标所反馈的点云,在特征上有着更高的权重,这样用来增强对于距离较远
和速度较快的目标的检测效果,检测部分采用了YOLOv5的检测算法,检测结果上采用NMS
(非极大值抑制)输出检测结果效果图。
[0045] 融合模型包括:特征提取模块和特征融合模块;
[0046] 特征提取模块包括第一特征提取通道、第二特征提取通道以及三个特征拼接单元;第一特征提取通道采用三个依次连接的卷积单元,对雷达点云的散射截面强度信息进
行特征提取;第二特征提取通道采用包括三个卷积单元的CSPDarkNet53,对图像数据的特
征进行提取;
[0047] 第一特征提取通道的第一个卷积单元对点云数据的散射截面强度信息进行处理得到第一RCS特征,将第一RCS特征输出至第一拼接单元;CSPDarkNet53的第一个卷积单元
对图像数据进行处理得到第一视觉特征,将第一视觉特征输出至第一拼接单元;第一拼接
单元将第一RCS特征和第一视觉特征进行拼接,生成融合特征图F1并输出至特征融合模块;
[0048] 第一特征提取通道的第二个卷积单元对第一RCS特征进行处理得到第二RCS特征,将第二RCS特征输出至第二拼接单元;CSPDarkNet53的第二个卷积单元对第一视觉特征进
行处理得到第二视觉特征,将第二视觉特征输出至第二拼接单元;第二拼接单元将第二RCS
特征和第二视觉特征进行拼接,生成融合特征图F2并输出至特征融合模块;
[0049] 第一特征提取通道的第三个卷积单元对第二RCS特征进行处理得到第三RCS特征,将第三RCS特征输出至第三拼接单元;CSPDarkNet53的第三个卷积单元对第二视觉特征进
行处理得到第三视觉特征,将第三视觉特征输出至第三拼接单元;第三拼接单元将第三RCS
特征和第三视觉特征进行拼接,生成融合特征图F3并输出至特征融合模块;
[0050] 特征融合模块包括:第三特征提取通道、三个融合单元和PANet结构;第三特征提取通道采用三个依次连接的卷积单元;
[0051] 第三特征提取通道的第一个卷积单元对点云数据的距离信息和速度信息进行处理得到第一点云特征,将第一点云特征输出至第一融合单元;第一融合单元将第一点云特
征和融合特征图F1进行像素级叠加,生成融合特征图P1并输出至PANet结构;
[0052] 第三特征提取通道的第二个卷积单元对第一点云特征进行处理得到第二点云特征,将第二点云特征输出至第二融合单元;第二融合单元将第二点云特征和融合特征图F2
进行像素级叠加,生成融合特征图P2并输出至PANet结构;
[0053] 第三特征提取通道的第三个卷积单元对第二点云特征进行处理得到第三点云特征,将第三点云特征输出至第三融合单元;第三融合单元将第三点云特征和融合特征图F3
进行像素级叠加,生成融合特征图P3并输出至PANet结构;
[0054] 融合特征图P1,融合特征图P2和融合特征图P3经过PANet结构,分别输出特征图A1,特征图A2和特征图A3。
[0055] 3)融合模型在训练过程中的主要参数如下:
[0056] (1)超参数的设置:初始学习率lr=0.001,每次更新参数使用的批量值b=32,迭代训练次数为epoch=300,优化器采用SGD。
[0057] (2)损失函数的设置:在分类方面采用二值交叉熵损失函数,回归损失函数采用GIoU损失函数。
[0058] (3)学习率的更新:并使用余弦退火策略进行降低。
[0059] 本发明的实施例2还可提供的一种计算机设备,包括:至少一个处理器、存储器、至少一个网络接口和用户接口。该设备中的各个组件通过总线系统耦合在一起。可理解,总线
系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外,还包括电源总线、
控制总线和状态信号总线。其中,用户接口可以包括显示器、键盘或者点击设备(例如,鼠
标,轨迹球(track ball)、触感板或者触摸屏等。
[0060] 可以理解,本申请公开实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器
(Read‑Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只
读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,
EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用
作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取
存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取
存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data 
Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步
连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器
(Direct Rambus RAM,DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合
类型的存储器。
[0061] 在一些实施方式中,存储器存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
[0062] 其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器
(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本公开实施例方法的
程序可以包含在应用程序中。
[0063] 在本上述的实施例中,还可通过调用存储器存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器用于:执行实施例1的方法的步骤。
[0064] 实施例1的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬
件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号
处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific 
Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)
或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行
实施例1中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也
可以是任何常规的处理器等。结合实施例1所公开的方法的步骤可以直接体现为硬件译码
处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位
于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器
等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其
硬件完成上述方法的步骤。
[0065] 可以理解的是,本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路
(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal 
Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable 
Logic Device,PLD)、现场可编程门阵列(Field‑Programmable Gate Array,FPGA)、通用处
理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
[0066] 对于软件实现,可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器
外部实现。
实施例3
[0067] 本发明实施例3还可提供一种非易失性存储介质,用于存储计算机程序。当该计算机程序被处理器执行时可以实现上述方法实施例1中的各个步骤。
[0068] 最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方
案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明
的权利要求范围当中。