一种优化小目标的点云三维目标检测方法和系统转让专利

申请号 : CN202111384556.1

文献号 : CN113822244B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 马也驰华炜邱奇波张顺

申请人 : 之江实验室

摘要 :

本发明公开了一种优化小目标的点云三维目标检测方法和系统,首先采集点云数据,进行过滤后再体素化得到体素特征;构造并训练融合神经网络和目标检测神经网络,待测原始点云数据基于训练好的融合特征神经网络和目标检测神经网络进行推理测试,目标检测神经网络的输出为三维目标检测结果。其中,目标检测神经网络包括骨干网络、基于Anchor Free的检测头和后处理。本发明采用基于Bev图和Voxel结合的方法,保证了效率的同时,大幅度提升小目标检测精度。

权利要求 :

1.一种优化小目标的点云三维目标检测方法,其特征在于,包括以下步骤:(1)采集点云数据PC1,进行过滤得到点云数据PC2,再进行体素化得到体素特征T_pre;

(2)构造融合神经网络,其中融合神经网络是对每个网格的体素进行特征融合,采用尺寸为M_fusion*1的条形卷积核组成的卷积神经网络进行特征融合,输入为T_pre;所述融合神经网络由卷积核尺寸为M_fusion*1的一系列卷积层和一个形状大小为K*1的池化层组成;融合神经网络的输出为形状大小为C_fusion*H*W的特征向量T_fusion;其中,C_fusion为预设的特征通道数;

(3)构造目标检测神经网络,输入为融合神经网络的输出T_fusion,输出为三维目标检测结果,其中目标检测神经网络减少下采样算子,提高检测头检测特征的分辨率,提升小目标检测的召回率和准确率;所述目标检测神经网络包括骨干网络、检测头和后处理;

骨干网络的第一层是形状大小为C_fusion*H_f1*W_f1*C_f1的卷积核;其中,H_f1、W_f1、C_f1分别为卷积核的长、宽和输出通道数;骨干网络中的下采样倍数为1倍或者2倍;

检测头的输出包含目标的中心点坐标center_u,center_v、目标中心点偏移量center_u_offset,center_v_offset、目标的长宽高l,w,h、目标中心点在C1坐标系下的Z轴坐标center_z、目标航向角yaw的正余弦值sin_yaw,cos_yaw;其中,目标航向角yaw为目标朝向与C1坐标系的X轴的夹角,其中C1坐标系为以相对于大地的固定预设坐标原点的笛卡尔正交坐标系;

T_fusion输入目标检测神经网络,经过骨干网络、3D检测头和后处理,得到K_detec*9的特征张量T_detec,作为三维目标检测结果;其中,K_detec为目标检测置信度超过预设阈值的目标的个数;9为目标三维信息的特征的长度;目标三维信息的特征包括目标中心点的X,Y,Z轴坐标、目标的长宽高、目标的航向角、目标的类别以及目标的置信度分数;

(4)训练步骤(2)构造的融合特征神经网络和步骤(3)构造的目标检测神经网络;

(5)基于步骤(4)训练好的融合特征神经网络和目标检测神经网络,对待测原始点云数据进行推理测试,得到最终三维目标检测结果。

2.如权利要求1所述优化小目标的点云三维目标检测方法,其特征在于,步骤(1)包括:(1.1)将点云数据PC1按照检测范围进行过滤,得到过滤后的点云数据PC2;

(1.2)将点云数据PC2先按照X、Y轴网格化,再按照Z轴分层;其中,网格化后的包围盒矩形的形状大小为H*W;每个网格包含K层,每层记为一个体素;每个体素内的特征包含体素内点云的均值x_v_ave、y_v_ave、z_v_ave,体素内点云相对于所在网格的密度D_grid和体素内点云的全局密度D_global;其中,x_v_ave、y_v_ave、z_v_ave为点云X、Y、Z轴坐标分别求和再除以体素内点云点的个数N_voxel;得到体素特征T_pre,形状大小为5*K*(H*W)。

3.如权利要求2所述优化小目标的点云三维目标检测方法,其特征在于,步骤(1.2)中:D_grid= Min( F_M(N_voxel+ 1) / F_M(N_grid), 1)D_global= Min( F_M(N_voxel+ 1) / F_M(N_laser), 1)其中,N_grid为网格内点云点的个数,F_M( )为单调正函数;N_laser为采集点云数据的传感器的线数。

4.如权利要求1所述优化小目标的点云三维目标检测方法,其特征在于,目标检测神经网络的检测头为基于Anchor Free的检测头。

5.如权利要求1所述优化小目标的点云三维目标检测方法,其特征在于,步骤(4)中,针对于目标中心点的检测采用Focal_loss损失函数;针对目标航向角的检测,回归其正弦值与余弦值,并采用L1_loss损失函数;针对目标中心点的偏移量的回归采用L1_Loss损失函数;针对目标的长宽高以及Z轴坐标的回归采用SmoothL1_loss损失函数;不同检测分支的损失分配不同的权重。

6.如权利要求1所述优化小目标的点云三维目标检测方法,其特征在于,步骤(5)包括:将待测原始点云数据经过步骤(1)的预处理后,得到特征张量T_pre*以及Index_grid;

其中,Index_gird的形状大小为H*W,记录点云网格化后的索引;T_pre*的形状大小为5*K*HW_use,HW_use为包含点云的网格的数量;

再将T_pre*送入步骤(4)训练好的融合特征神经网络,得到C_fusion*HW_use的特征张量T_fusion*,通过Index_gird将特征张量T_fusion*映射到特征张量T_fusion中,再送入步骤(4)训练好的目标检测神经网络,得到最终三维目标检测结果。

7.一种基于权利要求1‑6任一项所述方法的优化小目标的点云三维目标检测系统,其特征在于,包括:点云预处理模块、融合特征神经网络模块、目标检测神经网络模块;所述点云预处理模块的输入为点云数据,对其进行过滤和体素化后输出特征T_pre;所述融合特征神经网络模块包括卷积神经网络,输入为点云预处理模块的输出,输出为特征张量T_fusion;所述目标检测神经网络模块包括骨干网络、基于Anchor Free的检测头和后处理;

输入为融合特征神经网络模块的输出,输出为最终三维目标检测结果。

说明书 :

一种优化小目标的点云三维目标检测方法和系统

技术领域

[0001] 本发明属于目标检测技术领域,尤其涉及一种优化小目标的点云三维目标检测方法和系统。

背景技术

[0002] 目标检测技术尤其是基于点云的三维目标检测技术是环境感知中最重要的任务之一。现阶段基于点云的目标检测方法包括基于Bev图的三维目标检测、基于Voxel的三维
目标检测、基于3D卷积的三维目标检测以及基于PointNet的三维目标检测等。后两种方法
的经典方法包括《PointRCNN: 3D Object Proposal Generation and Detection from 
Point Cloud》、《PV‑RCNN: Point‑Voxel Feature Set Abstraction for 3D Object 
Detection》等,具有精度更高,但具有效率较低,算子复杂不容易量化部署等缺点。基于Bev
图的三维目标检测以及基于Voxel的三维目标检测的经典方法包括《PointPillars: Fast 
Encoders for Object Detection from Point Clouds》、《SE‑SSD: Self‑Ensembling 
Single‑Stage Object Detector From Point Cloud》、专利CN112731339A《一种基于激光
点云的三维目标检测系统及其检测方法》、CN112288709A《一种基于点云的三维目标检测方
法》等,上述方法基于体素化的方法效率很高,基于汽车等大目标检测精度较高,基于行人、
交通锥等小目标精度较差。

发明内容

[0003] 本发明的目的在于针对现有技术的不足,提供一种优化小目标的点云三维目标检测方法和系统。
[0004] 本发明的目的是通过以下技术方案来实现的:一种优化小目标的点云三维目标检测方法,包括以下步骤:
[0005] (1)采集点云数据PC1,进行过滤得到点云数据PC2,再进行体素化得到体素特征T_pre;
[0006] (2)构造融合神经网络,其中融合神经网络是对每个网格的体素进行特征融合,采用尺寸为M_fusion*1的条形卷积核组成的卷积神经网络进行特征融合,输入为T_pre;
[0007] (3)构造目标检测神经网络,输入为融合神经网络的输出T_fusion,输出为三维目标检测结果,其中目标检测神经网络减少下采样算子,提高检测头检测特征的分辨率,提升
小目标检测的召回率和准确率;
[0008] (4)训练步骤(2)构造的融合特征神经网络和步骤(3)构造的目标检测神经网络;
[0009] (5)基于步骤(4)训练好的融合特征神经网络和目标检测神经网络,对待测原始点云数据进行推理测试,得到最终三维目标检测结果。
[0010] 进一步地,步骤(1)包括:
[0011] (1.1)将点云数据PC1按照检测范围进行过滤,得到过滤后的点云数据PC2;
[0012] (1.2)将点云数据PC2先按照X、Y轴网格化,再按照Z轴分层;其中,网格化后的包围盒矩形的形状大小为H*W;每个网格包含K层,每层记为一个体素;每个体素内的特征包含体
素内点云的均值x_v_ave、y_v_ave、z_v_ave,体素内点云相对于所在网格的密度D_grid和
体素内点云的全局密度D_global;其中,x_v_ave、y_v_ave、z_v_ave为点云X、Y、Z轴坐标分
别求和再除以体素内点云点的个数N_voxel;得到体素特征T_pre,形状大小为5*K*(H*W)。
[0013] 进一步地,步骤(1.2)中:
[0014] D_grid= Min( F_M(N_voxel+ 1) / F_M(N_grid), 1)
[0015] D_global= Min( F_M(N_voxel+ 1) / F_M(N_laser), 1)
[0016] 其中,N_grid为网格内点云点的个数,F_M( )为单调正函数;N_laser为采集点云数据的传感器的线数。
[0017] 进一步地,步骤(2)中,融合神经网络由卷积核尺寸为M_fusion*1的一系列卷积层和一个形状大小为K*1的池化层组成;融合神经网络的输出为形状大小为C_fusion*H*W的
特征向量T_fusion;其中,C_fusion为预设的特征通道数。
[0018] 进一步地,步骤(3)中,目标检测神经网络包括骨干网络、检测头和后处理;
[0019] 骨干网络的第一层是形状大小为C_fusion*H_f1*W_f1*C_f1的卷积核;其中,H_f1、W_f1、C_f1分别为卷积核的长、宽和输出通道数;骨干网络中的下采样倍数为1倍或者2
倍;
[0020] 检测头的输出包含目标的中心点坐标center_u,center_v、目标中心点偏移量center_u_offset,center_v_offset、目标的长宽高l,w,h、目标中心点在C1坐标系下的Z轴
坐标center_z、目标航向角yaw的正余弦值sin_yaw,cos_yaw;其中,目标航向角yaw为目标
朝向与C1坐标系的X轴的夹角,其中C1坐标系为以相对于大地的固定预设坐标原点的笛卡
尔正交坐标系;
[0021] T_fusion输入目标检测神经网络,经过骨干网络、3D检测头和后处理,得到K_detec*9的特征张量T_detec,作为三维目标检测结果;其中,K_detec为目标检测置信度超
过预设阈值的目标的个数;9为目标三维信息的特征的长度;目标三维信息的特征包括目标
中心点的X,Y,Z轴坐标、目标的长宽高、目标的航向角、目标的类别以及目标的置信度分数。
[0022] 进一步地,目标检测神经网络的检测头为基于Anchor Free的检测头。
[0023] 进一步地,步骤(4)中,针对于目标中心点的检测采用Focal_loss损失函数;针对目标航向角的检测,回归其正弦值与余弦值,并采用L1_loss损失函数;针对目标中心点的
偏移量的回归采用L1_Loss损失函数;针对目标的长宽高以及Z轴坐标的回归采用
SmoothL1_loss损失函数;不同检测分支的损失分配不同的权重。
[0024] 进一步地,步骤(5)包括:
[0025] 将待测原始点云数据经过步骤(1)的预处理后,得到特征张量T_pre*以及Index_grid;其中,Index_gird的形状大小为H*W,记录点云网格化后的索引;T_pre*的形状大小为
5*K*HW_use,HW_use为包含点云的网格的数量;
[0026] 再将T_pre*送入步骤(4)训练好的融合特征神经网络,得到C_fusion*HW_use的特征张量T_fusion*,通过Index_gird将特征张量T_fusion*映射到特征张量T_fusion中,再
送入步骤(4)训练好的目标检测神经网络,得到最终三维目标检测结果。
[0027] 一种优化小目标的点云三维目标检测系统,包括:点云预处理模块、融合特征神经网络模块、目标检测神经网络模块;所述点云预处理模块的输入为点云数据,对其进行过滤
和体素化后输出特征T_pre;所述融合特征神经网络模块包括卷积神经网络,输入为点云预
处理模块的输出,输出为特征张量T_fusion;所述目标检测神经网络模块包括骨干网络、基
于Anchor Free的检测头和后处理;输入为融合特征神经网络模块的输出,输出为最终三维
目标检测结果。
[0028] 本发明的有益效果是:本发明采用基于Bev图和Voxel结合的方法,保证了易量化部署优点的同时,大幅度提升小目标检测精度,为自动驾驶方案落地提供了更有效的思路
和方法。

附图说明

[0029] 图1为一种优化小目标的点云三维目标检测方法的流程图;
[0030] 图2为一种优化小目标的点云三维目标检测系统的示意图;
[0031] 图3为本发明一种实施例的效果图。

具体实施方式

[0032] 下面结合附图对本发明作进一步描述。
[0033] 如图1所示,本发明一种优化小目标的点云三维目标检测方法,包括以下步骤:
[0034] 步骤一,采集点云数据PC1。
[0035] 输入激光雷达采集的点云数据PC1。每帧大小为N1*3,包含每个点在激光雷达坐标系的X,Y,Z轴坐标;其中,N1为每帧点云点的个数,激光雷达坐标系向前为X轴正方向,向右
为Y轴正方向,向上为Z轴正方向。
[0036] 步骤二,对点云数据PC1进行过滤,得到点云数据PC2。
[0037] 过滤后的点云数据PC2为:点云数据PC1中,激光雷达坐标系的X轴上取值范围为‑50m 50m、Y轴上的取值范围为‑25m 25m、Z轴上的取值范围为‑2.28m 0.72m的点云;形状大
~ ~ ~
小为N2*3,N2为每帧点云点的个数。
[0038] 步骤三,对点云数据PC2进行体素化,并形成体素特征。
[0039] 将点云数据PC2先按照激光雷达坐标系X、Y轴进行网格化,再按照Z轴进行分层。其中,网格化后的包围盒矩形的形状大小为1216*608,因此,每个网格的形状大小为0.0822m*
0.0822m;每个网格包含10层,每层记为1个体素;因此,每个体素的形状大小为0.0822m*
0.0822m*0.3m。每个体素内的特征包含体素内点云的均值x_v_ave、y_v_ave、z_v_ave,体素
内点云相对于所在网格的密度D_grid和体素内点云的全局密度D_global;其中,x_v_ave、
y_v_ave、z_v_ave为点云X、Y、Z轴坐标分别求和再除以体素内点云点的个数N_voxel。
[0040] D_grid公式如下:
[0041] D_grid= Min( Log(N_voxel+ 1) / Log(N_grid+0.001), 1)
[0042] 其中,N_grid为网格内点云点的个数。
[0043] D_global公式如下:
[0044] D_global= Min(Log(N_voxel+ 1) / Log(64), 1)
[0045] 其中,64为传感器的线数,因此每个网格的特征形状大小为10*5,得到点云预处理模块的输出特征T_pre,形状大小为5*10*(1216*608)。
[0046] 步骤四,构造融合神经网络。
[0047] 融合神经网络由2个卷积层和1个池化层组成,每一层的神经网络的具体参数如下:
[0048] 网络层 卷积核尺寸 步长 填充 通道数 输入尺寸 输出尺寸Conv1+relu 3*1 1*1 0*0 32 5*10*(1216*608) 32*10*(1216*608)
Conv2+relu 3*1 1*1 0*0 16 32*10*(1216*608) 16*10*(1216*608)
pool1 10*1 1*1 0*0 / 16*10*(1216*608) 16*1*(1216*608)
[0049] 将特征张量T_pre输入到融合神经网络中,得到形状大小为16*1216*608的特征张量T_fusion。
[0050] 步骤五,构造目标检测神经网络。目标检测神经网络包括骨干网络、检测头和后处理。
[0051] 目标检测神经网络的骨干网络是基于ResNet50的改进版,包括修改第一层卷积层的卷积核尺寸,形状大小为16*7*7*64;去除最大池化层,保证在ResNet50提取特征之后,特
征张量的形状大小为608*304。
[0052] 构造目标检测网络的3D检测头,3D检测头是基于CenterNet(Anchor Free的一种)检测头的改进版,输出包括目标的中心点坐标center_u,center_v(热图)、目标中心点偏移
量center_u_offset,center_v_offset、目标的长宽高l,w,h、目标中心点在激光雷达坐标
系下的Z轴坐标center_z、目标航向角yaw的正余弦值sin_yaw,cos_yaw;其中,目标航向角
yaw为目标朝向与激光雷达坐标系的X轴的夹角。
[0053] 将特征张量T_fusion输入目标检测神经网络,经过骨干网络、3D检测头和后处理,得到目标检测结果的特征张量T_detec,形状大小为K_detec*9。其中,K_detec为目标检测
置信度超过预设阈值0.5的目标的个数;9为目标三维信息的特征的长度,包括3D尺寸信息
(目标中心点在激光雷达坐标系下的X,Y,Z轴坐标、目标的长宽高、目标的航向角)、目标的
类别以及目标的置信度分数。其中,目标的类别包括:小车、大车、行人、骑车的人、交通锥、
其他。
[0054] 步骤六,对步骤四构造的融合特征神经网络和步骤五构造的目标检测神经网络进行训练。其中,针对于目标中心点的检测采用Focal_loss损失函数;针对目标航向角的检
测,回归其正弦值与余弦值,并采用L1_loss损失函数;针对目标中心点的偏移量的回归采
用L1_Loss损失函数,针对目标的长宽高以及Z轴坐标的回归采用SmothL1_loss损失函数。
不同检测分支的损失分配不同的权重。
[0055] 步骤七,对一帧点云数据PC_single进行推理测试。PC_single经过步骤二 三的预~
处理后,得到特征张量T_pre*以及Index_gird,其中Index_gird的形状大小为1216*608,记
录点云网格化后的索引,T_pre*的形状大小为5*10*8000,其中8000为包含点云的网格的数
量。
[0056] 再将T_pre*送入步骤六训练好的融合特征神经网络,得到形状大小为16*8000的特征张量T_fusion*,通过Index_gird将特征张量T_fusion*映射到特征张量T_fusion中,
再送入步骤六训练好的目标检测神经网络,得到最终三维目标检测结果。
[0057] 如图2所示,本发明一种优化小目标的点云三维目标检测系统,包括:点云预处理模块、融合特征神经网络模块、基于Anchor Free的目标检测神经网络模块。
[0058] 所述点云预处理模块的输入为点云数据,对其进行过滤和体素化后输出特征T_pre。
[0059] 所述融合特征神经网络模块包括2D卷积神经网络,输入为点云预处理模块的输出,输出为特征张量T_fusion。
[0060] 所述目标检测神经网络模块包括改进的ResNet50、3D检测头和后处理。输入为融合特征神经网络模块的输出,输出为最终三维目标检测结果,包括目标的3D尺寸信息、目标
的类别以及目标的置信度分数。其中,3D检测头的输出包括目标的中心点坐标、目标中心点
偏移量、目标的长宽高、目标中心点的Z轴坐标、目标航向角的正余弦值。
[0061] 如图3所示,由于点云的稀疏性,针对行人、交通椎等小目标类别检测精度受限的劣势,以大幅度提升小目标检测精度为目标,本发明和现阶段较为流行的基于点云的三维
目标检测方案PointPillars、PointRCNN、SE‑SSD相对比,保证同样的训练集以及模型参数
优化方法,各自在验证集的三种类别指标的3D map比较如下表所示:
[0062]  车辆 行人 交通锥
PointPillars 89.65372 72.65376 73.88952
PointRCNN 94.78256 76.66579 75.63552
SE‑SSD 93.37265 78.22698 79.98336
Ours 95.34768 85.45791 86.36704
[0063] 可以看出,本发明针对行人、交通锥等小目标类别的检测精度有大幅度的提升。