一种优化小目标的点云三维目标检测方法和系统转让专利
申请号 : CN202111384556.1
文献号 : CN113822244B
文献日 : 2022-02-22
发明人 : 马也驰 , 华炜 , 邱奇波 , 张顺
申请人 : 之江实验室
摘要 :
权利要求 :
1.一种优化小目标的点云三维目标检测方法,其特征在于,包括以下步骤:(1)采集点云数据PC1,进行过滤得到点云数据PC2,再进行体素化得到体素特征T_pre;
(2)构造融合神经网络,其中融合神经网络是对每个网格的体素进行特征融合,采用尺寸为M_fusion*1的条形卷积核组成的卷积神经网络进行特征融合,输入为T_pre;所述融合神经网络由卷积核尺寸为M_fusion*1的一系列卷积层和一个形状大小为K*1的池化层组成;融合神经网络的输出为形状大小为C_fusion*H*W的特征向量T_fusion;其中,C_fusion为预设的特征通道数;
(3)构造目标检测神经网络,输入为融合神经网络的输出T_fusion,输出为三维目标检测结果,其中目标检测神经网络减少下采样算子,提高检测头检测特征的分辨率,提升小目标检测的召回率和准确率;所述目标检测神经网络包括骨干网络、检测头和后处理;
骨干网络的第一层是形状大小为C_fusion*H_f1*W_f1*C_f1的卷积核;其中,H_f1、W_f1、C_f1分别为卷积核的长、宽和输出通道数;骨干网络中的下采样倍数为1倍或者2倍;
检测头的输出包含目标的中心点坐标center_u,center_v、目标中心点偏移量center_u_offset,center_v_offset、目标的长宽高l,w,h、目标中心点在C1坐标系下的Z轴坐标center_z、目标航向角yaw的正余弦值sin_yaw,cos_yaw;其中,目标航向角yaw为目标朝向与C1坐标系的X轴的夹角,其中C1坐标系为以相对于大地的固定预设坐标原点的笛卡尔正交坐标系;
T_fusion输入目标检测神经网络,经过骨干网络、3D检测头和后处理,得到K_detec*9的特征张量T_detec,作为三维目标检测结果;其中,K_detec为目标检测置信度超过预设阈值的目标的个数;9为目标三维信息的特征的长度;目标三维信息的特征包括目标中心点的X,Y,Z轴坐标、目标的长宽高、目标的航向角、目标的类别以及目标的置信度分数;
(4)训练步骤(2)构造的融合特征神经网络和步骤(3)构造的目标检测神经网络;
(5)基于步骤(4)训练好的融合特征神经网络和目标检测神经网络,对待测原始点云数据进行推理测试,得到最终三维目标检测结果。
2.如权利要求1所述优化小目标的点云三维目标检测方法,其特征在于,步骤(1)包括:(1.1)将点云数据PC1按照检测范围进行过滤,得到过滤后的点云数据PC2;
(1.2)将点云数据PC2先按照X、Y轴网格化,再按照Z轴分层;其中,网格化后的包围盒矩形的形状大小为H*W;每个网格包含K层,每层记为一个体素;每个体素内的特征包含体素内点云的均值x_v_ave、y_v_ave、z_v_ave,体素内点云相对于所在网格的密度D_grid和体素内点云的全局密度D_global;其中,x_v_ave、y_v_ave、z_v_ave为点云X、Y、Z轴坐标分别求和再除以体素内点云点的个数N_voxel;得到体素特征T_pre,形状大小为5*K*(H*W)。
3.如权利要求2所述优化小目标的点云三维目标检测方法,其特征在于,步骤(1.2)中:D_grid= Min( F_M(N_voxel+ 1) / F_M(N_grid), 1)D_global= Min( F_M(N_voxel+ 1) / F_M(N_laser), 1)其中,N_grid为网格内点云点的个数,F_M( )为单调正函数;N_laser为采集点云数据的传感器的线数。
4.如权利要求1所述优化小目标的点云三维目标检测方法,其特征在于,目标检测神经网络的检测头为基于Anchor Free的检测头。
5.如权利要求1所述优化小目标的点云三维目标检测方法,其特征在于,步骤(4)中,针对于目标中心点的检测采用Focal_loss损失函数;针对目标航向角的检测,回归其正弦值与余弦值,并采用L1_loss损失函数;针对目标中心点的偏移量的回归采用L1_Loss损失函数;针对目标的长宽高以及Z轴坐标的回归采用SmoothL1_loss损失函数;不同检测分支的损失分配不同的权重。
6.如权利要求1所述优化小目标的点云三维目标检测方法,其特征在于,步骤(5)包括:将待测原始点云数据经过步骤(1)的预处理后,得到特征张量T_pre*以及Index_grid;
其中,Index_gird的形状大小为H*W,记录点云网格化后的索引;T_pre*的形状大小为5*K*HW_use,HW_use为包含点云的网格的数量;
再将T_pre*送入步骤(4)训练好的融合特征神经网络,得到C_fusion*HW_use的特征张量T_fusion*,通过Index_gird将特征张量T_fusion*映射到特征张量T_fusion中,再送入步骤(4)训练好的目标检测神经网络,得到最终三维目标检测结果。
7.一种基于权利要求1‑6任一项所述方法的优化小目标的点云三维目标检测系统,其特征在于,包括:点云预处理模块、融合特征神经网络模块、目标检测神经网络模块;所述点云预处理模块的输入为点云数据,对其进行过滤和体素化后输出特征T_pre;所述融合特征神经网络模块包括卷积神经网络,输入为点云预处理模块的输出,输出为特征张量T_fusion;所述目标检测神经网络模块包括骨干网络、基于Anchor Free的检测头和后处理;
输入为融合特征神经网络模块的输出,输出为最终三维目标检测结果。
说明书 :
一种优化小目标的点云三维目标检测方法和系统
技术领域
背景技术
目标检测、基于3D卷积的三维目标检测以及基于PointNet的三维目标检测等。后两种方法
的经典方法包括《PointRCNN: 3D Object Proposal Generation and Detection from
Point Cloud》、《PV‑RCNN: Point‑Voxel Feature Set Abstraction for 3D Object
Detection》等,具有精度更高,但具有效率较低,算子复杂不容易量化部署等缺点。基于Bev
图的三维目标检测以及基于Voxel的三维目标检测的经典方法包括《PointPillars: Fast
Encoders for Object Detection from Point Clouds》、《SE‑SSD: Self‑Ensembling
Single‑Stage Object Detector From Point Cloud》、专利CN112731339A《一种基于激光
点云的三维目标检测系统及其检测方法》、CN112288709A《一种基于点云的三维目标检测方
法》等,上述方法基于体素化的方法效率很高,基于汽车等大目标检测精度较高,基于行人、
交通锥等小目标精度较差。
发明内容
小目标检测的召回率和准确率;
素内点云的均值x_v_ave、y_v_ave、z_v_ave,体素内点云相对于所在网格的密度D_grid和
体素内点云的全局密度D_global;其中,x_v_ave、y_v_ave、z_v_ave为点云X、Y、Z轴坐标分
别求和再除以体素内点云点的个数N_voxel;得到体素特征T_pre,形状大小为5*K*(H*W)。
特征向量T_fusion;其中,C_fusion为预设的特征通道数。
倍;
坐标center_z、目标航向角yaw的正余弦值sin_yaw,cos_yaw;其中,目标航向角yaw为目标
朝向与C1坐标系的X轴的夹角,其中C1坐标系为以相对于大地的固定预设坐标原点的笛卡
尔正交坐标系;
过预设阈值的目标的个数;9为目标三维信息的特征的长度;目标三维信息的特征包括目标
中心点的X,Y,Z轴坐标、目标的长宽高、目标的航向角、目标的类别以及目标的置信度分数。
偏移量的回归采用L1_Loss损失函数;针对目标的长宽高以及Z轴坐标的回归采用
SmoothL1_loss损失函数;不同检测分支的损失分配不同的权重。
5*K*HW_use,HW_use为包含点云的网格的数量;
送入步骤(4)训练好的目标检测神经网络,得到最终三维目标检测结果。
和体素化后输出特征T_pre;所述融合特征神经网络模块包括卷积神经网络,输入为点云预
处理模块的输出,输出为特征张量T_fusion;所述目标检测神经网络模块包括骨干网络、基
于Anchor Free的检测头和后处理;输入为融合特征神经网络模块的输出,输出为最终三维
目标检测结果。
和方法。
附图说明
具体实施方式
为Y轴正方向,向上为Z轴正方向。
~ ~ ~
小为N2*3,N2为每帧点云点的个数。
0.0822m;每个网格包含10层,每层记为1个体素;因此,每个体素的形状大小为0.0822m*
0.0822m*0.3m。每个体素内的特征包含体素内点云的均值x_v_ave、y_v_ave、z_v_ave,体素
内点云相对于所在网格的密度D_grid和体素内点云的全局密度D_global;其中,x_v_ave、
y_v_ave、z_v_ave为点云X、Y、Z轴坐标分别求和再除以体素内点云点的个数N_voxel。
Conv2+relu 3*1 1*1 0*0 16 32*10*(1216*608) 16*10*(1216*608)
pool1 10*1 1*1 0*0 / 16*10*(1216*608) 16*1*(1216*608)
征张量的形状大小为608*304。
量center_u_offset,center_v_offset、目标的长宽高l,w,h、目标中心点在激光雷达坐标
系下的Z轴坐标center_z、目标航向角yaw的正余弦值sin_yaw,cos_yaw;其中,目标航向角
yaw为目标朝向与激光雷达坐标系的X轴的夹角。
置信度超过预设阈值0.5的目标的个数;9为目标三维信息的特征的长度,包括3D尺寸信息
(目标中心点在激光雷达坐标系下的X,Y,Z轴坐标、目标的长宽高、目标的航向角)、目标的
类别以及目标的置信度分数。其中,目标的类别包括:小车、大车、行人、骑车的人、交通锥、
其他。
测,回归其正弦值与余弦值,并采用L1_loss损失函数;针对目标中心点的偏移量的回归采
用L1_Loss损失函数,针对目标的长宽高以及Z轴坐标的回归采用SmothL1_loss损失函数。
不同检测分支的损失分配不同的权重。
处理后,得到特征张量T_pre*以及Index_gird,其中Index_gird的形状大小为1216*608,记
录点云网格化后的索引,T_pre*的形状大小为5*10*8000,其中8000为包含点云的网格的数
量。
再送入步骤六训练好的目标检测神经网络,得到最终三维目标检测结果。
的类别以及目标的置信度分数。其中,3D检测头的输出包括目标的中心点坐标、目标中心点
偏移量、目标的长宽高、目标中心点的Z轴坐标、目标航向角的正余弦值。
目标检测方案PointPillars、PointRCNN、SE‑SSD相对比,保证同样的训练集以及模型参数
优化方法,各自在验证集的三种类别指标的3D map比较如下表所示:
PointPillars 89.65372 72.65376 73.88952
PointRCNN 94.78256 76.66579 75.63552
SE‑SSD 93.37265 78.22698 79.98336
Ours 95.34768 85.45791 86.36704