基于深度可分离空洞卷积的轻量级水下目标检测方法转让专利

申请号 : CN202110688073.4

文献号 : CN113420643B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 沈钧戈毛昭勇丁文俊刘楠

申请人 : 西北工业大学

摘要 :

本发明提供了一种基于深度可分离空洞卷积的轻量级水下目标检测方法,使用水下机器人拍摄水下目标图像,得到水下目标检测数据集,对基于VGG16的Faster R‑CNN模型进行改进,读取水下目标检测数据集,对改进后模型进行训练和测试,得到检测模型权重,在水下机器人平台上搭载检测模型和训练后检测模型权重,对水下图像进行实时检测,识别水下目标。本发明增大了特征图分辨率,适用于多尺度目标,通过降低特征图通道数以及压缩全连接层减少了检测过程的参数量,以此加快了目标识别的速度,使网络具有轻量级的特点,可以搭载于水下机器人平台,具有广阔的应用前景。

权利要求 :

1.一种基于深度可分离空洞卷积的轻量级水下目标检测方法,其特征在于包括下述步骤:

步骤1:使用水下机器人拍摄水下目标图像,人工进行数据标注,标注文件包括图片名称、图像尺寸、矩形边界框框坐标和目标物类别信息,图片与标注文件合并得到水下目标检测数据集;

步骤2:对基于VGG16的Faster R‑CNN模型进行改进,使用单个DDG卷积模块一一代替网络中的普通卷积层和平均池化层,并在ROI池化层之前增加一个DDG卷积模块降低特征图通道数,减少分类网络的全连接层数和通道数;

使用DDG卷积模块代替网络中的普通卷积层,DDG卷积模块中可分离空洞卷积核大小与步长与原始网络对应位置普通卷积核相同,对输入三通道彩色图像进行深度可分离空洞卷积时,卷积系数设置为[1,2,3],之后所有DDG卷积模块中空洞卷积系数设置为[1,2,3,5]的循环,1*1分组卷积的分组数为输入通道数的1/4,每个卷积核通道数量为4;使用DDG卷积模块代替网络中的平均池化层,基于VGG16的Faster R‑CNN模型有四个平均池化层,下采样率为16,首先去除第四平均池化层,使得下采样率变为8,特征图分辨率扩大一倍,然后使用DDG卷积模块代替网络中剩下三个平均池化层,并设置DDG卷积模块中的卷积步长为2,空洞卷积系数设置为[1,2,3,5]的循环;在ROI池化层之前增加一个深度可分离卷积层降低特征图通道数,基于VGG16的FasterR‑CNN模型输出特征图通道数为512,增加一个深度可分离卷积层,先进行逐通道卷积,再进行逐点卷积,其中逐点卷积的卷积核数量设置为10,使得输出特征图通道数为10;

步骤3:读取水下目标检测数据集,对步骤2中改进后模型进行训练和测试,得到检测模型权重;

步骤4:在水下机器人平台上搭载检测模型和训练后检测模型权重,对水下图像进行实时检测,识别水下目标。

2.根据权利要求1所述的基于深度可分离空洞卷积的轻量级水下目标检测方法,其特征在于:

所述图像和标注文件按6:2:2的比例随机划分训练集、测试集和验证集。

3.根据权利要求1所述的基于深度可分离空洞卷积的轻量级水下目标检测方法,其特征在于:

所述DDG卷积模块中:对于输入特征图,尺寸为H*W,通道数为C,对输入特征图进行深度可分离卷积,卷积核大小为K*K,卷积方式为空洞卷积,共有C个单通道可分离空洞卷积核,由于原始网络特征图通道数C均为4的倍数,将可分离空洞卷积核的空洞卷积系数设置为[1,2,3,5]的循环;可分离空洞卷积的输出再通过一个1*1的分组卷积进行特征融合,分组卷积每个卷积核通道数为4,分组数目为C/4,卷积核数量等于输出通道数数量。

4.根据权利要求3所述的基于深度可分离空洞卷积的轻量级水下目标检测方法,其特征在于:

对于三通道彩色图像,可分离空洞卷积核数与图像通道数相等,空洞系数从[1,2,3,5]中按顺序选取为[1,2,3],对应分组卷积每个卷积核通道数为3。

5.根据权利要求1所述的基于深度可分离空洞卷积的轻量级水下目标检测方法,其特征在于:

减少分类网络的全连接层数和通道数;基于VGG16的Faster R‑CNN模型的分类网络,具有两个通道数为4096的全连接层,首先去除一个4096全连接层,再将剩下的一个全连接层通道数从4096减小为2048,最后通过两个并行的输出层进行分类和回归。

6.根据权利要求1所述的基于深度可分离空洞卷积的轻量级水下目标检测方法,其特征在于:

所述步骤3中,网络模型训练的步骤为:

网络模型训练时,每次输入一张图片进行计算,首先经过m次的DDG卷积模块,得到相应特征图,输入RPN网络,生成锚框,并进行分类和回归,选择N个正负样本,将其预测值与真实边界框一次送入损失函数计算分类和回归损失,锚框经过回归系数回归得到ROI,选择N个正负样本中的N1个正负样本通过全连接层,得到预测类别分数以及回归系数,与真实边界框一起计算分类和回归损失,由损失进行反向传播,更新网络权重;不断迭代计算,每训练p次计算一次损失并输出,完成一轮训练后保存相应权重文件,当损失收敛不再下降,即可得到最终模型。

说明书 :

基于深度可分离空洞卷积的轻量级水下目标检测方法

技术领域

[0001] 本发明涉及计算机目标检测技术领域,尤其是一种水下目标检测方法。

背景技术

[0002] 地球表面约71%的面积被水覆盖,水下探索和开发具有广阔的应用前景和重要的战略意义。对人类而言,水下环境十分恶劣,不适合人工作业,这促进了水下机器人的快速发展,而水下机器人离不开对目标的检测和识别。传统水下检测大多采用声学手段,但随着技术的发展,水下光学图像分辨率越来越高,信息量更加丰富,在短距离检测中具有突出的优势,因此,在水下机器人上搭载光学识别模块是现在的研究热点。
[0003] 近年来,随着深度学习理论及算法发展,目标检测算法在精度和速度方面都有所提升,具有代表性的如Faster R‑CNN、SSD、YOLO v3等,但这些算法参数量较大,对算力要求较高,不能直接搭载在水下机器人平台上进行实时检测。

发明内容

[0004] 为了克服现有技术的不足,本发明提供一种基于深度可分离空洞卷积的轻量级水下目标检测方法。本发明基于深度可分离空洞卷积来降低通用目标检测算法Faster R‑CNN的参数量,从而提供一种实时轻量级水下目标检测方法。
[0005] 本发明解决其技术问题所采用的技术方案包括如下步骤:
[0006] 步骤1:使用水下机器人拍摄水下目标图像,人工进行数据标注,标注文件包括图片名称、图像尺寸、矩形边界框框坐标和目标物类别信息,图片与标注文件合并得到水下目标检测数据集;
[0007] 步骤2:对基于VGG16的Faster R‑CNN模型进行改进,使用单个DDG卷积模块一一代替网络中的普通卷积层和平均池化层,并在ROI池化层之前增加一个DDG卷积模块降低特征图通道数,减少分类网络的全连接层数和通道数;
[0008] 步骤3:读取水下目标检测数据集,对步骤2中改进后模型进行训练和测试,得到检测模型权重;
[0009] 步骤4:在水下机器人平台上搭载检测模型和训练后检测模型权重,对水下图像进行实时检测,识别水下目标。
[0010] 所述图像和标注文件按6:2:2的比例随机划分训练集、测试集和验证集。
[0011] 进一步的,所述DDG卷积模块中:对于输入特征图,尺寸为H*W,通道数为C,对输入特征图进行深度可分离卷积,卷积核大小为K*K,卷积方式为空洞卷积,共有C个单通道可分离空洞卷积核,由于原始网络特征图通道数C均为4的倍数,将可分离空洞卷积核的空洞卷积系数设置为[1,2,3,5]的循环;可分离空洞卷积的输出再通过一个1*1的分组卷积进行特征融合,分组卷积每个卷积核通道数为4,分组数目为C/4,卷积核数量等于输出通道数数量;
[0012] 特别的,对于三通道彩色图像,可分离空洞卷积核数与图像通道数相等,空洞系数从[1,2,3,5]中按顺序选取为[1,2,3],对应分组卷积每个卷积核通道数为3。
[0013] 进一步的,使用DDG卷积模块代替网络中的普通卷积层,DDG卷积模块中可分离空洞卷积核大小与步长与原始网络对应位置普通卷积核相同,对输入三通道彩色图像进行深度可分离空洞卷积时,卷积系数设置为[1,2,3],之后所有DDG卷积模块中空洞卷积系数设置为[1,2,3,5]的循环,1*1分组卷积的分组数为输入通道数的1/4,每个卷积核通道数量为4。
[0014] 进一步的,使用DDG卷积模块代替网络中的平均池化层,基于VGG16的Faster R‑CNN模型有四个平均池化层,下采样率为16,首先去除第四平均池化层,使得下采样率变为8,特征图分辨率扩大一倍,然后使用DDG卷积模块代替网络中剩下三个平均池化层,并设置DDG卷积模块中的卷积步长为2,空洞卷积系数设置为[1,2,3,5]的循环。
[0015] 进一步的,在ROI池化层之前增加一个深度可分离卷积层降低特征图通道数,基于VGG16的Faster R‑CNN模型输出特征图通道数为512,增加一个深度可分离卷积层,先进行逐通道卷积,再进行逐点卷积,其中逐点卷积的卷积核数量设置为10,使得输出特征图通道数为10。
[0016] 进一步的,减少分类网络的全连接层数和通道数;基于VGG16的Faster R‑CNN模型的分类网络,具有两个通道数为4096的全连接层,首先去除一个4096全连接层,再将剩下的一个全连接层通道数从4096减小为2048,最后通过两个并行的输出层进行分类和回归。
[0017] 所述步骤3中,网络模型训练的步骤为:
[0018] 网络模型训练时,每次输入一张图片进行计算,首先经过m次的DDG卷积模块,得到相应特征图,输入RPN网络,生成锚框,并进行分类和回归,选择N个正负样本,将其预测值与真实边界框一次送入损失函数计算分类和回归损失,锚框经过回归系数回归得到ROI,选择N个正负样本中的N1个正负样本通过全连接层,得到预测类别分数以及回归系数,与真实边界框一起计算分类和回归损失,由损失进行反向传播,更新网络权重;不断迭代计算,每训练p次计算一次损失并输出,完成一轮训练后保存相应权重文件,当损失收敛不再下降,即可得到最终模型。
[0019] 本发明的有益效果在于:通过DDG卷积模块中的空洞卷积扩大了模型感受野,增大了特征图分辨率,适用于多尺度目标。通过DDG卷积模块中的可分离卷积和分组卷积减少了卷积过程的参数量,通过降低特征图通道数以及压缩全连接层减少了检测过程的参数量,以此加快了目标识别的速度,使网络具有轻量级的特点,可以搭载于水下机器人平台,具有广阔的应用前景。

附图说明

[0020] 图1是本发明所述方法步骤图。
[0021] 图2是本发明DDG卷积模块示意图。
[0022] 图3是本发明提供的整体网络模型示意图。

具体实施方式

[0023] 下面结合附图和实施例对本发明进一步说明。
[0024] 本实例提供一种基于深度可分离空洞卷积的轻量级水下目标检测方法,如图1所示,包括以下步骤:
[0025] 步骤一:使用水下机器人拍摄水下目标图像,人工进行数据标注,存储为xml格式标注文件,标注文件包括图片名称、图像尺寸、矩形边界框框坐标和目标物类别信息,将得到的图像和标注文件按6:2:2的比例随机划分训练集、测试集和验证集,得到所需的水下目标检测数据集。
[0026] 步骤二:图2所示为DDG卷积模块,所述DDG卷积模块:对于输入的特征图,尺寸为H*W,通道数为C,对其进行深度可分离卷积,卷积核大小为K*K,卷积方式为空洞卷积,共有C个单通道可分离空洞卷积核,由于原始网络特征图通道数均为4的倍数,将可分离空洞卷积核的空洞卷积系数设置为[1,2,3,5]的循环。可分离空洞卷积的输出再通过一个1*1的分组卷积,以进行特征融合,分组卷积每个卷积核通道数为4,分组数目为C/4,卷积核数量等于输出通道数数量。特别的,对于三通道彩色图像,可分离空洞卷积核数与图像通道数相等,空洞系数从[1,2,3,5]中按顺序选取为[1,2,3],对应分组卷积每个卷积核通道数为3。对基于VGG16的Faster R‑CNN模型进行改进,整体网络模型如图3,改进部分包括:
[0027] 使用DDG卷积模块代替网络中的普通卷积层,DDG卷积模块中可分离空洞卷积核大小与步长与原始网络对应位置普通卷积核相同,对输入三通道彩色图像进行深度可分离空洞卷积时,卷积系数设置为[1,2,3],之后所有DDG卷积模块中空洞卷积系数设置为[1,2,3,5]的循环,1*1分组卷积的分组数为输入通道数的1/4,每个卷积核通道数量为4。
[0028] 使用DDG卷积模块代替网络中的平均池化层,基于VGG16的Faster R‑CNN模型有四个平均池化层,下采样率为16,首先去除第四平均池化层,使得下采样率变为8,特征图分辨率扩大一倍,然后使用DDG卷积模块代替网络中的剩下三个平均池化层,并设置DDG卷积模块中的卷积步长为2,空洞卷积系数设置为[1,2,3,5]的循环。
[0029] 在ROI池化层之前增加一个深度可分离卷积层降低特征图通道数,基于VGG16的Faster R‑CNN模型输出特征图通道数为512,增加一个深度可分离卷积层,进行两步操作,先进行逐通道卷积,再进行逐点卷积,其中逐点卷积的卷积核数量设置为10,使得输出特征图通道数为10。
[0030] 减少分类网络的全连接层数和通道数。基于VGG16的Faster R‑CNN模型的分类网络,具有两个通道数为4096的全连接层,首先去除一个4096全连接层,再将剩下的一个全连接层通道数从4096减小为2048,最后通过两个并行的输出层进行分类和回归。
[0031] 步骤三:读取水下目标检测数据集,对改进后模型进行训练和测试,得到检测模型权重。所诉网络模型训练时每次输入一张图片进行计算,首先经过一定次数的DDG卷积模块,得到相应特征图,输入RPN网络,生成锚框,并进行分类和回归,选择256个正负样本,将其预测值与真实边界框一次送入损失函数计算分类和回归损失。锚框经过回归系数回归得到ROI,选择较好的128个正负样本通过全连接层,得到预测类别分数以及回归系数,与真实边界框一起计算分类和回归损失。由损失进行反向传播,更新网络权重。不断迭代计算,每训练100次计算一次损失并输出。完成一轮训练后保存相应权重文件。当损失收敛不再下降,即可得到最终模型。
[0032] 步骤四:在水下机器人平台上搭载检测模型和训练后权重,对水下图像进行实时检测,识别水下目标。
[0033] 检测时具体过程为:
[0034] 水下航行器实时采集的水下RGB图片,输入模型,经过一定次数的DDG卷积模块,可以学习到图像高层次特征,得到一张通道数为512,分辨率为原图八分之一的特征图,再输入RPN网络,其中RPN是一个浅层的全卷积网络,一开始特征图经过一个3*3的卷积,也就是在特征图上滑动一个一个3*3的矩形窗口,每个滑动窗口映射到一个低维特征(VGG模型为512维)。这个特征被输入到两个1*1卷积层,进行分类和回归。在每个滑动窗口位置,同时预测多个区域提议,默认值是对应特征图上每一点都在与图上预测9个不同尺度和长宽比的矩形框,称之为anchor,因此分类层有18个输出,表示9个anchor分别为前景和背景大的概率,回归层有36个输出,表示9个anchor的四个回归系数。再通过NMS等操作得到好的anchor,经过回归系数变换得到感兴趣区域ROI。
[0035] RPN输出的ROI特征图通道数为512,通过一个深度可分离卷积操作,将通道数降低为10,特征图分辨率大小不变,再进行ROI Pooling,将ROI水平与垂直方向都均分为7份。进行max pooling,即只提取每一个里的最大值作为输出,从而得到固定尺寸为7*7的ROI特征图,连接一个通道数为2048的全连接层,最后分别预测RoIs属于哪个类别以及每个类别的位置回归系数,经过可视化处理,输出具有预测目标检测框及相应置信度分数的图片。
[0036] 以上所述仅为本发明的具体实施例而已,并不用于限制本发明,对于本领域的技术人员来说,能够根据上述的内容进行许多替换、修改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。