基于边缘检测的单阶段目标检测方法转让专利

申请号 : CN202110675466.1

文献号 : CN113450321B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 桂盛霖张瑞琼

申请人 : 电子科技大学

摘要 :

本发明公开了一种基于边缘检测的单阶段目标检测算法,属于计算机视觉领域。本发明将单阶段目标检测算法SSD和边缘检测算法CEDN融合,提出了一种端到端的多任务网络,使得边缘检测和目标检测共享基础特征提取网络VGG‑16的参数,让网络在预测物体所属类别以及边框坐标的同时,预测图像中物体的轮廓,从而利用物体轮廓的坐标,约束误差较大的预测边框,提高了目标检测任务和边缘检测任务的正确率。

权利要求 :

1.一种基于边缘检测的单阶段目标检测算法,包括以下步骤:S1)机舱门数据集的获取和处理采集至少600张真实机舱门的图片以及至少300张模型机舱门的图片,获得机舱门数据集D,并划分为训练集、验证集以及测试集;对所有图片中的机舱门进行边框标注、物体所属类别标注,获得目标检测任务的标签;同时对机舱门进行轮廓标注,获得边缘检测任务的标签;对训练集图像进行数据增强预处理,包括对图像进行旋转、平移、放缩、调整图像亮度以及对比度;

S2)建立目标检测网络模型

所述目标检测网络模型由不含全连接层的基础特征提取网络VGG‑16、目标检测分支a、以及边缘检测分支b三部分组成;

具体地:

所述目标检测分支a连接在基础特征提取网络VGG‑16后;所述目标检测分支a包含顺序连接的3×3卷积conv6、1×1卷积conv7、至少4个新增卷积层、以及检测器;

所述3×3卷积conv6采用带孔卷积的结构,通过设置扩张率参数,来改变扩张的尺寸;

所述新增卷积层为卷积核大小为3×3的卷积层;

将全部新增卷积层、1×1卷积conv7、以及基础特征提取网络VGG‑16的conv4_3输出的不同尺度的特征图输入到检测器中进行预测,得到初始的物体边框坐标以及类别置信度的预测结果;再通过非极大值抑制得到最终的物体边框坐标以及类别置信度的预测结果;

所述边缘检测分支b连接在基础的特征提取网络VGG‑16后;所述边缘检测分支b包含顺序连接的conv6网络层、Deconv6网络层、5个反池化层、以及sigmoid网络层,其中每个反池化层后接有一个3×3卷积层;

所述conv6网络层用于扩充基础特征提取网络VGG‑16输出特征图的通道数;

所述Deconv6网络层用于减少特征图的通道数;

每个所述反池化层均用于扩大特征图的尺度为输入该反池化层的两倍,使得该层输出的特征图尺寸和基础特征提取网络VGG‑16对应层输出的特征图大小相同;

所述sigmoid网络层用于将输入的通道数为1的特征图像素值归一化到0‑1范围内,从而得到最终的机舱门边缘检测的预测结果;

S3)计算目标检测任务的损失以及边缘检测任务的损失将数据集D中训练集的图片划分为若干个batch,并输入到目标检测网络模型中;分别计算目标检测任务的损失和边缘检测任务的损失,其中目标检测任务的损失包含类别置信度损失和物体边框坐标损失;

S4)反向传播更新网络参数

将步骤S3)得到的损失相加,并自适应的调整各个损失的权重,使得各任务的损失同步收敛;反向传播更新网络参数,得到多个训练好的预选目标检测网络模型;

S5)验证

将验证集的图片输入到预选目标检测网络模型中进行验证,选取预测结果最优的预选目标检测网络模型作为最终的目标检测网络模型;

S6)测试

将测试集的图片输入到最终的目标检测网络模型中进行检测,得到检测结果并计算检测精度。

2.如权利要求1所述一种基于边缘检测的单阶段目标检测算法,其特征在于,将所述不含全连接层的基础特征提取网络VGG‑16的第五个最大池化层替换为窗口大小为3×3,步长为1的池化层。

说明书 :

基于边缘检测的单阶段目标检测方法

技术领域

[0001] 本发明属于计算机视觉领域,具体涉及一种目标检测方法以及物体轮廓检测方法。

背景技术

[0002] 随着计算机技术和通信技术的飞速发展,机场信息化应用水平不断提升,智慧机场应运而生。对于民航业来说,运用相关技术对机场摄像头拍摄的实时视频流中物体进行
自动化识别与跟踪,可以提高机场运行效率和机场的智能化程度。而在真实机场中有时不
仅需要检测到物体,还需要识别物体的轮廓,比如实现登机桥的自动对接问题,只有获取机
舱门位置的同时,识别出机舱门的轮廓信息,才能实现登机桥自动精准对接。因此,研究物
体轮廓检测在单阶段目标检测算法中的关键技术可为智慧机场提供技术支撑。
[0003] 目标检测是计算机视觉领域里一个热门的研究方向,学术界已经研究了将近二十年,目标检测技术包含两个核心任务,分别为定位出图像中感兴趣的目标,并显示出每个目
标的边界框,以及预测每个目标的所属类别。众多学者们为了提高目标检测技术的精度以
及效率,构建了VGG、GoogleNet、ResNet等特征提取网络。基于深度学习的目标检测算法可
以分为双阶段目标检测算法以及单阶段目标检测算法。双阶段目标检测算法即首先需要产
生区域建议,然后再进一步修正建议的边框坐标以及所属类别。单阶段目标检测算法即省
去了区域建议的步骤,直接使用卷积预测物体的边框坐标以及所属类别。其中,Liu等人提
出的单阶段目标检测算法SSD(Liu W,Anguelov D,Erhan D,Szegedy C,Reed S,Fu C Y 
and Berg A C.2016.SSD:single shot MultiBox detector//Proceedings of the 14th 
European Conference on Computer Vision.Amsterdam:Springer:21‑37)在保持较高的
检测精度的前提下,依然可以达到较快的检测速度,使得检测精度与速度达到了平衡。
[0004] 图像边缘检测是提取图像中突变的重要信息的技术,也是计算机视觉领域中的一个较为基础的问题。已有众多学者研究表明,图像边缘检测技术在图像分割、物体检测与识
别等众多领域里都发挥着重要作用。图像边缘检测的方法可以分为传统边缘检测方法以及
基于深度学习的边缘检测方法。其中,在基于深度学习的边缘检测方法中,Yang等人提出的
CEDN(YANG J,PRICE B,COHEN S,et al.Object contour detection with a fully 
convolutional encoder‑decoder network[C]//Proceedings of the 2016 IEEE 
Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2016:
193‑202.)是用于检测物体轮廓的算法,该算法使用了全卷积编码器解码器的神经网络架
构来提取高层的特征。其中编码网络使用的是VGG‑16,编码网络的作用是提取特征,固定网
络参数,通过第六个卷积层后,输出高维特征图,随后输入到用于解码的网络层。解码器是
由若干个反池化以及反卷积构成的,解码网络最终输出原图大小的特征图与物体轮廓标签
计算损失,使预测的特征图更贴近于给定的标签。不同于以往的低水平边缘检测算法,该算
法更加关注图像中物体的轮廓,而忽视背景的边缘。
[0005] 目标检测算法已经得到了快速的发展,但它仍然有很大的提升空间,是一个非常具有挑战性的课题。目标检测算法虽然在检测速度和准确率上已经得到了较大提升,但是
普遍都存在只能预测物体的边框位置,无法精确到物体轮廓的缺点。

发明内容

[0006] 针对上述问题,本发明将背景技术中的单阶段目标检测算法SSD和边缘检测算法CEDN融合,提出了一种端到端的多任务网络,使得边缘检测和目标检测共享基础特征提取
网络VGG‑16的参数,让网络在预测物体所属类别以及边框坐标的同时,预测图像中物体的
轮廓,从而利用物体轮廓的坐标,约束误差较大的预测边框。
[0007] 本发明采用的技术方案如下:
[0008] 一种基于边缘检测的单阶段目标检测算法,包括以下步骤:
[0009] S1)机舱门数据集的获取和处理
[0010] 采集至少600张真实机舱门的图片以及至少300张模型机舱门的图片,获得机舱门数据集D,并划分为训练集、验证集以及测试集;对所有图片中的机舱门进行边框标注、物体
所属类别标注,获得目标检测任务的标签;同时对机舱门进行轮廓标注,获得边缘检测任务
的标签。对训练集图像进行数据增强预处理,包括对图像进行旋转、平移、放缩、调整图像亮
度以及对比度。
[0011] S2)建立目标检测网络模型
[0012] 所述目标检测网络模型由不含全连接层的基础特征提取网络VGG‑16、目标检测分支a、以及边缘检测分支b三部分组成。
[0013] 具体的:
[0014] 所述目标检测分支a连接在基础特征提取网络VGG‑16后;所述目标检测分支a包含顺序连接的3×3卷积conv6、1×1卷积conv7、至少4个新增卷积层、以及检测器。
[0015] 所述3×3卷积conv6采用带孔卷积的结构,通过设置扩张率参数,来改变扩张的尺寸,在不提升模型复杂度和增加参数量的前提下,使卷积的感受野得到指数级扩张。
[0016] 所述新增卷积层为卷积核大小为3×3的卷积层。
[0017] 将全部新增卷积层、1×1卷积conv7、以及基础特征提取网络VGG‑16的conv4_3输出的不同尺度的特征图输入到检测器中进行预测,得到初始的物体边框坐标以及类别置信
度的预测结果;再通过非极大值抑制得到最终的物体边框坐标以及类别置信度的预测结
果。
[0018] 所述边缘检测分支b连接在基础的特征提取网络VGG‑16后;所述边缘检测分支b包含顺序连接的conv6网络层、Deconv6网络层、5个反池化层、以及sigmoid网络层,其中每个
反池化层后接一个3×3卷积层。
[0019] 所述conv6网络层用于扩充基础特征提取网络VGG‑16输出特征图的通道数,使得译码网络得到更丰富的图像特征。
[0020] 所述Deconv6网络层用于减少特征图的通道数,使得减少网络参数以降低模型复杂度。
[0021] 每个所述反池化层均用于扩大特征图的尺度为输入该反池化层的两倍,使得该层输出的特征图尺寸和基础特征提取网络VGG‑16对应层输出的特征图大小相同。
[0022] 所述sigmoid网络层用于将输入的通道数为1的特征图像素值归一化到0‑1范围内,从而得到最终的机舱门边缘检测的预测结果。
[0023] S3)计算目标检测任务的损失以及边缘检测任务的损失
[0024] 将数据集D中训练集的图片划分为若干个batch,并输入到目标检测网络模型中。分别计算目标检测任务的损失和边缘检测任务的损失,其中目标检测任务的损失包含类别
置信度损失和物体边框坐标损失。
[0025] S4)反向传播更新网络参数
[0026] 将步骤S3)得到的损失相加,并自适应的调整各个损失的权重,使得各任务的损失可以同步收敛;反向传播更新网络参数,得到多个训练好的预选目标检测网络模型。
[0027] S5)验证
[0028] 将验证集中的图片输入到预选目标检测网络模型中进行验证,选取预测结果最优的预选目标检测网络模型作为最终的目标检测网络模型。
[0029] S6)测试
[0030] 将测试集的图片输入到最终的目标检测网络模型中进行检测,得到检测结果并计算检测精度。
[0031] 本发明的有益效果:提出了将边缘检测算法CEDN和单阶段目标检测算法SSD融合的多任务网络ED‑SSD,其中目标检测分支a和边缘检测分支b共享基础特征提取网络VGG‑16
的参数,由于目标检测任务预测边框坐标和边缘检测任务都需要物体轮廓周围的特征,使
得两个任务互相影响。在训练过程中,网络层输出的特征图中物体轮廓周围的特征更加的
明显,即特征图中物体轮廓周围的最大响应值比单独训练某个任务的最大响应值更加突
出,加强了图像中物体特征的提取,而弱化了背景特征的提取,从而分别提高了目标检测任
务和边缘检测任务的正确率。

附图说明

[0032] 图1为获取的模型机以及真实机型舱门图片示例。
[0033] 图2为本发明ED‑SSD模型结构示意图。
[0034] 图3为测试结果示例,其中(a)为采用单阶段目标检测算法SSD对机舱门的边框检测的预测结果,(b)为采用本发明算法对机舱门轮廓检测的预测结果,(c)为采用本发明算
法对机舱门的边框检测的预测结果,且该边框利用了机舱门的轮廓坐标进行了约束。

具体实施方式

[0035] 下面将结合本发明的说明书附图,对本发明实施例中的技术方案进行进一步地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0036] 本实施例的一种基于边缘检测的单阶段目标检测算法,包括以下步骤:
[0037] 步骤1:机舱门数据集的获取和处理;
[0038] 步骤2:建立ED‑SSD目标检测网络模型;
[0039] 步骤3:计算目标检测任务的损失以及物体轮廓检测任务的损失;
[0040] 步骤4:反向传播更新网络参数;
[0041] 步骤5:验证;
[0042] 步骤6:测试。
[0043] 具体地,步骤1包括以下步骤:
[0044] 步骤1.1:获取机舱门数据集:
[0045] 采集现实机场视频数据和模型机视频数据,并对采集到的视频进行归纳和整理。首先在整理出的真实机舱门视频中截取出600张图片,其中包括在不同天气状况下截取的
不同类型以及包含不同程度阴影的机舱门图片。其次在整理出的模型机舱门视频中截取出
300张图片,其中包括不同天气状况下以及包含不同程度阴影的模型机图片。获取的机舱门
图片如图1所示。
[0046] 步骤1.2:为机舱门图片制作目标检测任务的标签。
[0047] 步骤1.3:为机舱门图片制作边缘检测任务的标签。
[0048] 步骤1.4:将机舱门数据集划分为训练集、验证集以及测试集,将训练集数据分为若干个batch,每个batch里有batch_size个数据,并将每个batch中的数据进行数据增强预
处理,包括对图像进行旋转、平移、放缩、调整图像亮度以及对比度。
[0049] 如图2所示,步骤2中的ED‑SSD目标检测网络模型的具体结构如下:
[0050] ED‑SSD网络模型总共包含三部分,一个是不含全连接层的基础特征提取网络VGG‑16,也充当边缘检测的编码网络,一个是目标检测分支a,一个是边缘检测分支b。
[0051] 优选地,将基础特征提取网络VGG‑16的第五个最大池化层由原本的窗口大小为2×2,步长为2,转变为了窗口大小为3×3,步长为1,该池化层的改进用于减轻后续的计算复
杂度。
[0052] 然后将目标检测分支a连接在基础特征提取网络VGG‑16后;所述目标检测分支a包含顺序连接的3×3卷积conv6、1×1卷积conv7、至少4个新增卷积层、以及检测器。其中3×3
卷积conv6为了和池化层的变化相匹配,采用了带孔卷积的结构,通过设置扩张率参数,来
改变扩张的尺寸,在不提升模型复杂度和增加参数量的前提下,使卷积的感受野得到指数
级扩张。采用4个卷积核大小为3×3的新增卷积层来代替VGG‑16的dropout层以及第八个全
连接层。然后将全部新增卷积层、1×1卷积conv7、以及基础特征提取网络VGG‑16的conv4_3
输出的不同尺度的特征图输入到检测器中进行预测,得到初始的物体边框坐标以及类别置
信度的预测结果,其中不同尺度的特征图大小分别为38×38、19×19、10×10、5×5、3×3、1
×1;再通过非极大值抑制滤除误差较大以及重合度过大的预测边框,得到最终的物体边框
坐标以及类别置信度的预测结果。
[0053] 边缘检测分支b为一个译码网络结构,连接在基础的特征提取网络VGG‑16后;边缘检测分支b包含顺序连接的conv6网络层、Deconv6网络层、5个反池化层、以及sigmoid网络
层,其中每个反池化层后接一个3×3卷积层。
[0054] 其中conv6网络层用于扩充基础特征提取网络VGG‑16输出特征图的通道数,使得译码网络得到更丰富的图像特征。Deconv6网络层用于减少特征图的通道数,使得减少网络
参数以及降低模型复杂度。之后的每一个反池化层,用于扩大特征图的尺度为输入该网络
层的两倍,使得该层输出的特征图尺寸和基础特征提取网络VGG‑16对应层输出的特征图大
小相同,最终输出特征通道数为1的原图大小的特征图。然后通过sigmoid网络层将输入的
通道数为1的特征图像素值归一化到0‑1范围内,从而得到最终的边缘预测结果图。
[0055] 目标检测分支a和边缘检测分支b共享基础特征提取网络VGG‑16的参数,由于目标检测任务和边缘检测任务都需要物体轮廓周围的特征,使得两个任务能够互相影响。在训
练过程中,网络层输出的特征图中物体轮廓周围的特征更加的明显,即特征图中物体轮廓
周围的最大响应值比单独训练某个任务的最大响应值更加突出,加强了图像中物体特征的
提取,而弱化了背景特征的提取,从而分别提高了目标检测任务和边缘检测任务的正确率。
[0056] 其中步骤3计算目标检测任务损失以及边缘检测任务损失的具体做法为:
[0057] 步骤3.1:计算类别置信度损失,其计算公式如下:
[0058]
[0059] 式中, 取0或1, 为1表示第i个先验框和第j个真实目标匹配,同时物体的所属类别为p; 表示第i个先验框预测的类别置信度,同时物体的所属类别为p; 表示第i个先
验框预测的类别置信度,同时物体的所属类别为背景;Pos表示正样本集合;Neg表示负样本
集合;n表示正样本的数量。
[0060] 步骤3.2:计算边框坐标损失,其计算公式如下:
[0061]
[0062] 式中, 表示第i个先验框的预测位置坐标; 表示第j个真实目标的位置坐标;cx表示边框中心点横坐标;cy表示边框中心点纵坐标;w,h分别表示边框的宽和高;l表示预
测边框的位置总称;g表示真实目标的位置总称; 表示第k层特征图中所设的第i个先验
框和第j个真实目标匹配,k的取值范围为[1,6];其中smoothL1函数具体的计算公式如下所
示:
[0063]
[0064] 其中
[0065] 步骤3.3:计算目标检测分支a的总损失,其计算公式如下:
[0066]
[0067] 其中Lconf(x,c)为类别损失;Lloc(x,l,g)为边框坐标损失;α表示边框坐标损失的权重系数。
[0068] 步骤3.4:边缘检测任务损失函数具体计算公式如下:
[0069]
[0070] 其中N表示特征图中像素的个数;y表示每个像素的预测值;表示每个像素的标签,取值为0或1,0表示像素为负样本,1表示像素为正样本。
[0071] 其中步骤4计算总损失,并自适应的调整各任务的损失权重,反向传播更新网络参数的具体做法为:
[0072] 由于本发明提出的ED‑SSD模型是多任务网络,在训练模型时,目标检测任务和边缘检测任务的数据分布、正负样本比例以及损失大小存在差异。针对该问题,本实施例使用
了一种多任务损失的计算方法,可以在网络训练过程中,自适应的调整各任务损失的权重,
从而使得各任务损失同步收敛,都可以达到良好的训练效果。
[0073] 本实施例的多任务总损失的计算公式如下:
[0074]
[0075] 在模型训练的过程中,不仅要更新网络的参数,还要更新式中的权重参数,即σ1,σ2,σ3,其中σ1表示目标检测任务中类别置信度损失的权重系数,σ2表示目标检测任务中物
体边框坐标损失的权重系数,σ3表示边缘检测任务损失的权重系数。
[0076] 其中步骤5验证的具体方法为:
[0077] 将验证集中的图片输入到步骤4中的多个预选目标检测网络模型,选取预测结果最优的预选目标检测网络模型作为最终的目标检测网络模型。
[0078] 其中步骤6测试的具体方法为:
[0079] 将测试集的图片输入到最终的目标检测网络模型中进行检测,得到检测结果并计算检测精度。
[0080] 本发明提出了将边缘检测算法CEDN和单阶段目标检测算法SSD融合的多任务网络模型,使网络在预测物体边框坐标以及所属类别的同时,检测图像中物体的轮廓。并将它应
用在了智慧机场的现实场景中。基于智慧机场的现实场景,ED‑SSD模型可以利用物体轮廓
像素坐标修正那些与物体真实位置存在误差的预测边框,从而预测出精确到舱门轮廓的位
置,为后续实现登机桥自动精准对接做了前期的准备工作。