一种基于改进YOLOv3的行人和车辆检测方法及系统转让专利

申请号 : CN201910052953.5

文献号 : CN109815886B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘天亮王国文谢世朋戴修斌

申请人 : 南京邮电大学

摘要 :

本发明公开了一种基于改进YOLOv3的行人和车辆检测方法及系统。本发明采用基于Darknet‑33改进型YOLOv3网络作为主干网络提取特征;采用可传递的特征图尺度缩减方法,跨层融合并重用主干网络中的多尺度特征;然后采用尺度放大方法构建特征金字塔网络。训练阶段,对训练集使用K‑means聚类方法以预测框和真实框的交并比作为相似度标准进行聚类选取先验框;然后依据损失函数做BBox回归和多标签分类。检测阶段,对所有检测框,根据置信度打分和IOU值采用非极大值抑制法去除冗余检测框,预测出最优的目标对象。本发明采用特征图尺度缩减融合的特征提取网络Darknet‑33、特征图尺度放大迁移融合构造特征金字塔和聚类选取先验框,能提高行人和车辆检测的速度和精度。

权利要求 :

1.一种基于改进YOLOv3的行人和车辆检测方法,其特征在于,包括以下步骤:

(1)通过构建的带有尺度缩减迁移的特征提取网络Darknet-33提取输入图像特征;所述尺度缩减迁移是采用特征图尺度缩减方法,将低层特征图拆分成高层特征图,再通过直连接的方式,将特征图跨层融合,进行特征重用;所述Darknet-33作为特征提取的主干网络,由YOLOv3的网络Darknet-53删减卷积操作和直连接次数后得到;

(2)通过将主干网络提取的最后三层的特征图构建带有尺度放大迁移的特征金字塔网络;所述尺度放大迁移是采用尺度放大方法替换上采样方法,将高层特征图合并,再通过直连接的方式,将特征图跨层融合;

(3)在训练阶段,使用K-means聚类方法对行人和车辆训练集以预测框和真实框的交并比作为相似度标准进行聚类,选取先验框数量和规格;然后,对BBox的坐标、高和宽使用平方误差的总和做损失计算进行回归;并采用交叉熵损失计算的优化方法训练,进行多标签分类;通过随机梯度下降法优化求解模型;

(4)在检测阶段,根据训练得到的模型对输入图片提取特征并预测,然后针对预测的所有检测框,根据置信度打分和IOU值采用非极大值抑制法去除冗余的检测框,输出最优的检测对象;

所述步骤(1)中尺度缩减迁移融合实现方法为:将低层特征图做尺度缩减转换操作,并通过1×1的卷积核进行卷积降维操作,然后通过3×3的卷积操作提取特征,再选择与融合层数量匹配的1×1的卷积核进行卷积升维操作,最后与融合层相加作为后序网络的输入继续提取特征;

所述Darknet-33是在YOLOv3主干网络Darknet-53的基础上,将输入输出大小都为32×

32的特征图之间的16次卷积操作和8次直连接改为8次卷积操作和4次直连接;将输入输出大小都为16×16的特征图之间的16次卷积操作和8次直连接改为8次卷积操作和4次直连接;将输入输出大小都为8×8的特征图之间的8次卷积操作和4次直连接改为4次卷积操作和2次直连接;并分别在主干网络Darknet-33的128×128、64×64和32×32特征层加入了尺度缩减迁移融合;

所述步骤(2)中尺度放大迁移融合实现方法为:将高层特征图做尺度放大转换操作,并通过1×1的卷积核进行卷积降维操作,然后通过3×3的卷积操作提取特征,再选择与融合层数量匹配的1×1的卷积核进行卷积升维操作,最后与融合层相加作为预测特征。

2.根据权利要求1所述的基于改进YOLOv3的行人和车辆检测方法,其特征在于,所述特征金字塔网络包括自下而上的路径,自上而下的路径和横向连接;

所述自下而上的路径是主干网络Darknet-33的前馈计算,由多个尺度的特征图组成的特征层次结构,其缩放步长为2;选择同一网络阶段的最后一层的输出作为参考特征映射集;

所述自上而下的路径通过特征尺度放大迁移融合,然后通过所述横向连接从自下而上的路径增强这些特征;每个横向连接合并来自自下而上路径和自上而下路径的相同空间大小的特征图。

3.根据权利要求1所述的基于改进YOLOv3的行人和车辆检测方法,其特征在于,所述步骤(3)中使用K-means聚类方法对行人和车辆数据集中目标边框进行聚类,具体步骤包括:(3.1)在待训练的数据集中统计目标框的长和宽,通过观察选择k个初始聚类中心点;

(3.2)逐一计算所有数据对象到各个聚类中心点间的距离,之后将数据对象分配给距离最短的集合;其中以两个候选边框的交并比作为相似度标准;

(3.3)重新计算每个划分的中心点并更新产生新的划分;

(3.4)判断重新计算的划分中心点与原中心点距离是否满足停止条件,若满足,则输出聚类结果,否则将转至步骤(3.2)。

4.根据权利要求1所述的基于改进YOLOv3的行人和车辆检测方法,其特征在于,所述步骤(3)中在模型训练时,BBox的坐标、高和宽的平方误差总和损失为:其中,N是先验框中与真实框的IOU值大于设置的阈值的个数,xi,yi,wi,hi为第i个预测框的中心点坐标,宽和高, 为与第i个预测框匹配的真实框的中心点坐标,宽和高。

5.根据权利要求1所述的基于改进YOLOv3的行人和车辆检测方法,其特征在于,所述步骤(3)中在模型训练时,采用双曲正切tanh非线性映射函数将即得的语义特征d映射到维度为C的类别空间,C是分类器中类别的数目,计算公式:其中,Wc是第c类针对图像特征d的参数矩阵,bc是第c类的偏差向量;

然后,利用softmax分类器决策判决得到类别,计算公式:

其中,pc是类别为c的预测概率;这里使用交叉熵损失函数作为模型训练的优化目标,类别打分损失函数公式:其中,pi(c)表示第i个先验框属于类别c的打分, 表示第i个先验框匹配的真实框属于类别c的打分,N是先验框中与真实框的IOU值大于设置的阈值的个数。

6.根据权利要求1所述的基于改进YOLOv3的行人和车辆检测方法,其特征在于,所述步骤(4)中采用非极大值抑制去除冗余的检测框的方法具体包括:首先,根据分类器的类别分类概率做排序,选择具有最大置信度的检测框,将其从集合中移除并加入最终的检测结果中;然后将集合中与其IOU值大于设定的阈值的检测框移除;最后,重复这个过程,直到集合为空。

7.一种基于改进YOLOv3的行人和车辆检测系统,其特征在于,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-6任一项所述的基于改进YOLOv3的行人和车辆检测方法。

说明书 :

一种基于改进YOLOv3的行人和车辆检测方法及系统

技术领域

[0001] 本发明涉及一种行人和车辆目标检测方法及系统,尤其涉及一种特征图尺度转换迁移融合和特征金字塔网络(FPN,Feature Pyramid Networks)多尺度特征预测的目标检测方法及系统,属于计算机视觉的目标检测技术领域。

背景技术

[0002] 随着城市人口数量的增加及人民对生活品质追求的提高,城市私家车的数量与日剧增,在城市道路建设未跟上节奏、公共交通设施仍处于亚完善的大环境下,道路拥挤、交通事故频发等一系列问题日益凸显。近年来,智能交通系统的出现大大缓解了现代交通系统日益增长的压力,它既提高了交通运输的效率,又在一定程度上保证了安全性。智能交通系统所强调的是尽可能地减少人力发挥作用,通过各种新兴计算机技术的结合来达到控制道路交通建设的目的。对于交通运输系统而言,行人和车辆是主要的关注对象。因此,利用计算机视觉技术来实现对行人与车辆的检测是智能交通系统中的关键技术。
[0003] 目前目标检测方法及系统基本上都是先从原始输入提取特征,再利用特征学习出一个分类器。为了确保最终算法的准确性,必须获取鲁棒的特征表达,因此需要大量的计算和测试工作,然而实际上这部分的工作都由人工完成,需要大量的时间。人工选取特征是受任务驱动的,不同的任务很有可能选取完全不同的特征,因此它与具体的任务高度依赖。尤其在动作识别中,不同的运动类型无论在外观还是运动模型都呈现出极大的差异。手工设置需要依靠经验和运气才能获取较好的特征,因此很难保证从剧烈变化的场景获得动作的本质特征。因此需要一种能够自动学习方法,解决费时的手工特征提取方法的盲目性和片面性。
[0004] 2016年Redmon等人提出的YOLO(You Only Look Once)算法是一个可以一次性预测多个Box位置和类别的卷积神经网络,YOLO算法的网络设计策略延续了GoogleNet的核心思想,真正意义上实现了端到端的目标检测,且发挥了速度快的优势,但其精度有所下降。然而在2016年Redmon等人提出的YOLO9000算法是在原先YOLO算法的速度上提高了其准确度。主要有两方面的改进:1)在原有的YOLO检测框架上进行了一系列的改进,弥补了检测精度的不足;2)提出了目标检测和目标训练合二为一的方法。YOLOv2算法的训练网络采用降采样的方法在特定的情况下可以进行动态调整,这种机制可以使网络预测不同大小的图片,让检测的速度和精度之间达到平衡。2018年Redmon等人在YOLO9000算法基础上提出的YOLOv3算法。主要的改进有:1)增加了top down的多级预测,解决了YOLO颗粒度粗,对小目标无力的问题。2)加深网络,基础网络由v2的Darknet-19变成了v3的Darknet-53,同时加了一个shortcut,防止网络加深带来梯度发散问题。3)不使用Softmax对每个框进行分类,因为Softmax使得每个框只分配一个类别无法实现多标签分类,并且Softmax可被独立的多个逻辑分类器替代,且准确率不会下降。
[0005] 在智能交通系统中要求对行人和车辆进行实时准确的检测,虽然YOLO系列的算法的在保持较高检测精度的情况下,检测时间与其它算法相比优势非常明显,但为了能够做到准确、实时的检测,仍需要改进YOLOv3网络检测的精度,同时优化检测耗时,使网络更加有利于行人和车辆的检测。

发明内容

[0006] 发明目的:针对现有技术存在的技术问题,本发明目的是提供一种基于改进YOLOv3的行人和车辆检测方法及系统,通过对网络进行改进提高检测的精度和速度,实现行人和车辆的高精度实时检测。
[0007] 技术方案:为实现上述发明目的,本发明采用以下技术方案:
[0008] 一种基于改进YOLOv3的行人和车辆检测方法,包括如下步骤:
[0009] (1)通过构建的带有尺度缩减迁移的特征提取网络Darknet-33提取输入图像特征;所述尺度缩减迁移是采用特征图尺度缩减方法,将低层特征图拆分成高层特征图,再通过直连接的方式,将特征图跨层融合,进行特征重用;所述Darknet-33作为特征提取的主干网络,由YOLOv3的网络Darknet-53删减卷积操作和直连接次数后得到;
[0010] (2)通过将主干网络提取的最后三层的特征图构建的带有尺度放大迁移的特征金字塔网络;所述尺度放大迁移是采用尺度放大方法替换上采样方法,将高层特征图合并,再通过直连接的方式,将特征图跨层融合;
[0011] (3)在训练阶段,使用K-means聚类方法对行人和车辆训练集以预测框和真实框的交并比(IOU,Intersection Over Union)作为相似度标准进行聚类,选取先验框数量和规格;然后,对BBox(Bounding Box)的坐标、高和宽使用平方误差的总和做损失计算进行回归;并采用交叉熵损失计算的优化方法训练,进行多标签分类;通过随机梯度下降法优化求解模型;
[0012] (4)在检测阶段,根据训练得到的模型对输入图片提取特征并预测,然后针对预测的所有检测框,根据置信度打分和IOU值采用非极大值抑制法去除冗余的检测框,输出最优的检测对象。
[0013] 在优选的实施方案中,所述步骤(1)中尺度缩减迁移融合实现方法为:将低层特征图做尺度缩减转换操作,并通过1×1的卷积核进行卷积降维操作,然后通过3×3的卷积操作提取特征,再选择与融合层数量匹配的1×1的卷积核进行卷积升维操作,最后与融合层相加作为后序网络的输入继续提取特征。
[0014] 在优选的实施方案中,所述Darknet-33是在YOLOv3主干网络Darknet-53的基础上,将输入输出大小都为32×32的特征图之间的16次卷积操作和8次直连接改为8次卷积操作和4次直连接;将输入输出大小都为16×16的特征图之间的16次卷积操作和8次直连接改为8次卷积操作和4次直连接;将输入输出大小都为8×8的特征图之间的8次卷积操作和4次直连接改为4次卷积操作和2次直连接;并分别在主干网络Darknet-33的128×128、64×64和32×32特征层加入了尺度缩减迁移融合。
[0015] 在优选的实施方案中,所述步骤(2)中尺度放大迁移融合实现方法为:将高层特征图做尺度放大转换操作,并通过1×1的卷积核进行卷积降维操作,然后通过3×3的卷积操作提取特征,再选择与融合层数量匹配的1×1的卷积核进行卷积升维操作,最后与融合层相加作为预测特征。
[0016] 在优选的实施方案中,所述特征金字塔网络包括自下而上的路径,自上而下的路径和横向连接;
[0017] 所述自下而上的路径是主干网络Darknet-33的前馈计算,由多个尺度的特征图组成的特征层次结构,其缩放步长为2;选择同一网络阶段的最后一层的输出作为的参考特征映射集;
[0018] 所述自上而下的路径通过特征尺度放大迁移融合,然后通过所述横向连接从自下而上的路径增强这些特征;每个横向连接合并来自自下而上路径和自上而下路径的相同空间大小的特征图。
[0019] 在优选的实施方案中,所述步骤(3)中使用K-means聚类方法对行人和车辆数据集中目标边框进行聚类,具体步骤包括:
[0020] (3.1)在待训练的数据集中统计目标框的长和宽,通过观察选择k个初始聚类中心点;
[0021] (3.2)逐一计算所有数据对象到各个聚类中心点间的距离,之后将数据对象分配给距离最短的集合;其中以两个候选边框的交并比作为相似度标准;
[0022] (3.3)重新计算每个划分的中心点并更新产生新的划分;
[0023] (3.4)判断重新计算的划分中心点与原中心点距离是否满足停止条件,若满足,则输出聚类结果,否则将转至步骤(3.2)。
[0024] 在优选的实施方案中,所述步骤(3)中在模型训练时,位置回归损失函数为:
[0025]
[0026] 其中,N是先验框中与真实框的IOU值大于设置的阈值的个数,xi,yi,wi,hi为第i个预测框的中心点坐标,宽和高, 为与第i个预测框匹配的真实框的中心点坐标,宽和高。
[0027] 在优选的实施方案中,所述步骤(3)中在模型训练时,采用双曲正切tanh非线性映射函数将即得的语义特征d映射到维度为C的类别空间,C是分类器中类别的数目,计算公式:
[0028]
[0029] 其中,Wc是第c类针对图像特征d的参数矩阵,bc是第c类的偏差向量;
[0030] 然后,利用softmax分类器决策判决得到类别,计算公式:
[0031]
[0032] 其中,pc是类别为c的预测概率;这里使用交叉熵损失函数作为模型训练的优化目标,类别打分损失函数公式:
[0033]
[0034] 其中,pi(c)表示第i个先验框属于类别c的打分, 表示第i个先验框匹配的真实框属于类别c的打分,N是先验框中与真实框的IOU值大于设置的阈值的个数。
[0035] 在优选的实施方案中,所述步骤(4)中采用非极大值抑制去除冗余的检测框的方法具体包括:首先,根据分类器的类别分类概率做排序,选择具有最大置信度的检测框,将其从集合中移除并加入最终的检测结果中;然后将集合中与其重叠度大于设定的阈值的检测框移除;最后,重复这个过程,直到集合为空。
[0036] 本发明所述的一种基于改进YOLOv3的行人和车辆检测系统,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于改进YOLOv3的行人和车辆检测方法。
[0037] 有益效果:本发明提供的基于改进YOLOv3的行人和车辆检测方法,引入了特征图尺度缩减迁移融合的方法,将低层特征引入高层特征进行特征重用;提取特征的主干网络由Darknet-53修改为Darknet-33,更好的匹配行人和车辆的检测;提出了改进的K-means聚类方法设定初始框,替换手工设定初始框的方法;采用特征图尺度放大的方法替换FPN的上采样方法,将高层特征加入低层特征进行语义信息补充做预测。本发明不仅可以实现智慧城市场景中行人和车辆等目标的检测,还可以有效提高检测的速度和精度。

附图说明

[0038] 图1是本发明实施例的检测方法整体流程图。
[0039] 图2是本发明实施例的检测方法训练过程流程图。
[0040] 图3是本发明实施例的检测方法测试过程流程图。
[0041] 图4是本发明实施例中特征图尺度放大示意图。
[0042] 图5是本发明实施例中尺度缩减迁移融合示意图。
[0043] 图6是本发明实施例中尺度放大迁移融合示意图。
[0044] 图7是本发明实施例中FPN示意图。
[0045] 图8是本发明实施例的Darknet-33示意图。

具体实施方式

[0046] 下面结合附图和具体实施例,对本发明的技术方案进行详细说明:
[0047] 如图1所示,本发明实施例公开的一种基于改进YOLOv3的行人和车辆检测方法,主要流程包括数据准备、特征提取、模型建立、模型训练、模型测试和结果输出。如图2模型训练过程是:首先,对已经标注好目标位置和类别的数据集采用Darknet-33网络作为主干网络提取特征,并在构建的特征金字塔网络上生成先验框,然后,对真实框与先验框的IOU值大于0.5的先验框进行BBox回归和多标签分类的损失计算。如图3模型测试过程是输入一张图片,采用训练好的模型进行检测并输出所有的检测结果,最后采用非极大值抑制法去除冗余的检测框,输出最优的检测结果。具体地,本发明实施例主要包括如下步骤:
[0048] 步骤A,构建带有尺度缩减迁移的特征提取网络Darknet-33。本发明通过引入一种新的特征图尺度缩减方法,将低层特征图拆分成高层特征图,再通过直连接的方式,将特征图跨层融合,进行特征重用;并考虑行人和车辆检测与YOLOv3相比类别大大减少,故为了降低模型复杂度,将YOLOv3的网络Darknet-53修改为Darknet-33,作为特征提取的主干网络。
[0049] 尺度问题是物体检测的核心问题。将来自具有不同分辨率的多个特征图的预测组合起来对于检测多尺度对象是有益的。但是,在原YOLOv3网络的最后一个密集块中,除了通道数之外,层的所有输出都具有相同的宽高和深度。例如,当输入图像为256×256时,Darknet-33的最后一个密集块尺寸为8×8。一种简单的方法是直接使用低层的高分辨率特征图进行预测,类似于SSD(Single Shot MultiBox Detector)。但是,低级特征映射缺少关于对象的语义信息,这可能导致对象检测的低性能。
[0050] 为了获得具有强语义信息的不同分辨率特征映射,本发明引用STOD[Peng Zhou,Bingbing Ni,Cong Geng,Jianguo Hu,Yi Xu.STOD:Scale-Transferrable Object Detection]特征图尺度转换方法。尺度转换非常高效,可以直接嵌入到Darknet中的密集块2
中。假设尺度转换的输入张量的尺寸是H×W×T·r ,其中H和W是特征图的长和宽,T是通道的个数,r是上采样因子,本例中设置r=2。尺度转换模块是元素周期性重排的操作。
[0051] 从图4特征图尺度放大中可以看出,缩小和放大传输层的宽度和高度是通过扩展和压缩通道数来实现的。数学公式可以表示为以下形式:
[0052]
[0053] 其中,ISR是高分辨率特征图,ILR是低分辨率特征图,其中h和w是特征图的长和宽,t代表第t个通道。尺度转换与使用反卷积层在卷积操作之前必须在放大步骤中填充零不相比,没有额外的参数和计算开销。
[0054] 本步骤中根据上述方法进行特征图尺度转换操作,将特征图跨层融合,进行特征重用。具体尺度缩减迁移融合实现如图5所示。
[0055] 首先将低层特征图做尺度缩减转换操作,下采样因子r设置为2,并通过64个1×1的卷积核进行卷积降维操作,然后通过3×3的卷积操作提取特征,再选择与融合层数量匹配的1×1的卷积核进行卷积升维操作,最后与融合层相加作为后序网络的输入继续提取特征。在原YOLOv3算法主干网络Darknet-53的基础上,将输入输出大小都为32×32的特征图之间的16次卷积操作和8次直连接改为8次卷积操作和4次直连接;将输入输出大小都为16×16的特征图之间的16次卷积操作和8次直连接改为8次卷积操作和4次直连接;将输入输出大小都为8×8的特征图之间的8次卷积操作和4次直连接改为4次卷积操作和2次直连接。因此,本实施例新的卷积计算主干网络为Darknet-33。本实施例分别在主干网络Darknet-
33的128×128、64×64和32×32特征层加入了该尺度缩减迁移融合的方法。
[0056] 步骤B,构建带有尺度放大的特征金字塔网络。特征金字塔网络根据低层的特征语义信息比较少,但是目标位置准确;高层的特征语义信息比较丰富,但是目标位置比较粗略的特点;采用多尺度特征融合的方式,在不同特征层独立进行于预测。根据步骤A的主干网络Darknet-33提取的特征,并以最后三层32×32,16×16和8×8的特征图作为输入构建特征金字塔网络,采用尺度放大方法替换简单的上采样方法,将高层特征图合并,再通过直连接的方式,将特征图跨层融合,构建特征金字塔网络。
[0057] 本实施例分别在主干网络Darknet-33的8×8和16×16特征层加入了特征尺度放大迁移融合的方法,替代原先破坏原始数据计算量巨大的简单上采样方法。具体尺度放大迁移融合实现如图6,首先将高层特征图做尺度放大迁移转换操作,上采样因子r设置为2,并通过64个1×1的卷积核进行卷积降维操作,然后通过3×3的卷积操作提取特征,再选择与融合层数量匹配的1×1的卷积核进行卷积升维操作,最后与融合层相加作为预测特征。
[0058] 我们的目标是利用主干网络从低级到高级的语义金字塔特征层次结构,并构建一个具有高级语义的特征金字塔网络。我们的方法采用任意大小的单尺度图像作为输入,并以完全卷积的方式输出多个级别的按比例大小的特征图。这个过程独立于骨干卷积体系结构,在本实施例中我们使用Darknet-33来呈现结果。我们的金字塔的构造涉及自下而上的路径,自上而下的路径和横向连接,如图7所示。
[0059] 自下而上的途径。自下而上的路径是骨干网络Darknet-33的前馈计算,它计算一个由多个尺度的特征图组成的特征层次结构,其缩放步长为2。通常有许多层产生相同大小的输出图,我们说这些图层处于同一网络阶段。我们选择每个阶段的最后一层的输出作为我们的参考特征映射集,将丰富它们以创建我们的金字塔。这种选择很自然,因为每个阶段的最深层具有最强的特征。
[0060] 自上而下的通道和横向连接。自上而下的路径通过特征尺度放大迁移融合,然后通过横向连接从自下而上的路径增强这些特征。每个横向连接合并来自自下而上路径和自上而下路径的相同空间大小的特征图。
[0061] 步骤C,K-means聚类选取先验框。运用K-means聚类算法思想,在训练集中以预测框和真实框的交并比作为相似度标准进行聚类选取先验框。
[0062] 使用K-means聚类方法对行人和车辆数据集中目标边框进行聚类。具体步骤为:
[0063] 1)在待训练的数据集里面统计目标框的长和宽,通过观察选择k个初始聚类中心点。
[0064] 2)逐一计算所有数据对象到各个聚类中心点间的距离,之后将数据对象分配给距离最短的集合。与传统的将欧式距离公式作为K-means聚类方法的相似度标准不同,本实施例采用的是IOU,即两个候选边框的交并比。
[0065] 3)重新计算每个划分的中心点并更新产生新的划分。
[0066] 4)判断重新计算的划分中心点与原中心点距离是否满足停止条件,若满足,则输出聚类结果,否则将转至步骤2)。
[0067] 步骤D,位置回归和Softmax分类。对BBox的坐标、高和宽使用平方误差的总和做损失计算,并采用双曲正切tanh非线性映射函数将即得的目标语义特征映射至目标类别空间,再采用softmax分类器决策判决得到目标类别。具体包括:
[0068] 步骤D1,在步骤C聚类选取的先验框基础上,网络对每个BBox预测四个坐标tx,ty,tw,th,如果单元格从图像的左上角偏移(Cx,Cy),并且BBox之前的宽度和高度为pw和ph,则预测的BBox四个坐标对应于:
[0069] bx=σ(tx)+cx    (2)
[0070] by=σ(ty)+cy    (3)
[0071]
[0072]
[0073] 其中σ为坐标转换函数。如果真实的坐标是 那么梯度值等于真实值减去预测值: 通过方程(2)、(3)、(4)和(5)容易算出真实的值。在训练时,本实施例使用平方误差的总和做损失计算,通过反向传播BP算法计算损失函数梯度同时更新模型参数,BBox的坐标、高和宽的平方误差总和损失公式为:
[0074]
[0075] 其中,N是先验框中与真实框的IOU值大于设置的阈值的个数,xi,yi,wi,hi为第i个预测框的中心点坐标,宽和高,xi,yi,wi,hi为与第i个预测框匹配的真实框的中心点坐标,宽和高。
[0076] 步骤D2,FPN多尺度预测的输出特征表示d,可以将其直接作为分类器的特征输入。首先,采用双曲正切tanh非线性映射函数将即得的语义特征d映射到维度为C的类别空间,C是分类器中类别的数目,计算公式:
[0077]
[0078] 其中,Wc是第c类针对图像特征d的参数矩阵,bc是第c类的偏差向量;
[0079] 然后,利用softmax分类器决策判决得到类别,计算公式:
[0080]
[0081] 其中,pc是类别为c的预测概率。这里使用交叉熵损失函数作为模型训练的优化目标,类别打分损失函数公式:
[0082]
[0083] 其中,pi(c)表示第i个先验框属于类别c的打分, 表示第i个先验框匹配的真实框属于类别c的打分。
[0084] 步骤E,非极大值抑制。检测目标时,根据步骤D输出的BBox和类别打分,采用非极大值抑制去除冗余的检测框。
[0085] 根据步骤D分类网络给出每个框的每类置信度,使用回归网络修正位置,再采用非极大值抑制去除冗余的检测框,保留最好的一个。首先,根据分类器的类别分类概率做排序,选择具有最大置信度的检测框,将其从集合中移除并加入最终的检测结果中;然后将集合中与其IOU值大于设定的阈值的检测框移除;最后,重复这个过程,直到集合为空。
[0086] 基于相同的发明构思,本发明另一实施例提供的一种基于改进YOLOv3的行人和车辆检测系统,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于改进YOLOv3的行人和车辆检测方法。
[0087] 以上实施例仅为说明本发明的技术思想,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。