基于多粒度深度特征学习的行人检测方法及装置转让专利
申请号 : CN201810083595.X
文献号 : CN108596013B
文献日 : 2020-08-28
发明人 : 鲁继文 , 周杰 , 林纯泽
申请人 : 清华大学
摘要 :
权利要求 :
1.一种基于多粒度深度特征学习的行人检测方法,其特征在于,包括以下步骤:将输入图像传输至细粒度深度特征生成网络和检测网络;
通过所述细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,并通过所述检测网络得到检测特征;
对所述细粒度深度特征和所述检测特征进行元积,以显著化行人区域的特征和平滑背景区域的特征,并获取多粒度深度特征;以及根据所述多粒度深度特征得到行人检测结果。
2.根据权利要求1所述的基于多粒度深度特征学习的行人检测方法,其特征在于,所述细粒度深度特征生成网络为像素级别的二分类网络,其中,所述通过所述细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,进一步包括:将所述输入图像的每一个像素分为背景和行人;
根据所述背景和行人生成行人解析图;
将所述行人解析图转化为所述细粒度深度特征。
3.根据权利要求2所述的基于多粒度深度特征学习的行人检测方法,其特征在于,所述通过所述检测网络得到检测特征,进一步包括:将多个不同分辨率和感受野的卷积层作为检测层,其中,每个检测层负责预设尺度的目标,以解决行人检测任务中多尺度问题;
将每个检测特征输入检测模块,以得到检测结果图,其中,在所述检测模块引入目标的环境信息。
4.根据权利要求1所述的基于多粒度深度特征学习的行人检测方法,其特征在于,所述多粒度深度特征为:As,c=Ds,c(M)⊙FS,C,
其中,As,c为多粒度深度特征,M为行人解析图,Ds,c为细粒度深度特征变换操作,s为下采样倍数,c为通道数,FS,C为检测层特征,⊙为元积操作。
5.根据权利要求1-4任一项所述的基于多粒度深度特征学习的行人检测方法,其特征在于,通过以下多任务目标函数训练深度卷积网络:L=Lbox+λcLconf+λsLseg,
其中,L为目标函数,Lbox为检测框回归函数,λs和λc均为权重,Lconf为分类目标函数,Lseg为行人解析目标函数。
6.一种基于多粒度深度特征学习的行人检测装置,其特征在于,包括:生成模块,用于将输入图像传输至细粒度深度特征生成网络和检测网络;
第一获取模块,用于通过所述细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,并通过所述检测网络得到检测特征;
第二获取模块,用于对所述细粒度深度特征和所述检测特征进行元积,以显著化行人区域的特征和平滑背景区域的特征,并获取多粒度深度特征;
检测模块,用于根据所述多粒度深度特征得到行人检测结果。
7.根据权利要求6所述的基于多粒度深度特征学习的行人检测装置,其特征在于,所述细粒度深度特征生成网络为像素级别的二分类网络,其中,所述第一获取模块,进一步包括:划分单元,用于将所述输入图像的每一个像素分为背景和行人;
生成单元,用于根据所述背景和行人生成行人解析图;
转化单元,用于将所述行人解析图转化为所述细粒度深度特征。
8.根据权利要求7所述的基于多粒度深度特征学习的行人检测装置,其特征在于,所述第一获取模块,进一步包括:解决单元,用于将多个不同分辨率和感受野的卷积层作为检测层,其中,每个检测层负责预设尺度的目标,以解决行人检测任务中多尺度问题;
获取单元,用于将每个检测特征输入检测模块,以得到检测结果图,其中,在所述检测模块引入目标的环境信息。
9.根据权利要求6所述的基于多粒度深度特征学习的行人检测装置,其特征在于,所述多粒度深度特征为:As,c=Ds,c(M)⊙FS,C,
其中,As,c为多粒度深度特征,M为行人解析图,Ds,c为细粒度深度特征变换操作,s为下采样倍数,c为通道数,FS,C为检测层特征,⊙为元积操作。
10.根据权利要求6-9任一项所述的基于多粒度深度特征学习的行人检测装置,其特征在于,通过以下多任务目标函数训练深度卷积网络:L=Lbox+λcLconf+λsLseg,
其中,L为目标函数,Lbox为检测框回归函数,λs和λc为均为权重,Lconf为分类目标函数,Lseg为行人解析目标函数。
说明书 :
基于多粒度深度特征学习的行人检测方法及装置
技术领域
背景技术
行为分析,姿态估计,属性分析,智能监控,自动驾驶等实际应用中的核心技术之一。因此,
行人检测技术具有极高的科研价值和商业价值,并有大量学者从事行人检测的研究,以及
众多有效的行人检测的算法被提出来。
大的变动,所以单一尺度的检测器难以应对不同尺度的行人;其次,在自然场景下其他物体
(例如:车辆,指示牌等)可能对行人造成不同程度的遮挡,检测系统容易被遮挡物误导,从
而导致漏检;另外,在实际应用中大部分行人是以小尺度出现,小目标的特征不明显且分辨
率低,导致大量的漏检和误检。给定一张图像,为了得到图片中所有行人的位置,检测器通
常有以下三步:第一,对整张图片进行特征提取;其次,使用不同尺度和大小的预选框遍历
整张图片;最后,基于预选框中的特征,判断其中是否存在行人,并调整预选框的坐标和大
小,从而得到最后的行人检测框。其中,特征提取步骤是行人检测系统最重要的一步,所以,
相关技术中的研究方法可以被分为两类:基于手工特征的方法和基于深度特征学习的方
法。其中,基于手工特征的方法主要考虑了行人的先验信息,对输入图像进行一系列简单的
变化,得到行人特征。相比之下,深度特征学习的方法能够通过大量的数据自主学习出具有
高鲁棒性的特征,从而显著性的提升检测精准度。
发明内容
所述细粒度深度特征生成网络生成行人解析图,以得到细粒度深度特征,并通过所述检测
网络得到检测特征;对所述细粒度深度特征和所述检测特征进行元积,以显著化行人区域
的特征和平滑背景区域的特征,并获取多粒度深度特征;根据所述多粒度深度特征得到行
人检测结果。
术在复杂场景下对小尺度行人和被遮挡的行人检测精度和性能,同时本技术去除了现有行
人检测方法的预选框生成步骤,从而保证了行人检测系统的实时性。
度深度特征,进一步包括:将所述输入图像的每一个像素分为背景和行人;根据所述背景和
行人生成行人解析图;将所述行人解析图转化为所述细粒度深度特征。
的目标,以解决行人检测任务中多尺度问题;将每个检测特征输入检测模块,以得到检测结
果图,其中,在所述检测模块引入目标的环境信息。
络;第一获取模块,用于通过所述细粒度深度特征生成网络生成行人解析图,以得到细粒度
深度特征,并通过所述检测网络得到检测特征;第二获取模块,用于对所述细粒度深度特征
和所述检测特征进行元积,以显著化行人区域的特征和平滑背景区域的特征,并获取多粒
度深度特征;检测模块,用于根据所述多粒度深度特征得到行人检测结果。
术在复杂场景下对小尺度行人和被遮挡的行人检测精度和性能,同时本技术去除了现有行
人检测方法的预选框生成步骤,从而保证了行人检测系统的实时性。
一个像素分为背景和行人;生成单元,用于根据所述背景和行人生成行人解析图;转化单
元,用于将所述行人解析图转化为所述细粒度深度特征。
目标,以解决行人检测任务中多尺度问题;获取单元,用于将每个检测特征输入检测模块,
以得到检测结果图,其中,在所述检测模块引入目标的环境信息。
附图说明
具体实施方式
图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
edges),并提出利用积分通道特征将其融合,从而形成丰富的特征集。相关技术DPM
(Deformable Part Model,可形变部件模型的检测算法);针对人体部件建立一定形式的空
间约束,根据模型与部件模型的共同作用检测人体目标。虽然上述传统检测方法在简单场
景中能够达到应用需求,但在复杂的自然场景下,基于手工特征的行人检测方法的鲁棒性
低。相比之下,深度特征学习的方法能够通过大量的数据自主学习出具有高鲁棒性的特征,
从而显著性的提升检测精准度。相关技术中提出使用RPN(Region Proposal Network,预选
框生成网络)生成预选框和感兴趣区域池化(RoIPooling)固定不同大小感兴趣区域的特征
维度,并通过一系列的全链接层提取深度特征,然后用其训练级联森林。级联森林可以有针
对性的学习困难样本,从而提高了行人检测器在小尺度行人的检测性能。MS-CNN(Multi-
Scale CNN)提出使用不同感受野的卷积层生成不同尺度的预选框,感受野小的卷积层用于
小尺度预选框的生成而感受野大的卷积层用于大尺度预选框的生成,然后对所有预选框微
调和再分类得到最后检测结果。另一方面,相关技术中提出深度部件算法(DeepParts)来提
高行人被遮挡情况下的检测性能。该方法训练大量基于深度特征的行人部件检测器,结合
这些检测器的置信度判定预设框中是否存在目标。相关技术中将人体部件之间的空间关联
信息引入到深度部件检测器中,从而提升了遮挡情况下的行人检测性能。
行人检测方法。
进一步包括:将输入图像的每一个像素分为背景和行人;根据背景和行人生成行人解析图;
将行人解析图转化为细粒度深度特征。
以解决行人检测任务中多尺度问题;将每个检测特征输入检测模块,以得到检测结果图,其
中,在检测模块引入目标的环境信息。
目标的信息,然后对每一个像素进行二分类。本发明实施例的细粒度深度特征生成网络中
将VGG16作为基础网络并将不同分辨率和深度的卷积层上采样至原图大小,挖掘多层次的
特征信息来得到行人解析图。
本发明实施例中,通过弱监督的学习方法来训练深度卷积网络。训练数据提供的位置框将
整个行人包裹,但是包括了大量的背景,所以本发明实施例使用位置框中百分之八十的像
素为行人区域,其他像素视为背景,从而有效的去除背景像素,同时保证人体关键部位被视
为训练前景。
主要结构,具体地,本发明实施例选择了5个不同分辨率和感受野的卷积层作为检测层,其
中每一个检测层负责一定尺度的目标,从而解决行人检测任务中多尺度的问题。
行人更有可能出现在地面上而不是在天空中。具体地,本发明实施例通过使用一大一小的
卷积核对检测层进行卷积变化,得到两张不同感受野的特征图,然后将其合并,从而融入周
围环境信息。图6显示了检测模块的结构。另外,相关技术中基于深度学习的行人检测技术
大多数是先用一个预选框生成网络生成预选框,然后再对这些预选框进行微调和分类得到
最终的检测结果。考虑到行人检测实时性的需求,本发明实施例去除了预选框生成网络,并
在检测层的每一个位置手工设定不同大小的预设框,检测器对这些预设框进行微调和分类
即可得到最终的检测结果。实验表明运算速度得到了有效的提升并保证了检测精准性。
检。为了增强检测层特征对于小目标和人体部位的鲁棒性,我们利用细粒度深度特征辅助
粗粒度的检测层特征
征点乘上细粒度深度特征,得到多粒度深度特征,其特性是过滤了大部分背景,以及显著化
了人体部位的区域。如图6所示,图6显示了上述特征融合的网络结构。如图7所示,图7显示
了检测特征和多粒度特征的可视化图。从特征可视化图中可以看到,引入了行人解析信息
后,存在行人的区域得到更多的重视,背景则被忽略。
标函数来训练深度卷积网络:
图片的宽和高, 和ps分别是第s个像素的分类结果和标签,
的预选框生成步骤,从而保证了行人检测系统的实时性;结合分而治之的思想和深度卷积
网络的特征金字塔结构,使用分辨率高的特征图检测小尺度目标,使用分辨率低但语义能
力强的特征图检测大尺度目标,有效的解决行人尺度变化的问题;通过合并不同大小卷积
核得到的特征引入目标周围环境信息,参考目标周围物体从而加强特征的语义能力;引入
行人解析图,考虑基于像素级别的细粒度的分类,加强检测器对小目标和被遮挡的行人检
测的鲁棒性,行人解析图可以有效的将小目标和没有被遮挡的人体部位标出来,从而协助
行人检测器,克服在小目标和遮挡情况下检测的缺陷。
特征,并通过检测网络得到检测特征。第二获取模块300用于对细粒度深度特征和检测特征
进行元积,以显著化行人区域的特征和平滑背景区域的特征,并获取多粒度深度特征。检测
模块400用于根据多粒度深度特征得到行人检测结果。本发明实施例的装置10可以通过使
用不同分辨率的特征和引入细粒度特征,有效提高检测的精度和性能。
分单元用于将输入图像的每一个像素分为背景和行人。生成单元用于根据背景和行人生成
行人解析图。转化单元用于将行人解析图转化为细粒度深度特征。
个检测层负责预设尺度的目标,以解决行人检测任务中多尺度问题。获取单元用于将每个
检测特征输入检测模块,以得到检测结果图,其中,在检测模块引入目标的环境信息。
的预选框生成步骤,从而保证了行人检测系统的实时性;结合分而治之的思想和深度卷积
网络的特征金字塔结构,使用分辨率高的特征图检测小尺度目标,使用分辨率低但语义能
力强的特征图检测大尺度目标,有效的解决行人尺度变化的问题;通过合并不同大小卷积
核得到的特征引入目标周围环境信息,参考目标周围物体从而加强特征的语义能力;引入
行人解析图,考虑基于像素级别的细粒度的分类,加强检测器对小目标和被遮挡的行人检
测的鲁棒性,行人解析图可以有效的将小目标和没有被遮挡的人体部位标出来,从而协助
行人检测器,克服在小目标和遮挡情况下检测的缺陷。
隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三
个等,除非另有明确具体的限定。
部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员
而言,可以根据具体情况理解上述术语在本发明中的具体含义。
第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示
第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第
一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不
必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任
一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技
术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结
合和组合。
实施例进行变化、修改、替换和变型。