一种行人重识别方法、装置、电子设备及计算机可读存储介质转让专利

申请号 : CN201811550892.7

文献号 : CN109784186B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 魏新明王孝宇

申请人 : 深圳云天励飞技术有限公司

摘要 :

本发明公开一种行人重识别方法、装置、电子设备及计算机可读存储介质,其中方法包括:获取待检测行人图像;通过卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息;通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息;将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,根据所述分类特征确定所述待检测行人图像的分类结果。通过实施本发明实施例,将行人图像多层次多尺度的特征相互融合,结合行人图像的全局特征和局部特征,从而得到一个更具鉴别能力的特征,提高了行人重识别的精度。

权利要求 :

1.一种行人重识别方法,其特征在于,包括:

获取待检测行人图像;

通过卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息;

通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息,所述多个中间特征信息与所述多个卷积层一一对应,其中,将所述多个中间特征信息合并后,作为局部特征信息包括对所述多个中间特征信息进行局部对齐,将局部对齐后的多个中间特征信息合并成所述局部特征信息;

所述对所述多个中间特征信息进行局部对齐,将局部对齐后的多个中间特征信息合并成所述局部特征信息包括:将n个中间特征信息a1,a2,…,an中的每一个中间特征信息划分成m个分块,从而得到n个分块后的中间特征信息{a11,a12,…,a1m},{a21,a22,…,a2m},…,{an1,an2,…,anm},其中所述n和所述m均为正整数;

确定m个中间特征分组{a11,a21…,an1},{a12,a22…,an2},…,{a1m,a2m,…,anm};

将所述m个中间特征分组合并后,作为所述局部特征信息{{a11,a21…,an1},{a12,a22…,an2}…{a1m,a2m,…,anm}};

将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,根据所述分类特征确定所述待检测行人图像的分类结果。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过卷积核对所述局部特征信息进行卷积,从而得到卷积后的局部特征信息。

3.根据权利要求1所述的方法,其特征在于,将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,根据所述分类特征确定所述待检测行人图像的分类结果,包括:基于所述全局特征信息,使用第一分类函数确定所述待检测行人图像的第一分类结果;

基于所述局部特征信息,使用第二分类函数确定所述待检测行人图像的第二分类结果;

结合所述第一分类结果和所述第二分类结果,确定所述待检测行人图像的最终分类结果。

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:使用交叉熵损失函数确定所述第一分类结果与实际分类结果之间的第一差值;

使用所述交叉熵损失函数确定所述第二分类结果与所述实际分类结果之间的第二差值;

基于所述第一差值和所述第二差值,调节所述卷积神经网络的模型参数。

5.一种行人重识别装置,其特征在于,包括:

获取单元,用于获取待检测行人图像;

第一提取单元,用于通过卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息;

第二提取单元,用于通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息,所述多个中间特征信息与所述多个卷积层一一对应,其中,第二提取单元包括中间特征提取单元,局部对齐单元;

所述中间特征提取单元,用于通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息;

所述局部对齐单元,用于对所述多个中间特征信息进行局部对齐,将局部对齐后的多个中间特征信息合并后,作为所述局部特征信息;

所述局部对齐单元具体用于:

将n个中间特征信息a1,a2,…,an中的每一个中间特征信息划分成m个分块,从而得到n个分块后的中间特征信息{a11,a12,…,a1m},{a21,a22,…,a2m},…,{an1,an2,…,anm},其中所述n和所述m均为正整数;

确定m个中间特征分组{a11,a21…,an1},{a12,a22…,an2},…,{a1m,a2m,…,anm};

将所述m个中间特征分组合并后,作为所述局部特征信息{{a11,a21…,an1},{a12,a22…,an2}…{a1m,a2m,…,anm}};

确定单元,用于将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,根据所述分类特征确定所述待检测行人图像的分类结果。

6.一种电子设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储应用程序代码,所述处理器用于调用所述程序代码,执行如权利要求1-4任一权利要求所述的方法。

7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使处理器执行如权利要求1-4任一权利要求所述的方法。

说明书 :

一种行人重识别方法、装置、电子设备及计算机可读存储介质

技术领域

[0001] 本发明涉及图像处理技术领域,特别是涉及一种行人重识别方法、装置电子设备及计算机可读存储介质。

背景技术

[0002] 近年来,随着人们对社会的公共安全越来越关注,视频监控系统大量普及。诸如机场、火车站、校园和办公大楼等公众场所,都亟需监控,为安防保驾护航。面对海量的监控视频数据,大量的人力需要投入到视频信息的监控与检索中去,这种方式的效率不仅低,还造成了额外资源浪费。如果能够利用计算机视觉分析技术,自动化监控来分析视频信息,必然可以极大地加快“平安城市”的建设。
[0003] 随着深度学习的迅速发展,并在人脸识别等相关领域取得巨大成功,尤其是卷积神经网络在人脸识别的广泛应用,也推动着行人重识别的发展。不同于人脸识别,行人重识别面临的问题更多,需要解决的问题更加棘手,因此对面的挑战也更大,比如:行人图像的角度、图像的清晰度、无法获取正脸图像以致于缺少可鉴别性的特征去分类,因此目前的基于卷积神经网络的行人重识别的识别精度较低。

发明内容

[0004] 本发明实施例提供一种行人重识别方法,通过实施本发明实施例,将行人图像多层次多尺度的特征相互融合,得到一个更具鉴别能力的特征,从而提高了行人重识别的精度。
[0005] 第一方面,本发明提供了一种行人重识别方法,该方法包括:
[0006] 获取待检测行人图像;
[0007] 通过卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息;
[0008] 通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息,所述多个中间特征信息与所述多个卷积层一一对应;
[0009] 将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,从而确定所述待检测行人图像的分类结果。
[0010] 在一具体的实现方式中,通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息,包括:
[0011] 通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息;
[0012] 对所述多个中间特征信息进行局部对齐,将局部对齐后的多个中间特征信息合并成所述局部特征信息。
[0013] 在一具体的实现方式中,对所述多个中间特征信息进行局部对齐,将局部对齐后的多个中间特征信息合并后,作为所述局部特征信息,包括:
[0014] 将n个中间特征信息a1,a2,…an中的每一个中间特征信息划分成m个分块,从而得到n个分块后的中间特征信息{a11,a12,…,a1m},{a21,a22,…,a2m}…{an1,an2,…,anm},其中所述n和所述m均为正整数;
[0015] 确定m个中间特征分组{a11,a21…,an1},{a12,a22,…,an2}…{a1m,a2m,…,anm};
[0016] 将所述m个中间特征分组合并后,作为所述局部特征信息{{a11,a21…an1},{a12,a22,…,an2}…{a1m,a2m,…,anm}}。
[0017] 在一具体的实现方式中,所述方法还包括:通过卷积核对所述局部特征信息进行卷积,从而得到卷积后的局部特征信息。
[0018] 在一具体的实现方式中,将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,从而确定所述待检测行人图像的分类结果,包括:
[0019] 基于所述全局特征信息,使用第一分类函数确定所述待检测行人图像的第一分类结果;
[0020] 基于所述局部特征信息,使用第二分类函数确定所述待检测行人图像的第二分类结果;
[0021] 结合所述第一分类结果和所述第二分类结果,确定所述待检测行人图像的最终分类结果。
[0022] 可选地,所述方法还包括:
[0023] 使用交叉熵损失函数确定所述第一分类结果与实际分类结果之间的第一差值;
[0024] 使用所述交叉熵损失函数确定所述第二分类结果与所述实际分类结果之间的第二差值;
[0025] 基于所述第一差值和所述第二差值,调节所述卷积神经网络的模型参数。
[0026] 第二方面,本发明实施例提供了一种行人重识别装置,该装置包括:
[0027] 获取单元,用于获取待检测行人图像;
[0028] 第一提取单元,用于通过卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息;
[0029] 第二提取单元,用于通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息,所述多个中间特征信息与所述多个卷积层一一对应;
[0030] 确定单元,用于将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,根据所述分类特征确定所述待检测行人图像的分类结果。
[0031] 在一具体的实现方式中,所述第二提取单元包括中间特征提取单元,局部对齐单元,
[0032] 所述中间特征提取单元,用于通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息;
[0033] 所述局部对齐单元,用于对所述多个中间特征信息进行局部对齐,将局部对齐后的多个中间特征信息合并后,作为所述局部特征信息。
[0034] 在一具体的实现方式中,所述局部对齐单元包括划分单元,第一组合单元,第二组合单元,
[0035] 所述划分单元,用于将n个中间特征信息a1,a2,…,an中的每一个中间特征信息划分成m个分块,从而得到n个分块后的中间特征信息{a11,a12,…,a1m},{a21,a22,…,a2m}…{an1,an2,…,anm},其中所述n和所述m均为正整数;
[0036] 所述第一组合单元,用于确定m个中间特征分组{a11,a21,…,an1},{a12,a22,…,an2}…{a1m,a2m,…,anm};
[0037] 所述第二组合单元,用于将所述m个中间特征分组合并后,作为所述局部特征信息{{a11,a21,…,an1},{a12,a22,…,an2}…{a1m,a2m,…,anm}}。
[0038] 在一具体的实现方式中,所述装置还包括融合单元,所述融合单元,用于通过卷积核对所述局部特征信息进行卷积,从而得到卷积后的局部特征信息。
[0039] 在一具体的实现方式中,所述确定单元用于,
[0040] 基于所述全局特征信息,使用第一分类函数确定所述待检测行人图像的第一分类结果;
[0041] 基于所述局部特征信息,使用第二分类函数确定所述待检测行人图像的第二分类结果;
[0042] 结合所述第一分类结果和所述第二分类结果,确定所述待检测行人图像的最终分类结果。
[0043] 可选地,所述装置还包括调节单元,所述调节单元用于,
[0044] 使用交叉熵损失函数确定所述第一分类结果与实际分类结果之间的第一差值;
[0045] 使用所述交叉熵损失函数确定所述第二分类结果与所述实际分类结果之间的第二差值;
[0046] 基于所述第一差值和所述第二差值,调节所述卷积神经网络的模型参数。
[0047] 第三方面,本发明实施例提供了一种电子设备,其特征在于,包括处理器、输入输出设备和存储器,所述处理器、输入输出设备和存储器相互连接,其中,所述存储器用于存储应用程序代码,所述输入输出设备用于与其他设备交互数据,所述处理器被配置用于调用所述程序代码,执行本发明任一实施例所述行人重识别方法的步骤。
[0048] 第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行本发明任一实施例所述行人重识别方法的步骤。
[0049] 基于本发明上述实施例提供的行人重识别方法、装置电子设备以及计算机可读存储介质,获取待检测行人图像,通过卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息,并通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息,最后结合所述全局特征信息和所述局部特征信息,确定所述待检测行人图像的分类结果。通过实施本发明实施例,将行人图像多层次多尺度的特征相互融合,结合行人图像的全局特征和局部特征,从而得到一个更具鉴别能力的特征,提高了行人重识别的精度。

附图说明

[0050] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图[0051] 图1是本发明实施例提供的一种行人重识别方法示意流程图;
[0052] 图2是本发明实施例提供的带矩形框标注的行人图像;
[0053] 图3是本发明实施例提供的提取行人图像全局特征的过程示意图;
[0054] 图4是本发明实施例提供的提取行人图像局部特征的过程示意图;
[0055] 图5是本发明实施例提供的中间特征局部对齐的过程示意图;
[0056] 图6是本发明实施例提供的提取行人图像特征的过程示意图;
[0057] 图7是本发明实施例提供的一种行人重识别装置结构示意图;
[0058] 图8是本发明实施例提供的一种第二提取单元的结构示意图;
[0059] 图9是本发明实施例提供的一种局部对齐单元的结构示意图;
[0060] 图10是本发明实施例提供的一种行人重识别装置结构示意图。

具体实施方式

[0061] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0062] 应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0063] 还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0064] 还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0065] 如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0066] 本发明实施例提供一种行人重识别方法,请参见图1,图1是本发明实施例提供的一种行人重识别方法示意流程图,如图1所示,该方法包括:
[0067] 101、获取待检测行人图像。
[0068] 在本发明行人重识别方法的一个具体的实施例中,所述待检测行人图像可以是包括一个或者多个行人的图像,所述待检测行人图像可以是带矩形框标注的也可以是不带矩形框标注的行人图像,所述带矩形框标注的行人图像如图2所示,图2是本发明实施例提供的带矩形框标注的行人图像,从图2可知,带矩形框标注的行人图像为对图像包括的行人使用矩形框进行标注的图像,使用带矩形框标注的行人图像作为所述检测行人图像,便于卷积神经网络快速识别出所述行人图像包括的行人在图像中的位置。若所述待检测行人图像为不带矩形框标注的行人图像,则需先通过卷积神经网络对所述待检测行人图像包括的行人进行定位处理。
[0069] 可选地,获取待检测行人图像可以是一幅静态图片,如常见的JPEG,TIFF,BMP,GIF,PNG,RAW等格式的图片。本发明并不对图片格式做限定。此外,待检测行人图像也可以是视频流中截取的一帧,或者图像序列中的一张图片。
[0070] 102、通过卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息。
[0071] 在本发明行人重识别方法的一个具体的实施例中,构建一个卷积神经网络。可以通过该卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息。该卷积神经网络的结构参见图3,该卷积神经网络依次连接有包括一个输入层1、三个卷积层2-4、一个池化层5、一个全连接层6以及一个输出层7。每个卷积层的卷积核对输入图片或上一个卷积层特征图进行卷积,并输出下一层的特征图,最后一层卷积层3连接池化层5,池化层5用于对特征图采样降维处理,全连接层6的输入为池化层5所输出的特征向量,输入的特征向量与全连接层的连接权重相乘之后,输出一个固定长度特征向量,最后通过输出层7输出待检测行人图像的全局特征信息,其中全局特征信息是从整体上对行人图像的概述,包括行人的身高、体型、性别以及所属年龄段等。应理解,上述卷积神经网络结构包括的输入层、卷积层、池化层、全连接层以及输出层每一层对应的层数仅仅用于举例,不应构成具体限定。
[0072] 103、通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息。
[0073] 在本发明行人重识别方法的一个具体的实施例中,步骤103可以通过如下方式实现:通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息;对所述多个中间特征信息进行局部对齐,将局部对齐后的多个中间特征信息合并后,得到所述局部特征信息。
[0074] 其中,步骤103使用的卷积神经网络与步骤102中的卷积神经网络实际为同一个网络,参见图4,图4是本发明实施例提供的提取行人图像局部特征的过程示意图,卷积神经网络的每一卷积层都分别提取出待检测行人图像的中间特征信息,例如卷积层1提取出中间特征信息1,卷积层2提取出中间特征信息2,卷积层3提取出中间特征信息3,再将中间特征信息1、中间特征信息2以及中间特征信息3合并后,得到局部特征信息。
[0075] 进一步地,对所述多个中间特征信息进行局部对齐,将局部对齐后的多个中间特征信息合并成所述局部特征信息,可以通过如下方式实现:将n个中间特征信息a1,a2,…an中的每一个中间特征信息划分成m个分块,从而得到n个分块后的中间特征信息{a11,a12,…,a1m},{a21,a22,…,a2m}…{an1,an2,…,anm},其中所述n和所述m均为正整数;确定m个中间特征分组{a11,a21,…,an1},{a12,a22,…,an2}…{a1m,a2m,…,anm};将所述m个中间特征分组合并后,作为所述局部特征信息{{a11,a21,…,an1},{a12,a22,…,an2}…{a1m,a2m,…,anm}}。结合图5对局部对齐过程进一步描述,将每个中间特征信息对应的张量(tensor)划分成6个分块,将编号相同的分块组合,从而得到6组中间特征分组,最后将6组中间特征分组合并后,得到的即为局部特征信息。
[0076] 对所述多个中间特征信息进行局部对齐目的在于让表示同一个局部的特征相互融合,避免让不同部位的特征相互融合造成混乱,通过对多个中间特征信息进行局部对齐的操作,从而提高了局部特征信息对行人图像的鉴别能力。
[0077] 可选地,通过卷积核对合并后的局部特征信息进行卷积,从而得到卷积后的局部特征信息,其中卷积核可以是1*1的卷积核。相比于没有通过卷积的局部特征信息,卷积后的局部特征信息中多个特征分块相互融合性更高,其对行人图像的鉴别能力也相应提高。
[0078] 可选地,所述局部特征信息从局部上对所述待检测行人图像的表达,所述所述局部特征信息包括:行人的发型、是否带耳环、是否带眼镜、上衣颜色款式、下装颜色款式、鞋子颜色款式、是否拿手提包、是否背书包、是否拿雨伞等等,应理解,上述局部特征信息的例子仅仅用于举例,不应构成具体限定。
[0079] 104、将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,根据所述分类特征确定所述待检测行人图像的分类结果。
[0080] 在本发明行人重识别方法的一个具体的实施例中,将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,根据所述分类特征确定所述待检测行人图像的分类结果,可以通过如下方式实现:基于所述全局特征信息,使用第一分类函数确定所述待检测行人图像的第一分类结果;基于所述局部特征信息,使用第二分类函数确定所述待检测行人图像的第二分类结果;结合所述第一分类结果和所述第二分类结果,确定所述待检测行人图像的最终分类结果。
[0081] 具体地,结合所述第一分类结果和所述第二分类结果,确定所述待检测行人图像的最终分类结果,可以通过公式:y=f(resultr,resultv)实现,其中resultr为所述待检测行人图像第一分类结果,所述第一分类结果是基于所述全局特征信息确定的,resultv为所述待检测行人图像的第二分类结果,所述第二分类结果是基于所述局部特征信息确定的。
[0082] 进一步地, 其中Wr为第一分类结果的权重,WV为第二分类结果的权重。所述待检测行人图像的最终分类结果,由所述第一分类结果和所述第二分类结果共同决定,第一分类结果对最终分类结果的贡献程度由 确定,第二分类结果对最终分类结果的贡献程度由 确定。
[0083] 可选地,上述第一分类函数和第二分类函数可以是同一个分类函数,该分类函数可以是softmax分类函数,具体地,softmax分类函数可以是: 其中P代表了所述待检测行人图像的分类概率,作为第一分类函数时,fi代表了全局特征信息,作为第二分类函数时,fi代表了局部特征信息。
[0084] 可选地,使用交叉熵损失函数确定所述第一分类结果与实际分类结果之间的第一差值;使用所述交叉熵损失函数确定所述第二分类结果与所述实际分类结果之间的第二差值;基于所述第一差值和所述第二差值,调节所述卷积神经网络的模型参数。
[0085] 其中,所述交叉熵损失函数的公式:H(p,q)=-∑xp(x)logq(x),其中,q(x)为卷积神经网络预测待检测行人图像的分类概率,p(x)为待检测行人图像的实际分类概率,而H(p,q)为q(x)和p(x)两者之间的交叉熵,它能表征真实样本标签的实际分类概率和预测的分类概率之间的差距。
[0086] 可选地,本发明行人重识别方法实施例所使用的卷积神经网络可以是:ResNet、VGGNet、GoogLeNet等卷积神经网络,应理解,本发明的重点不在所使用的卷积神经网络类型,此处仅仅用于举例,不应构成具体限定。
[0087] 下面结合图6对本发明行人重识别方法进行概述,图6是本发明实施例提供的提取行人图像特征的过程示意图,第一,从横向来看,通过多个卷积层提取所述待检测行人图像的全局特征信息;第二,从纵向来看,通过多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息,所述多个中间特征信息与所述多个卷积层一一对应;第三,对所述全局特征信息全局池化,对所述局部特征信息局部池化,然后基于全局特征信息,使用分类函数确定第一分类结果,基于局部特征信息,使用分类函数确定第二分类结果,最后确定所述第一分类结果与实际分类结果的差值,以及所述第二分类结果与实际分类结果的差值。
[0088] 基于本发明提供的行人重识别方法,获取待检测行人图像,通过卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息,并通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息,最后将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,根据所述分类特征确定所述待检测行人图像的分类结果。通过实施本发明行人重识别方法实施例,将行人图像多层次多尺度的特征相互融合,结合行人图像的全局特征和局部特征,从而得到一个更具鉴别能力的特征,提高了行人重识别的精度。
[0089] 本发明实施例还提供一种行人重识别装置,该装置可用于实现本发明上述各行人重识别方法实施例。具体地,参见图7,图7是本发明实施例提供的一种行人重识别装置结构示意图。本实施例的系统700包括:
[0090] 获取单元701,用于获取待检测行人图像;
[0091] 第一提取单元702,用于通过卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息;
[0092] 第二提取单元703,用于通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息,所述多个中间特征信息与所述多个卷积层一一对应;
[0093] 确定单元704,用于将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,根据所述分类特征确定所述待检测行人图像的分类结果。
[0094] 在一具体的实现方式中,参见图8,图8是本发明实施例提供的一种第二提取单元的结构示意图,所述第二提取单元703包括中间特征提取单元7031,局部对齐单元7032,[0095] 所述中间特征提取单元7031,用于通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息;
[0096] 所述局部对齐单元7032,用于对所述多个中间特征信息进行局部对齐,将局部对齐后的多个中间特征信息合并后,作为所述局部特征信息。
[0097] 进一步地,参见图9,图9是本发明实施例提供的一种局部对齐单元的结构示意图,所述局部对齐单元7032包括划分单元7032-1、第一组合单元7032-2、第二组合单元7032-3,对所述多个中间特征信息进行局部对齐,将局部对齐后的多个中间特征信息合并成所述局部特征信息,可以通过如下方式实现:所述划分单元7032-1,用于将n个中间特征信息a1,a2,…,an中的每一个中间特征信息划分成m个分块,从而得到n个分块后的中间特征信息{a11,a12,…,a1m},{a21,a22,…,a2m}…{an1,an2,…,anm},其中所述n和所述m均为正整数;所述第一组合单元7032-2,用于确定m个中间特征分组{a11,a21,…,an1},{a12,a22,…,an2}…{a1m,a2m,…,anm};所述第二组合单元7032-3,用于将所述m个中间特征分组合并后,作为所述局部特征信息{{a11,a21,…,an1},{a12,a22,…,an2}…{a1m,a2m,…,anm}}。结合图5对局部对齐过程进一步描述,将每个中间特征信息对应的张量(tensor)划分成6个分块,将编号相同的分块组合,从而得到6组中间特征分组,最后将6组中间特征分组合并后,得到的即为局部特征信息。
[0098] 在一具体的实现方式中,所述确定单元704用于,
[0099] 基于所述全局特征信息,使用第一分类函数确定所述待检测行人图像的第一分类结果;
[0100] 基于所述局部特征信息,使用第二分类函数确定所述待检测行人图像的第二分类结果;
[0101] 结合所述第一分类结果和所述第二分类结果,确定所述待检测行人图像的最终分类结果。
[0102] 可选地,所述装置还包括调节单元706,所述调节单元706用于,使用交叉熵损失函数确定所述第一分类结果与实际分类结果之间的第一差值;使用所述交叉熵损失函数确定所述第二分类结果与所述实际分类结果之间的第二差值;基于所述第一差值和所述第二差值,调节所述卷积神经网络的模型参数。
[0103] 在本发明行人重识别装置的一个具体的实施例中,所述待检测行人图像可以是包括一个或者多个行人的图像,所述待检测行人图像可以是带矩形框标注的也可以是不带矩形框标注的行人图像,所述带矩形框标注的行人图像如图2所示,图2是本发明实施例提供的带矩形框标注的行人图像,从图2可知,带矩形框标注的行人图像为对图像包括的行人使用矩形框进行标注的图像,使用带矩形框标注的行人图像作为所述检测行人图像,便于卷积神经网络快速识别出所述行人图像包括的行人在图像中的位置。若所述待检测行人图像为不带矩形框标注的行人图像,则需先通过卷积神经网络对所述待检测行人图像包括的行人进行定位处理。
[0104] 可选地,获取待检测行人图像可以是一幅静态图片,如常见的JPEG,TIFF,BMP,GIF,PNG,RAW等格式的图片。本发明并不对图片格式做限定。此外,待检测行人图像也可以是视频流中截取的一帧,或者图像序列中的一张图片。
[0105] 在本发明行人重识别装置的一个具体的实施例中,构建一个卷积神经网络。可以通过该卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息。该卷积神经网络的结构参见图3,该卷积神经网络依次连接有包括一个输入层1、三个卷积层2-4、一个池化层5、一个全连接层6以及一个输出层7。每个卷积层的卷积核对输入图片或上一个卷积层特征图进行卷积,并输出下一层的特征图,最后一层卷积层3连接池化层5,池化层5用于对特征图采样降维处理,全连接层6的输入为池化层5所输出的特征向量,输入的特征向量与全连接层的连接权重相乘之后,输出一个固定长度特征向量,最后通过输出层7输出待检测行人图像的全局特征信息,其中全局特征信息是从整体上对行人图像的概述,包括行人的身高、体型、性别以及所属年龄段等。应理解,上述卷积神经网络结构包括的输入层、卷积层、池化层、全连接层以及输出层每一层对应的层数仅仅用于举例,不应构成具体限定。
[0106] 所述待检测行人图像的多个中间特征信息;对所述多个中间特征信息进行局部对齐,将局部对齐后的多个中间特征信息合并后,得到所述局部特征信息。
[0107] 其中,第一提取单元702和第二提取单元703中使用的卷积神经网路实际为同一个网络,参见图4,图4是本发明实施例提供的提取行人图像局部特征的过程示意图,卷积神经网络的每一卷积层都分别提取出待检测行人图像的中间特征信息,例如卷积层1提取出中间特征信息1,卷积层2提取出中间特征信息2,卷积层3提取出中间特征信息3,再将中间特征信息1、中间特征信息2以及中间特征信息3合并后,得到局部特征信息。
[0108] 对所述多个中间特征信息进行局部对齐目的在于让表示同一个局部的特征相互融合,避免让不同部位的特征相互融合造成混乱,通过对多个中间特征信息进行局部对齐的操作,从而提高了局部特征信息对行人图像的鉴别能力。
[0109] 可选地,所述装置还包括融合单元705,所述融合单元705,用于通过卷积核对所述局部特征信息进行卷积,从而得到卷积后的局部特征信息,其中卷积核可以是1*1的卷积核。相比于没有通过卷积的局部特征信息,卷积后的局部特征信息中多个特征分块相互融合性更高,其对行人图像的鉴别能力也相应提高。
[0110] 可选地,所述局部特征信息从局部上对所述待检测行人图像的表达,所述所述局部特征信息包括:行人的发型、是否带耳环、是否带眼镜、上衣颜色款式、下装颜色款式、鞋子颜色款式、是否拿手提包、是否背书包、是否拿雨伞等等,应理解,上述局部特征信息的例子仅仅用于举例,不应构成具体限定。
[0111] 具体地,结合所述第一分类结果和所述第二分类结果,确定所述待检测行人图像的最终分类结果,可以通过公式:y=f(resultr,resultv)实现,其中resultr为所述待检测行人图像第一分类结果,所述第一分类结果是基于所述全局特征信息确定的,resultv为所述待检测行人图像的第二分类结果,所述第二分类结果是基于所述局部特征信息确定的。
[0112] 进一步地, 其中Wr为第一分类结果的权重,WV为第二分类结果的权重。所述待检测行人图像的最终分类结果,由所述第一分类结果和所述第二分类结果共同决定,第一分类结果对最终分类结果的贡献程度由 确定,第二分类结果对最终分类结果的贡献程度由 确定。
[0113] 可选地,上述第一分类函数和第二分类函数可以是同一个分类函数,该分类函数可以是softmax分类函数,具体地,softmax分类函数可以是: 其中P代表了所述待检测行人图像的分类概率,作为第一分类函数时,fi代表了全局特征信息,作为第二分类函数时,fi代表了局部特征信息。
[0114] 可选地,使用交叉熵损失函数确定所述第一分类结果与实际分类结果之间的第一差值;使用所述交叉熵损失函数确定所述第二分类结果与所述实际分类结果之间的第二差值;基于所述第一差值和所述第二差值,调节所述卷积神经网络的模型参数。
[0115] 其中,所述交叉熵损失函数的公式:H(p,q)=-∑xp(x)logq(x),其中,q(x)为卷积神经网络预测待检测行人图像的分类概率,p(x)为待检测行人图像的实际分类概率,而H(p,q)为q(x)和p(x)两者之间的交叉熵,它能表征真实样本标签的实际分类概率和预测的分类概率之间的差距。
[0116] 可选地,本发明行人重识别方法实施例所使用的卷积神经网络可以是:ResNet、VGGNet、GoogLeNet等卷积神经网络,应理解,本发明的重点不在所使用的卷积神经网络类型,此处仅仅用于举例,不应构成具体限定。
[0117] 参见表1,表1是本发明行人重识别在market1501数据集上的测试结果,表中记录了mAP、Rank1、Rank5、Rank10的行人重识别的正确率,其中mAP表示平均正确率、下面以Rank5作为例子解释Rank1、Rank5、Rank10的含义,给定1张行人问询图像,卷积神经网络从行人图像库中识别出与该行人问询图像最相似的5张行人图像,这5张行人图像称为Rank5,其他Rank1、Rank10的含义以此类推。由表可知,问询方式无论是Single query(同一个ID的待检测行人图像仅使用一张图像去图像底库中匹配),还是Muilty query(同一个ID的待检测行人图像使用多张图像去图像底库中匹配),本发明行人重识别方法的Rank1,Rank5,Rank10的识别正确率超过90%,平均真确率为80%,而现有技术的行人重识别方案的识别正确率明显低于本发明方案。因此,将行人图像不同层次、不同尺度的特征相互融合,结合行人图像的全局特征信息以及不同层次的局部特征信息,得到的行人特征信息更具有鉴别能力,从而提高了识别精度。
[0118] 表1本发明行人重识别在market1501数据集上的测试结果
[0119]
[0120] 基于本发明提供的行人重识别装置,所述行人重识别装置获取待检测行人图像,通过卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息,并通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息,最后将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,根据所述分类特征确定所述待检测行人图像的分类结果。通过实施本发明行人重识别装置实施例,将行人图像多层次多尺度的特征相互融合,结合行人图像的全局特征和局部特征,从而得到一个更具鉴别能力的特征,提高了行人重识别的精度。
[0121] 另外,本发明实施例提供了一种电子设备,其可以包括本发明上述任一实施例的行人重识别方法。具体地,该电子设备例如可以是终端设备或者服务器等设备。
[0122] 本发明实施例还提供了另一种电子设备,包括:
[0123] 存储器,用于存储可执行指令;以及
[0124] 处理器,用于与所述存储器通信以执行所述可执行指令从而完成本发明上述任一实施例所述行人重识别方法方法的操作。
[0125] 图10是本发明实施例提供的一种电子设备结构框图。下面参考图10,其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备的结构示意图。如图10所示,该电子设备包括:一个或多个处理器1001;一个或多个输入设备1002,一个或多个输出设备1003和存储器1004。上述处理器1001、输入设备1002、输出设备1003和存储器1004通过总线
1005连接。存储器1002用于存储指令,处理器1001用于执行存储器1002存储的指令。其中,处理器1001被配置用于调用所述程序指令执行:
[0126] 获取待检测行人图像;
[0127] 通过卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息;
[0128] 通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息,所述多个中间特征信息与所述多个卷积层一一对应;
[0129] 将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,根据所述分类特征确定所述待检测行人图像的分类结果。
[0130] 应当理解,在本发明实施例中,所称处理器1001可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0131] 输入设备1002可以包括摄像头,其中该摄像头具备存储影像文件功能以及传输影像文件功能,输出设备1003可以包括显示器、硬盘、U盘等。
[0132] 该存储器1004可以包括只读存储器和随机存取存储器,并向处理器1001提供指令和数据。存储器1004的一部分还可以包括非易失性随机存取存储器。例如,存储器1004还可以存储设备类型的信息。
[0133] 具体实现中,本发明实施例中所描述的处理器1001、输入设备1002、输出设备1003可执行本发明实施例提供的一种行人重识别方法和系统的各个实施例中所描述的实现方式,在此不再赘述。
[0134] 在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:获取待检测行人图像;通过卷积神经网络的多个卷积层提取所述待检测行人图像的全局特征信息;通过所述卷积神经网络的多个卷积层分别提取所述待检测行人图像的多个中间特征信息,将所述多个中间特征信息合并后,作为局部特征信息,所述多个中间特征信息与所述多个卷积层一一对应;将所述全局特征信息和所述局部特征信息作为所述待检测行人图像的分类特征,根据所述分类特征确定所述待检测行人图像的分类结果。
[0135] 所述计算机可读存储介质可以是前述任一实施例所述的电子设备的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述电子设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0136] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0137] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的服务器、设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,也可执行发明实施例所描述的电子设备的实现方式,在此不再赘述。
[0138] 在本发明所提供的几个实施例中,应该理解到,所揭露的服务器、设备和方法,可以通过其它的方式实现。例如,以上所描述的服务器实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0139] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0140] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0141] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0142] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。