嵌入关键帧提取的行人重识别端到端网络架构转让专利

申请号 : CN202110003744.9

文献号 : CN112712042B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李耶殷光强李超王治国王春雨

申请人 : 电子科技大学

摘要 :

本发明公开了嵌入关键帧提取的行人重识别端到端网络架构,按照数据处理顺序从上自下顺次设置特征提取单元、关键帧提取单元和识别单元,其中,征提取单元,用于行人特征提取;关键帧提取单元,用于关键帧的提取;识别单元,用于身份识别并证明关键帧的有效性;在特征提取单元中输入样本由多组统一为供电张数的视频片段所组成,在关键帧提取单元的设置上,采用两个卷积层、一个池化层和一个全连接层所构成的神经网络并采用两者损失函数进行loss的计算,本发明的实施,能够使用重识别的效果的优劣来反映提取关键帧的好坏。

权利要求 :

1.嵌入关键帧提取的行人重识别端到端网络架构,包括关键帧提取单元、特征提取单元、识别单元,其特征在于:所述行人重识别端到端网络架构按照数据处理顺序从上自下顺次设置特征提取单元、关键帧提取单元和识别单元;

所述特征提取单元包括输入样本及用于对输入样本进行特征提取的基础网络,所述基础网络采用改进的ResNet‑50神经网络,且改进的ResNet‑50神经网络包括7*7核的卷积层、池化层以及四个小模块,四个小模块分别设置有3个、4个、6个、3个残差模块;

所述关键帧提取单元采用两个卷积层、一个池化层和一个全连接层所构成的神经网络;关键帧提取单元进行关键帧提取包括下述步骤:

1)将特征提取单元所提取的特征图F输入到关键帧提取单元,得到关键帧提取单元的池化层后的特征图输出F’;

2)利用层次聚类法,对特征图输出F’进行聚类,生成伪标签;

3)将伪标签作为真实标签,利用交叉熵损失函数训练关键帧提取网络;经多次迭代后完成关键帧提取网络的训练,并将每一次迭代训练时关键帧提取网络最后的全连接层进行分类,并从特征图输出F’的分类中各挑选出一个作为关键帧的特征,组成集合Fk’,即得输入样本的关键帧集合;

所述识别单元包括一个temporal pooling层和一个全连接层,且识别单元用于身份识别并证明关键帧的有效性具体为:首先利用temporal pooling层融合时间维度上的特征,而后将融合后的特征输入到全连接层,利用triplet loss和交叉熵损失函数计算loss,不断优化识别单元;

所述temporal pooling层进行时间维度上的特征融合时,具体计算公式如下:公式中c代表了一个ID,T代表一段序列中帧数,ffuse代表融合的特征,t代表从1到T的迭代变量。

2.根据权利要求1所述的嵌入关键帧提取的行人重识别端到端网络架构,其特征在于:四个小模块中的残差模块采用统一形式,皆设置有一个1*1核的卷积层、归一化层、3*3核的卷积层、BN层和1*1核的卷积层。

3.根据权利要求1所述的嵌入关键帧提取的行人重识别端到端网络架构,其特征在于:所述输入样本包括统一采用固定张数视频图像为一组的视频片段,且输入样本的维度为:N*T*3*256*128;其中,N代表一组输入样本中包含视频片段的数量,T代表每个视频片段中帧序列长度,3代表彩色图像的r、g、b通道,258*128表示输入的视频图像大小。

说明书 :

嵌入关键帧提取的行人重识别端到端网络架构

技术领域

[0001] 本发明涉及计算机视觉领域中的行人重识别技术领域,具体的说,是嵌入关键帧提取的行人重识别端到端网络架构。

背景技术

[0002] Person Re‑identification(Person ReID)主要是从不同摄像头中分辨出(distinguishing)行人身份(person identity),旨在弥补目前固定的摄像头的视觉局限,
并可与行人检测和行人跟踪技术相结合,可广泛应用于智能视频监控(intelligent video 
surveillance)、智能安保(intelligent security)等领域。这已经成为计算机视觉领域十
分重要的一项工作。
[0003] 但是,ReID是一个具有挑战性的问题。由于同一个行人在不同摄像头下的角度朝向不同,同时不同背景下的色调和饱和度也不同,而且有些不同ID(identity)的行人具有
极其相似的特征,所以,仅利用单一图像信息进行行人重识别很难取得飞跃性的突破。近些
年来基于视频的ReID方法因为不仅包含图像的空间信息,同时还包含时间维上的动态信
息,所以逐渐受到重视。
[0004] 基于视频的ReID方法需要抽取时间维度的信息,即需要网络的输入为图片帧序列(frame sequence),然而不同ID(identity)的图片帧序列(frame sequence)长度不等,随
之而来的一个很重要的问题是选取哪些帧输入到网络,同时又怎么证明选取帧能够最好的
提取样本的特征。目前一些研究对所有帧统一处理,采用random和evenly等方式挑选出帧,
输入到网络中进行特征提取,这种方式没有加入任何的人为干预,很多情况下会导致选取
的帧相似性极大,对网络输入造成冗余;另外的研究采用Cluster以及Frame difference等
方式选出帧,然后输入到网络中进行特征提取,这种方式虽然人为提取了关键帧,但是没有
将关键帧挑选和行人重识别任务相关联,导致无法及时判断选取的关键帧是否对行人重识
别任务有效。
[0005] 所以对帧序列中一些关键帧的提取是非常有必要的。它不仅能够使得信息冗余达到较低的水平,还能有效地反映改序列的信息,以达到增强输入的作用。提取关键帧在动作
识别中应用非常广泛,但是却没有一个权威的指标去衡量关键帧提取的质量。
[0006] 现有技术针对视频流进行行人重实别的方法,如一种使用随机或者均匀抽取视频数据集中的方法,并利用一种名为temporal pooling的方法来对行人进行识别。该方法共
分为三部分从上到下依次顺序为:
[0007] 1、关键帧提取单元
[0008] 此部分是处于数据的预处理部分,实现关键帧的提取。首先将源数据(即多段长度不定视频片段)进行抽样。此部分的方法主要应用了两种方法:随机抽取、均匀抽取,之后将
抽取关键帧通过特定的采样方法(即若是一组为32张图片,则对8个不同摄像头下的视频片
段中抽样4张图片作为输入,共32张图片)划分为一组以方便后面的损失计算。最后将这些
帧组成一个批次加入后面的特征提取单元。
[0009] 2、特征提取单元
[0010] 这个部分采用去掉了最后两层的ResNet‑50作为基础网络。这个基础网络包含了一个7*7视野的卷积核(Conv1)和一个池化层以及四个残差块。其输入的维度形状为N*T*3*
256*128,N代表了批次的数量,T代表每个样本中帧的数量,3代表彩色图像的r,g,b通道,
256*128代表输入图像的大小。样本经过特征提取单元后,输出的特征图具有这样的维度:
N*T*2048*8*4。
[0011] 3、识别单元
[0012] 在识别单元中,应用了temporal pooling方法提取时间维度信息。将特征提取单元的提取的深度特征输入到识别单元,利用这些帧信息来进行重识别任务。识别单元包括
时间池化层(temporal pooling)和一个全连接层。时间池化层用于融合每个帧序列中帧信
息,以达到提取时间维信息的作用。具体公式如下:
[0013]
[0014] 公式中c代表了一个ID,也就是只展示了一个ID的特征融合过程。其实是需要对所有ID的行人特征做融合的。最后,将融合后的特征输入到全连接层进行身份的识别和分类;
之后不断优化整个网络以训练一个较好的模型。

发明内容

[0015] 本发明的目的在于提供嵌入关键帧提取的行人重识别端到端网络架构,使用重识别的效果的优劣来反映提取关键帧的好坏。
[0016] 本发明通过下述技术方案实现:嵌入关键帧提取的行人重识别端到端网络架构,包括关键帧提取单元、特征提取单元、识别单元,为使用重识别的效果的优劣来反映提取关
键帧的好坏,特别采用下述设置方式:所述行人重识别端到端网络架构按照数据处理顺序
从上自下顺次设置特征提取单元、关键帧提取单元和识别单元。
[0017] 其中,特征提取单元,用于行人特征提取;
[0018] 关键帧提取单元,用于关键帧的提取;
[0019] 识别单元,用于身份识别并证明关键帧的有效性。
[0020] 进一步的为更好地实现本发明,特别采用下述设置方式:所述特征提取单元包括输入样本及用于对输入样本进行特征提取的基础网络,所述基础网络采用去掉最后两层
(即全连接层)的ResNet‑50而得到的改进的ResNet‑50神经网络,且改进的ResNet‑50神经
网络包括7*7核的卷积层(Conv1)、池化层(maxpooling)以及四个小模块,四个小模块分别
设置有3个、4个、6个、3个残差模块。
[0021] 进一步的为更好地实现本发明,特别采用下述设置方式:四个小模块中的残差模块采用统一形式,皆设置有一个1*1核的卷积层、归一化层(BN层)、3*3核的卷积层、BN层和
1*1核的卷积层。
[0022] 进一步的为更好地实现本发明,特别采用下述设置方式:所述输入样本包括统一采用固定张数(优选为12张)视频图像为一组的视频片段,且输入样本的维度为:N*T*3*
256*128;其中,N代表一组输入样本中包含视频片段的数量,T代表每个视频片段中帧序列
长度,3代表彩色图像的r、g、b通道,258*128表示输入的视频图像大小;输入样本经过特征
提取单元后,输出的特征图具有的维度为:N*T*2048*8*4。
[0023] 已经得到特征提取单元提取的特征图F,且F∈RN×T×2048×8×4。由于关键帧的关键在于这些帧彼此之间相似度比较小,则完全可以将关键帧提取的任务抽象成一个分类任务。
相对于ReID的识别的大分类任务(即基于N维度的分类任务)来说,关键帧的挑选为小分类
任务(即基于T维度的分类任务)。
[0024] 针对关键帧挑选的小分类任务,在解决标签生成的问题,优选使用层次聚类传统算法来生成对应视频片段中每个ID下的每一帧Fiji∈N,j∈T,对应的标签Liji∈N,j∈T。
[0025] 基于此,进一步的为更好地实现本发明,特别采用下述设置方式:所述关键帧提取单元采用两个卷积层、一个池化层和一个全连接层所构成的神经网络。
[0026] 进一步的为更好地实现本发明,特别采用下述设置方式:所述关键帧提取单元进行关键帧提取过程为Lij=C(Fij)=K i∈N,j∈T,包括下述步骤:
[0027] 1)将特征提取单元所提取的特征图F输入到关键帧提取单元,得到关键帧提取单元的池化层后的特征图输出F’;
[0028] 2)利用层次聚类法,对特征图输出F’进行聚类,生成伪标签;
[0029] 3)将伪标签作为真实标签,利用交叉熵损失函数训练关键帧提取网络;经多次迭代后完成关键帧提取网络的训练,并将每一次迭代训练时关键帧提取网络最后的全连接层
进行分类,并从特征图输出F’的分类中各挑选出一个作为关键帧的特征,组成集合F’k,且
即得输入样本的关键帧集合,从而对应到原来的特征提取单元的输
入,找到对应的帧即为关键帧。
[0030] 在关键帧提取单元中,利用交叉熵损失函数训练关键帧提取网络时,采用的交叉熵损失函数计算公式为:
[0031]
[0032] 进一步的为更好地实现本发明,特别采用下述设置方式:所述识别单元包括一个temporal pooling层和一个全连接层,且识别单元用于身份识别并证明关键帧的有效性具
体为:首先利用temporal pooling层融合时间维度上的特征,而后将融合后的特征输入到
全连接层,利用triplet loss和交叉熵损失函数计算loss,不断优化识别单元。
[0033] 其中,在识别单元中,
[0034] triplet loss计算loss的具体计算公式为:
[0035]
[0036] 交叉熵损失函数计算loss的具体计算公式为:
[0037]
[0038] 对于第i个身份的第a个片段的特征用Fi,a表示,Fi,p,Fi,n分别表示与Fi,a同一行人ID下的特征与不同行人ID下的特征。D是特征之间的欧式距离。P代表行人ID数量,K代表每
个ID中的视频片段数量,y代表行人的ID;
[0039] 则行人重识别端到端网络最终的损失函数为:
[0040] LALL=Losskf+Lossids+Losstri。
[0041] 进一步的为更好地实现本发明,特别采用下述设置方式:所述temporal pooling层进行时间维度上的特征融合时,具体计算公式如下:
[0042]
[0043] 公式中c代表了一个ID,T代表一段序列中帧数,ffuse代表融合的特征,t代表从1到T的迭代变量。
[0044] 本发明与现有技术相比,具有以下优点及有益效果:
[0045] (1)本发明通过该端到端网络可以及时反馈关键帧提取的效果。
[0046] (2)本发明结合了关键帧提取与行人重识别任务,关键帧的提取对行人重识别的任务有促进作用。
[0047] (3)本发明以行人帧序列作为输入,可以提取行人时间和空间维度特征。

附图说明

[0048] 图1为本发明所述的行人重识别端到端网络架构图。

具体实施方式

[0049] 下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
[0050] 为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实
施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领
域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明
保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要
求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,
本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本
发明保护的范围。
[0051] 术语解释:
[0052] Video Sequence:视频序列;
[0053] Conv Net:卷积网络;;
[0054] Label:行人ID标签;
[0055] Cluster:聚类;
[0056] Conv:卷积;
[0057] Fc:网络模型全卷积层;
[0058] Softmax:得分归一化算法;
[0059] Key Frame ID:关键帧的ID标签;
[0060] Temporal Pooling:时间维度的特征融合操作。
[0061] 实施例1:
[0062] 本发明设计出嵌入关键帧提取的行人重识别端到端网络架构,包括关键帧提取单元、特征提取单元、识别单元,为使用重识别的效果的优劣来反映提取关键帧的好坏,特别
采用下述设置方式:所述行人重识别端到端网络架构按照数据处理顺序从上自下顺次设置
特征提取单元、关键帧提取单元和识别单元。
[0063] 其中,特征提取单元,用于行人特征提取;
[0064] 关键帧提取单元,用于关键帧的提取;
[0065] 识别单元,用于身份识别并证明关键帧的有效性。
[0066] 实施例2:
[0067] 本实施例是在上述实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述特征提取单元包括
输入样本及用于对输入样本进行特征提取的基础网络,所述基础网络采用去掉最后两层
(即全连接层)的ResNet‑50而得到的改进的ResNet‑50神经网络,且改进的ResNet‑50神经
网络包括7*7核的卷积层(Conv1)、池化层(maxpooling)以及四个小模块,四个小模块分别
设置有3个、4个、6个、3个残差模块。
[0068] 实施例3:
[0069] 本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:四个小模块中的残
差模块采用统一形式,皆设置有一个1*1核的卷积层、归一化层(BN层)、3*3核的卷积层、BN
层和1*1核的卷积层。
[0070] 实施例4:
[0071] 本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述输入样本包括
统一采用固定张数(优选为12张)视频图像为一组的视频片段,且输入样本的维度为:N*T*
3*256*128;其中,N代表一组输入样本中包含视频片段的数量,T代表每个视频片段帧序列
长度,3代表彩色图像的r、g、b通道,258*128表示输入的视频图像大小;输入样本经过特征
提取单元后,输出的特征图具有的维度为:N*T*2048*8*4。
[0072] 实施例5:
[0073] 本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在N×T×2048×8×4
此将不再赘述,已经得到特征提取单元提取的特征图F,且F∈R 。由于关键帧的关
键在于这些帧彼此之间相似度比较小,则完全可以将关键帧提取的任务抽象成一个分类任
务。相对于ReID的识别的大分类任务(即基于N维度的分类任务)来说,关键帧的挑选为小分
类任务(即基于T维度的分类任务)。
[0074] 针对关键帧挑选的小分类任务,在解决标签生成的问题,优选使用层次聚类传统算法来生成对应视频片段中每个ID下的每一帧Fiji∈N,j∈T,对应的标签Liji∈N,j∈T。
[0075] 基于此,进一步的为更好地实现本发明,特别采用下述设置方式:所述关键帧提取单元采用两个卷积层、一个池化层和一个全连接层所构成的神经网络。
[0076] 实施例6:
[0077] 本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述关键帧提取单
元进行关键帧提取过程为Lij=C(Fij)=K i∈N,j∈T,包括下述步骤:
[0078] 1)将特征提取单元所提取的特征图F输入到关键帧提取单元,得到关键帧提取单元的池化层后的特征图输出F’;
[0079] 2)利用层次聚类法,对特征图输出F’进行聚类,生成伪标签;
[0080] 3)将伪标签作为真实标签,利用交叉熵损失函数训练关键帧提取网络;经多次迭代后完成关键帧提取网络的训练,并将每一次迭代训练时关键帧提取网络最后的全连接层
进行分类,并从特征图输出F’的分类中各挑选出一个作为关键帧的特征,组成集合F’k,且
即得输入样本的关键帧集合,从而对应到原来的特征提取单元的输
入,找到对应的帧即为关键帧。
[0081] 在关键帧提取单元中,利用交叉熵损失函数训练关键帧提取网络时,采用的交叉熵损失函数计算公式为:
[0082]
[0083] 实施例7:
[0084] 本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述识别单元包括
一个temporal pooling层和一个全连接层,且识别单元用于身份识别并证明关键帧的有效
性具体为:首先利用temporal pooling层融合时间维度上的特征,而后将融合后的特征输
入到全连接层,利用triplet loss和交叉熵损失函数计算loss,不断优化识别单元。
[0085] 其中,在识别单元中,
[0086] triplet loss计算loss的具体计算公式为:
[0087]
[0088] 交叉熵损失函数计算loss的具体计算公式为:
[0089]
[0090] 对于第i个身份的第a个片段的特征用Fi,a表示,Fi,p,Fi,n分别表示与Fi,a同一行人ID下的特征与不同行人ID下的特征。D是特征之间的欧式距离。P代表行人ID数量,K代表每
个ID中的视频片段数量,y代表行人的ID;
[0091] 则行人重识别端到端网络最终的损失函数为:
[0092] LALL=Losskf+Lossids+Losstri。
[0093] 实施例8:
[0094] 本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述temporal 
pooling层进行时间维度上的特征融合时,具体计算公式如下:
[0095]
[0096] 公式中c代表了一个ID,T代表一段序列中帧数,ffuse代表融合的特征,t代表从1到T的迭代变量。
[0097] 实施例9:
[0098] 嵌入关键帧提取的行人重识别端到端网络架构,如图1所示,整个网络架构与现有技术一样分为关键帧提取单元、特征提取单元、识别单元三个单元,但与现有技术在设置顺
序上和应用方法上存在本质的不同,其为使用重识别的效果的优劣来反映提取关键帧的好
坏,该行人重识别端到端网络架构按照数据处理顺序从上自下顺次设置特征提取单元、关
键帧提取单元和识别单元。
[0099] 图1中,
[0100] (a)为特征提取单元,用于行人特征提取;
[0101] (b)为关键帧提取单元,用于关键帧的提取;
[0102] (c)为识别单元,用于身份识别并证明关键帧的有效性。
[0103] 所述特征提取单元包括输入样本及用于对输入样本进行特征提取的基础网络。
[0104] 该技术方案在应用方法上,就输入样本与现有技术亦存在本质的不同,其中,输入样本由多组视频片段所组成,每一组视频片段统一成12张,视频中不够12张的使用重复的
补全;在该实施例中,选取了8个不同行人的视频片段;所述基础网络采用去掉最后两层(即
全连接层)的ResNet‑50而得到的改进的ResNet‑50神经网络,该改进的ResNet‑50神经网络
包括7*7核的卷积层(Conv1)、池化层(maxpooling)以及四个小模块,该四个小模块分别设
置有3个、4个、6个、3个残差模块。
[0105] 其中,四个小模块中的残差模块采用统一形式,皆设置有一个1*1核的卷积层、归一化层(BN层)、3*3核的卷积层、BN层和1*1核的卷积层。
[0106] 在实施时,输入样本的维度为:N*T*3*256*128;其中,N代表一组输入样本中包含视频片段的数量,T代表每个视频片段中帧序列长度,3代表彩色图像的r、g、b通道,258*128
表示输入的视频图像大小;输入样本经过特征提取单元后,输出的特征图具有的维度为:N*
T*2048*8*4。
[0107] 已经得到特征提取单元提取的特征图F,且F∈RN×T×2048×8×4。由于关键帧的关键在于这些帧彼此之间相似度比较小,则完全可以将关键帧提取的任务抽象成一个分类任务。
相对于ReID的识别的大分类任务(即基于N维度的分类任务)来说,关键帧的挑选为小分类
任务(即基于T维度的分类任务)。
[0108] 针对关键帧挑选的小分类任务,如图1中(b)所示,在解决标签生成的问题,优选使用层次聚类传统算法来生成对应视频片段中每个ID下的每一帧Fiji∈N,j∈T,对应的标签
Liji∈N,j∈T。
[0109] 基于此,进一步的为更好地实现本发明,特别采用下述设置方式:所述关键帧提取单元采用两个卷积层、一个池化层和一个全连接层所构成的神经网络。
[0110] 所述关键帧提取单元进行关键帧提取过程为Lij=C(Fij)=K i∈N,j∈T,包括下述步骤:
[0111] 1)将特征提取单元所提取的特征图F输入到关键帧提取单元,得到关键帧提取单元的池化层后的特征图输出F’;
[0112] 2)利用层次聚类法,对特征图输出F’进行聚类,生成伪标签;
[0113] 3)将伪标签作为真实标签,利用交叉熵损失函数训练关键帧提取网络;经多次迭代后完成关键帧提取网络的训练,并将每一次迭代训练时关键帧提取网络最后的全连接层
进行分类,并从特征图输出F’的分类中各挑选出一个作为关键帧的特征,组成集合F’k,且
其,k为图像序列某一帧,K为图像序列所有帧ID集合,即得输入样本的
关键帧集合,从而对应到原来的特征提取单元的输入,找到对应的帧即为关键帧,则可以将
关键帧输入到识别单元中进行身份识别并证明关键帧的有效性。
[0114] 在关键帧提取单元中,利用交叉熵损失函数训练关键帧提取网络时,采用的交叉熵损失函数计算公式为:
[0115]
[0116] 在识别单元中个,应用了temporal pooling方法提取时间维度信息。使用时将关键帧提取单元挑选的关键帧输入到识别单元,利用这些帧信息来进行行人重识别,其中,识
别单元包括一个temporal pooling层和一个全连接层的结构(如图1的(b)所示),所述
temporal pooling层进行时间维度上的特征融合时,具体计算公式如下:
[0117]
[0118] 公式中c代表了一个ID,T代表一段序列中帧数,ffuse代表融合的特征,t代表从1到T的迭代变量。
[0119] 识别单元用于身份识别并证明关键帧的有效性具体为:首先利用temporal pooling层融合时间维度上的特征,而后将融合后的特征输入到全连接层,利用triplet 
loss和交叉熵损失函数计算loss,不断优化识别单元。
[0120] 其中,在识别单元中,
[0121] triplet loss计算loss的具体计算公式为:
[0122]
[0123] 交叉熵损失函数计算loss的具体计算公式为:
[0124]
[0125] 对于第i个身份的第a个片段的特征用Fi,a表示,Fi,p,Fi,n分别表示与Fi,a同一行人ID下的特征与不同行人ID下的特征。D是特征之间的欧式距离。P代表行人ID数量,K代表每
个ID中的视频片段数量,y代表行人的ID;
[0126] 则行人重识别端到端网络最终的损失函数为:
[0127] LALL=Losskf+Lossids+Losstri。
[0128] 以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护
范围之内。