视频中重识别训练方法、重识别方法及存储装置转让专利

申请号 : CN202010723115.9

文献号 : CN111598067B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张迪潘华东罗时现

申请人 : 浙江大华技术股份有限公司

摘要 :

本发明公开了一种视频中重识别训练方法、重识别方法及存储装置,该重识别训练方法包括:利用动物检测与动物跟踪方法检测出视频中的动物图片序列;提取动物图片序列的时域特征和空间特征,将时域特征和空间特征进行融合并获得动物图片序列的特征图;对特征图在水平维度上进行不同尺寸的分块处理,并分别计算局部分块特征图以及全局特征图与真实动物之间的损失;优化该损失进行训练,直至训练收敛得到最优的动物重识别结果。通过上述方式,本发明不仅能够对动物图片序列的时域特征和空间特征进行融合,而且针对动物的不同部位进行细粒度的学习同时兼顾全局特征的学习,提高动物重识别的准确性和鲁棒性。

权利要求 :

1.一种视频中重识别训练方法,其特征在于,包括:利用动物检测与动物跟踪方法检测出视频中的动物图片序列;

从所述动物图片序列中选取多个图片;

将所述图片进行第一卷积以获得降低通道数后的输入特征;

利用矩阵相乘的方式将所述输入特征中的帧维度相关联,将所述输入特征中的宽高维度相关联,获得特征融合后的输出特征;

将所述输出特征依次进行第二卷积和第三卷积以提取所述动物图片序列的特征图;

对所述特征图在水平维度上进行不同尺寸的分块处理,并分别计算局部分块特征图以及全局特征图与真实动物之间的损失;

优化该损失进行训练,直至训练收敛得到最优的动物重识别结果。

2.根据权利要求1所述的重识别训练方法,其特征在于,所述对所述特征图在水平维度上进行不同尺寸的分块处理,并分别计算局部分块特征图以及全局特征图与真实动物之间的损失的步骤包括:对所述特征图在水平维度上进行不同尺寸的分块处理;

对分块处理结果依次进行最大池化处理和卷积降维处理,得到所述局部分块特征图和所述全局特征图;

计算所述局部分块特征图的交叉熵损失,计算所述全局特征图与真实动物之间的三元组损失以及交叉熵损失。

3.根据权利要求1所述的重识别训练方法,其特征在于,所述从所述动物图片序列中选取多个图片的步骤包括:采用随机抽样的方式从所述动物图片序列中选取多个图片;

将多个所述图片按照拍摄时间的先后顺序进行排序,并划分为多个子图片序列,从每个所述子图片序列中随机选取一张所述图片,并依次进行缩放处理和随机水平翻转处理。

4.一种视频中重识别方法,其特征在于,

利用动物检测与动物跟踪方法检测出待测视频中的待测动物图片序列;

从所述待测动物图片序列中选取多个待测图片;

将所述待测图片进行第一卷积以获得降低通道数后的输入特征;

利用矩阵相乘的方式将所述输入特征中的帧维度相关联,将所述输入特征中的宽高维度相关联,获得特征融合后的输出特征;

将所述输出特征依次进行第二卷积和第三卷积以提取所述待测动物图片序列的特征图;

对所述特征图在水平维度上进行不同尺寸的分块处理,获得所述待测动物图片序列的特征向量;

将所述待测动物图片序列的特征向量与预设搜索底库的动物图片序列的特征向量做比对,搜索出相似度最高的目标图片并输出重识别匹配结果。

5.根据权利要求4所述的重识别方法,其特征在于,所述将所述待测动物图片序列的特征向量与预设搜索底库的动物图片序列的特征向量做比对,搜索出相似度最高的目标图片并输出重识别匹配结果的步骤包括:计算所述待测动物图片序列的特征向量与预设搜索底库的动物图片序列的特征向量之间的欧氏距离;

对所述欧氏距离进行排序,输出最小的欧氏距离对应预设搜索底库的所述动物图片序列。

6.根据权利要求4所述的重识别方法,其特征在于,所述重识别方法还包括:建立预设搜索底库。

7.根据权利要求6所述的重识别方法,其特征在于,所述建立预设搜索底库的步骤包括:利用动物检测与动物跟踪方法采集监控视频中的注册动物,检测并提取每个注册动物的注册图片,对每个注册动物形成一段注册动物图片序列;

为每段注册动物图片序列标注对应的动物身份标签;

将所述注册动物图片序列输入重识别训练模型中,得到所述注册动物图片序列的特征向量;

根据所述注册动物图片序列的特征向量建立所述预设搜索底库。

8.一种存储装置,其特征在于,存储有能够实现如权利要求4-7中任一项所述的重识别方法的程序文件。

说明书 :

视频中重识别训练方法、重识别方法及存储装置

技术领域

[0001] 本申请涉及计算机视觉技术领域,特别是涉及一种视频中重识别训练方法、重识别方法及存储装置。

背景技术

[0002] 监控视频常应用于地铁、机场、交通道路等公共场所来维护公共安全,通过视频检测行人并利用行人重识别技术寻找到嫌疑人或是走丢儿童。传统的行人重识别方法多是利用单张行人图片进行检索,而在监控视频中,行人出现的姿态、遮挡情况、环境背景等可能随时间点不同而不同,单张图片检索结果的鲁棒性不强。而基于视频的行人重识别方法利用视频序列中的多张图片进行识别,识别效果更好。
[0003] 目前解决视频行人重识别问题的方法是将监控视频中行人的一段序列图片作为输入,利用卷积神经网络和循环神经网络提取这些图片的时空信息,并将这些特征信息编码成一个特征向量,通过计算每个行人的特征向量的距离来识别该行人。这些方法通常只关注行人序列的全局特征,没有着重关注行人的脸部、躯干以及其他关键部位这些显著特征,导致基于视频的行人重识别准确率不够高。

发明内容

[0004] 本申请提供一种视频中重识别训练方法、重识别方法及存储装置,能够提高动物重识别的准确性和鲁棒性。
[0005] 为解决上述技术问题,本申请采用的一个技术方案是:提供一种视频中重识别训练方法,包括:
[0006] 利用动物检测与动物跟踪方法检测出视频中的动物图片序列;
[0007] 提取所述动物图片序列的时域特征和空间特征,将所述时域特征和空间特征进行融合并获得所述动物图片序列的特征图;
[0008] 对所述特征图在水平维度上进行不同尺寸的分块处理,并分别计算局部分块特征图以及全局特征图与真实动物之间的损失;
[0009] 优化该损失进行训练,直至训练收敛得到最优的动物重识别结果。
[0010] 为解决上述技术问题,本申请采用的另一个技术方案是:提供一种视频中重识别方法,包括:
[0011] 利用动物检测与动物跟踪方法检测出待测视频中的待测动物图片序列;
[0012] 从所述待测动物图片序列中选取多个待测图片,将所述待测图片进行时域特征和空间特征融合处理以及分块处理,获得所述待测动物图片序列的特征向量;
[0013] 将所述待测动物图片序列的特征向量与预设搜索底库的动物图片序列的特征向量做比对,搜索出相似度最高的目标图片并输出重识别匹配结果。
[0014] 为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储装置,存储有能够实现上述重识别方法的程序文件。
[0015] 本申请的有益效果是:通过上述方式能够避免了单张图片可能因动物姿态、环境背景、遮挡出现的识别效果极差的情况,不仅在时间上将每一帧进行关联,在空间上将每一个位置关联,而且针对动物的不同部位进行细粒度的学习同时兼顾全局特征的学习,从而提高动物重识别的准确性和鲁棒性。

附图说明

[0016] 图1是本发明实施例的视频中重识别训练方法的流程示意图;
[0017] 图2是本发明实施例中卷积神经网络的结构示意图;
[0018] 图3是本发明实施例中非局部注意力模块的结构示意图;
[0019] 图4是本发明实施例的视频中重识别方法的流程示意图;
[0020] 图5是本发明实施例的建立预设搜索底库的流程示意图;
[0021] 图6是本发明实施例的视频中重识别训练装置的结构示意图;
[0022] 图7是本发明实施例的视频中重识别装置的结构示意图;
[0023] 图8是本发明实施例的存储装置的结构示意图。

具体实施方式

[0024] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025] 本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0026] 在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0027] 图1是本发明实施例的视频中重识别训练方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
[0028] 步骤S101:利用动物检测与动物跟踪方法检测出视频中的动物图片序列。
[0029] 在步骤S101中,首先采集监控视频,然后利用动物检测与动物跟踪方法从监控视频中提取动物图片,再将提取到的动物图片制作成动物图片序列。本实施例的动物为动态物体,动态物体包括但不限于行人和车辆。
[0030] 步骤S102:提取动物图片序列的时域特征和空间特征,将时域特征和空间特征进行融合并获得动物图片序列的特征图。
[0031] 在步骤S102中,采用随机抽样的方式从动物图片序列中选取多个图片,将多个图片按照拍摄时间的先后顺序进行排序,并划分为多个子图片序列,从每个子图片序列中随机选取一张图片,并依次进行缩放处理和随机水平翻转处理;将经过处理后的图片输入卷积神经网络中,将图片进行第一卷积以获得降低通道数后的输入特征,利用矩阵相乘的方式将输入特征中的帧维度相关联,将输入特征中的宽高维度相关联,获得时域特征和空间特征融合后的输出特征,将输出特征依次进行第二卷积和第三卷积以提取动物图片序列的特征图。
[0032] 具体地,以行人为例进行说明,采用随机抽样的方式从行人图片序列中选取多个图片,将多个图片按照拍摄时间的先后顺序进行排序,并划分为四个子图片序列,训练时,随机地从每个子图片序列中各选取一张图片,并将图片大小调整至(384,128),再进行随机水平翻转处理。
[0033] 本实施例的卷积神经网络采用ResNet50网络,在卷积神经网络中插入了用于融合时域特征和空间特征的非局部注意力模块,进一步地,如图2所示,卷积神经网络包括一个1×1卷积、一个3×3卷积和一个1×1卷积,其中,第一个1×1卷积通过降低输入图片的通道数来降低计算量,非局部注意力模块设置在第一个1×1卷积之后。
[0034] 进一步地,非局部注意力模块按照如下公式进行时域特征和空间特征融合,,其中,x和y分别表示输入特征和输出特征,i表示当前位置的坐标,j表示所有时空位置的坐标,f为计算i和j的特征相关度,g为j位置特征的线性表示,C为归一化系数。
[0035] 非局部注意力模块计算输入特征中的帧维度相关联,将输入特征中的宽高维度相关联,由于计算量巨大,对于行人重识别而言,其输入为四帧图片,非局部注意力模块计算量骤然增加。本实施例通过简化非局部注意力模块,对时空域的冗余特性进行压缩来大大降低非局部注意力模块的计算量。
[0036] 具体地,请参见图2,将经过上述处理的图片作为初始输入图片输入到卷积神经网络中进行1×1卷积操作后,得到C/4×H×W的矩阵,其中,C为通道数,H为特征图的高,W为特征图的宽,将C/4×H×W的矩阵作为输入特征输入到非局部注意力模块中进行时域特征和空间特征融合,得到输出特征,将输出特征依次经过一个3×3卷积和一个1×1卷积后提取行人图片序列的特征图,输出结果为C×H×W的矩阵。
[0037] 进一步地,请参见图3 ,非局部注意力模块被配置为执行以下操作:将输入特征依次经过全局池化操作和1×1×1卷积操作后,得到1×C’的矩阵A,将输入特征依次经过最大池化操作和1×1×1卷积操作后,得到C’×THW/4的矩阵B,其中,T为序列帧数,H为特征图的高,W为特征图的宽,C通道数,将输入特征依次经过另一个最大池化操作和1×1×1卷积操作后,得到THW/4×C’的矩阵D,将矩阵A和矩阵B通过矩阵相乘得到1×THW/4的矩阵C,再将矩阵D与矩阵C通过矩阵相乘和1×1×1卷积得到1×C的矩阵E,将矩阵E与输入特征进行相加得到输出特征。
[0038] 步骤S103:对特征图在水平维度上进行不同尺寸的分块处理,并分别计算局部分块特征图以及全局特征图与真实动物之间的损失。
[0039] 在步骤S103中,对特征图在水平维度上进行不同尺寸的分块处理;对分块处理结果依次进行最大池化处理和卷积降维处理,得到局部分块特征图和全局特征图;计算局部分块特征图的交叉熵损失,计算全局特征图与真实动物之间的三元组损失以及交叉熵损失。
[0040] 具体地,将特征图分为三个分支,在高的维度上,第一分支被分为一块,第二分支分别被分为一块和两块,第三分支分别被分为一块和三块。更具体地,第一分支的特征图的尺寸为(12,4,2048),第二分支的特征图的尺寸为(24,8,2048),第三分支的特征图的尺寸为(24,8,2048);对第一分支的特征图使用核为(12,4)的最大池化进行池化操作;对第二分支的特征图使用核为(24,8)的最大池化分为一块,使用核为(12,8)的最大池化分为两块;对第三分支的特征图使用核为(24,8)的最大池化分为一块,使用核为(8,8)的最大池化分为三块,将分块处理得到的2048维的特征图进行卷积降维到256维,从而降低计算量。分块结果为一块的特征图为全局特征图,否则为局部分块特征图,然后计算局部分块特征图的交叉熵损失,计算全局特征图与真实动物之间的三元组损失以及交叉熵损失。
[0041] 步骤S104:优化该损失进行训练,直至训练收敛得到最优的动物重识别结果。
[0042] 在步骤S104中,利用Adam优化算法优化该损失进行训练,直至训练收敛得到最优的动物重识别结果。
[0043] 本发明实施例的视频中重识别训练方法通过针对实际的监控场景,利用动物的视频序列中多张行人图片进行识别,避免了单张图片可能因动物姿态、环境背景、遮挡出现的识别效果极差的情况。同时,针对动物身体的不同部位,进行了细粒度的学习,同时兼顾全局特征实现端到端的学习。在卷积神经网络中加入非局部注意力模块,将输入的每一帧图片进行关联,同时在空间位置上,将每一个点的位置与其他位置进行关联,提高动物重识别的准确性和鲁棒性。
[0044] 图4是本发明实施例的视频中重识别方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图4所示的流程顺序为限。如图4所示,该方法包括步骤:
[0045] 步骤S401:利用动物检测与动物跟踪方法检测出待测视频中的待测动物图片序列。
[0046] 在步骤S401中,首先采集监控视频,然后利用动物检测与动物跟踪方法从监控视频中提取动物图片,再将提取到的动物图片制作成动物图片序列。本实施例的动物包括但不限于行人。
[0047] 步骤S402:从待测动物图片序列中选取多个待测图片,将待测图片进行时域特征和空间特征融合处理以及分块处理,获得待测动物图片序列的特征向量。
[0048] 在步骤S402中,从待测动物图片序列中选取多个待测图片的步骤具体为:采用随机抽样的方式从待测动物图片序列中选取多个图片,将多个图片按照拍摄时间的先后顺序进行排序,并划分为多个子图片序列,从每个子图片序列中随机选取一张图片,并依次进行缩放处理和随机水平翻转处理。将将待测图片进行时域特征和空间特征融合处理以及分块处理,获得待测动物图片序列的特征向量的步骤具体为:将经过处理后的图片输入卷积神经网络中,将图片进行第一卷积以获得降低通道数后的输入特征图,利用矩阵相乘的方式将输入特征中的帧维度相关联,将输入特征中的宽高维度相关联,获得时域特征和空间特征融合后的输出特征图,对特征图在水平维度上进行不同尺寸的分块处理;对分块处理结果依次进行最大池化处理和卷积降维处理,再依次进行第二卷积和第三卷积以提取动物图片序列的特征向量。
[0049] 具体地,再分块处理过程中,将特征图分为三个分支,在高的维度上,第一分支被分为一块,第二分支分别被分为一块和两块,第三分支分别被分为一块和三块。更具体地,第一分支的特征图的尺寸为(12,4,2048),第二分支的特征图的尺寸为(24,8,2048),第三分支的特征图的尺寸为(24,8,2048);对第一分支的特征图使用核为(12,4)的最大池化进行池化操作;对第二分支的特征图使用核为(24,8)的最大池化分为一块,使用核为(12,8)的最大池化分为两块;对第三分支的特征图使用核为(24,8)的最大池化分为一块,使用核为(8,8)的最大池化分为三块,将分块处理得到的2048维的特征图进行卷积降维到256维,从而降低计算量。
[0050] 步骤S403:将待测动物图片序列的特征向量与预设搜索底库的动物图片序列的特征向量做比对,搜索出相似度最高的目标图片并输出重识别匹配结果。
[0051] 在步骤S403中,计算待测动物图片序列的特征向量与预设搜索底库的动物图片序列的特征向量之间的欧氏距离;对欧氏距离进行排序,输出最小的欧氏距离对应预设搜索底库的动物图片序列。
[0052] 在本实施例中,重识别方法还包括:建立预设搜索底库。如图5所示,建立预设搜索底库的步骤包括:
[0053] 步骤S501:利用动物检测与动物跟踪方法采集监控视频中的注册动物,检测并提取每个注册动物的注册图片,对每个注册动物形成一段注册动物图片序列;
[0054] 步骤S502:为每段注册动物图片序列标注对应的动物身份标签;
[0055] 步骤S503:将注册动物图片序列输入重识别训练模型中,得到注册动物图片序列的特征向量;
[0056] 步骤S504:根据注册动物图片序列的特征向量建立预设搜索底库。
[0057] 本发明实施例的视频中重识别方法采用上述视频中重识别训练方法训练得到的重识别训练模型,不仅降低了重识别过程中的计算量,而且提高动物重识别的准确性和鲁棒性。
[0058] 图6是本发明实施例的视频中重识别训练装置的结构示意图。如图6所示,该装置60包括图片序列获取模块61、特征融合与提取模块62、分块处理模块63以及优化模块64。
[0059] 图片序列获取模块61用于利用动物检测与动物跟踪方法检测出视频中的动物图片序列。
[0060] 特征融合与提取模块62与图片序列获取模块61耦接,用于提取动物图片序列的时域特征和空间特征,将时域特征和空间特征进行融合并获得动物图片序列的特征图。
[0061] 分块处理模块63与特征融合与提取模块62耦接,用于对特征图在水平维度上进行不同尺寸的分块处理,并分别计算局部分块特征图以及全局特征图与真实动物之间的损失。
[0062] 优化模块64与分块处理模块63耦接,用于优化该损失进行训练,直至训练收敛得到最优的动物重识别结果。
[0063] 图7是本发明实施例的视频中重识别装置的结构示意图。如图7所示,该装置70包括图片序列获取模块71、特征提取模块72以及重识别模块73。
[0064] 图片序列获取模块71用于利用动物检测与动物跟踪方法检测出待测视频中的待测动物图片序列。
[0065] 特征提取模块72与图片序列获取模块71耦接,用于从待测动物图片序列中选取多个待测图片,将待测图片输入重识别训练模型中,获得待测动物图片序列的特征向量。
[0066] 重识别训练模型采用前述的视频中重识别训练方法获得,为简约起见,在此不再一一赘述视频中重识别训练方法。
[0067] 重识别模块73与特征提取模块72耦接,用于将待测动物图片序列的特征向量与预设搜索底库的动物图片序列的特征向量做比对,搜索出相似度最高的目标图片并输出重识别匹配结果。
[0068] 参阅图8,图8为本发明实施例的存储装置的结构示意图。本发明实施例的存储装置存储有能够实现上述所有方法的程序文件81,其中,该程序文件81可以以软件产品的形式存储在上述存储装置中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
[0069] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0070] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0071] 以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。