一种基于时间特征的视频运动人物跟踪与身份识别方法转让专利

申请号 : CN201910142190.3

文献号 : CN109919977B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈竑彭建川

申请人 : 鹍骐科技(北京)股份有限公司

摘要 :

本发明涉及一种基于时间特征的视频运动人物跟踪与身份识别方法,属于视频图像处理技术领域,解决了现有方法对运动人物跟踪及身份识别不准确的问题。包括以下步骤:构建人物检测跟踪网络,并进行训练;人物检测跟踪网络用于提取人物的空间特征与时间特征,得到在时间维度一一对应的运动人物坐标与标识;将视频流连续序列帧输入到上述训练好的人物检测跟踪网络,检测视频中的运动人物,并根据人物坐标及其在不同帧中的匹配关系进行实时跟踪;对检测到的运动人物进行人脸识别,确定跟踪对象的身份。本发明利用视频连续帧提取人脸与人物空间‑时间特征,大大提升人脸识别的准确率及人物检测跟踪的准确率,从整体上实现精确的人物跟踪与人脸识别。

权利要求 :

1.一种基于时间特征的视频运动人物跟踪与身份识别方法,其特征在于,包括以下步骤:构建人物检测跟踪网络,并进行训练;所述人物检测跟踪网络用于提取人物的空间特征与时间特征,得到在时间维度一一对应的运动人物坐标与标识;

将视频流连续序列帧输入到上述训练好的人物检测跟踪网络,检测视频中的运动人物,并根据人物坐标及其在不同帧中的匹配关系进行实时跟踪;

对上述检测到的运动人物进行人脸识别,确定跟踪对象的身份;

所述进行人脸识别包括:

构建人脸识别网络,并进行训练;

根据人物检测跟踪网络的检测结果,确定视频流连续序列帧中跟踪对象的人脸区域并进行对齐处理;

进行特征提取,得到包含上述人脸区域的空间特征与时间特征的特征向量,并与人脸特征数据库进行比对,确定所跟踪运动人物的身份;

所述人脸识别网络包括:

人脸特征提取网络,获取每帧图像中跟踪对象人脸区域的人脸空间特征向量,并输入到人脸特征修正网络;

人脸特征修正网络,包括与视频流连续序列帧一一对应的隐藏层,所述隐藏层分别接收上述人脸特征提取网络输出的对应帧图像的特征向量,通过提取连续多帧的同一人脸特征向量的时间维度的特征,得到修正后的人脸特征向量;

所述修正后的人脸特征向量包含有人脸空间特征与时间特征,通过与人脸特征数据库进行特征比对,确认人物的身份信息;

所述人物检测跟踪网络,包括:

人物空间特征提取网络,依次提取视频流连续序列帧中每帧图像中人物的空间特征进行人物检测,并输出每帧图像对应的特征图;

人物时间特征提取网络,包括与所述视频流连续序列帧一一对应的多个隐藏层,所述隐藏层分别接收上述人物空间特征提取网络输出的对应帧图像的特征图,提取检测到的人物时间特征,得到该帧图像中运动人物的坐标,并对不同帧中同一人物进行唯一标识;

所述人物空间特征提取网络包括多层标准残差网络的卷积层,每一卷积层进行人物检测并提取人物特征,并将最后一层卷积层输出的特征图输入到与该帧图像相对应的人物时间特征提取网络隐藏层。

2.根据权利要求1所述的方法,其特征在于,对构建的人物检测跟踪网络进行训练,包括:获取一定数量运动人物视频图像并对图像中人物及其坐标进行标识,生成训练集;

利用上述训练集分别对人物空间特征提取网络、人物时间特征提取网络进行训练,其中,对人物空间特征提取网络训练以能够识别出不同人物的坐标为基准;

完成训练之后,将人物空间特征提取网络输出的特征图接入到人物时间特征提取网络。

3.根据权利要求1所述的方法,其特征在于,所述对人脸识别网络进行训练包括:获取一定数量运动人物的人脸视频图像并进行标注出正、负样本,生成训练集;

对人脸特征提取网络进行训练;提取正样本、负样本的人脸特征向量,进行余弦相似度对比及损失值优化,正样本之间的余弦相似度接近1,负样本之间的余弦相似度接近-1;

对人脸特征修正网络进行训练;对正样本、负样本修正后的特征向量使用余弦相似度进行比较及损失值优化,确保正样本之间的余弦相似度接近1,负样本之间的余弦相似度接近-1;

所述正样本为同一人物不同图像中清晰人脸,所述负样本为不同人物人脸。

4.根据权利要求3所述的方法,其特征在于,所述人物时间特征提取网络,每层隐藏层同时将所述人物空间特征提取网络生成的对应帧图像的特征图与上一隐藏层的输出结果作为输入,通过LSTM记忆单元,使得该层隐藏层输出对应帧图像中运动人物坐标的同时,与上一隐藏层的输出结果进行匹配,对检测出的相同人物进行唯一标识,实现运动人物的实时跟踪。

5.根据权利要求4所述的方法,其特征在于,所述视频流连续序列帧,通过对视频文件进行抽帧或者对视频流进行片段截取将流片段转成序列帧的方式获取。

6.根据权利要求5所述的方法,其特征在于,所述视频流连续序列帧为连续固定时间间隔视频帧。

说明书 :

一种基于时间特征的视频运动人物跟踪与身份识别方法

技术领域

[0001] 本发明涉及视频图像处理技术领域,尤其涉及一种基于时间特征的视频运动人物跟踪与身份识别方法。

背景技术

[0002] 视频中的人物跟踪与识别指的是人物的身份识别(人脸识别)与人物跟踪。现有视频运动人物跟踪与技术通常采用先将视频进行分帧,在每帧图像中对图像进行人物检测与人脸识别,最终通过人物特征的相似程度进行跟踪的方法。具体的实现过程如下:获取视频帧,对视频帧之中的人物进行检测并给出矩形坐标;如果识别出人脸则优先以人脸特征将该人物与上下文联系,实现人物的身份识别以及跟踪,如果没有检测出人脸或者检测出人脸但是人脸由于运动拖影导致特征不明显,则在当前帧对人物和背景区域进行建模,在上一帧以及下一帧寻找与模型最相似的区域就是预测位置,实现人物跟踪,在后续帧中找到清晰人脸后对人物身份进行识别并将身份信息回溯历史跟踪人物。
[0003] 然而,这种基于不同帧人物特征相似度进行的人物跟踪技术在遇到外形变形、光照变化和背景相似干扰等问题时表现不佳。尤其对于视频中的处于运动状态的人物,由于人脸以及躯干瞬时位移较大会导致拖影,从而导致单帧人脸、躯干模糊;采用传统方式会导致人脸识别率下降,在可以使用人脸识别进行身份确认的时候不能进行准确地身份确认,导致人脸识别的失败。另外,当人物运动速度较快时由于产生运动模糊或人物尺寸变化经常导致人物丢失,既无法使用人物身份信息进行跟踪,也无法使用人物与背景区域特征进行跟踪,最终导致跟踪失败。

发明内容

[0004] 鉴于上述的分析,本发明旨在提供一种基于时间特征的视频运动人物跟踪与识别方法,用以解决现有方法对运动人物跟踪及身份识别不准确的问题。
[0005] 本发明的目的主要是通过以下技术方案实现的:
[0006] 提供了一种基于时间特征的视频运动人物跟踪与身份识别方法,包括以下步骤:
[0007] 构建人物检测跟踪网络,并进行训练;所述人物检测跟踪网络用于提取人物的空间特征与时间特征,得到在时间维度一一对应的运动人物坐标与标识;
[0008] 将视频流连续序列帧输入到上述训练好的人物检测跟踪网络,检测视频中的运动人物,并根据人物坐标及其在不同帧中的匹配关系进行实时跟踪;
[0009] 对上述检测到的运动人物进行人脸识别,确定跟踪对象的身份。
[0010] 本发明有益效果如下:本发明利用视频连续帧提取人脸与人物的时间特征,提升人脸识别的准确率及人物检测与跟踪的准确率,从而在视频人物运动时由于运动拖影导致人脸模糊情况下仍能够实现精确的人物跟踪与人脸识别;在进行无身份人物跟踪及高准确率人脸识别(身份识别)基础上,进而通过身份回溯对历史定位的人物进行身份补充,实现完整的视频运动人物身份识别与跟踪。
[0011] 在上述方案的基础上,本发明还做了如下改进:
[0012] 进一步,所述人物检测跟踪网络,包括:
[0013] 人物空间特征提取网络,依次提取视频流连续序列帧中每帧图像中人物的空间特征进行人物检测,并输出每帧图像对应的特征图;
[0014] 人物时间特征提取网络,包括与所述视频流连续序列帧一一对应的多个隐藏层,所述隐藏层分别接收上述人物空间特征提取网络输出的对应帧图像的特征图,提取检测到的人物时间特征,得到该帧图像中运动人物的坐标,并对不同帧中同一人物进行唯一标识。
[0015] 进一步,所述进行人脸识别包括:
[0016] 构建人脸识别网络,并进行训练;
[0017] 根据人物检测跟踪网络的检测结果,确定视频流连续序列帧中跟踪对象的人脸区域并进行对齐处理;
[0018] 进行特征提取,得到包含上述人脸区域的空间特征与时间特征的特征向量,并与人脸特征数据库进行比对,确定所跟踪运动人物的身份。
[0019] 进一步,所述人脸识别网络包括:
[0020] 人脸特征提取网络,获取每帧图像中跟踪对象人脸区域的人脸空间特征向量,并输入到人脸特征修正网络;
[0021] 人脸特征修正网络,包括与视频流连续序列帧一一对应的隐藏层,所述隐藏层分别接收上述人脸特征提取网络输出的对应帧图像的特征向量,通过提取连续多帧的同一人脸特征向量的时间维度的特征,得到修正后的人脸特征向量;
[0022] 所述修正后的人脸特征向量包含有人脸空间特征与时间特征,通过与人脸特征数据库进行特征比对,确认人物的身份信息。
[0023] 进一步,对构建的人物检测跟踪网络进行训练,包括:
[0024] 获取一定数量运动人物视频图像并对图像中人物及其坐标进行标识,生成训练集;
[0025] 利用上述训练集分别对人物空间特征提取网络、人物时间特征提取网络进行训练,其中,对人物空间特征提取网络训练以能够识别出不同人物的坐标为基准;
[0026] 完成训练之后,将人物空间特征提取网络输出的特征图接入到人物时间特征提取网络。
[0027] 进一步,所述对人脸识别网络进行训练包括:
[0028] 获取一定数量运动人物的人脸视频图像并进行标注出正、负样本,生成训练集;
[0029] 对人脸特征提取网络进行训练;提取正样本、负样本的人脸特征向量,进行余弦相似度对比及损失值优化,正样本之间的余弦相似度接近1,负样本之间的余弦相似度接近-1;
[0030] 对人脸特征修正网络进行训练;对正样本、负样本修正后的特征向量使用余弦相似度进行比较及损失值优化,确保正样本之间的余弦相似度接近1,负样本之间的余弦相似度接近-1;
[0031] 所述正样本为同一人物不同图像中清晰人脸,所述负样本为不同人物人脸。
[0032] 进一步,所述人物空间特征提取网络包括多层标准残差网络的卷积层,每一卷积层进行人物检测并提取人物特征,并将最后一层卷积层输出的特征图输入到与帧图像相对应的人物时间特征提取网络隐藏层。
[0033] 进一步,所述人物时间特征提取网络,每层隐藏层同时将所述人物空间特征提取网络生成的对应帧图像的特征图与上一隐藏层的输出结果作为输入,通过LSTM记忆单元,使得该层隐藏层输出对应帧图像中运动人物坐标的同时,与上一隐藏层的输出结果进行匹配,对检测出的相同人物进行唯一标识,实现运动人物的实时跟踪。
[0034] 进一步,所述视频流连续序列帧,通过对视频文件进行抽帧或者对视频流进行片段截取将流片段转成序列帧的方式获取。
[0035] 进一步,所述视频流连续序列帧为连续固定时间间隔视频帧。
[0036] 本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书、权利要求书以及附图中所特别指出的内容中来实现和获得。

附图说明

[0037] 附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
[0038] 图1为本发明实施例中基于时间特征的视频运动人物跟踪与身份识别方法流程图;
[0039] 图2为本发明实施例中人物检测跟踪网络结构图;
[0040] 图3为本发明实施例中人物空间特征提取网络结构图;
[0041] 图4为本发明实施例中卷积神经网络结构图;
[0042] 图5为本发明实施例中人物时间特征提取网络结构图;
[0043] 图6为本发明实施例中人脸识别网络结构图;
[0044] 图7为本发明实施例中人脸特征提取网络结构图;
[0045] 图8为本发明实施例中人脸特征修正网络结构图。

具体实施方式

[0046] 下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
[0047] 本发明的一个具体实施例,公开了一种基于时间特征的视频运动人物跟踪与身份识别方法,如图1所示,包括以下步骤:
[0048] 步骤S1、构建人物检测跟踪网络,并进行训练;人物检测跟踪网络用于提取人物的空间特征与时间特征,得到在时间维度一一对应的运动人物坐标与标识;
[0049] 步骤S2、将视频流连续序列帧输入到上述训练好的人物检测跟踪网络,检测视频中的运动人物,并根据人物坐标及其在不同帧中的匹配关系进行实时跟踪;
[0050] 步骤S3、对上述检测到的运动人物进行人脸识别,确定跟踪对象的身份。
[0051] 与现有技术相比,本实施例提供的基于时间特征的视频运动人物跟踪与身份识别方法,利用视频连续帧提取人脸与人物的时间特征,提升人脸识别的准确率及人物检测与跟踪的准确率,从而在视频人物运动时由于运动拖影导致人脸模糊情况下仍能够实现精确的人物跟踪与人脸识别;在进行无身份人物跟踪及高准确率人脸识别(身份识别)基础上,进而通过身份回溯对历史定位的人物进行身份补充,实现完整的视频运动人物身份识别与跟踪。
[0052] 具体来说,在步骤S1中,构建人物检测跟踪网络,并进行训练;
[0053] 由于传统的跟踪方式对于视频连续帧图像的特征提取丢失了人物时间轴上的运动信息,导致跟踪准确度较低甚至跟踪失败。本实施例构建了一种结合了卷积神经网络与循环神经网络的网络模型来解决现实环境中的人物关联和轨迹估计问题,进而在运动拖影导致人脸模糊的情况下能够实现精准人物检测与跟踪。
[0054] 人物检测跟踪网络,如图2所示,通过卷积神经网络提取图像的空间特征,再通过循环神经网络对连续帧图像进行时序操作提取视频的时间特征,从而提取人物的时间和空间特征,得到在时间维度一一对应的运动人物坐标与标识,实现视频流中的人物运动信息捕捉,有效解决了跟踪任务中复杂的大范围关联关系问题。具体地,人物检测跟踪网络结构包含两部分:人物空间特征提取网络、人物时间特征提取网络;
[0055] 其中,人物空间特征提取网络(卷积神经网络),如图3所示,从输入的视频图像中依次提取每帧图像中人物的空间特征进行人物检测,并输出每帧图像对应的特征图;该网络以深度残差网络为基础,如图4所示,模型先将视频中每帧图片分为N*N个预测区域,每一个预测区域预测数个人物坐标及其置信度。该网络由若干卷积层、池化层及全连接层组成,卷积层的作用是进行人物检测并提取人物空间特征,进而通过训练能够识别出图像中的人物,池化层用于降维,全连接层用来预测人物位置及其概率值;在进行实际检测时,该网络将最后一层卷积层生成的每帧图像中人物特征图实时输入到人物时间特征提取网络。
[0056] 人物时间特征提取网络(循环神经网络),如图5所示,以动态循环神经网络为基础,由输入的视频流中序列帧数相同的隐藏层组成,且隐藏层与视频流连续序列帧一一对应,该网络根据上述人物空间特征提取网络得到的特征图预测人物坐标及其在不同帧中的匹配关系,得到在时间维度一一对应的运动人物坐标与标识。通过对连续序列帧图像进行时序操作提取视频的时间特征,从而提取人物的时间和空间特征实现视频流中的人物运动信息捕捉。
[0057] 具体地,该循环神经网络以连续序列帧图像经过人物空间特征提取后得到的特征图序列按时间步长作为输入,网络实现了图动态生成功能,能够根据输入的长度自动定义循环层数,并且能够根据序列实际长度终止计算,从而减少空间和计算量。示例性地,当输入的视频帧数有5帧时,那么循环神经网络包括5层隐藏层,且按照前后帧的顺序一一对应,即第一帧图像对应第一隐藏层,第二帧图像对应第二隐藏层,以此类推…如果输入的视频帧数为10帧,那么循环神经网络包括10层隐藏层,因为循环神经网络每一层的参数都是共享的,所以该循环网络可以根据输入接收任意长度的输入,在该循环神经网络中除了第一层隐藏层,每一个隐藏层起到的作用与空间特征提取网络中的全连接层一样,即标注出人物的坐标和记号,但是此网络除了接收特征图序列作为输入,还接收该循环神经网络中网络内上一层的输出作为输入,通过LSTM记忆单元,使得该层除了输出人物坐标和记号,还能将该层人物的记号与上一层得到的结果进行匹配,对不同帧中同一人物进行唯一标识(不同帧图像中同一人物记号相同),实现了人物跟踪的功能。本实施例中这种方式充分提取了目标移动过程中的时间信息,模拟了人眼进行目标跟踪时的方法,解决了目标由于模糊、形变、快速移动等问题造成的人物跟踪丢失。
[0058] 构建完成人物检测跟踪网络后,通过图片去重、标记人物(对图像中人物及其坐标进行标识)、裁剪与尺寸归一化组建训练测试集,对网络进行训练,得到训练好的人物检测跟踪网络;收集数据可以采用公开数据库或者手动生成采集的方式,利用上述训练集分别对人物空间特征提取网络、人物时间特征提取网络进行训练,需要说明的是,在训练人物空间特征提取网络的时候,目标检测输出只需要能够识别出不同人物的坐标即可。在进行训练之后,将卷积神经网络的全连接层删除,直接将最后一层卷积层输出的特征图接入到循环神经网络中对应帧图像的隐藏层。
[0059] 在步骤S2中,将视频流连续序列帧输入到上述训练好的人物检测跟踪网络,检测视频中的运动人物,并根据人物坐标及其在不同帧中的匹配关系进行实时跟踪;
[0060] 需要说明的是,本实施例中,可以通过对视频文件进行抽帧,对一定时间范围内的帧输入到网络中进行识别,输出每一帧识别出来的人物(示例性的,以矩形框进行展示)以及人物的坐标信息,且不同帧中同一人物具有相同唯一标识,实现人物的跟踪;也可以通过对视频流进行片段截取,将流片段转成序列帧输入到网络中进行人物检测与跟踪,输出每一帧识别出来的人物(示例性的,以矩形框进行展示)以及人物的坐标信息,且不同帧中同一人物具有相同唯一标识,实现人物的跟踪。优选的,视频流连续序列帧为连续固定时间间隔视频帧。
[0061] 在步骤S3中、对上述检测到的运动人物进行人脸识别,确定跟踪对象的身份。通过上述步骤S2检测到人物并进行跟踪,只能够对检测到的某一个或多个人物个体进行实时准确的跟踪,并不能够确定所跟踪人物的身份;可以通过传统的人脸识别技术,即对每帧图像中检测到的人脸区域进行处理,与数据库进行比对,根据匹配结果,确认人物身份相关信息,但是,当跟踪的人物运动速度较快带来运动拖影,或者视频画面用于拍摄过程抖动或者拍摄环境不理想,造成画面不清晰时,导致画面中跟踪的人物脸部模糊,该方式的人脸识别准确率较低,甚至无法进行人脸的识别。
[0062] 考虑到人体视觉特点,视频中处于运动状态的人脸在单帧情况下即使是人眼也难以辨别,但是连续固定间隔的帧给人的感觉比拆开来的任意一个单帧画面都要清晰,因为在人眼接收连续帧的时候,人眼利用到了连续帧的时间因素,自动根据过往经验对人脸进行了补充识别,因此比单独拿一帧出来看要感觉清晰。本实施例充分利用视图流多帧图像之间时间上相互关联的特点,通过构建新的人脸识别网络结构,将通过上述人物检测跟踪网络后的连续固定时间间隔视频帧特征图序列输入到该网络中,将人脸作对齐处理后,该网络能够提取连续帧人脸系列的时间特征,从而对由于运动拖影导致人脸模糊有很好的优化作用,有效解决小脸、侧脸、光线阴影、遮挡、运动导致的模糊等原因造成的人脸识别困难。
[0063] 具体来说,如图6所示,该网络结构与上述人物跟踪网络结构类似,对步骤S2中人物检测跟踪网络检测得到的人物标识图像中的人脸区域进行进一步的处理:首先,根据人物检测跟踪网络的检测结果,确定视频流连续序列帧中跟踪对象的人脸区域(如:检测到的视频流中每帧图像中人物头部矩形区域),然后,提取检测及跟踪人物的人脸空间特征,之后将连续帧的人脸空间特征输入人脸特征修正网络,提取出连续帧运动人脸的时间特征,得到包含有人脸空间特征和时间特征的特征向量,最后使用最终的包含有人脸空间特征与时间特征的特征向量与人脸特征数据库进行特征比对,确认所跟踪的运动人物的身份信息。具体地,该网络结构包含两部分:人脸空间特征提取网络(卷积神经网络)、人脸时间特征提取网络(循环神经网络)。
[0064] 人脸特征提取网络,如图7所示,以深度残差网络为基础,通过卷积层提取人脸的空间特征,获取每帧图像中跟踪对象人脸区域的人脸空间特征向量,并输入到人脸特征修正网络,需要说明的是,由于人脸具有唯一性,不能用分类的方法,因此在训练的过程中将得到的正样本(同一人物不同图像清晰人脸)以及负样本(不同人物人脸)人脸特征向量进行余弦相似度计算,同一人物的人脸的相似度应该接近1,不同人物的人脸相似度应该尽可能接近-1;从而得到可以用来比较人脸相似程度的人脸特征向量。
[0065] 人脸特征修正网络,如图8所示,以动态循环神经网络为基础,包括与视频流连续序列帧一一对应的隐藏层,每一隐藏层分别接收上述人脸特征提取网络输出的对应帧图像的人脸特征向量,通过提取连续多帧的同一人脸特征向量的时间维度的特征,得到修正后的人脸特征向量(示例性地,为128维的矩阵),需要说明的是,每层隐藏层同时将人脸特征提取网络生成的对应帧图像的特征图与上一隐藏层的输出结果作为输入,通过LSTM记忆单元,使得该层隐藏层输出对应帧图像中人脸识别结果的同时,与上一隐藏层的输出结果进行匹配,实现模糊场景下的人脸识别。在进行训练时,获取一定数量运动人物的人脸视频图像并进行标注出正、负样本,生成训练集;将得到的正样本(同一人物不同图像清晰人脸)和负样本(不同人物人脸)修正后的特征向量同样使用余弦相似度进行比较,对计算出来的损失值进行优化,优选的,使用随机梯度下降算法(自适应矩估计)对损失值进行优化,使得相同人物的人脸特征相似度接近1,而不同人物的人脸特征相似度接近-1。当在进行人脸特征修正网络优化的时候,使用清晰相同人物人脸作为正样本,使得运动人脸由于拖影导致的模糊得到修正。
[0066] 本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
[0067] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。