可穿戴设备下基于形状和姿态的跨视角人物识别方法转让专利

申请号 : CN202010275826.4

文献号 : CN111582036B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李坤李万鹏刘幸子王松

申请人 : 天津大学

摘要 :

本发明属于计算机视觉领域、人物识别,为更好的通过人体姿态信息达到更高准确度的人物重识别。为达上述目的,本发明,可穿戴设备下基于形状和姿态的跨视角人物识别方法,给定第一相机中待检测行人的视频帧图像和第二相机获得的视频,对于前两者所有的视频帧都检测出对应该帧图像的人体参数化模型和二位关节点位置,二维关节点位置的作用是为了优化人体参数化模型Smpl,之后通过三维关节点重投影优化操作和人体参数化模型的离散余弦变换DCT时域优化操作获得最终的人体参数化模型,将待检测目标的最终人体参数化模型与第二相机中每一个视频帧中的人体参数化模型做对比,找出所要检测的目标。本发明主要应用于人物自动识别场合。

权利要求 :

1.一种可穿戴设备下基于形状和姿态的跨视角人物识别方法,其特征是,给定第一相机中待检测行人的视频帧图像和第二相机获得的视频,对于前两者所有的视频帧都检测出对应该帧图像的人体参数化模型和二维关节点位置,二维关节点位置的作用是为了优化人体参数化模型Smpl,使其更接近真实情况,之后通过三维关节点重投影优化操作和人体参数化模型的离散余弦变换DCT时域优化操作获得最终的人体参数化模型,将待检测目标的最终人体参数化模型与第二相机中每一个视频帧中的人体参数化模型做对比,找出所要检测的目标;具体步骤如下:(1)通过二维人体关节点的检测方法OpenPose得到视频帧图像的2D关节点位置;

(2)通过HMR获得人体参数化模型Smpl及该模型对应人体3D关节点位置;

(3)由步骤(2)得到对应视频帧的人体参数化模型Smpl,Smpl由两组参数控制,一组用于身体形状,另一组用于姿态;

(4)得出相机参数和控制Smpl参数化模型的形状参数β、姿态参数θ;

(5)使用能量方程EM(β,θ)、Ep(β,θ)优化方程

Smpl模型记为M(β,θ,Φ),β是对于参数化模型的形状参数向量,θ是参数化模型对应的姿态参数,Φ是从很多参数化模型中学习到的混合参数,首先估计V个不同视频中每一帧的β,θ参数,将它们对应的2D关节点表示为 将这部分的能量方程定义如下:

方程中,KV是拍摄视频V的相机参数,EP是考虑Eβ,Eθ两部分的先验项,EJ代表关节点拟合项这也是该步骤的核心方程,Eβ是在Smpl形状训练数据中学习得到的,表示为形状参数的能量方程,Eθ是在CMU运动捕捉数据集上学到的,表示为姿态参数部分的能量方程,EP,EJ分别如下:EP(β,θ)=λθEθ(θ)+λβEβ(β)                            (2)这里J(β)返回23个关节点的三维坐标,R是旋转方程,ΠK是将3D坐标映射到2D平面的方程,wi则是2D关节点估计方法得到的置信值,ρσ是关于残差e和鲁棒性参数σ的误差函数,考虑到整个过程中不可避免的检测噪声和误差,使用误差函数Geman‑McClure代替标准平方误差,其定义如下:(6)DCT时域优化部分:由2D关节点拟合项与对应系数为C的低维DCT重建项B组成,具体形式为:

真实情况下,个人的运动无论是在手臂、腿部的摆动幅度上,或是身体的左右摇摆幅度上都存在普遍规律,用连续的视频帧纠正个人肢体在三维空间上的不规律变化是本步骤的核心原理,其中Θ={θ1,θ2,......,θN},是N帧视频中的姿态参数集合,Θ为上一阶段获得姿态参数的中位数,C是对应的DCT系数,D是所有帧的3DSmpl关节点的集合,De,d代表第e个Smpl模型上关节点d的坐标,具体定义为:De,d=[Rθ1(Jd(βm))e,Rθ2(Jd(βm))e,......RθN(Jd(βm))e]          (6)βm为上一步骤中得到的形状参数中位数,通过重建项为B的低维DCT近似N个帧中的De,d轨迹:

说明书 :

可穿戴设备下基于形状和姿态的跨视角人物识别方法

技术领域

[0001] 本发明属于计算机视觉领域、人体姿态估计、模型优化,涉及基于2D/3D人体关节点、人体参数化模型及优化的跨视角人物识别方法。

背景技术

[0002] 作为图像检索的一个子问题,跨视角人物识别(CVPI)的研究非常重要,并具有广泛的应用场景,例如:室外密集区域下的视频监控、智能的人机交互和军事调查中。早期的研究要追溯到跨摄像头多目标跟踪问题上,传统监控视频大多都是通过固定位置的摄像头获得的,它们只能从预先固定的视角覆盖有限的区域,由于摄像头的固定性会造成遮挡和摄像头中目标行人视野消失等问题,所以早期的研究主要致力于解决当目标行人在某个相机视野中丢失之后如何将其行动轨迹,在其他相机视野下再次关联起来的问题上。近年来,随着可穿戴相机技术的更新和普及,拍摄者可使用可穿戴相机进行拍摄,进而扩大了视频的覆盖区域,进而在多段假定时间同步的视频中寻找到同一名行人成为CVPI的一个研究热点。
[0003] CVPI是通过在视频之间匹配人物外观和其运动特征来实现的,而姿态特征的匹配是在野外采集的视频、图像上进行的,由于野外数据集的高度不准确性,故基于3D人体姿态估计的方法无法很好的提高CVPI性能。为了解决这一问题,各国的研究人员们提出了很多有效的方法,郑康等人(Zheng K,Fan X,Lin Y,et al.Learning view‑invariant features for person identification in temporally synchronized videos taken by wearable cameras[C]//Proceedings of the IEEE International Conference on Computer Vision.2017:2858‑2866.)首先提出使用监督深度学习的方法提取视点不变运动特征,并运用人体外观特征和运动特征的相互影响的方法,提高CVPI匹配结果的准确度,该方法基于光流来表示每个视频中的人物姿态,但是仅检查光流的相似性对于CVPI来说是不全面的,故郑康等人(Liang  G,Lan X,Zheng K,et  al.Cross‑View  Person Identification by Matching Human Poses Estimated with Confidence on Each Body Joint[C]//Thirty‑Second AAAI Conference on Artificial Intelligence.2018.)保留运用人体外观特征和运动特征的思想,提出了添加置信度的思想,分别引入2D置信度、3D置信度和时间置信度,实验结果表明不准确估计的人体姿态、不同的置信度量组合和将姿态信息集成到外观和运动特征上的方法,可以达到当时最好的CVPI性能。由于该方法估计出的姿态的不准确性,且检测集是通过视频的连续帧图片输入的,但该方法忽略了视频连续帧中姿态一致性的特点,会在一定程度上影响CVPI的准确性。

发明内容

[0004] 为克服现有技术的不足,本发明旨在提出一种准确度更高的CVPI方法,可以更好的通过人体姿态信息达到更高准确度的人物重识别。为达上述目的,本发明采取的方案是,可穿戴设备下基于形状和姿态的跨视角人物识别方法,给定第一相机中待检测行人的视频帧图像和第二相机获得的视频,对于前两者所有的视频帧都检测出对应该帧图像的人体参数化模型和二位关节点位置,二维关节点位置的作用是为了优化人体参数化模型Smpl,之后通过三维关节点重投影优化操作和人体参数化模型的离散余弦变换DCT时域优化操作获得最终的人体参数化模型,将待检测目标的最终人体参数化模型与第二相机中每一个视频帧中的人体参数化模型做对比,找出所要检测的目标。
[0005] 具体步骤如下:
[0006] (1)通过二维人体关节点的检测方法OpenPose得到视频帧图像的2D关节点位作为输入;
[0007] (2)人体参数化模型和对应参数的检测方法通过HMR获得人体参数化模型Smpl及该模型对应人体3D关节点位置;
[0008] (3)由步骤(2)得到对应视频帧的人体参数化模型Smpl,Smpl由两组参数控制,一组用于身体形状,另一组用于姿态;
[0009] (4)得出相机参数和控制Smpl参数化模型的形状参数β、姿态参数θ;
[0010] (5)使用能量方程EM(β,θ)、Ep(β,θ)、 优化方程:
[0011] Smpl模型记为M(β,θ,Φ),β是对于参数化模型的形状参数向量,θ是参数化模型对应的姿态参数,Φ是从很多参数化模型中学习到的混合参数,首先估计V个不同视频中每一帧的β,θ参数,将它们对应的2D关节点表示为 将这部分的能量方程定义如下:
[0012]
[0013] 方程中,KV是拍摄视频V的相机参数,EP是考虑Eβ,Eθ两部分的先验项,EJ代表关节点拟合项这也是该步骤的核心方程,Eβ是在Smpl形状训练数据中学习得到的,表示为形状参数的能量方程,Eθ是在CMU(Cmu mocap dataset)运动捕捉数据集上学到的,表示为姿态参数部分的能量方程,EP,EJ分别如下:
[0014] EP(β,θ)=λθEθ(θ)+λβEβ(β)                            (2)[0015]
[0016] 这里J(β)返回23个关节点的三维坐标,R是旋转方程,ΠK是将3D坐标映射到2D平面的方程,wi则是2D关节点估计方法得到的置信值,ρσ是关于残差e和鲁棒性参数σ的误差函数,考虑到整个过程中不可避免的检测噪声和误差,使用误差函数Geman‑McClure代替标准平方误差,其定义如下:
[0017]
[0018] (6)DCT时域优化部分:由2D关节点拟合项与对应系数为C的低维DCT重建项B组成,具体形式为:
[0019]
[0020] 其中Θ={θ1,θ2,......,θN},是N帧视频中的姿态参数集合,Θ为上一阶段获得姿态参数的中位数,C是对应的DCT系数,D是所有帧的3DSmpl关节点的集合,De,d代表第e个Smpl模型上关节点d的坐标,具体定义为:
[0021] De,d=[Rθ1(Jd(βm))e,Rθ2(Jd(βm))e,......RθN(Jd(βm))e]          (6)[0022] βm为上一步骤中得到的形状参数中位数,通过重建项为B的低维DCT近似N个帧中的De,d轨迹:
[0023]
[0024] 本发明的特点及有益效果是:
[0025] 本发明针对参数化模型的形状和姿态的优化方法进行CVPI性能的提升,具有以下特点:
[0026] ①在本发明中,我们建立了一个多模块的框架,从姿势和形状的线索进行多个可穿戴相机的人物重识别。
[0027] ②由于考虑到使用人的形状特征来解决穿着相似和动作相似的问题,本发明使用Smpl模型来代替传统的3D人体姿势估计操作,提高了行人重识别的性能。
[0028] ③本发明提出了一种基于投影优化Smpl模型姿态参数的技术,进而提高检测目标人物对应的Smpl模型形状和姿态估计的精度。
[0029] ④本发明通过施加多帧联合时域优化来获得时域一致的姿态来解决遮挡问题,获得时域一致的参数化模型,进而提高最后CVPI的准确性。附图说明:
[0030] 本发明上述各步骤与下面对实施细节的描述及实验结果参考附图将变得清晰和容易理解。
[0031] 图1方法流程示意图。

具体实施方式

[0032] 为克服现有技术的不足,提出了一种准确度更高的CVPI方法,可以更好的通过人体姿态信息达到更高准确度的人物重识别。为达上述目的,本发明采取的方案是,基于形状和姿态重优化的跨视角人物识别方法,跨视角人物识别的整体流程为:给定1号相机中待检测行人的视频帧图像和2号相机获得的视频,对于前两者所有的视频帧都检测出对应该帧图像的人体参数化模型和2D关节点位置,2D关节点位置的作用是为了优化Smpl人体参数化模型(3D关节点重投影优化操作),之后通过3D关节点重投影优化操作和人体参数化模型的DCT时域优化操作获得最终的人体参数化模型,将待检测目标的最终人体参数化模型与2号相机中每一个视频(帧)中的人体参数化模型做对比,找出所要检测的目标,具体发明技术方案是:
[0033] (1)输入视频帧图像的2D关节点位置是通过OpenPose(一种2D人体关节点的检测方法)得到的;
[0034] (2)通过HMR(一种人体参数化模型和对应参数的检测方法)获得Smpl人体参数化模型及该模型对应人体3D关节点位置;
[0035] (3)得到对应视频帧的人体参数化模型Smpl,Smpl是一种最新的人体参数化模型,它由两组参数控制,一组用于身体形状,另一组用于姿态;
[0036] (4)得出相机参数和控制Smpl参数化模型的形状参数β、姿态参数θ;
[0037] (5)使用EM(β,θ)、Ep(β,θ)、 优化方程优化参数化模型;
[0038] (6)对SMPL再优化的效果与以前的CVPI方法做定量对比;定量对比方法如下:
[0039] 对比的方法是,取来自1号相机和2号相机的两组120帧的数据,对比两个视频序列的每一帧中人体关节点的欧氏距离,120帧的关节点欧氏距离误差和就是这两个视频序列之间的总误差。我们先从1号相机中拿数据依次和2号相机的所有视频序列比较,然后,再从2号相机中拿数据依次和1号相机中的数据比较,误差最小的就是我们匹配到的结果。(7)与现有的CVPI发明进行数据上的对比;
[0040] 本发明方法命名为SLPose,让其与其它两种非监督的方法和DVR方法作比较,非监督方法分别是CPose和3DHPE,结果如附表1所示。
[0041] 表1
[0042]
[0043] 由表1可以看出,我们提出的方法在TOP1和TOP5上有着更好的表现.从实验结果上看,优化后的Smpl参数化模型更加符合视频帧图片中人物的真实形状和姿态,我们的发明有效的提高了CVPI的性能。
[0044] (8)对本发明Smpl参数化模型再优化步骤进行实验验证。
[0045] 实验判断本发明所提出的Smpl再优化步骤是否真正有效.
[0046] 将标准T姿态的参数化人体模型通过相机内外参映射到图片坐标空间平面,将映射的关节点和使用神经网络预测到的2D关节点做拟合,以此来优化参数化模型的姿态和形状。这里面用到的相机的内外参都是自己设定的,内参数的光心就是图片中心坐标,焦距设定为固定值,我们设定为1000,外参数平移和旋转都设为0,参数化模型自身有平移和旋转属性,会在优化过程中调整来进行拟合数据。
[0047] (9)对前一步骤得到的参数化模型进行对应系数为C的低维DCT时域优化。
[0048] 下面结合附图和具体实施例进一步详细说明本发明。
[0049] (1)输入视频帧图像的2D关节点位置是通过OpenPose方法得到的;
[0050] (2)Smpl参数化模型及该模型对应3D关节点位置是通过HMR方法获得的;
[0051] (3)关节点重投影优化部分:Smpl模型记为M(β,θ,Φ),β是对于参数化模型的形状参数向量,θ是参数化模型对应的姿态参数,Φ是从很多参数化模型中学习到的混合参数,首先我们估计V个不同视频中每一帧的β,θ参数,将它们对应的2D关节点表示为我们将这部分的能量方程定义如下:
[0052]
[0053] 方程中,KV是拍摄视频V的相机参数,EP是考虑Eβ,Eθ两部分的先验项,EJ代表关节点拟合项这也是该步骤的核心方程,Eβ是在SMPL形状训练数据中学习得到的,表示为形状参数的能量方程,Eθ是在CMU(Cmu mocap dataset)运动捕捉数据集上学到的,表示为姿态参数部分的能量方程。EP,EJ分别定义如下:
[0054] EP(β,θ)=λθEθ(θ)+λβEβ(β)                            (2)[0055]
[0056] 这里J(β)返回23个关节点的三维坐标,R是旋转方程,ΠK是将3D坐标映射到2D平面的方程,wi则是2D关节点估计方法得到的置信值,我们发明的置信值思想也在这个方程中有所体现,ρσ是关于残差e和鲁棒性参数σ的误差函数,考虑到整个过程中不可避免的检测噪声和误差,我们使用健壮的Geman‑McClure误差函数代替标准平方误差,其定义如下:
[0057]
[0058] (4)DCT时域优化部分:在之前的工作中,我们没有利用到视频间每一帧的相关性,而在现实情况下,人们的动作通常会表现出一致性,但由于存在过多遮挡、背景信息、纹理方面等的影响,关节点的估计会存在摸棱两可的错误,通过同时处理连续的帧,我们可以很好的减少这类型错误的发生。为了使我们的算法更加有效,该部分由2D关节点拟合项与对应系数为C的低维DCT重建项B组成,具体形式为:
[0059]
[0060] 其中Θ={θ1,θ2,......,θN},是N帧视频中的姿态参数集合,Θ为上一阶段获得姿态参数的中位数,C是对应的DCT系数代表余弦变换,D是所有帧的3DSmpl关节点的集合,De,d代表第e个Smpl模型上关节点d的坐标,具体定义为:
[0061] De,d=[Rθ1(Jd(βm))e,Rθ2(Jd(βm))e,......RθN(Jd(βm))e]          (6)[0062] βm为上一步骤中得到的形状参数中位数,我们通过重建项为B的低维DCT近似N个帧中的De,d轨迹:
[0063]
[0064] (5)选取实验数据集;
[0065] 我们选择SEQ1,SEQ2,SYN三个数据集来进行我们方法的评估,这些数据集是由两个具有不同视角的时间同步GoPro摄像机拍摄的。
[0066] SEQ1:SEQ1包含6个被拍摄对象,共计114个同步视频对,每个人身穿白色T恤、蓝色牛仔裤,每个被拍摄对象行走4到26次。
[0067] SEQ2:SEQ2包含6个被拍摄对象,共计88个同步视频对,每个被拍摄对象行走4到26次,每个人身穿白色T恤、蓝色牛仔裤。
[0068] SYN:SYN是有14个被摄像对象的208对视频.SYN中每个被拍摄对象行走14到15次。SYN数据集中每个人身穿黑色外套,并且每个视频中没有其它的行人经过。除此之外,与其它两个数据集相比,,SYN摄像头是近似固定的,具有更少的视角变化。
[0069] (6)对SMPL再优化的效果与以前的CVPI方法做定量对比;
[0070] 对比的方法是,取来自1号相机和2号相机的两组120帧的数据,对比两个视频序列的每一帧中人体关节点的欧氏距离,120帧的关节点欧氏距离误差和就是这两个视频序列之间的总误差。我们先从1号相机中拿数据依次和2号相机的所有视频序列比较,然后,再从2号相机中拿数据依次和1号相机中的数据比较,误差最小的就是我们匹配到的结果。
[0071] (7)与现有的CVPI发明进行数据上的对比;
[0072] 本发明方法命名为SLPose,让其与其它两种非监督的方法和DVR方法作比较,非监督方法分别是CPose和3DHPE,结果如附表1所示,可以看出,我们提出的方法在TOP1和TOP5上有着更好的表现.从实验结果上看,优化后的Smpl参数化模型更加符合视频帧图片中人物的真实形状和姿态,我们的发明有效的提高了CVPI的性能。
[0073] (8)对本发明Smpl参数化模型再优化步骤进行实验验证。
[0074] 实验判断本发明所提出的Smpl再优化步骤是否真正有效,分别采取如下两种策略:
[0075] ①2D关节点估计、参数化模型估计、3D关节点估计、匹配检测。
[0076] ②2D关节点估计、参数化模型估计、3D关节点估计、Smpl模型再优化、匹配检测。
[0077] 表2
[0078]
[0079] 实验结果如附表2所示。
[0080] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。