一种基于视频图像的3D人脸网格重构方法转让专利

申请号 : CN201610589294.5

文献号 : CN106157372B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 夏春秋

申请人 : 深圳市唯特视科技有限公司

权利要求 :

1.一种基于视频图像的3D人脸网格重构方法,其特征在于,主要包括建立刚性和非刚性线性人脸模型(一);估算三维人脸特征点的二维投影位置(二);约束二维投影标注点的可见性(三);通过二维测量确定刚性和非刚性参数(四);对人脸进行3D重建(五)。

2.基于权利要求1所述的3D人脸网格重构方法,其特征在于,所述建立刚性和非刚性线性人脸模型(一),具体包括:将脸部形变分为两个独立的子集,即基于面部形状的刚性形变和基于面部表情的非刚性形变,对此建立线性模型。

3.基于权利要求2所述的3D人脸网格重构方法,其特征在于,所述线性模型,具体包括:

线性模型由三维网格和三维顶点组成,把3D形状看成由3D顶点坐标组成的网格结构,三维顶点即为特征点,刚性和非刚性线性模型如下所示:其中,xi表示标注点i的三维位置, 表示平均位置,p是模型的刚性参数,r表示旋转,是模型中的刚性参数;s表示缩放,是模型中的非刚性参数;t表示平移,R表示三维模型的旋转角度,向量θi描述了标注点i的刚性形变部分,向量ψi描述了标注点i的非刚性形变部分。

4.基于权利要求1所述的3D人脸网格重构方法,其特征在于,所述估算3D特征点的二维投影位置(二),具体包括:密集级联回归提供3D标注的二维投影位置,在图像训练阶段,首先对训练图像进行人脸检测,得到标注点b的初始位置y0,即脸部的正面投影,然后给定图像中的某个像素点,假设存在标注点b,且标注点此时的位置y*是已知的,令h(·)为特征提取函数,则:上述公式提取长度的特征,其中β*=h(d(y*))表示某一帧图像中b的特征值,最小化△y时实现人脸定位;当特征提取函数高度非线性时,使用线性回归矩阵,使其在训练过程中产生一系列从y0到y*的更新序列,使yi不断趋向于y*,yi表示标注i的位置。

5.基于权利要求4所述的3D人脸网格重构方法,其特征在于,所述训练图像,具体包括,自动人脸定位需要大量图像的训练,对于每个图片,计算相应的旋转3D和2D投影标注点,3D网格不包含背景,因此在最终的2D图像中任意加入非人脸图像以增加多样性,用来训练级联回归。

6.基于权利要求1所述的3D人脸网格重构方法,其特征在于,所述约束二维投影标注点的可见性(三),具体包括:由级联回归得到的标注点包含相对应的视觉信息,即y=(ai;bi;

vi),其中ai,bi分别表示二维投影位置的横坐标和纵坐标,vi∈[0,1]表示视觉信息,当vi=0时表示标注不可见,vi=1时表示可见;从二维形状重建三维形状,需要最小化重建误差:其中,p是模型的刚性参数,r表示旋转,是模型中的刚性参数,s表示缩放,是模型中的非刚性参数;P表示矩阵的2D投影,zi表示标注i的目标2D形状,i∈ξ表示标注i的清晰度,ξ={j|vj=1}表示标注的子集是可见的;语义对应在建模时已经建立,采用矩阵的形式,选择与2D对应的正确3D标注。

7.基于权利要求1所述的3D人脸网格重构方法,其特征在于,所述通过二维测量确定刚性和非刚性参数(四),具体包括:由C个摄像机从不同角度测量相同的三维人脸,在多视图设置中获得时间同步的2D测量,通过对所有的测量重建限制,公式如下:其中,k表示第k次测量,p(1),…,p(C)表示由一组C个摄像机测得的刚性参数,ξ(k)表示第k次测量是否可见; 表示第k次测量中标注i的目标2D形状,r表示旋转,是模型中的刚性参数;s表示缩放,是模型中的非刚性参数;迭代方法在2D标注上注册3D模型,细化3D形状和

3D动作直至收敛。

8.基于权利要求7所述的3D人脸网格重构方法,其特征在于,所述从不同角度测量相同的三维人脸,具体包括:从不同角度测量相同的三维人脸,得到的基于整体刚性r和基于部分的非刚性s的值对于所有测量都是相同的;对于人脸的刚性结构变化很小,只有非刚性发生变化的情况,在时间域中解决;假设从视频序列中获得T时态的2D测量值,首先将非刚性参数s设置为0,计算刚性参数r,接着在任意时态计算刚性参数s,如下所示:其中,τ={z(t)|t=1,…T}表示任意时间帧测量的集合,rτ,表示从τ估计的刚性形变参数集合,p(t)表示t时间测量的刚性参数,s(t)表示t时间测量的非刚性参数, 表示t时间得到的标注i的目标2D形状,ξ(t)表示t时间测量的标注的可见性。

9.基于权利要求1所述的3D人脸网格重构方法,其特征在于,所述对人脸进行3D重建(五),具体包括,对人脸的刚性形变和非刚性形变进行3D重建,重建刚性部分时,应用主成分分析法(PCA)确定模型的基向量θ和平均值 提供描述面部形状变化的整体线性子空间;

重建非刚性部分时,建立组成PCA部分模型的集合,描述非刚性形变的线性子空间,是自主训练并共享软边界的PCA模型集合组成的线性模型,顶点高度相关,形成密集的区域,以便该集合更好的被PCA压缩。

10.基于权利要求9所述的3D人脸网格重构方法,其特征在于,所述建立组成PCA部分模型的集合,具体包括:为了找到面部表情驱动分割,将数据集分成三个子集,每个子集包含与网格顶点相对应的空间坐标,描述顶点之间的相关测量;计算归一化矩阵,然后将其平均成全局相关矩阵;同一区域中的顶点在脸部表面上彼此接近,因此在网格中计算顶点间距离,形成距离矩阵并将其归一化到[0,1]范围,最后将全局相关矩阵和距离矩阵整合成一个矩阵。

说明书 :

一种基于视频图像的3D人脸网格重构方法

技术领域

[0001] 本发明涉及图像处理,尤其是指利用图像数据分析对采集到的视频图像进行3D人脸网格重构。

背景技术

[0002] 基于视频图像的3D人脸网格重构方法,可以用于罪犯监控,在不需要罪犯指纹或者身份信息的情况下进行人脸重构,还可以用于三维打印,另外还可以用于三维人脸建模。动画制作等领域中,对各领域的影响重大。人脸识别的方法可以分为两类,2D识别方法和3D识别方法。2D识别方法定位形状和外观的定位点很少,3D方法有较强的可区分性和鲁棒性,但是匹配高分辨3D模型,计算花费大,需要人工初始化。近些年2D识别方法和3D识别方法被广泛使用,但使用级联回归应用在3D方法中却一直被忽略。
[0003] 本发明提出了一种基于视频图像的3D人脸网格重构方法,将级联回归应用于3D方法中,将2D方法和3D方法结合使用,建立线性形状模型,估计特征点的位置和清晰度,通过匹配局部3D模型重建脸部形状,采用3D级联回归,动作变化中面中标志保持一致,通过选择致密的3D点集,脸部被完全标记,避免标志的位置发生变化,解决了动作变化定位点不一致和自封闭的问题;此外,采用3D标志进行2D投影,使计算花费大大减小。3D网格不含背景,通用性强,而且实时效果好。

发明内容

[0004] 针对3D人脸重构的问题,本发明的目的在于提供一种基于视频图像的3D人脸网格重构方法,将级联回归应用于3D方法中,将2D方法和3D方法结合使用,建立线性形状模型,估计特征点的位置和清晰度,通过匹配局部3D模型重建脸部形状。
[0005] 为解决上述问题,本发明提供一种基于视频图像的3D人脸网格重构方法,其主要内容包括:
[0006] (一)建立刚性和非刚性线性人脸模型;
[0007] (二)估算三维人脸特征点的二维投影位置;
[0008] (三)约束二维投影标注点的可见性;
[0009] (四)通过二维测量确定刚性和非刚性参数;
[0010] (五)对人脸进行3D重建。
[0011] 其中,所述的建立刚性和非刚性人脸模型,将脸部形变分为两个独立的子集,即基于面部形状的刚性形变和基于面部表情的非刚性形变,对此建立线性模型。
[0012] 进一步地,所述的建立线性模型,线性模型由三维网格和三维顶点组成,把3D形状看成由3D顶点坐标组成的网格结构,三维顶点即为特征点,刚性和非刚性模型如下所示:
[0013]
[0014] 其中,xi表示标注点i的三维位置,表示平均位置,p是模型的刚性参数,r表示旋转,是模型中的刚性参数;s表示缩放,是模型中的非刚性参数;R表示三维模型的旋转角度,向量θi描述标注点i的刚性形变部分,向量ψi描述标注点i的非刚性形变部分。
[0015] 其中,所述的估算3D特征点的二维投影位置,密集级联回归提供3D标注的二维投影位置,在图像训练阶段,首先对训练图像进行人脸检测,得到标注点b的初始位置y0,即脸部的正面投影,然后给定图像的某个像素点,假设存在标注点b,且标注点此时的位置y*是已知的,令h(·)为特征提取函数,则:
[0016]
[0017] 上述公式提取长度的特征,其中β*=h(d(y*))表示某一帧图像中b的特征值,最小化△y时实现人脸定位;当特征提取函数高度非线性时,使用线性回归矩阵,使其在训练过程中产生一系列从y0到y*的更新序列,使yi不断趋向于y*,yi表示标注i的位置。
[0018] 进一步地,所述的训练图像,自动人脸定位需要大量图像的训练,对于每个图片,计算相应的旋转3D和2D投影标注点,3D网格不包含背景,因此在最终的2D图像中任意加入非人脸图像以增加多样性,用来训练级联回归。
[0019] 其中,所述的约束二维投影标注点的可见性,由级联回归得到的标注点包含相对应的视觉信息,即y=(ai;bi;vi),其中ai,bi分别表示二维投影位置的横坐标和纵坐标,vi∈[0,1]表示视觉信息,当vi=0时表示标注不可见,vi=1时表示可见;从二维形状重建三维形状,需要最小化重建误差:
[0020]
[0021] 其中,p是模型的刚性参数,r表示旋转,是模型中的刚性参数;s表示缩放,是模型中的非刚性参数;P表示矩阵的2D投影,zi表示标注i的目标2D形状,i∈ξ表示标注i的清晰度,ξ={j|vj=1}表示标注的子集是可见的;语义对应在建模时已经建立,采用矩阵的形式,选择与2D对应的正确3D标志。
[0022] 其中,所述的通过二维测量确定刚性和非刚性参数,由C个摄像机从不同角度测量相同的三维人脸,在多视图设置中获得时间同步的2D测量,通过对所有测量重建限制,公式如下:
[0023]
[0024] 其中,k表示第k次测量,p(1),…,p(C)表示由一组C个摄像机测得的刚性参数,ξ(k)表示第k次测量是否可见; 表示第k次测量中标注的目标2D形状,r表示旋转,是模型中的刚性参数;s表示缩放,是模型中的非刚性参数;迭代方法在2D标注上注册3D模型,细化3D形状和3D动作直至收敛。
[0025] 进一步地,所述的从不同角度测量相同的三维人脸,基于整体刚性r和基于部分的非刚性s的值对所有的测量都是相同的;对于人脸的刚性结构变化很小,只有非刚性发生变化的情况,在时间域中解决;假设从视频序列中获得T时态的2D测量值,首先将非刚性参数s设置为0,计算刚性参数r,接着在任意时态计算刚性参数s,如下所示:
[0026]
[0027] 其中,τ={z(t)|t=1,…T}表示任意时间帧测量的集合,rτ,表示从τ估计的刚性形变参数集合,p(t)表示t时间测量的刚性参数,s(t)表示t时间测量的非刚性参数, 表示t时间得到的标注i的目标2D形状,ξ(t)表示t时间测量的标注的可见性。
[0028] 其中,所述的对人脸进行3D重建,对人脸的刚性形变和非刚性形变进行3D重建,重建刚性部分时,应用主成分分析法(PCA)确定模型的基向量θ和平均值 提供描述面部形状变化的整体线性子空间;建立非刚性部分时,建立组成PCA部分模型的集合,描述刚详细形变的线性子空间,是自主训练并共享软边界的PCA模型集合组成的线性模型,顶点高度相关,形成密集的区域,以便该集合更好的被PCA压缩。
[0029] 进一步地,所述的建立组成PCA部分模型的集合,为了找到面部表情驱动分割,将数据集分为三个子集,每个子集包含与网格顶点相对应的空间坐标,描述顶点之间的相关测量;计算归一化矩阵,然后将其平均成全局相关矩阵;同一区域中的顶点在脸部表面上彼此接近,因此在网格中计算顶点间距离,形成距离矩阵并将其归一化到[0,1]标度,最后将全局相关矩阵和距离矩阵整合成一个矩阵。

附图说明

[0030] 图1是本发明一种基于视频图像的3D人脸网格重构方法的系统流程图。
[0031] 图2是本发明一种基于视频图像的3D人脸网格重构方法的评估三维人脸特征点二维投影位置流程图。
[0032] 图3是本发明一种基于视频图像的3D人脸网格重构方法的确定刚性和非刚性参数流程图。
[0033] 图4是本发明一种基于视频图像的3D人脸网格重构方法的对人脸进行3D重建流程图。

具体实施方式

[0034] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
[0035] 图1是本发明一种基于视频图像的3D人脸网格重构方法的系统流程图。其主要内容包括建立刚性和非刚性人脸,估算三维人脸特征点的二维投影位置,约束二维投影标注点的可见性,通过二维测量确定刚性和非刚性参数,对人脸进行3D重建。
[0036] 建立刚性和非刚性人脸模型,是将脸部形变分为两个独立的子集,即基于面部形状的刚性形变和基于面部表情的非刚性形变,对此建立线性模型。
[0037] 进一步地,线性模型由三维网格和三维顶点组成,把3D形状看成由3D顶点坐标组成的网格结构,三维顶点即为特征点,刚性和非刚性模型如下所示:
[0038]
[0039] 其中,xi表示标注点i的三维位置,表示平均位置,p是模型的刚性参数,r表示旋转,是模型中的刚性参数;s表示缩放,是模型中的非刚性参数;R表示三维模型的旋转角度,向量θi描述标注点i的刚性形变部分,向量ψi描述标注点i的非刚性形变部分。
[0040] 图2是本发明一种基于视频图像的3D人脸网格重构方法的评估三维人脸特征点二维投影位置流程图。估算3D特征点的二维投影位置,密集级联回归提供3D标注的二维投影位置,在图像训练阶段,首先对训练图像进行人脸检测,得到标注点b的初始位置y0,即脸部的正面投影,然后给定图像的某个像素点,假设存在标注点b,且标注点此时的位置y*是已知的,令h(·)为特征提取函数,则:
[0041]
[0042] 上述公式提取长度的特征,其中β*=h(d(y*))表示某一帧图像中b的特征值,最小化△y时实现人脸定位;当特征提取函数高度非线性时,使用线性回归矩阵,使其在训练过程中产生一系列从y0到y*的更新序列,使yi不断趋向于y*,yi表示标注i的位置。
[0043] 进一步地,训练图像,自动人脸定位需要大量图像的训练,对于每个图片,计算相应的旋转3D和2D投影标注点,3D网格不包含背景,因此在最终的2D图像中任意加入非人脸图像以增加多样性,用来训练级联回归
[0044] 约束二维投影标注点的可见性,由级联回归得到的标注点包含相对应的视觉信息,即y=(ai;bi;vi),其中ai,bi分别表示二维投影位置的横坐标和纵坐标,vi∈[0,1]表示视觉信息,当vi=0时表示标注不可见,vi=1时表示可见;从二维形状重建三维形状,需要最小化重建误差:
[0045]
[0046] 其中,p是模型的刚性参数,r表示旋转,是模型中的刚性参数;s表示缩放,是模型中的非刚性参数;P表示矩阵的2D投影,zi表示标注i的目标2D形状,i∈ξ表示标注i的清晰度,ξ={j|vj=1}表示标注的子集是可见的;语义对应在建模时已经建立,采用矩阵的形式,选择与2D对应的正确3D标志。
[0047] 图3是本发明一种基于视频图像的3D人脸网格重构方法的确定刚性和非刚性参数流程图。本图主要显示了通过级联回归获得标注的二维投影位置和可见性,经过迭代算法细化对应关系,通过二维测量确定刚性和非刚性参数。
[0048] 通过二维测量确定刚性和非刚性参数,由C个摄像机从不同角度测量相同的三维人脸,在多视图设置中获得时间同步的2D测量,通过对所有测量重建限制,公式如下:
[0049]
[0050] 其中,k表示第k次测量,p(1),…,p(C)表示由一组C个摄像机测得的刚性参数,ξ(k)表示第k次测量是否可见; 表示第k次测量中标注的目标2D形状,r表示旋转,是模型中的刚性参数;s表示缩放,是模型中的非刚性参数;迭代方法在2D标注上注册3D模型,细化3D形状和3D动作直至收敛。
[0051] 进一步地,从不同角度测量相同的三维人脸,基于整体刚性r和基于部分的非刚性s的值对所有的测量都是相同的;对于人脸的刚性结构变化很小,只有非刚性发生变化的情况,在时间域中解决;假设从视频序列中获得T时态的2D测量值,首先将非刚性参数s设置为0,计算刚性参数r,接着在任意时态计算刚性参数s,如下所示:
[0052]
[0053] 其中,τ={z(t)|t=1,…T}表示任意时间帧测量的集合,rτ,表示从τ估计的刚性形变参数集合,p(t)表示t时间测量的刚性参数,s(t)表示t时间测量的非刚性参数, 表示t时间得到的标注i的目标2D形状,ξ(t)表示t时间测量的标注的可见性。
[0054] 图4是本发明一种基于视频图像的3D人脸网格重构方法的对人脸进行3D重建流程图。本图显示了将脸部形变分为两个部分,利用主成分分析法得到刚性参数,将由数据集划分的整体矩阵和距离矩阵整合成一个矩阵,再结合基于部分的模型得到非刚性参数,通过刚性和非刚性参数对模型进行3D重建。
[0055] 对人脸进行3D重建,对人脸的刚性形变和非刚性形变进行3D重建,重建刚性部分时,应用主成分分析法(PCA)确定模型的基向量θ和平均值 提供描述面部形状变化的整体线性子空间;建立非刚性部分时,建立组成PCA部分模型的集合,描述刚详细形变的线性子空间,是自主训练并共享软边界的PCA模型集合组成的线性模型,顶点高度相关,形成密集的区域,以便该集合更好的被PCA压缩。
[0056] 进一步地,建立组成PCA部分模型的集合,为了找到面部表情驱动分割,将数据集分为三个子集,每个子集包含与网格顶点相对应的空间坐标,描述顶点之间的相关测量;计算归一化矩阵,然后将其平均成全局相关矩阵;同一区域中的顶点在脸部表面上彼此接近,因此在网格中计算顶点间距离,形成距离矩阵并将其归一化到[0,1]标度,最后将全局相关矩阵和距离矩阵整合成一个矩阵。
[0057] 对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。