一种多样化的人脸图像合成方法及系统转让专利
申请号 : CN202111101932.1
文献号 : CN113807265B
文献日 : 2022-05-06
发明人 : 迟静 , 代福芸 , 张琪东 , 任明国 , 衣所超
申请人 : 山东财经大学
摘要 :
权利要求 :
1.一种多样化的人脸图像合成方法,其特征在于,包括:获取源人脸图片、目标人脸图片及属性标签信息;
根据源人脸图片、目标人脸图片和人脸合成网络模型,得到具有源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图片;
其中,人脸合成网络模型包括人脸特征点生成器和几何‑属性感知生成器;
所述人脸特征点生成器用于提取源人脸与目标人脸的特征点作为人脸几何特征信息,并从人脸几何特征信息中提取表情信息,在潜在空间中将任意源人脸的表情信息迁移到目标人脸;
所述几何‑属性感知生成器用于分别从目标人脸和标签中对应提取身份特征和指定属性信息,再结合表情信息生成一张具有源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图片;
所述几何‑属性感知生成器的总目标损失函数为对抗损失函数、像素级损失函数、软截断三元感知损失函数和域分类损失函数四者的预设权重乘积和;
所述软截断三元感知损失函数为:
其中, 表示由人脸特征点生成器将表情n2迁移到人R上后的人脸标记点图, 表示由人脸特征点生成器将表情n2迁移到人T上后的人脸标记点图,v(·)表示用VGG进行的特征提取操作;H(·)表示L2距离;margin表示预设给定的距离; 和 分别是几何‑属性感知生成器对于输入 和 生成的人脸表情图片; 和 表示选取的带有表情n1和n2的人物T的图片; 表示从人物R中随机选取的带有任意表情n3的图片;c表示属性域的标签。
2.如权利要求1所述的多样化的人脸图像合成方法,其特征在于,所述人脸特征点生成器包括两个编码器和一个解码器,两个编码器分别用于对源人脸图片和目标人脸图片提取特征,解码器用于对提取的源人脸图片和目标人脸图片特征进行融合,得到两者的偏移量,最后将目标人脸图片特征与偏移量进行显性相加得到带有源表情的目标人脸标记点。
3.如权利要求1所述的多样化的人脸图像合成方法,其特征在于,所述人脸特征点生成器的总目标损失函数为L1损失函数、循环一致损失函数和对抗损失函数三者的预设权重乘积和。
4.如权利要求1所述的多样化的人脸图像合成方法,其特征在于,所述几何‑属性感知生成器基于StarGAN框架并根据表情和外貌解耦的思想设计得到,可实现表情和外貌的分别控制。
5.如权利要求1所述的多样化的人脸图像合成方法,其特征在于,所述几何‑属性感知生成器由图片编码器,人脸标记点编码器,transformer块以及图片解码器组合而成;三个ResBlock部件组成一个transformer,为在生成的人脸表情图片上增强几何信息,每个transformer都与人脸标记点编码器的输出相连。
6.一种多样化的人脸图像合成系统,其特征在于,包括:信息获取模块,其用于获取源人脸图片、目标人脸图片及属性标签信息;
人脸图片合成模块,其用于根据源人脸图片、目标人脸图片和人脸合成网络模型,得到具有源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图片;
其中,人脸合成网络模型包括人脸特征点生成器和几何‑属性感知生成器;
所述人脸特征点生成器用于提取源人脸与目标人脸的特征点作为人脸几何特征信息,并从人脸几何特征信息中提取表情信息,在潜在空间中将任意源人脸的表情信息迁移到目标人脸;
所述几何‑属性感知生成器用于分别从目标人脸和标签中对应提取身份特征和指定属性信息,再结合表情信息生成一张具有源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图片;
所述几何‑属性感知生成器的总目标损失函数为对抗损失函数、像素级损失函数、软截断三元感知损失函数和域分类损失函数四者的预设权重乘积和;
所述软截断三元感知损失函数为:
其中, 表示由人脸特征点生成器将表情n2迁移到人R上后的人脸标记点图, 表示由人脸特征点生成器将表情n2迁移到人T上后的人脸标记点图,v(·)表示用VGG进行的特征提取操作;H(·)表示L2距离;margin表示预设给定的距离; 和 分别是几何‑属性感知生成器对于输入 和 生成的人脸表情图片; 和 表示选取的带有表情n1和n2的人物T的图片; 表示从人物R中随机选取的带有任意表情n3的图片;c表示属性域的标签。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1‑5中任一项所述的多样化的人脸图像合成方法中的步骤。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1‑5中任一项所述的多样化的人脸图像合成方法中的步骤。
说明书 :
一种多样化的人脸图像合成方法及系统
技术领域
背景技术
入信息生成具有期望表情和模样(包括五官、发色、年龄、性别等)的高质量的人脸图片。
为模型,以两个隐含层开始,第二隐含层的输出与身份信息向量以及表情信息向量(面部表
情编码系统(FACS)形式)连接在一起,通过有1000个逻辑隐含单元的受限玻尔兹曼机(RBM)
学习它们的联合模型,训练好的DBN模型能够生成具有不同身份和表情的人脸图片。闫等人
利用卷积神经网络构建参数回归网络模型,基于深度学习和表情AU参数生成人脸。
Goodfellow等人于2014年提出了生成式对抗模型GAN(最原始的GAN模型),该模型主要包括
两个网络组成部分:生成器和判别器,其原理可以看成两个玩家(生成器和判别器)相互博
弈的过程,即在训练过程中,生成器尽量生成真实的图片去欺骗判别器,而判别器尽量能区
分出生成的图片和真实的图片。GAN因强大的图片生成能力而被运用到人脸合成中,但是原
始GAN存在难以训练,生成器和判别器的损失函数无法指示训练进程,模型易崩塌,生成样
本缺乏多样性的缺点。WGAN用Wasserstein距离代替GAN中判别器衡量真实分布与生成分布
之间的JS散度,提高了GAN训练的稳定性.随着GAN模型的诞生和改进,很多工作都是对GAN
模型的结合和扩展。Pix2Pix将传统GAN的输入从随机噪声改为用户给定的图片,完成成对
图像间的转换。IcGAN利用编码器分别将真实图片和属性信息映射到潜在空间,通过修改属
性信息的潜在向量,经GAN生成一张新的人脸图片,达到属性编辑的效果。ExprGAN引入了一
个表情控制模块,给定一个one‑hot向量形式的表情标签和一张人脸图像,模型能够得到不
同目标表情强度的人脸图片。G2GAN借助人脸特征点可以生成一组平滑的人脸表情图序列,
但是模型对每个不同的人都需要借助该人物的一张中性表情的图作为媒介,来实现表情的
合成。这种对中性表情的依赖在一定程度上削减了表情合成的有效性。Qiao等人对G2GAN又
进行了扩展,给定一张人脸图片和带有人脸表情信息的人脸标记点,通过编码器将二者映
射到潜在空间中得到各自的潜在向量,串联获得的级联向量再经过解码器生成带有指定表
情的人脸图片。为了解决方法所需的成对训练数据难以获取的问题,CycleGAN在生成对抗
网络框架中引入了一个循环一致性对抗损失函数,不需要成对的人脸表情图片进行训练,
但存在的问题是模型训练完成后,只能针对两个特定人物之间进行转换,限制了模型的效
率与扩展性。StarGAN利用统一的GAN模型来实现多域之间的转换,并通过one‑hot向量实现
多数据集的联合训练。但StarGAN不涉及任何隐含表示,使得其更改面部属性的能力受到限
制。FReeNet引入了几何信息约束,可以将人脸表情从任意源人脸转移到目标人脸。Wang等
人利用U‑Net模型保留输入人脸的身份特征和面部细节等信息,实现一对多的表情合成,但
这些方法合成的人脸只体现表情属性的修改。
合成的人脸不能很好地保持给定的身份特征,且表情不真实自然;人脸图像合成效率和泛
化能力均较低。
发明内容
源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图像。
移到目标人脸;
的真实感人脸图片。
脸图片特征进行融合,得到两者的偏移量,最后将目标人脸图片特征与偏移量进行显性相
加得到带有源表情的目标人脸标记点。
生成的人脸表情图片上增强几何信息,每个transformer都与人脸标记点编码器的输出相
连。
行的特征提取操作;H(·)表示L2距离;margin表示预设给定的距离; 和 分别
是几何‑属性感知生成器对于输入 和 生成的人
脸表情图片; 和 表示选取的带有表情n1和n2的人物T的图片; 表示从人物R中随机
选取的带有任意表情n3的图片;c表示属性域的标签。
移到目标人脸;
的真实感人脸图片。
化的人脸图像合成方法中的步骤。
人脸图像;
征),同时具有真实自然的表情;
能够使合成的人脸很好地保持目标人脸身份特征、复制源人脸表情,同时满足用户指定的
外貌属性要求。
附图说明
具体实施方式
通常理解的相同含义。
也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包
括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
的高真实感的人脸图像。随着给定条件的变化,可得到具有任意外貌和表情的多样化的人
脸图像,本实施例还将三元组损失和感知损失相结合,形成一种新的软截断三元感知损失
函数,该函数可使新模型生成的人脸很好地保持给定的目标人脸身份特征(包括丰富的细
节特征),同时具有真实自然的表情。
Generator,GAAG);
移到目标人脸;
的真实感人脸图片。
样化的人脸图像。
(∈R ),使用人脸特征点检测器将它们编码为潜在的人脸特征点空间lT,r(∈R )
106×2
和lS,n(∈R ),其中第一个下标表示身份信息(T表示目标人脸,S表示源人脸),第二个下
标表示表情信息(r表示参照表情,n表示任意表情)。本实施例将术语“属性”定义为人脸图
像中隐含表达信息的特征(例如头发的颜色、性别及年龄)。
两张图片的人脸特征点lS,n和lT,r的潜在空间中学习到两者之间的偏移量loffset,将loffset叠
加到lT,r上得到lT,r中各特征点的新位置,进而得到位置更新后的带有源表情信息的目标人
脸特征点向量,记为 该过程表示为: 然后,几何‑属性感知生成器Θ
3×256×256
利用输入的表情信息 目标人脸的身份特征信息IT,r(∈R ),以及属性
标签c,生成一张人脸图片 完成表情迁移和人脸属性编辑的任务。该过程记
为: 其中, 表示根据人脸特征点生成器Ω生成的人脸特征点向量
所绘制的人脸特征点图像.下面详细介绍本实施例网络模型的两个组成部分,以及新提
出的软截断三元感知损失函数。
的。FLMG将源表情(以人脸特征点的形式表示)从任意人脸迁移到目标人脸时,可以根据源
人脸和目标人脸的几何结构差异自动调整表情信息,使目标人脸的表情与源人脸相同,但
又具有自己的个性特征。
进行融合得到两者之间的偏移量loffset,最后将lT,r和loffset进行显性相加得到带有源表情
的目标人脸标记点 整个过程公式表示如下:
函数分别定义为:
例的GAAG是基于StarGAN框架并根据表情和外貌解耦的思想设计而来,可实现表情和外貌
的分别控制.每个外貌属性表示为一个域(称为属性域),采用属性标签(one‑hot向量)表示
指定的属性域信息,并在判别器上引入一个辅助分类器使其能够控制多个域.判别器会产
生源图片和域标签的两个概率分布,表示为D:x→{Dsrc(x),Dcls(x)}。其中,Dsrc(x)为源图片
的概率分布,Dcls(x)为域标签的概率分布.如图1所示,GAAG由图片编码器σ1,人脸标记点编
码器σ2,transformer块σ3以及图片解码器σ4组合而成。三个ResBlock部件组成一个
transformer,为在生成的人脸表情图片上增强几何信息 每个transformer都与人脸标
记点编码器σ2的输出相连,该过程可表示为:
则尝试区分真实人脸图片和生成的人脸图片。
地分类到相应的域中。为了保证分类的正确,本实施例在判别器D上加了分类器并定义域分
类损失函数如下:
的细节信息。
受到源人脸表情信息的影响,难以很好地保持原有目标人脸的身份特征。针对该问题,本实
施例结合三元损失函数和感知损失形成一个新的软截断三元感知损失函数,利用该损失函
数可进一步缩小样本类内感知分量的差距,同时扩大样本类间感知分量的差距,从而使生
成的人脸能够有效地保持目标人脸身份特征。如公式(12)所示,传统的三元损失函数的目
的是对于某个样本xa,尽量缩小与它的正样本xp之间的距离,同时增大与它的负样本xn之间
的距离。在本实施例中,如果将一张人脸图像作为xa,那么具有相同身份的人脸图像则被视
为正样本xp(即xa和xp属于同一类),不同身份的人脸图像则被视为负样本xn(即xa和xn属于
不同类)。
止优化.这种处理方式在“0”的地方属于硬截断,这会导致离得近的正样本不再继续拉近.
如图2(a)所示,灰色正样本xp和白色正样本xp所对应的损失函数值LTri均为0,但实际上白色
正样本xp可以进一步优化到灰色正样本xp的位置。
图2(b)所示,可见:
离,增大负样本xn与xa的距离,即进一步缩小类内距离,扩大类间距离,从而使得GAAG生成的
人脸图片可以更好地保持目标人脸的身份特征。
的软截断三元损失与感知损失相结合,形成一个新的软截断三元感知损失函数。下面将结
合本实施例网络模型相关的数学定义,给出新的软截断三元感知损失函数的最终数学定义
形式。
分别是GAAG对于不同的输入 和
生成的人脸表情图片。 表示由FLMG将表情n2迁移到人R上后的人脸标记点图,同理得到
则本实施例中的软截断的三元感知损失函数可以定义如下:
而更加关注身份信息即外貌上的差距。
由于该函数有效缩小了类内( 和 )的感知分量,同时增大了类间( 和 )的感知
分量,所以生成的人脸图片具有更丰富的细节。图4展示了在GAAG中分别使用传统三元损失
函数和软截断三元感知损失函数得到的效果比较图。这里未给GAAG输入属性标签,即只实
现从源人脸到目标人脸的表情迁移的功能。由图4中的(a)可见,相比于传统的三元损失函
数,使用软截断三元感知损失函数生成的人脸图片对源人脸表情的复制度更高且具有更多
的细节,如嘴巴的形状更接近真实人脸表情图片,因面部表情而形成的眉间皱纹得到了很
好的再现。由图4中的(b)和图4中的(c)可见,使用传统三元损失函数约束生成的人脸无法
有效地保持目标人脸的身份特征,如脸部轮廓产生了本不存在的棱角(见框标记部分),而
使用软截断三元感知损失函数约束生成的人脸,不仅很好地保持了目标人脸的身份特征,
而且具有更加丰富、真实自然的表情细节(如框标记的脸部轮廓,嘴型以及牙齿处)。
断三元感知损失函数(实线)与传统三元损失(虚线)相比,能够以更快的收敛速度到达较低
的界限。
练完的FLMG模块的参数,使用公式(11)定义的损失函数训练GAAG,其中损失权重μadv,μpix,
μSTP和μcls分别设为0.1、100、0.01和1。
情.本实施例使用其中所有45°,90°和135°的人脸图片,每张人脸图片上的106个人脸标记
点利用人脸标记点检测器获得.此外,本实施例手动为每个参与者的5种二值属性(0/1)进
行标注:头发颜色(黑色,金色,棕色),性别(男性/女性)和年龄(年轻/年老)。
了45°,90°和135°三个角度的人脸表情图片进行实验.每张人脸图片上的106个人脸标记点
也是通过人脸标记点检测器获得。同样地,手动为每个参与者的5种二值属性(0/1)进行标
注:头发颜色(黑色,金色,棕色),性别(男性/女性)和年龄(年轻/年老)。
0.999。初始学习速率设为3e ,对FLMG训练1000个epochs,batch size为16.对于GAAG,使用
‑4
Adam优化器并设置β1=0.5,β2=0.999,初始学习速率设置为2e 。
及模型的灵活性。实验中所有人脸图片尺寸调整为256×256。
入,进行了大量实验,得到了较好的效果。图6至图8展示了部分实验结果,其中第一行为源
人脸表情图片,第一列为目标人脸图片,具有不同表情和身份的源人脸图片和目标人脸图
片都是从RaFD中随机选择的。图6、图7和图8分别展示了将源人脸的面部表情和动作分别迁
移到三种姿态(90°方向,正面;45°方向,右侧;135°方向,左侧)的六个目标人脸上的效果.
可见,本实施例方法合成的人脸不仅能够保持与目标人脸一致的身份特征信息(如面部几
何结构、五官特点等),且生成的表情真实自然、细节丰富。另外,合成人脸图像还很好地保
持了目标人脸图片的姿态、色调和光照。
图9展示了其中一个实例。其中,行(a)是随机选取的带有不同表情的七个源人脸,第一列是
不同身份、不同角度的三个目标人脸,(b)‑(d)行是Pix2Pix方法生成的结果图,(e)‑(g)行
是CycleGAN方法的结果图,(h)‑(j)行是FReeNet方法的结果图,(k)‑(m)行则是本实施例方
法的结果图。Pix2Pix生成的图片无法保持目标人脸的身份特征和姿态,且部分图片出现扭
曲;CycleGAN生成的部分人脸图片也出现了扭曲模糊的情况,且表情并不自然;FReeNet方
法生成的图片可以较好地保持目标人脸的身份特征和姿态,但对某些源表情的还原度较
低、真实感差;而本实施例方法合成的人脸图像不仅能够保持目标人脸的身份特征、姿态以
及目标人脸图片的色调等信息,而且在目标人脸上重现的表情更加真实自然,符合目标人
脸自身的个体特征。例如,对比框标注的实验结果图,可见由CycleGAN生成的人脸图片嘴部
出现了模糊变形,且开心的表情生硬不自然,更像是假笑;FReeNet生成的开心表情整体比
较自然,但人眼视线的方向与目标人脸不一致,略显奇怪;而本实施例方法生成的开心表情
更加自然,眼睛注视方向也与目标人脸保持一致。对比图9中的(g)与(m)两行中蓝框标注的
实验结果图,可见在CycleGAN生成的惊讶表情图片中,下巴会有阴影,图片质量不高,而本
实施例方法不仅能够实现身份特征保持,并且迁移后的表情更加真实自然。此外,对于
CycleGAN来说,每种表情的迁移都需要重新训练模型,这个过程是非常耗时的。而本实施例
中的模型一旦训练完成,即可实现任意不同表情之间的传递,具有更高的效率和鲁棒性。
的结果,但在很多细节方面的处理效果较差。图10展示了图9中矩形框标注部分的细节放大
效果。可见,对于开心表情,CycleGAN生成的人脸中嘴部两侧的笑纹出现小黑块,且下嘴唇
有变形;FReeNet生成的人脸笑纹则出现阴影,且脸部轮廓出现本不存在的棱角;而本实施
例方法生成的人脸笑纹更加自然,且脸部轮廓特征保持的较好。对于生气表情,相比于
CycleGAN生成的人脸在眉眼处的错误结果,以及FReeNet在眉眼处的模糊,本实施例方法生
成的人脸保留了丰富且清晰的细节,这也证实了软截断三元感知损失的优势.
给定属性标签作为模型的输入,生成带有源人脸表情,目标人脸身份特征以及指定属性的
人脸图像。图11和图12展示了部分实验结果.其中,第一列和第二列分别是目标人脸和源人
脸.右侧五列分别是利用本实施例方法合成的带有指定属性(如黑发、棕发等)的人脸图像。
实验结果显示,本实施例模型合成的人脸可以很好地保持身份特征、复刻表情,同时满足指
定属性的要求.例如,图11中的(a)和(b)两行,当源人脸发生变化时,合成的人脸只体现了
源人脸之间表情的变化,其身份特征并不会随源人脸的变化而变化。右侧五列的实验结果
仅是根据属性标签(如将头发的颜色或者性别改变)调整的外貌属性,其人脸的身份特征仍
然与目标人脸保持一致、表情仍然与源人脸保持一致.可见,本实施例模型很好地实现了外
貌和表情解耦的效果。
先,仅使用表情信息 和外貌信息IT,r作为输入进行表情迁移的实验.图13展示了其中一
个实验结果,这里,具有不同表情和身份的六张源人脸图片是从KDEF中随机选取的,并将源
人脸的面部表情和动作分别转移到三种姿势(45°,90°和135°)的六个目标人脸上。可见,本
实施例方法所生成的人脸图片不仅保持了目标人脸的身份特征、姿态以及目标图片的色
调、光照信息,而且迁移后的表情与源表情一致,且真实自然。
成的带有指定属性(如黑发、棕发等)的人脸图像。实验结果表明,本实施例的模型可以保持
目标人脸身份特征、复制源人脸表情,同时体现指定属性的外貌效果。
Mechanical Turk(AMT)外包服务平台来评估不同方法对RaFD数据集中67个目标人脸生成
的四种指定属性(表情、发色、性别、年龄)的共1072张人脸图片的真实感.对每一种指定属
性,将本实施例方法以及Pix2Pix,CycleGAN和StarGAN四种方法合成的人脸图片作为四个
选项,30个答卷者根据图片真实感与质量的高低,以及对人物原始身份特征保持的感知,来
选择最佳生成图片,以评估人脸图像合成的效果。表1展示了AMT对每个指定属性,四种方法
所合成人脸质量的评价结果.每列对应一个属性,给出了四种方法生成的图片被评价为最
佳图片的数量占该列所有图片数量的比重,每列四种方法的比重总和为100%。可见,在所
有情况下,本实施例方法均表现最佳.
便比较,实验中仅使用表情信息 身份信息IT,r作为输入,即实现表情的迁移。具体地,从
数据集中随机选取100张源人脸图片,再随机选择与源人脸身份不同的另外70张图片作为
目标人脸,将源人脸表情迁移到每一个目标人脸上,共得到7000张生成人脸图片。将数据集
中这70个目标人脸与源人脸表情相同的图片作为真实图片,计算合成图片的SSIM指标。分
别利用Pix2Pix,CycleGAN,FReeNet以及本实施例方法进行上述表情迁移操作和SSIM评估。
表2列出了四种方法合成人脸图像的SSIM值。可见Pix2Pix的SSIM值最小,本实施例模型的
SSIM值最大,说明本实施例方法合成的人脸图像质量更好。
移到目标人脸;
的真实感人脸图片。
图像合成方法中的步骤。
式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储
介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁
碟、光盘、只读存储记忆体(Read‑Only Memory,ROM)或随机存储记忆体(Random
AccessMemory,RAM)等。
改、等同替换、改进等,均应包含在本发明的保护范围之内。