一种多样化的人脸图像合成方法及系统转让专利

申请号 : CN202111101932.1

文献号 : CN113807265B

文献日 : 2022-05-06

本发明提供了多样化的人脸图像合成方法及系统。其中该方法包括获取源人脸图片、目标人脸图片及属性标签信息；根据源人脸图片、目标人脸图片和人脸合成网络模型，得到具有源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图片；人脸合成网络模型包括人脸特征点生成器和几何‑属性感知生成器；人脸特征点生成器用于提取源人脸与目标人脸的特征点作为人脸几何特征信息，并从人脸几何特征信息中提取表情信息，在潜在空间中将任意源人脸的表情信息迁移到目标人脸；几何‑属性感知生成器用于分别从目标人脸和标签中对应提取身份特征和指定属性信息，结合表情信息，生成一张具有源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图片。

1.一种多样化的人脸图像合成方法，其特征在于，包括：获取源人脸图片、目标人脸图片及属性标签信息；

根据源人脸图片、目标人脸图片和人脸合成网络模型，得到具有源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图片；

其中，人脸合成网络模型包括人脸特征点生成器和几何‑属性感知生成器；

所述人脸特征点生成器用于提取源人脸与目标人脸的特征点作为人脸几何特征信息，并从人脸几何特征信息中提取表情信息，在潜在空间中将任意源人脸的表情信息迁移到目标人脸；

所述几何‑属性感知生成器用于分别从目标人脸和标签中对应提取身份特征和指定属性信息，再结合表情信息生成一张具有源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图片；

所述几何‑属性感知生成器的总目标损失函数为对抗损失函数、像素级损失函数、软截断三元感知损失函数和域分类损失函数四者的预设权重乘积和；

所述软截断三元感知损失函数为：

其中，表示由人脸特征点生成器将表情n2迁移到人R上后的人脸标记点图，表示由人脸特征点生成器将表情n2迁移到人T上后的人脸标记点图，v(·)表示用VGG进行的特征提取操作；H(·)表示L2距离；margin表示预设给定的距离；和分别是几何‑属性感知生成器对于输入和生成的人脸表情图片；和表示选取的带有表情n1和n2的人物T的图片；表示从人物R中随机选取的带有任意表情n3的图片；c表示属性域的标签。

2.如权利要求1所述的多样化的人脸图像合成方法，其特征在于，所述人脸特征点生成器包括两个编码器和一个解码器，两个编码器分别用于对源人脸图片和目标人脸图片提取特征，解码器用于对提取的源人脸图片和目标人脸图片特征进行融合，得到两者的偏移量，最后将目标人脸图片特征与偏移量进行显性相加得到带有源表情的目标人脸标记点。

3.如权利要求1所述的多样化的人脸图像合成方法，其特征在于，所述人脸特征点生成器的总目标损失函数为L1损失函数、循环一致损失函数和对抗损失函数三者的预设权重乘积和。

4.如权利要求1所述的多样化的人脸图像合成方法，其特征在于，所述几何‑属性感知生成器基于StarGAN框架并根据表情和外貌解耦的思想设计得到，可实现表情和外貌的分别控制。

5.如权利要求1所述的多样化的人脸图像合成方法，其特征在于，所述几何‑属性感知生成器由图片编码器，人脸标记点编码器，transformer块以及图片解码器组合而成；三个ResBlock部件组成一个transformer，为在生成的人脸表情图片上增强几何信息,每个transformer都与人脸标记点编码器的输出相连。

6.一种多样化的人脸图像合成系统，其特征在于，包括：信息获取模块，其用于获取源人脸图片、目标人脸图片及属性标签信息；

人脸图片合成模块，其用于根据源人脸图片、目标人脸图片和人脸合成网络模型，得到具有源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图片；

其中，人脸合成网络模型包括人脸特征点生成器和几何‑属性感知生成器；

所述几何‑属性感知生成器的总目标损失函数为对抗损失函数、像素级损失函数、软截断三元感知损失函数和域分类损失函数四者的预设权重乘积和；

所述软截断三元感知损失函数为：

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1‑5中任一项所述的多样化的人脸图像合成方法中的步骤。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1‑5中任一项所述的多样化的人脸图像合成方法中的步骤。

一种多样化的人脸图像合成方法及系统

技术领域

[0001] 本发明属于人脸图像合成领域，尤其涉及一种多样化的人脸图像合成方法及系统。

背景技术

[0002] 本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

[0003] 人脸图像合成是计算机视觉与计算机图形学领域的一个研究热点和难点问题,在数字娱乐、公共安全和医疗卫生等领域都有着广泛的应用.人脸图像合成的目标是根据输
入信息生成具有期望表情和模样(包括五官、发色、年龄、性别等)的高质量的人脸图片。

[0004] 随着深度学习技术的兴起与发展,基于数据驱动的人脸图像合成技术取得了巨大突破。Susskind等人的研究是人脸图像合成的初步工作之一,他们将深度信念网络(DBN)作
为模型,以两个隐含层开始,第二隐含层的输出与身份信息向量以及表情信息向量(面部表
情编码系统(FACS)形式)连接在一起,通过有1000个逻辑隐含单元的受限玻尔兹曼机(RBM)
学习它们的联合模型,训练好的DBN模型能够生成具有不同身份和表情的人脸图片。闫等人
利用卷积神经网络构建参数回归网络模型,基于深度学习和表情AU参数生成人脸。
Goodfellow等人于2014年提出了生成式对抗模型GAN(最原始的GAN模型),该模型主要包括
两个网络组成部分：生成器和判别器，其原理可以看成两个玩家(生成器和判别器)相互博
弈的过程,即在训练过程中,生成器尽量生成真实的图片去欺骗判别器,而判别器尽量能区
分出生成的图片和真实的图片。GAN因强大的图片生成能力而被运用到人脸合成中,但是原
始GAN存在难以训练,生成器和判别器的损失函数无法指示训练进程,模型易崩塌,生成样
本缺乏多样性的缺点。WGAN用Wasserstein距离代替GAN中判别器衡量真实分布与生成分布
之间的JS散度,提高了GAN训练的稳定性.随着GAN模型的诞生和改进,很多工作都是对GAN
模型的结合和扩展。Pix2Pix将传统GAN的输入从随机噪声改为用户给定的图片,完成成对
图像间的转换。IcGAN利用编码器分别将真实图片和属性信息映射到潜在空间,通过修改属
性信息的潜在向量,经GAN生成一张新的人脸图片,达到属性编辑的效果。ExprGAN引入了一
个表情控制模块,给定一个one‑hot向量形式的表情标签和一张人脸图像,模型能够得到不
同目标表情强度的人脸图片。G2GAN借助人脸特征点可以生成一组平滑的人脸表情图序列,
但是模型对每个不同的人都需要借助该人物的一张中性表情的图作为媒介,来实现表情的
合成。这种对中性表情的依赖在一定程度上削减了表情合成的有效性。Qiao等人对G2GAN又
进行了扩展,给定一张人脸图片和带有人脸表情信息的人脸标记点,通过编码器将二者映
射到潜在空间中得到各自的潜在向量,串联获得的级联向量再经过解码器生成带有指定表
情的人脸图片。为了解决方法所需的成对训练数据难以获取的问题,CycleGAN在生成对抗
网络框架中引入了一个循环一致性对抗损失函数,不需要成对的人脸表情图片进行训练,
但存在的问题是模型训练完成后,只能针对两个特定人物之间进行转换,限制了模型的效
率与扩展性。StarGAN利用统一的GAN模型来实现多域之间的转换,并通过one‑hot向量实现
多数据集的联合训练。但StarGAN不涉及任何隐含表示,使得其更改面部属性的能力受到限
制。FReeNet引入了几何信息约束,可以将人脸表情从任意源人脸转移到目标人脸。Wang等
人利用U‑Net模型保留输入人脸的身份特征和面部细节等信息,实现一对多的表情合成,但
这些方法合成的人脸只体现表情属性的修改。

[0005] 发明人发现，目前基于深度学习的人脸图像合成仍存在以下问题：人脸图像合成时的可控性和多样性均较差，难以得到符合用户期望的具有多种外貌和丰富表情的人脸；
合成的人脸不能很好地保持给定的身份特征，且表情不真实自然；人脸图像合成效率和泛
化能力均较低。

发明内容

[0006] 为了解决上述背景技术中存在的技术问题，本发明提供一种多样化的人脸图像合成方法及系统，其可根据任意给定的源人脸图片、目标人脸图片和属性标签,生成一张具有
源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图像。

[0007] 为了实现上述目的，本发明采用如下技术方案：

[0008] 本发明的第一个方面提供一种多样化的人脸图像合成方法，其包括：

[0009] 获取源人脸图片、目标人脸图片及属性标签信息；

[0010] 根据源人脸图片、目标人脸图片和人脸合成网络模型，得到具有源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图片；

[0011] 其中，人脸合成网络模型包括人脸特征点生成器和几何‑属性感知生成器；

[0012] 所述人脸特征点生成器用于提取源人脸与目标人脸的特征点作为人脸几何特征信息，并从人脸几何特征信息中提取表情信息，在潜在空间中将任意源人脸的表情信息迁
移到目标人脸；

[0013] 所述几何‑属性感知生成器用于分别从目标人脸和标签中对应提取身份特征和指定属性信息，再结合表情信息生成一张具有源人脸表情、目标人脸身份特征以及指定属性
的真实感人脸图片。

[0014] 进一步地，所述人脸特征点生成器包括两个编码器和一个解码器，两个编码器分别用于对源人脸图片和目标人脸图片提取特征，解码器用于对提取的源人脸图片和目标人
脸图片特征进行融合，得到两者的偏移量，最后将目标人脸图片特征与偏移量进行显性相
加得到带有源表情的目标人脸标记点。

[0015] 进一步地，所述人脸特征点生成器的总目标损失函数为L1损失函数、循环一致损失函数和对抗损失函数三者的预设权重乘积和。

[0016] 进一步地，所述几何‑属性感知生成器基于StarGAN框架并根据表情和外貌解耦的思想设计得到，可实现表情和外貌的分别控制。

[0017] 进一步地，所述几何‑属性感知生成器由图片编码器，人脸标记点编码器，transformer块以及图片解码器组合而成；三个ResBlock部件组成一个transformer，为在
生成的人脸表情图片上增强几何信息,每个transformer都与人脸标记点编码器的输出相
连。

[0018] 进一步地，所述几何‑属性感知生成器的总目标损失函数为对抗损失函数、像素级损失函数、软截断三元感知损失函数和域分类损失函数四者的预设权重乘积和。

[0019] 进一步地，所述软截断三元感知损失函数为：

[0020]

[0021] 其中，表示由人脸特征点生成器将表情n2迁移到人R上后的人脸标记点图，表示由人脸特征点生成器将表情n2迁移到人T上后的人脸标记点图，v(·)表示用VGG进
行的特征提取操作；H(·)表示L2距离；margin表示预设给定的距离；和分别
是几何‑属性感知生成器对于输入和生成的人
脸表情图片；和表示选取的带有表情n1和n2的人物T的图片；表示从人物R中随机
选取的带有任意表情n3的图片；c表示属性域的标签。

[0022] 本发明的第二个方面提供一种多样化的人脸图像合成系统，其包括：

[0023] 信息获取模块，其用于获取源人脸图片、目标人脸图片及属性标签信息；

[0024] 人脸图片合成模块，其用于根据源人脸图片、目标人脸图片和人脸合成网络模型，得到具有源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图片；

[0025] 其中，人脸合成网络模型包括人脸特征点生成器和几何‑属性感知生成器；

[0026] 所述人脸特征点生成器用于提取源人脸与目标人脸的特征点作为人脸几何特征信息，并从人脸几何特征信息中提取表情信息，在潜在空间中将任意源人脸的表情信息迁
移到目标人脸；

[0027] 所述几何‑属性感知生成器用于分别从目标人脸和标签中对应提取身份特征和指定属性信息，再结合表情信息生成一张具有源人脸表情、目标人脸身份特征以及指定属性
的真实感人脸图片。

[0028] 本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的多样化的人脸图像合成方法中的步骤。

[0029] 本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的多样
化的人脸图像合成方法中的步骤。

[0030] 与现有技术相比，本发明的有益效果是：

[0031] 本发明基于人脸合成网络模型，实现了根据任意给定的源人脸图片、目标人脸图片和属性标签,生成一张具有源人脸表情、目标人脸身份特征以及指定属性的高真实感的
人脸图像；

[0032] 本发明将三元损失和感知损失相结合,形成一种新的软截断三元感知损失函数。该函数可使新模型生成的人脸很好地保持给定的目标人脸身份特征(包括丰富的细节特
征),同时具有真实自然的表情；

[0033] 本发明提出了用于几何‑属性感知生成器的新的总损失函数，该函数由对抗损失函数、像素级损失函数、软截断三元感知损失函数和域分类损失函数四项加权构成，该函数
能够使合成的人脸很好地保持目标人脸身份特征、复制源人脸表情,同时满足用户指定的
外貌属性要求。

[0034] 本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

[0035] 构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

[0036] 图1是本发明实施例的多样化的人脸图像合成方法流程图；

[0037] 图2(a)是本发明实施例的软截断三元损失优化过程；

[0038] 图2(b)是本发明实施例的软截断三元损失与传统三元损失对比函数图；

[0039] 图3是本发明实施例的软截断三元感知损失函数原理图；

[0040] 图4是本发明实施例的传统三元损失与改进的软截断三元感知损失效果图对比；

[0041] 图5是本发明实施例的软截断三元感知损失和传统三元损失的训练收敛对比结果；

[0042] 图6是本发明实施例对RaFD数据集正面方向的数据进行表情迁移的效果；

[0043] 图7是本发明实施例对RaFD数据集右侧方向的数据进行表情迁移的效果；

[0044] 图8是本发明实施例对RaFD数据集左侧方向的数据进行表情迁移的效果；

[0045] 图9是本发明实施例该方法与Pix2Pix,CycleGAN和FReeNet在RaFD数据集上的对比实验效果图；

[0046] 图10是图9中的框放大效果；

[0047] 图11是本发明实施例的在RaFD数据集正面方向的数据上，使用表情信息、身份特征和属性标签合成的人脸图像；

[0048] 图12是本发明实施例的在RaFD数据集右侧和左侧方向的数据上,使用表情信息、身份特征信息和属性标签合成的人脸图像；

[0049] 图13是本发明实施例的在KDEF数据集三个方向(45°，90°和135°)的数据上进行表情迁移的效果图；

[0050] 图14是本发明实施例的在KDEF数据集三个方向(45°,90°和135°)的数据上,使用表情信息,身份特征信息和属性标签合成的人脸图像效果图。

具体实施方式

[0051] 下面结合附图与实施例对本发明作进一步说明。

[0052] 应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员
通常理解的相同含义。

[0053] 需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式
也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包
括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

[0054] 本实施例中所使用的人脸图片均是开源数据集中的图片样本。

[0055] 实施例一

[0056] 本实施例提供了一种多样化的人脸图像合成方法，其具体包括如下步骤：

[0057] 步骤1：获取源人脸图片、目标人脸图片及属性标签信息。

[0058] 其中，属性标签信息包括标签属性的个数以及标签含义，例如设置5个标签，每个标签对应不同的外貌属性，每个标签都是二值的，0或1。

[0059] 步骤2：根据源人脸图片、目标人脸图片和人脸合成网络模型，得到具有源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图片。

[0060] 本实施例的人脸合成网络模型可根据给定的源人脸图片、目标人脸图片和属性(如发色、性别、年龄等)标签，生成一张具有源人脸表情、目标人脸身份特征以及指定属性
的高真实感的人脸图像。随着给定条件的变化，可得到具有任意外貌和表情的多样化的人
脸图像，本实施例还将三元组损失和感知损失相结合，形成一种新的软截断三元感知损失
函数，该函数可使新模型生成的人脸很好地保持给定的目标人脸身份特征(包括丰富的细
节特征)，同时具有真实自然的表情。

[0061] 如图1所示，本实施例的人脸合成网络模型包括人脸特征点生成器(Facial Landmark Generator,FLMG)和几何‑属性感知生成器(Geometry and Attribute aware
Generator,GAAG)；

[0062] 所述人脸特征点生成器用于提取源人脸与目标人脸的特征点作为人脸几何特征信息，并从人脸几何特征信息中提取表情信息，在潜在空间中将任意源人脸的表情信息迁
移到目标人脸；

[0063] 所述几何‑属性感知生成器用于分别从目标人脸和标签中对应提取身份特征和指定属性信息，再结合表情信息生成一张具有源人脸表情、目标人脸身份特征以及指定属性
的真实感人脸图片。

[0064] 本实施例的人脸合成网络模型引入了人脸几何特征表示表情信息,引入属性标签作为编辑人脸外貌的约束条件,因此可以同时实现人脸表情迁移和人脸属性编辑,生成多
样化的人脸图像。

[0065] 模型的相关数学定义如下:给定目标人脸图片IT,r(∈R3×256×256)与源人脸图片IS,n3×256×256 106×2
(∈R ),使用人脸特征点检测器将它们编码为潜在的人脸特征点空间lT,r(∈R )
106×2
和lS,n(∈R ),其中第一个下标表示身份信息(T表示目标人脸,S表示源人脸),第二个下
标表示表情信息(r表示参照表情,n表示任意表情)。本实施例将术语“属性”定义为人脸图
像中隐含表达信息的特征(例如头发的颜色、性别及年龄)。

[0066] 将模型中的人脸特征点生成器记为Ω,几何‑属性感知生成器记为Θ。给定一张带有任意表情的源人脸图片IS,n,以及参照表情的目标人脸图片IT,r,人脸特征点生成器Ω从
两张图片的人脸特征点lS,n和lT,r的潜在空间中学习到两者之间的偏移量loffset,将loffset叠
加到lT,r上得到lT,r中各特征点的新位置,进而得到位置更新后的带有源表情信息的目标人
脸特征点向量,记为该过程表示为: 然后,几何‑属性感知生成器Θ
3×256×256
利用输入的表情信息目标人脸的身份特征信息IT,r(∈R ),以及属性
标签c,生成一张人脸图片完成表情迁移和人脸属性编辑的任务。该过程记
为: 其中, 表示根据人脸特征点生成器Ω生成的人脸特征点向量
所绘制的人脸特征点图像.下面详细介绍本实施例网络模型的两个组成部分,以及新提
出的软截断三元感知损失函数。

[0067] 人脸特征点生成器(FLMG)用于实现源人脸表情到目标人脸的迁移.由于不同人的脸部身份特征不同,同一表情呈现在不同人脸上,其五官的变形、脸部肌肉的运动等是不同
的。FLMG将源表情(以人脸特征点的形式表示)从任意人脸迁移到目标人脸时,可以根据源
人脸和目标人脸的几何结构差异自动调整表情信息,使目标人脸的表情与源人脸相同,但
又具有自己的个性特征。

[0068] 如图1所示，所述人脸特征点生成器包括两个编码器( 和 )和一个解码器两个编码器和分别对源人脸标记点lS,n和目标人脸标记点lT,r提取特征,然后通过
进行融合得到两者之间的偏移量loffset,最后将lT,r和loffset进行显性相加得到带有源表情
的目标人脸标记点整个过程公式表示如下:

[0069]

[0070] 在具体实施中，所述人脸特征点生成器的总目标损失函数为L1损失函数、循环一致损失函数和对抗损失函数三者的预设权重乘积和。

[0071] L1损失函数：

[0072] L1损失函数用于计算生成的带有源人脸表情的目标人脸标记点与真实的目标人脸标记点之间的误差,定义为:

[0073]

[0074] 其中lT,n表示真实的带有源人脸表情的目标人脸标记点。||·||1表示L1范数。

[0075] 循环一致损失函数：

[0076] 循环一致损失函数用于计算由逆向生成的源人脸标记点与真实的源人脸标记点之间的误差,以保证生成的能够被准确地逆向生成,定义为:

[0077] Lcyc＝||Ω(lS,r,Ω(lT,r,lS,n))‑lS,n||1 (3)

[0078] 其中lS,r表示带有参照表情的源人脸标记点。

[0079] 对抗损失函数：

[0080] 两个判别器DTF和DS用于保证生成器Ω的准确性和鲁棒性.判别器DTF用于评判生成的人脸标记点是真是假,DS则用来估计人脸标记点之间的特征相似性,两个判别器的损失
函数分别定义为:

[0081]

[0082]

[0083] 其中x表示真实人脸标记点的数据空间,z表示Ω的一组输入。

[0084] FLMG的总目标函数：

[0085] 结合公式(2)‑(5),得到FLMG的总目标函数LFLMG,表示如下:

[0086] LFLMG＝μ1LL1+μ2Lcyc+μ3LD (6)

[0087] 其中,μi,i＝1,2,3表示三项损失函数在FLMG中的权重。

[0088] 几何‑属性感知生成器：

[0089] 几何‑属性感知生成器(GAAG)以表情信息端身份特征信息端IT,r和属性标签c作为输入,能够生成具有源表情、目标人脸身份以及指定属性的高真实感人脸图片。本实施
例的GAAG是基于StarGAN框架并根据表情和外貌解耦的思想设计而来,可实现表情和外貌
的分别控制.每个外貌属性表示为一个域(称为属性域),采用属性标签(one‑hot向量)表示
指定的属性域信息,并在判别器上引入一个辅助分类器使其能够控制多个域.判别器会产
生源图片和域标签的两个概率分布,表示为D:x→{Dsrc(x),Dcls(x)}。其中,Dsrc(x)为源图片
的概率分布,Dcls(x)为域标签的概率分布.如图1所示,GAAG由图片编码器σ1,人脸标记点编
码器σ2,transformer块σ3以及图片解码器σ4组合而成。三个ResBlock部件组成一个
transformer,为在生成的人脸表情图片上增强几何信息每个transformer都与人脸标
记点编码器σ2的输出相连,该过程可表示为:

[0090]

[0091] 在具体实施中，所述几何‑属性感知生成器的总目标损失函数为对抗损失函数、像素级损失函数、软截断三元感知损失函数和域分类损失函数四者的预设权重乘积和。

[0092] 对抗损失函数：

[0093] 用对抗性损失去减少误差,降低生成图片与真实图片之间的差距:

[0094]

[0095] 其中x表示真实人脸图片的数据空间,l,k,m分别表示几何‑属性感知生成器Θ输入端的表情信息,身份信息,属性信息.由这些输入生成目标人脸图片Θ(l,k,m).判别器D
则尝试区分真实人脸图片和生成的人脸图片。

[0096] 像素级损失函数：

[0097] 用于计算生成的带有源人脸表情的目标人脸图片和真实目标人脸图片之间的L1误差,定义为:

[0098]

[0099] 其中IT,n表示真实的带有源人脸表情的目标人脸图片。

[0100] 域分类损失函数：

[0101] GAAG结合StarGAN的思想,对给定的表情信息身份信息IT,r和属性标签c,生成带有源表情、目标身份特征及指定属性的人脸图片,并根据人脸属性的改变情况将其正确
地分类到相应的域中。为了保证分类的正确,本实施例在判别器D上加了分类器并定义域分
类损失函数如下:

[0102] Lcls＝Ex,c[‑logDcls(c|x)] (10)

[0103] 其中,x表示生成人脸图片的数据空间,c表示属性域的标签,Dcls(c|x)表示生成图片数据空间下的属性域的概率分布。

[0104] GAAG的总目标函数：

[0105] 由公式(8)‑(10),可得GAAG的总目标函数如下:

[0106] LGAAG＝μadvLadv+μpixLpix+μSTPLSTP+μclsLcls (11)

[0107] 其中,μadv,μpix,μSTP和μcls分别是对抗损失、像素级损失、软截断三元感知损失以及域分类损失函数的权重参数。

[0108] 软截断三元感知损失函数：

[0109] 本实施例的软截断三元感知损失函数LSTP,用于对类内相似性和类间相似性进行评估。该函数既能实现对表情和外貌信息的解耦,又能使生成的人脸图片很好地保持原有
的细节信息。

[0110] 由于人脸RGB图片与人脸标记点图片的复杂度不同,这导致几何‑属性感知生成器更容易倾向于只学习分布较为简单的人脸标记点图片,继而使得合成人脸的身份特征容易
受到源人脸表情信息的影响,难以很好地保持原有目标人脸的身份特征。针对该问题,本实
施例结合三元损失函数和感知损失形成一个新的软截断三元感知损失函数,利用该损失函
数可进一步缩小样本类内感知分量的差距,同时扩大样本类间感知分量的差距,从而使生
成的人脸能够有效地保持目标人脸身份特征。如公式(12)所示,传统的三元损失函数的目
的是对于某个样本xa,尽量缩小与它的正样本xp之间的距离,同时增大与它的负样本xn之间
的距离。在本实施例中,如果将一张人脸图像作为xa,那么具有相同身份的人脸图像则被视
为正样本xp(即xa和xp属于同一类),不同身份的人脸图像则被视为负样本xn(即xa和xn属于
不同类)。

[0111] LTri＝max(||xa‑xp||‑||xa‑xn||+margin,0) (12)

[0112] 由公式(12)的定义可知,传统的三元损失函数,当类内距离(即xa与xp之间的距离)与类间距离(即xa与xn之间的距离)之间的差值大于或等于预设给定的距离margin时,即停
止优化.这种处理方式在“0”的地方属于硬截断,这会导致离得近的正样本不再继续拉近.
如图2(a)所示,灰色正样本xp和白色正样本xp所对应的损失函数值LTri均为0,但实际上白色
正样本xp可以进一步优化到灰色正样本xp的位置。

[0113] 为了解决这个问题,本实施例引入软截断思想,使用函数ln(1+exp(·))替代max(·,0).ln(1+exp(·))和max(·,0)的函数图像(·表示||xa‑xp||‑||xa‑xn||+margin)如
图2(b)所示,可见：

[0114] 当·小于或等于0时,max(·,0)直接将结果置为0,停止优化；而ln(1+exp(·))的值则可以随着·的减小进一步减小,继续优化,这个过程可进一步拉近正样本xp与xa的距
离,增大负样本xn与xa的距离,即进一步缩小类内距离,扩大类间距离，从而使得GAAG生成的
人脸图片可以更好地保持目标人脸的身份特征。

[0115] 感知损失是对真实图片与生成图片分别提取特征,通过缩小两者的特征信息即高层信息(内容和全局结构)之间的差距,达到优化生成图片的目的。本实施例将上述改进后
的软截断三元损失与感知损失相结合,形成一个新的软截断三元感知损失函数。下面将结
合本实施例网络模型相关的数学定义,给出新的软截断三元感知损失函数的最终数学定义
形式。

[0116] 如图3所示,有这样三张图片,两张是被随机选取的带有任意表情(n1和n2)的人物T的图片和另一张是从人物R中随机选取的带有任意表情n3的图片图
分别是GAAG对于不同的输入和
生成的人脸表情图片。表示由FLMG将表情n2迁移到人R上后的人脸标记点图,同理得到
则本实施例中的软截断的三元感知损失函数可以定义如下:

[0117]

[0118] 其中v(·)表示用VGG进行的特征提取操作；H(·)表示L2距离，margin表示预设给定的距离。

[0119] 此外,在软截断三元感知损失函数形式当中,保持三张生成图片和的表情都是一样的，使得在用VGG提取特征时,可以减少因为表情不同而带来的干扰因素，从
而更加关注身份信息即外貌上的差距。

[0120] 软截断三元感知损失函数这一约束的引入,可使GAAG生成的人脸图片既具有和源人脸一致的表情，又能很好地保持目标人脸的身份特征(如脸部轮廓、五官分布、肤色等)。
由于该函数有效缩小了类内( 和 )的感知分量,同时增大了类间( 和 )的感知
分量，所以生成的人脸图片具有更丰富的细节。图4展示了在GAAG中分别使用传统三元损失
函数和软截断三元感知损失函数得到的效果比较图。这里未给GAAG输入属性标签，即只实
现从源人脸到目标人脸的表情迁移的功能。由图4中的(a)可见,相比于传统的三元损失函
数,使用软截断三元感知损失函数生成的人脸图片对源人脸表情的复制度更高且具有更多
的细节，如嘴巴的形状更接近真实人脸表情图片，因面部表情而形成的眉间皱纹得到了很
好的再现。由图4中的(b)和图4中的(c)可见，使用传统三元损失函数约束生成的人脸无法
有效地保持目标人脸的身份特征，如脸部轮廓产生了本不存在的棱角(见框标记部分)，而
使用软截断三元感知损失函数约束生成的人脸，不仅很好地保持了目标人脸的身份特征，
而且具有更加丰富、真实自然的表情细节(如框标记的脸部轮廓,嘴型以及牙齿处)。

[0121] 另外，大量实验证明使用软截断三元感知损失函数能够使训练更快地收敛,且收敛到更低的值。图5展示了其中一个测试对比结果,在相同条件下(110epoches),可见软截
断三元感知损失函数(实线)与传统三元损失(虚线)相比,能够以更快的收敛速度到达较低
的界限。

[0122] 本实施例模型的训练过程主要包含两步：第一步，使用公式(6)中定义的损失函数训练FLMG模块，其中各约束项的权重分别设置为μ1＝100,μ2＝10,μ3＝0.1。第二步，固定训
练完的FLMG模块的参数，使用公式(11)定义的损失函数训练GAAG，其中损失权重μadv,μpix,
μSTP和μcls分别设为0.1、100、0.01和1。

[0123] 本实施例采用RaFD和KDEF两个数据集进行实验测试：

[0124] RaFD：The Radboud Faces Database(RaFD)包含对67位参与者收集的8,040张图像。每个参与者在三个不同的注视方向上做出八种表情,并从三个不同的角度捕获这些表
情.本实施例使用其中所有45°,90°和135°的人脸图片,每张人脸图片上的106个人脸标记
点利用人脸标记点检测器获得.此外,本实施例手动为每个参与者的5种二值属性(0/1)进
行标注：头发颜色(黑色,金色,棕色),性别(男性/女性)和年龄(年轻/年老)。

[0125] KDEF：The Karolinska Directed Emotional Faces(KDEF)包含对70位参与者收集的7种不同表情的人脸图片,并从五个角度对每个人的每种表情做了采集.本实施例选取
了45°,90°和135°三个角度的人脸表情图片进行实验.每张人脸图片上的106个人脸标记点
也是通过人脸标记点检测器获得。同样地,手动为每个参与者的5种二值属性(0/1)进行标
注:头发颜色(黑色,金色,棕色),性别(男性/女性)和年龄(年轻/年老)。

[0126] 实现：在述训练策略下,使用Adam优化FLMG的所有模块,并设置β1＝0.99,β2＝‑4
0.999。初始学习速率设为3e ,对FLMG训练1000个epochs,batch size为16.对于GAAG,使用
‑4
Adam优化器并设置β1＝0.5,β2＝0.999,初始学习速率设置为2e 。

[0127] 本实施例分别在数据集RaFD和KDEF上进行了一系列实验,包括对比实验,并直观呈现了视觉上的人脸图像合成效果,以表明本实施例方法所生成的人脸图像的高真实感以
及模型的灵活性。实验中所有人脸图片尺寸调整为256×256。

[0128] 首先,为证明本实施例提出的人脸合成模型能够很好地实现脸部身份特征保持的表情迁移,本实施例采用数据集RaFD,且仅使用表情信息和身份信息IT,r作为模型的输
入,进行了大量实验,得到了较好的效果。图6至图8展示了部分实验结果,其中第一行为源
人脸表情图片,第一列为目标人脸图片,具有不同表情和身份的源人脸图片和目标人脸图
片都是从RaFD中随机选择的。图6、图7和图8分别展示了将源人脸的面部表情和动作分别迁
移到三种姿态(90°方向,正面；45°方向,右侧；135°方向,左侧)的六个目标人脸上的效果.
可见,本实施例方法合成的人脸不仅能够保持与目标人脸一致的身份特征信息(如面部几
何结构、五官特点等),且生成的表情真实自然、细节丰富。另外，合成人脸图像还很好地保
持了目标人脸图片的姿态、色调和光照。

[0129] 其次,为证明本实施例方法在人脸身份特征保持以及合成表情的真实感这两个方面的优越性,在RaFD数据集上将本实施例方法与Pix2Pix,CycleGAN和FReeNet进行了对比。
图9展示了其中一个实例。其中,行(a)是随机选取的带有不同表情的七个源人脸,第一列是
不同身份、不同角度的三个目标人脸,(b)‑(d)行是Pix2Pix方法生成的结果图,(e)‑(g)行
是CycleGAN方法的结果图,(h)‑(j)行是FReeNet方法的结果图,(k)‑(m)行则是本实施例方
法的结果图。Pix2Pix生成的图片无法保持目标人脸的身份特征和姿态,且部分图片出现扭
曲；CycleGAN生成的部分人脸图片也出现了扭曲模糊的情况,且表情并不自然；FReeNet方
法生成的图片可以较好地保持目标人脸的身份特征和姿态,但对某些源表情的还原度较
低、真实感差；而本实施例方法合成的人脸图像不仅能够保持目标人脸的身份特征、姿态以
及目标人脸图片的色调等信息,而且在目标人脸上重现的表情更加真实自然,符合目标人
脸自身的个体特征。例如,对比框标注的实验结果图,可见由CycleGAN生成的人脸图片嘴部
出现了模糊变形,且开心的表情生硬不自然,更像是假笑；FReeNet生成的开心表情整体比
较自然,但人眼视线的方向与目标人脸不一致,略显奇怪；而本实施例方法生成的开心表情
更加自然,眼睛注视方向也与目标人脸保持一致。对比图9中的(g)与(m)两行中蓝框标注的
实验结果图,可见在CycleGAN生成的惊讶表情图片中,下巴会有阴影,图片质量不高,而本
实施例方法不仅能够实现身份特征保持,并且迁移后的表情更加真实自然。此外,对于
CycleGAN来说,每种表情的迁移都需要重新训练模型,这个过程是非常耗时的。而本实施例
中的模型一旦训练完成,即可实现任意不同表情之间的传递,具有更高的效率和鲁棒性。

[0130] 对比图9中的(c),(f),(i)和(l)四行可见,Pix2Pix生成的图片会受到源人脸外貌的影响,无法保持目标人脸的身份特征,而CycleGAN和FReeNet方法虽能取得优于Pix2Pix
的结果,但在很多细节方面的处理效果较差。图10展示了图9中矩形框标注部分的细节放大
效果。可见,对于开心表情,CycleGAN生成的人脸中嘴部两侧的笑纹出现小黑块,且下嘴唇
有变形；FReeNet生成的人脸笑纹则出现阴影,且脸部轮廓出现本不存在的棱角；而本实施
例方法生成的人脸笑纹更加自然,且脸部轮廓特征保持的较好。对于生气表情,相比于
CycleGAN生成的人脸在眉眼处的错误结果,以及FReeNet在眉眼处的模糊,本实施例方法生
成的人脸保留了丰富且清晰的细节,这也证实了软截断三元感知损失的优势.

[0131] 最后,为展示本实施例模型在使用属性标签后,能够很好地实现人脸属性编辑的效果,本实施例进行了大量实验,在数据集RaFD中随机选取源人脸图片,目标人脸图片,并
给定属性标签作为模型的输入,生成带有源人脸表情,目标人脸身份特征以及指定属性的
人脸图像。图11和图12展示了部分实验结果.其中,第一列和第二列分别是目标人脸和源人
脸.右侧五列分别是利用本实施例方法合成的带有指定属性(如黑发、棕发等)的人脸图像。
实验结果显示,本实施例模型合成的人脸可以很好地保持身份特征、复刻表情,同时满足指
定属性的要求.例如,图11中的(a)和(b)两行,当源人脸发生变化时,合成的人脸只体现了
源人脸之间表情的变化,其身份特征并不会随源人脸的变化而变化。右侧五列的实验结果
仅是根据属性标签(如将头发的颜色或者性别改变)调整的外貌属性,其人脸的身份特征仍
然与目标人脸保持一致、表情仍然与源人脸保持一致.可见,本实施例模型很好地实现了外
貌和表情解耦的效果。

[0132] 为进一步证明本实施例方法在不同数据集上的有效性,本实施例又在KDEF数据集上进行了一系列实验,以展示模型在表情迁移以及人脸属性编辑方面的性能。同样地,首
先,仅使用表情信息和外貌信息IT,r作为输入进行表情迁移的实验.图13展示了其中一
个实验结果,这里,具有不同表情和身份的六张源人脸图片是从KDEF中随机选取的,并将源
人脸的面部表情和动作分别转移到三种姿势(45°,90°和135°)的六个目标人脸上。可见,本
实施例方法所生成的人脸图片不仅保持了目标人脸的身份特征、姿态以及目标图片的色
调、光照信息,而且迁移后的表情与源表情一致,且真实自然。

[0133] 然后,添加属性标签c,进行表情迁移和外貌编辑同步实现的实验.图14展示了其中一个实验结果.如图14所示,左侧两列分别是目标人脸和源人脸,右侧五列是在KDEF上生
成的带有指定属性(如黑发、棕发等)的人脸图像。实验结果表明,本实施例的模型可以保持
目标人脸身份特征、复制源人脸表情,同时体现指定属性的外貌效果。

[0134] 在上述直观视觉效果比较的基础上,本实施例进一步进行量化对比实验,以进一步评价和证明本实施例方法的性能。

[0135] 评价指标：使用Amazon Mechanical Turk(AMT)评价最终获得的图像的视觉质量.使用结构相似性(SSIM)来衡量生成图像和真实图像之间的相似程度。本实施例借助Amazon
Mechanical Turk(AMT)外包服务平台来评估不同方法对RaFD数据集中67个目标人脸生成
的四种指定属性(表情、发色、性别、年龄)的共1072张人脸图片的真实感.对每一种指定属
性,将本实施例方法以及Pix2Pix,CycleGAN和StarGAN四种方法合成的人脸图片作为四个
选项,30个答卷者根据图片真实感与质量的高低,以及对人物原始身份特征保持的感知,来
选择最佳生成图片,以评估人脸图像合成的效果。表1展示了AMT对每个指定属性,四种方法
所合成人脸质量的评价结果.每列对应一个属性,给出了四种方法生成的图片被评价为最
佳图片的数量占该列所有图片数量的比重,每列四种方法的比重总和为100％。可见,在所
有情况下,本实施例方法均表现最佳.

[0136] 表1 不同模型的AMT感知评估结果

[0137]

[0138] 本实施例选择SSIM指标,在KDEF数据集上定量评估本实施例方法的有效性.由于根据指定属性标签合成的人脸图片是原本不存在的,没有与之对应的ground truth,为方
便比较,实验中仅使用表情信息身份信息IT,r作为输入,即实现表情的迁移。具体地,从
数据集中随机选取100张源人脸图片,再随机选择与源人脸身份不同的另外70张图片作为
目标人脸,将源人脸表情迁移到每一个目标人脸上,共得到7000张生成人脸图片。将数据集
中这70个目标人脸与源人脸表情相同的图片作为真实图片,计算合成图片的SSIM指标。分
别利用Pix2Pix,CycleGAN,FReeNet以及本实施例方法进行上述表情迁移操作和SSIM评估。
表2列出了四种方法合成人脸图像的SSIM值。可见Pix2Pix的SSIM值最小,本实施例模型的
SSIM值最大,说明本实施例方法合成的人脸图像质量更好。

[0139] 表2 不同方法的SSIM评估结果

[0140]

[0141] 实施例二

[0142] 本实施例提供了一种多样化的人脸图像合成系统，其具体包括如下模块：

[0143] 信息获取模块，其用于获取源人脸图片、目标人脸图片及属性标签信息；

[0144] 人脸图片合成模块，其用于根据源人脸图片、目标人脸图片和人脸合成网络模型，得到具有源人脸表情、目标人脸身份特征以及指定属性的真实感人脸图片；

[0145] 其中，人脸合成网络模型包括人脸特征点生成器和几何‑属性感知生成器；

[0146] 所述人脸特征点生成器用于提取源人脸与目标人脸的特征点作为人脸几何特征信息，并从人脸几何特征信息中提取表情信息，在潜在空间中将任意源人脸的表情信息迁
移到目标人脸；

[0147] 所述几何‑属性感知生成器用于分别从目标人脸和标签中对应提取身份特征和指定属性信息，再结合表情信息生成一张具有源人脸表情、目标人脸身份特征以及指定属性
的真实感人脸图片。

[0148] 此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

[0149] 实施例三

[0150] 本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的多样化的人脸图像合成方法中的步骤。

[0151] 实施例四

[0152] 本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的多样化的人脸
图像合成方法中的步骤。

[0153] 本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形
式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储
介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

[0154] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0155] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质
中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁
碟、光盘、只读存储记忆体(Read‑Only Memory，ROM)或随机存储记忆体(Random
AccessMemory，RAM)等。

[0156] 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修
改、等同替换、改进等，均应包含在本发明的保护范围之内。

一种多样化的人脸图像合成方法及系统转让专利

申请号 : CN202111101932.1

文献号 : CN113807265B

文献日 : 2022-05-06

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 迟静 , 代福芸 , 张琪东 , 任明国 , 衣所超

申请人 : 山东财经大学

摘要 :

权利要求 :

说明书 :