一种基于深度学习的3D角色面部表情动画实时生成方法转让专利

申请号 : CN202110316439.5

文献号 : CN112700524B

文献日 : 2021-07-02

本发明提供一种基于深度学习的3D角色面部表情动画实时生成方法，包括：获取训练数据，并对获取的训练数据进行增强处理；搭建生成模型，生成模型包括1个编码器与3个解码器，编码器用于将训练数据的图片数据编码至一个隐含空间，3个解码器用于将隐含空间的数据解码成演员的面部动作图片、动画文件的拍屏图片、动画文件的拍屏图片对应的控制器的值；对搭建的生成模型进行训练，获得编码器与解码器的最优权重值，得到最佳模型；将演员的图片输入至训练好的生成模型中，编码器对图片进行编码至隐含空间，再通过对应的解码器对隐含空间中的数据进行解码得到对应的控制器的值；将控制器的值输入到动画软件中，生成模型的面部动作。

1.一种基于深度学习的3D角色面部表情动画实时生成方法，其特征在于，包括以下步骤：

S1、获取训练数据，并对获取的训练数据进行增强处理，所述训练数据包括模型的动画文件和对应的控制器的值、演员的面部动作图片、动画文件的拍屏图片、动画文件的拍屏图片对应的控制器的值；

S2、搭建生成模型，所述生成模型包括1个编码器与3个解码器，所述编码器用于将所述训练数据的图片数据编码至一个隐含空间，3个所述解码器用于将所述隐含空间的数据解码成演员的面部动作图片、动画文件的拍屏图片、动画文件的拍屏图片对应的控制器的值；

S3、对搭建的所述生成模型进行训练，获得编码器与解码器的最优权重值，得到最佳模型；

其中，所述生成模型的训练方法如下：Q1、将所述演员的面部动作图片与所述动画文件的拍屏图片输入至编码器，通过生成演员的面部动作图片的解码器与生成动画文件的拍屏图片的解码器输出对应的图片，此过程中输出的为输入的图片，此时通过结构相似性指标计算输入与输出图片之间的损失函数值，并根据所述损失函数值对编码器以及对应的解码器的权重进行更新；

Q2、所述编码器、生成演员的面部动作图片的解码器、生成动画文件的拍屏图片的解码器的训练是输出还原输入的过程，第三个解码器输出拍屏图片对应的控制器的值，通过将每个控制器的值的差值的绝对值再求平均求出损失函数，根据所述损失函数值对对应的解码器的权重进行更新；

S4、将演员的图片输入至训练好的生成模型中，编码器对图片进行编码至隐含空间，再通过对应的解码器对隐含空间中的数据进行解码得到对应的控制器的值；

S5、将控制器的值输入到动画软件中，生成模型的面部动作。

2.根据权利要求1所述的一种基于深度学习的3D角色面部表情动画实时生成方法，其特征在于，步骤S1所述的训练数据增强处理的方法为对演员的面部动作图片与动画文件的拍屏图片进行随机改变亮度，通过旋转、位移、加噪声和模拟光照变化进行数据增强。

3.根据权利要求1所述的一种基于深度学习的3D角色面部表情动画实时生成方法，其特征在于，所述演员的面部动作图片与所述动画文件的拍屏图片共享同一个编码。

4.根据权利要求1所述的一种基于深度学习的3D角色面部表情动画实时生成方法，其特征在于，步骤S5的所述动画软件包括maya或UE。

5.根据权利要求1所述的一种基于深度学习的3D角色面部表情动画实时生成方法，其特征在于，所述编码器和解码器采用卷积神经网络。

一种基于深度学习的3D角色面部表情动画实时生成方法

技术领域

[0001] 本发明涉及动画制作技术领域，具体涉及一种基于深度学习的3D角色面部表情动画实时生成方法。

背景技术

[0002] 目前市面上的用视频中人脸表情来实时驱动虚拟角色的面部动画，主要是采取计算机视觉中基于人脸关键点检测的方法，该方法有以下缺点：

[0003] 1.泛化性差，如果需要准确度较高的驱动方式，换演员时需要重新标注数据，

[0004] 2.如果不标注数据，只能驱动精度较低的角色模型。

[0005] 上述缺点决定了这种方法无法满足对于精度要求较高（模型点数2‑3万）的3D动画电影制作生产流程的需求。目前市面上没有一种可以直接用演员面部表演直接生成3D高精
度角色动画的成熟解决方案。

发明内容

[0006] 本发明的目的是提供一种基于深度学习的3D角色面部表情动画实时生成方法，减少前期准备工作、适用范围广、能够实时生成动画。

[0007] 本发明提供了如下的技术方案：

[0008] 一种基于深度学习的3D角色面部表情动画实时生成方法，包括以下步骤：

[0009] S1、获取训练数据，并对获取的训练数据进行增强处理，所述训练数据包括模型的动画文件和对应的控制器的值、演员的面部动作图片、动画文件的拍屏图片、动画文件的拍
屏图片对应的控制器的值；

[0010] S2、搭建生成模型，所述生成模型包括1个编码器与3个解码器，所述编码器用于将所述训练数据的图片数据编码至一个隐含空间，3个所述解码器用于将所述隐含空间的数
据解码成演员的面部动作图片、动画文件的拍屏图片、动画文件的拍屏图片对应的控制器
的值；

[0011] S3、对搭建的所述生成模型进行训练，获得编码器与解码器的最优权重值，得到最佳模型；

[0012] S4、将演员的图片输入至训练好的生成模型中，编码器对图片进行编码至隐含空间，再通过对应的解码器对隐含空间中的数据进行解码得到对应的控制器的值；

[0013] S5、将控制器的值输入到动画软件中，生成模型的面部动作。

[0014] 优选的，步骤S1所述的训练数据增强处理的方法为对演员的面部动作图片与动画文件的拍屏图片进行随机改变亮度，通过旋转、位移、加噪声和模拟光照变化进行数据增
强。

[0015] 优选的，所述演员的面部动作图片与所述动画文件的拍屏图片共享同一个编码。

[0016] 优选的，步骤S3的生成模型的训练中，所述编码器、生成演员的面部动作图片的解码器、生成动画文件的拍屏图片的解码器的训练是输出还原输入的过程。

[0017] 优选的，所述生成模型的训练方法如下：

[0018] Q1、将所述演员的面部动作图片与所述动画文件的拍屏图片输入至编码器，通过生成演员的面部动作图片的解码器与生成动画文件的拍屏图片的解码器输出对应的图片，
此过程中输出的为输入的图片，此时通过结构相似性指标计算输入与输出图片之间的损失
函数值，并根据所述损失函数值对编码器以及对应的解码器的权重进行更新；

[0019] Q2、第三个解码器输出拍屏图片对应的控制器的值，通过将每个控制器的值的差值的绝对值再求平均求出损失函数，根据所述损失函数值对对应的解码器的权重进行更
新。

[0020] 优选的，步骤S5的所述动画软件包括maya或UE。

[0021] 优选的，所述编码器和解码器采用卷积神经网络。

[0022] 本发明的有益效果是：本发明通过建模，实现根据演员的面部视频及照片，生成相应动画模型的面部动作，本发明不需要演员的视频图片和对应角色动画文件一一对应的成
对数据，大大减少了前期的数据准备工作；可以任意换演员而不需要再做数据标注工作；可
以进行实时推算，即可以实时的获取演员的面部视频并计算为动画模型的面部动作。

附图说明

[0023] 附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

[0024] 图1是本发明原理框图。

具体实施方式

[0025] 如图1所示，一种基于深度学习的3D角色面部表情动画实时生成方法，包括以下步骤：

[0026] S1、获取训练数据，并对获取的训练数据进行增强处理，训练数据包括模型的动画文件和对应的控制器的值、演员的面部动作图片、动画文件的拍屏图片、动画文件的拍屏图
片对应的控制器的值；

[0027] S2、搭建生成模型，生成模型包括1个编码器与3个解码器，编码器用于将训练数据的图片数据编码至一个隐含空间，3个解码器用于将隐含空间的数据解码成演员的面部动
作图片、动画文件的拍屏图片、动画文件的拍屏图片对应的控制器的值；

[0028] S3、对搭建的生成模型进行训练，获得编码器与解码器的最优权重值，得到最佳模型；

[0029] S4、将演员的图片输入至训练好的生成模型中，编码器对图片进行编码至隐含空间，再通过对应的解码器对隐含空间中的数据进行解码得到对应的控制器的值；

[0030] S5、将控制器的值输入到动画软件中，生成模型的面部动作。

[0031] 实施例一：

[0032] 获取训练数据，包括：

[0033] A、获取模型的动画文件和对应的控制器的值，其中，控制器为能够控制动画模型面部动作的一组装置，可以量化为一组值，每一组值可以和动画模型面部动作一一对应；

[0034] B、获取演员的一端面部动作视频；

[0035] C、动画文件对准模型面部进行拍屏操作，得到每一张拍屏图片和对应的控制器的值；

[0036] D、对演员的面部动作图片与动画文件的拍屏图片进行随机改变亮度，通过旋转、位移、加噪声和模拟光照变化进行数据增强，提高系统的鲁棒性。

[0037] 搭建生成模型，它是通过重建输入的神经网络训练过程，它的隐藏成层的向量具有降维的作用，其中，生成模型包括1个编码器与3个解码器，编码器用于将训练数据的图片
数据编码至一个隐含空间，包含了输入数据的含义；3个解码器用于将隐含空间的数据解码
成演员的面部动作图片（以下称作为“编码器A”）、动画文件的拍屏图片（以下称作为“编码
器B”）、动画文件的拍屏图片对应的控制器的值（以下称作为“编码器C”）；会通过“隐含空
间”重建输入数据。通过神经网络的训练最后生成模型会在隐藏层中得到一个代表输入数
据的“隐含空间”。它可以帮助数据分类、可视化、存储。模型实际上是一个非监督的学习模
式，只需要输入数据，不需要label或者输入输出对的数据；本文的解码器和编码器都使用
了卷积神经网络；演员的面部动作图片与动画文件的拍屏图片共享同一个编码。

[0038] 其中，训练编码器A与B不需要标签，训练编码器C需要标签，即需要成对的动画文件的拍屏图片和对应的控制器的值。

[0039] 对搭建的生成模型进行训练，获得编码器与解码器的最优权重值，得到最佳模型，其中，编码器、生成演员的面部动作图片的解码器、生成动画文件的拍屏图片的解码器的训
练是输出还原输入的过程。

[0040] 具体的，生成模型的训练方法如下：

[0041] Q1、将演员的面部动作图片与动画文件的拍屏图片输入至编码器，通过生成演员的面部动作图片的解码器与生成动画文件的拍屏图片的解码器输出对应的图片，此过程中
输出的为输入的图片，此时通过结构相似性指标计算输入与输出图片之间的损失函数值，
并根据损失函数值对编码器以及对应的解码器的权重进行更新；

[0042] Q2、第三个解码器输出拍屏图片对应的控制器的值，通过将每个控制器的值的差值的绝对值再求平均求出损失函数，根据损失函数值对对应的解码器的权重进行更新。

[0043] 将演员的图片输入至训练好的生成模型中，编码器对图片进行编码至隐含空间，再通过对应的解码器对隐含空间中的数据进行解码得到对应的控制器的值；将控制器的值
输入到动画软件*（maya、UE）中，生成模型的面部动作。

[0044] 本发明通过建模，实现根据演员的面部视频及照片，生成相应动画模型的面部动作，本发明不需要演员的视频图片和对应角色动画文件一一对应的成对数据，大大减少了
前期的数据准备工作；可以任意换演员而不需要再做数据标注工作；可以进行实时推算，即
可以实时的获取演员的面部视频并计算为动画模型的面部动作。

[0045] 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施
例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精
神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

一种基于深度学习的3D角色面部表情动画实时生成方法转让专利

申请号 : CN202110316439.5

文献号 : CN112700524B

文献日 : 2021-07-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 赵锐 , 侯志迎

申请人 : 江苏原力数字科技股份有限公司

摘要 :

权利要求 :

说明书 :