一种基于面部补丁映射的人脸图像真伪识别方法转让专利

申请号 : CN202111084084.8

文献号 : CN113537173B

文献日 : 2022-03-18

本发明公开了一种基于面部补丁映射的人脸图像真伪识别方法，包括以下步骤：获取人脸数据信息，从所述人脸数据信息中转换出单帧图像序列，对所述单帧图像序列进行面部检测，裁剪出人脸区域图像；在所述的人脸区域图像中提取局部补丁，包括眼睛眉毛补丁、左脸颊补丁、右脸颊补丁，鼻子补丁和嘴巴下颚补丁；将所述的局部补丁分别映射到卷积神经网络的不同卷积层来获得相应位置和大小的特征图；采用RoiAlign模块将所述的特征图由不同尺寸大小转换为固定尺寸大小的特征图；利用所述的固定尺寸大小的特征图训练二分类模型，采用局部投票的方式整合局部补丁的二分类判别结果，获得人脸图像真伪的识别结果。

1.一种基于面部补丁映射的人脸图像真伪识别方法，其特征在于，包括以下步骤：步骤1，使用Opencv的CascadeClassifier级联分类器获取人脸数据信息，从所述人脸数据信息中转换出单帧图像序列，对所述单帧图像序列进行面部检测，裁剪出人脸区域图像；

步骤2，在所述的人脸区域图像中提取局部补丁，包括眼睛眉毛补丁、左脸颊补丁、右脸颊补丁，鼻子补丁和嘴巴下颚补丁；

步骤3，将所述的局部补丁分别映射到卷积神经网络的不同卷积层来获得相应位置和大小的特征图；

步骤4，采用RoiAlign模块将所述的特征图由不同尺寸大小转换为固定尺寸大小的特征图；

步骤5，利用所述的固定尺寸大小的特征图训练二分类模型，采用局部投票的方式整合局部补丁的二分类判别结果，获得人脸图像真伪的识别结果；

其中，步骤3中所述的卷积神经网络采用在ImageNet上预训练的ResNet‑50作为骨干网络，ResNet‑50由5组卷积单元组成，分别用Conv_1‑Conv_5表示；分别将所述的眼睛眉毛补丁、左脸颊补丁、右脸颊补丁，鼻子补丁和嘴巴下颚补丁输入ResNet‑50，获得所述的局部补丁对应的特征图，分别表示为fA、fB、fC、fD和fE，其中，所述的眼睛眉毛补丁、左脸颊补丁和嘴巴下颚补丁对应的特征图fA、fB和fE提取自同一卷积单元S1，右脸颊补丁和鼻子补丁对应的特征图fC和fD提取自同一卷积单元S2，其中，S1和S2分别为Conv_1‑Conv_5 中的任一单元；

其中，在步骤2的提取局部补丁的过程中，对局部补丁图像进行部分扩展，具体包括如下步骤：

步骤201，采用人脸定位网络监测到M个面部标志点，根据所述的面部标志点确定各个局部补丁的位置信息；

步骤202，对所述的眼睛眉毛补丁分别向上和向下扩展N11和N12个像素，对所述的左脸颊补丁分别向左和向右扩展N21和N22个像素,对所述的右脸颊补丁分别向左和向右扩展N31和N32个像素，对所述的鼻子补丁分别向左和向右扩展N41和N42个像素，对所述的嘴巴下颚补丁分别向上和向下扩展N51和N52个像素；

步骤203，将扩展之后的局部补丁图像作为局部补丁。

2.根据权利要求1所述的一种基于面部补丁映射的人脸图像真伪识别方法，其特征在于，步骤5中所述的二分类模型包括三个全连接层，使用Softmax函数将前序层的输出映射到0‑1范围内的类概率，Softmax函数的定义如下：其中，Vi代表第三个全连接层中每个节点的输出，i代表类别索引，Si代表第i类的概率；

所述的二分类模型在训练时使用二元交叉熵作为损失函数，表示为：其中，yj和pj分别表示局部补丁j的标签和预测为真实类别的概率，N为总的样本数量；

所述的局部投票的方式采取少数服从多数原则，通过对五个局部补丁的预测结果来确定整个人脸图像的真伪识别结果。

3.根据权利要求1所述的一种基于面部补丁映射的人脸图像真伪识别方法，其特征在于，所述的S1为Conv_4，所述的S2为Conv_5。

4.根据权利要求1所述的一种基于面部补丁映射的人脸图像真伪识别方法，其特征在于，所述的M为68，所述的N11为20，N12为10，N21为20，N22为10,N31为20，N32为10，N41、N42、N51和N52均为0，即鼻子补丁和嘴巴下颚补丁无扩展。

5.根据权利要求1所述的一种基于面部补丁映射的人脸图像真伪识别方法，其特征在于，步骤4中的固定尺寸大小为2×2。

一种基于面部补丁映射的人脸图像真伪识别方法

技术领域

[0001] 本发明属于人脸识别技术领域，具体涉及一种基于面部补丁映射的人脸图像真伪识别方法。

背景技术

[0002] 在过去的十年间，大数据、云计算等技术的进步为人工智能的发展提供了海量的数据支持和广泛的应用场景，人工智能经历了辉煌的发展历程。其中，借助机器学习工具操
纵图像、视频、音频内容，特别是更换面部、重塑表情的“深度伪造”技术是人工智能领域发
展的一项重要成果，它能结合目标对象的脸型、语音、微表情等生物特征进行综合学习，达
到以假乱真的效果，这是以往任何伪造技术都无法比拟的。另外，深度伪造技术还被应用于
视频游戏、影视节目制作、虚拟现实等娱乐文化领域。然而，该技术的兴起也为不法分子提
供了新工具，加剧了虚假信息的传播，冲击着现有的信息秩序和规范，所以对人脸图像真伪
的自动识别技术的研究显得尤为重要。

[0003] 随着业界对深度学习研究的进一步深入，现有的伪造生成器具备极强的自适应性，在与判别器的对抗学习中不断自我优化和升级换代，所生成的伪造图像和视频也更加
逼真，使得肉眼难以辨别其真伪。在这种情况下，非常有必要借助卷积神经网络（CNN）强大
的特征表达能力来学习伪造数据中隐含的细微判别信息，这是传统方法无法实现的。然而，
以前的大多数方法都集中在如何构建复杂的特征提取器来获得完整输入图像的全局特征
和二分法来区分真假人脸，这对于超逼真的伪造品来说并不是最佳的，因为它们只是略有
不同，其伪造的图像确实来自某些地方的真实面孔。

发明内容

[0004] 有鉴于此，为解决上述背景技术中存在的技术问题，本发明的目的在于提供基于面部补丁映射的人脸图像真伪识别方法，所述方法提供了一种基于补丁的端到端的深度伪
造人脸鉴别器，用于高效精准地识别人脸图像的真伪。

[0005] 本发明提供了一种基于面部补丁映射的人脸图像真伪识别方法，包括以下步骤：

[0006] 步骤1，获取人脸数据信息，从所述人脸数据信息中转换出单帧图像序列，对所述单帧图像序列进行面部检测，裁剪出人脸区域图像；

[0007] 步骤2，在所述的人脸区域图像中提取局部补丁，包括眼睛眉毛补丁、左脸颊补丁、右脸颊补丁，鼻子补丁和嘴巴下颚补丁；

[0008] 步骤3，将所述的局部补丁分别映射到卷积神经网络的不同卷积层来获得相应位置和大小的特征图；

[0009] 步骤4，采用RoiAlign模块将所述的特征图由不同尺寸大小转换为固定尺寸大小的特征图；

[0010] 步骤5，利用所述的固定尺寸大小的特征图训练二分类模型，采用局部投票的方式整合局部补丁的二分类判别结果，获得人脸图像真伪的识别结果。

[0011] 优选地，在步骤2的提取局部补丁的过程中，对局部补丁图像进行部分扩展，具体包括如下步骤：

[0012] 步骤201，采用人脸定位网络监测到M个面部标志点，根据所述的面部标志点确定各个局部补丁的位置信息；

[0013] 步骤202，对所述的眼睛眉毛补丁分别向上和向下扩展N11和N12个像素，对所述的左脸颊补丁分别向左和向右扩展N21和N22个像素,对所述的右脸颊补丁分别向左和向右扩
展N31和N32个像素，对所述的鼻子补丁分别向左和向右扩展N41和N42个像素，对所述的嘴巴下
颚补丁分别向上和向下扩展N51和N52个像素；

[0014] 步骤203，将扩展之后的局部补丁图像作为局部补丁。

[0015] 优选地，步骤3中所述的卷积神经网络采用在ImageNet上预训练的ResNet‑50作为骨干网络，ResNet‑50由5组卷积单元组成，分别用Conv_1‑Conv_5表示；分别将所述的眼睛
眉毛补丁、左脸颊补丁、右脸颊补丁，鼻子补丁和嘴巴下颚补丁输入ResNet‑50，获得所述的
局部补丁对应的特征图，分别表示为fA、fB、fC、fD和fE，其中，所述的眼睛眉毛补丁、左脸颊补
丁和嘴巴下颚补丁对应的特征图fA、fB和fE提取自同一卷积单元S1，右脸颊补丁和鼻子补丁
对应的特征图fC和fD提取自同一卷积单元S2，其中，S1和S2分别为Conv_1‑Conv_5中的任一
单元。

[0016] 具体地，步骤5中所述的二分类模型包括三个全连接层，使用Softmax 函数将前序层的输出映射到0‑1范围内的类概率，Softmax函数的定义如下：

[0017]

[0018] 其中，Vi代表第三个全连接层中每个节点的输出，i代表类别索引，Si代表第i类的概率；

[0019] 所述的二分类模型在训练时使用二元交叉熵作为损失函数，表示为：

[0020]

[0021] 其中，和分别表示局部补丁j的标签和预测为真实类别的概率，N为总的样本数量；

[0022] 所述的局部投票的方式采取少数服从多数原则，通过对五个局部补丁的预测结果来确定整个人脸图像的真伪识别结果。

[0023] 优选地，所述的S1为Conv_4，所述的S2为Conv_5。

[0024] 优选地，所述的M为68，所述的N11为20，N12为10，N21为20，N22为10,N31为20，N32为10，N41、N42、N51和N52均为0，即鼻子补丁和嘴巴下颚补丁无扩展。

[0025] 优选地，步骤4中的固定尺寸大小为2×2。

[0026] 本发明提出了一种新颖的基于补丁的端到端人脸图像真伪识别方法，首先，本发明采用面部补丁映射（FPM）策略，将人脸区域中提取的关键补丁映射到CNN 网络的不同卷
积模块的特征图上，既避免重复卷积操作，提高了训练效率，又避免了在输入的时候对补丁
进行尺度变换而造成信息损失，对局部补丁进行扩展，最大程度地保留了每个补丁的欺骗
模式和原始像素级信息；本发明训练轻量级分类架构，获得每个补丁的分类结果，最后采用
局部投票机制将多个面部补丁的识别结果进行整合，提高了真伪识别的准确率。

附图说明

[0027] 图1为本发明方法的整体流程示意图；

[0028] 图2为本发明实施例中面部标志点的位置示意图；

[0029] 图3为本发明实施例中面部补丁映射和RoiAlign模块的流程图。

具体实施方式

[0030] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于
本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例，都属于本发明保护的范围。

[0031] 对于一个包含人脸的输入视频，本实施例首先将其转换为一系列图像序列帧。由于篡改位置主要集中在人脸区域上，因此可以通过人脸检测算法定位每一帧上的人脸区
域，以缩小处理范围。本实施例采用Opencv中的CascadeClassifier级联分类器进行人脸的
检测和提取。为了尽可能保留伪造痕迹并结合空间背景，检测到的面部区域沿宽度和高度
扩展了若干倍，再统一调整为224×224分辨率。

[0032] 如图1所示，一种基于面部补丁映射的人脸图像真伪识别方法，包括以下步骤：

[0033] 步骤1，获取人脸数据信息，从所述人脸数据信息中转换出单帧图像序列，对所述单帧图像序列进行面部检测，裁剪出人脸区域图像；

[0034] 步骤2，在所述的人脸区域图像中提取局部补丁，包括眼睛眉毛补丁、左脸颊补丁、右脸颊补丁，鼻子补丁和嘴巴下颚补丁；

[0035] 步骤3，将所述的局部补丁分别映射到卷积神经网络的不同卷积层来获得相应位置和大小的特征图；

[0036] 步骤4，采用RoiAlign模块将所述的特征图由不同尺寸大小转换为固定尺寸大小的特征图；

[0037] 步骤5，利用所述的固定尺寸大小的特征图训练二分类模型，采用局部投票的方式整合局部补丁的二分类判别结果，获得人脸图像真伪的识别结果。

[0038] 在步骤2的提取局部补丁的过程中，对局部补丁图像进行部分扩展，具体包括如下步骤：

[0039] 步骤201，采用人脸定位网络监测到M个面部标志点，根据所述的面部标志点确定各个局部补丁的位置信息；

[0040] 步骤202，对所述的眼睛眉毛补丁分别向上和向下扩展N11和N12个像素，对所述的左脸颊补丁分别向左和向右扩展N21和N22个像素,对所述的右脸颊补丁分别向左和向右扩
展N31和N32个像素，对所述的鼻子补丁分别向左和向右扩展N41和N42个像素，对所述的嘴巴下
颚补丁分别向上和向下扩展N51和N52个像素；

[0041] 步骤203，将扩展之后的局部补丁图像作为局部补丁。

[0042] 本实施例中，在人脸图像I上选取了5个关键的局部补丁来训练分类网络。具体来说，使用人脸定位网络face‑alignment检测68个面部标志点。根据图2中这些点的分布，最
终确定了5个补丁的位置信息，根据观察，眼睛眉毛补丁、左脸颊补丁、右脸颊补丁最有可能
暴露欺骗模式，因此，将这3个补丁进行了一定程度的扩展，目的是将未修改的原始区域包
括在一个补丁中，这样做更有利于学习到真实区域与伪造区域之间的判别特征。具体来说，
眼睛和眉毛区域向上扩展20个像素，向下扩展10个像素；左脸颊向左扩展20个像素，向右扩
展10个像素；右脸颊向右扩展20个像素，向左扩展10个像素，即所述的M为68，所述的N11为
20，N12为10，N21为20，N22为10,N31为20，N32为10，N41、N42、N51和N52均为0，即鼻子补丁和嘴巴下
颚补丁无扩展。理论上，伪造的部分改变了原始图像的表层信息，因此，伪造人脸检测更像
是图像质量诊断问题，用既有伪造区域又有原始背景区域的补丁进行训练对分类任务来说
是极其有利的。如表1所示。

[0043] 表1 面部5个关键补丁的信息

[0044]

[0045] Fast RCNN是经典的目标检测算法之一，它解决了RCNN算法存在的几个关键问题，受Fast RCNN框架的启发，我们将Fast RCNN中处理候选框的思路应用于本实施例中。

[0046] 优选地，步骤3中所述的卷积神经网络采用在ImageNet上预训练的ResNet‑50作为骨干网络，ResNet‑50由5组卷积单元组成，分别用Conv_1‑Conv_5表示；分别将所述的眼睛
眉毛补丁、左脸颊补丁、右脸颊补丁，鼻子补丁和嘴巴下颚补丁输入ResNet‑50，获得所述的
局部补丁对应的特征图，分别表示为fA、fB、fC、fD和fE，其中，所述的眼睛眉毛补丁、左脸颊补
丁和嘴巴下颚补丁对应的特征图fA、fB和fE提取自同一卷积单元S1，右脸颊补丁和鼻子补丁
提取自同一卷积单元S2，其中，S1和S2分别为Conv_1‑Conv_5中的任一单元。

[0047] 实验数据表明，本实施例中在S1 = Conv_4, S2 = Conv_5 时达到了最佳性能，这证明了深度欺骗产生的轻微伪影在深度特征中往往更加突出。因此，我们本实施例中设置
S1 = Conv_4, S2 = Conv_5。

[0048] 由于每个补丁的大小不同，特征图 fA‑fE的大小也不同。图3中RoiAlign模块的功能是将任意大小的特征图固定为N×N大小。经典的ROI Pooling由于两次量化操作而存在
区域不匹配的问题。相比之下，RoiAlign 放弃了量化操作，采用双线性插值的方法，从特征
图上相邻的网格点中计算坐标为浮点数的采样点的像素值，从而将整个特征聚合过程转化
为连续的操作。在这里，我们将fA‑fE分成2×2大小的块，然后进行最大池化（max‑
pooling），因此，经RoiAlign后每个补丁特征图的输出大小都被统一为2×2。

[0049] 经RoiAlign池化，每张图像会得到5个尺寸相同的子特征图。然后，设计具有3个完全连接层（分别为500、100 和2个节点）的轻量级架构来训练二元分类模型，最后，使用
Softmax 函数将前一层的输出映射到0‑1范围内的类概率。Softmax函数的定义如下：

[0050]

[0051] 式中，代表 FC3 中每个节点的输出，i代表类别索引（这里取值1和0，分别表示样本为真和为假），Si代表样本属于第i个类别的概率（输出元素值在0到1之间）。每个局
部patch在训练时使用二元交叉熵（Binary Cross Entropy）作为损失函数，表示为：

[0052]

[0053] 式中，和分别表示补丁j的标签和预测为真实类别的概率，N为总的样本数量。整个输入图像的总损失是5个局部补丁损失的均值。

[0054] 训练好的分类器可以预测每个局部补丁所属的类别（真/假），每个补丁的检测结果可以代表整张图像的结果。在本实施例中，为了提高模型识别的准确率，对于输入的人脸
图像，采用少数服从多数的原则，通过对5个patch的预测结果进行投票，以此来确定整张面
部图像的真实性。

[0055] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机
可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。

[0056] 以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛
盾，都应当认为是本说明书记载的范围。

[0057] 以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来
说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护
范围。

一种基于面部补丁映射的人脸图像真伪识别方法转让专利

申请号 : CN202111084084.8

文献号 : CN113537173B

文献日 : 2022-03-18

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李硕豪 , 于淼淼 , 张军 , 赵翔 , 何华 , 蒋林承 , 雷军 , 练智超 , 李千目

申请人 : 中国人民解放军国防科技大学

摘要 :

权利要求 :

说明书 :