一种基于语义分割的特定人物视觉伪造检测与鉴别方法转让专利

申请号 : CN202211188905.7

文献号 : CN115482595B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 周琳娜杨震王任颖陈贤浩林清然储贝林毛羽哲

申请人 : 北京邮电大学

摘要 :

本发明公开一种基于语义分割的特定人物视觉伪造检测与鉴别方法,属于深度伪造与检测技术领域,提出了一种以特定人物的深度伪造视频检测为研究目标,基于半监督和语义分割的基本方法构建目标任务的个人特征模型,对构建的人脸区域属性掩码进行选择并分类,综合各属性分类权重输出结果的伪造视频检测方式。首先本发明构建基于语义分割的目标人物区域掩膜数据集;其次建立个人语义模型进行视觉伪造检测与鉴别对深度伪造视频进行检测。制作数据集过程中,利用半监督机器学习算法扩增数据集,解决特定人物数据集不足的问题并降低人工标注成本。

权利要求 :

1.一种基于语义分割的特定人物视觉伪造检测与鉴别方法,其特征在于:分为语义分割部分与伪造检测与鉴别部分;

所述语义分割部分对深度伪造人脸进行语义分割:将目标人物图像根据人脸的十一个特征进行标注,形成初始训练集;利用初始训练集采用半监督的语义分割模型生成目标人物的掩膜数据集;

所述伪造检测与鉴别部分根据语义分割后的目标人物掩膜数据与该掩膜数据对应的人脸图片进行点乘,获取指定的图片属性区域,进一步对获得的区域属性进行模型构造,具体为:对每张目标人物的原始人脸图片z,通过掩膜数据集中五官各自分割开的图片掩膜a与手动选择的感兴趣五官区域向量V结合,获取面部五官感兴趣区域,然后再将其与对应的原始人脸图片进行点乘,生成所需要的面部感兴趣区域的条件张量T;

将输入图片z与该图片z对应的条件张量T进行点乘,将点乘处理结果p(z)输入到生成对抗网络中进行姿态无关的识别处理;上述所需要的面部感兴趣区域的条件张量T与原图z进行点乘处理的公式如下所示:p(z)=z·T=z·a·V

将p(z)以及给定的姿态输入生成器G;由生成器G利用给定的姿态生成相应的假图片,利用判别器D对生成的假图片的姿态以及身份进行判断,不断进行对抗训练,直至达到判别器D认为生成器G生成的假图片与原始输入图片的身份相同的临界状态,得到姿态无关的人脸图片;

在姿态无关的识别处理之后,将经过姿态改变的人脸图片x的各个面部分割属性区域输入到单个的卷积神经网络中进行分类处理,并且构建一个新的CNN二分类分类器;其中,通过卷积网络学习图片特征,通过池化层减少输出维度,通过全连接层对深度特征进行融合,最终形成分类结果并输出,达到识别输入图片是正样本或负样本的目的。

2.如权利要求1所述一种基于语义分割的特定人物视觉伪造检测与鉴别方法,其特征在于:语义分割方法为:对选取人脸图像视频中随机抽帧的N张图片进行手动标注,手动标注过程中需要对11处部位的所在区域进行标记;之后将标注产生的json格式文件与标注的图片原图一同进行处理,得到不同面部类别标签的掩膜数据集;

选用语义分割网络Deeplabv3+训练,输入手动标注生成的N张掩膜数据集图片,通过深度学习模型,对人脸图像中剩下的M张未经过标注的图片进行机器自动标注,实现半监督机器学习的标注,具体为:构建出同样结构、权重初始值不同的两个语义分割网络P1和P2:

P1=f(X;θ1)

P2=f(X;θ2)

其中,X表示对N张已标注图片实行数据增强后的输入图片;θ1与θ2分别表示P1与P2两个网络的权重;Y表示两个语义分割网络得到的伪标签;对两个分割网络,通过argmax操作得到对应的one‑hot标签Y1和Y2;然后将这两个伪标签作为监督信号,用Y2作为P1的监督,Y1作为P2的监督,并用交叉熵损失函数约束;最终将使用语义分割网络机器生成标注的M张图片与原始手动标注的N张图片结合构成目标人物的掩膜数据集。

3.如权利要求1所述的基于语义分割的特定人物视觉伪造检测与鉴别方法,其特征在于:在分类器损失函数的设计上,用二元交叉熵BCE损失函数衡量其分类损失,LY的形式化定义为如下公式:LY(x,y)=BCE(p,y)=‑(y*log(p))+(1‑y)*log(1‑p)其中,x表示输入图像,p是分类器的预测分类输出,y∈{0,1}为真假标签,在二分类任务中采用sigmoid激活函数对输出进行处理。

说明书 :

一种基于语义分割的特定人物视觉伪造检测与鉴别方法

技术领域

[0001] 本发明属于深度伪造与检测技术领域,是一种伪造视频检测方法,具体来说是一种基于语义分割的特定人物视觉伪造检测与鉴别方法。

背景技术

[0002] 深度伪造由“DeepFake”一词翻译而来,该单词是“Deep learning”和“Fake”的组合,即深度学习与伪造的结合。深度伪造是一种基于深度学习的技术,指的是通过交换人的脸部来制作假视频及图像。DeepFake这个词源于Reddit用户deepfakes在2017发布的一种机器学习算法,并声称该算法可以帮助他将名人脸转换成色情视频。该算法一经发布就受到了民众与媒体的热议,随之而来的是视觉深度伪造算法研究的一股热潮。2018年,BuzzFeed发布了一段关于巴拉克·奥巴马发表演讲的深度伪造视频,该视频使用Reddit用户制造的FakeApp软件制作。自2017年至2020年,关于深度伪造相关的论文由原先的3篇增长至250余篇,同时,FakeApp、Faceswap、Zao、FaceApp等能够实现无技术成本的面向大众的快捷深度伪造软件也被依次开发,由视觉深度伪造技术制作的各种类别的伪造视频也引发了人们对身份盗窃、假冒以及在社交媒体上传播虚假信息的担忧。
[0003] 目前现有的视觉深度伪造方法大致可以分为三种类型:合成新脸、面部修饰及面部互换。其中,合成新脸指的是使用GAN创建不存在的人脸图像;面部修饰指的是为原始存在的人脸进行某些部位的修改;面部互换指的是对两张人脸进行局部或整体的交换。
[0004] 合成新脸方法利用强大的生成对抗网络GAN,完全地创造出整个原本不存在的人脸图像,目前合成新脸技术的数据库都是基于ProGAN和StyleGAN架构创造的,并且每个被创造出来的伪造图像都会携带其特定的GAN指纹。面部修饰方法主要是为目标人脸增添一些面部修饰,如改变头发颜色或肤色、修改目标人物的性别、为目标人物增加眼镜等等,该方法也需要基于生成对抗网络GAN,目前最新的StarGAN技术可以同时将面部分成多个领域并对其进行修饰操作。面部互换方法由两部分组成,第一种是将另一个人的脸用于替换视频中目标人物的脸,这是目前视觉深度伪造方向上最流行的方法,如DeepFakes、FaceSwap都是利用的这种方法,不同于前两种方法将面部合成操作放在图像上,此方法可以用于深度伪造视频的合成;第二种方式是面部表情交换,也被称为面部重现,即将另一个人脸上的面部表情替代到目标人物的面部表情上,如通过改变奥巴马的表情和动作使其完成伪造的“演讲”。
[0005] 视觉深度伪造检测技术主要由特征提取、模型建立、检测分类等步骤进行。首先,研究人员将待检测的图像或视频数据进行预处理,并根据先验知识或图像处理的手段确定待检测特征。接着,设计相应算法提取出确定的特征,并建立与检测任务相匹配的网络模型。最后,使用待检测数据对检测算法的性能进行测试,从而验证所选取特征的科学性及分类模型的有效性。其中,决定检测性能的关键就在于如何选择可以有效区分真假人脸的相关特征,以及如何建立分类效果良好的模型。
[0006] 不同的深度伪造检测方法体现在检测算法流程中的侧重点不同,因此可以对检测方法进行分类:
[0007] 基于具体伪影的视觉深度伪造检测技术侧重于检测流程图中的特征确定部分,从图像处理角度出发,以像素级粒度捕捉生成图像或视频中存在的模糊、抖动及叠影等异常现象。伪影特征的区分度高低直接影响着检测算法的性能优劣。
[0008] 基于数据驱动的视觉深度伪造检测技术侧重于检测流程图中的模型建立部分,使用精心设计的神经网络对提取到的伪造品中的时域与频域信息进行训练分类。优秀的网络设计能够更加有效地提取出潜在的细微特征。
[0009] 基于信息不一致的视觉深度伪造检测技术重点在于从生物固有特征、时间连续性、以及运动向量等高级语义出发,捕捉伪造品与客观规律间的不一致部分。由于高级语义特征的提取过程较为复杂,因此此项技术侧重于检测流程图中的特征确定以及特征提取两个部分。
[0010] 由于特定人物具有大量的可用真实人脸数据,根据其真实人脸,利用生成对抗网络GAN进行大量训练,可以制造出非常逼真的深度伪造人脸,同时辅以Wav2Lip等伪造技术,对特定人物的深度伪造制品容易造成恶劣影响而目前泛领域的伪造检测方法不足以很好性能的识别特定人物的伪造制品,因此需要针对特定人物,进行深度伪造检测的研究。

发明内容

[0011] 针对上述问题,本发明提出了一种基于语义分割的特定人物视觉伪造检测与鉴别方法,有效提升伪造检测与鉴别能力。
[0012] 本发明基于语义分割的特定人物视觉伪造检测与鉴别方法,分为语义分割部分与伪造检测与鉴别部分。
[0013] 所述语义分割部分对深度伪造人脸进行语义分割:将目标人物图像根据人脸的十一个特征进行标注,形成初始训练集;利用初始训练集采用半监督的语义分割模型生成目标人物的掩膜数据集。
[0014] 所述伪造检测与鉴别部分根据语义分割后的目标人物掩膜数据与该掩膜数据对应的人脸图片进行点乘,获取指定的图片属性区域,进一步对获得的区域属性进行模型构造,具体为:
[0015] 对每张目标人物的原始人脸图片z,通过掩膜数据集中五官各自分割开的图片掩膜a与手动选择的感兴趣五官区域向量V结合,获取面部五官感兴趣区域,然后再将其与对应的原始人脸图片进行点乘,生成所需要的面部感兴趣区域的条件张量T。
[0016] 将输入图片z与该图片z对应的张量T进行点乘,将点乘处理结果p(z)输入到生成对抗网络中进行姿态无关的识别处理。上述选定感兴趣区域的张量T与原图z进行点乘处理的公式如下所示:
[0017] p(z)=z·T=z·a·V
[0018] 将p(z)以及给定的姿态输入生成器G;由生成器G利用给定的姿态生成相应的假图片,利用判别器D对生成的假图片的姿态以及身份进行判断,不断进行对抗训练,直至达到判别器D认为生成器G生成的假图片与原始输入图片的身份相同的临界状态,得到姿态无关的人脸图片。
[0019] 在姿态无关的识别处理之后,将经过姿态改变的人脸图片x的各个面部分割属性区域输入到单个的卷积神经网络中进行分类处理,并且构建一个新的CNN二分类分类器。其中,通过卷积网络学习图片特征,通过池化层减少输出维度,通过全连接层对深度特征进行融合,最终形成分类结果并输出,达到识别输入图片是正样本或负样本的目的。
[0020] 本发明的优点在于:
[0021] 1、本发明基于语义分割的特定人物视觉伪造检测鉴别方法,构建了基于特定人物的面部掩膜数据集,能够在不增加人工标注成本的情况下扩建人脸伪造的数据。
[0022] 2、本发明基于语义分割的特定人物视觉伪造检测鉴别方法,能有效利用注意力机制,从而使得分类器对伪造样本的检测准确率大大提升。
[0023] 3、本发明基于语义分割的特定人物视觉伪造检测鉴别方法,构建了姿态无关模块,实现对各种姿态的输入图片的检测,增加了对伪造检测的鲁棒性。
[0024] 4、本发明基于语义分割的特定人物视觉伪造检测鉴别方法,能够对多种假脸伪造技术生成的图片及视频进行检测,增加了对伪造检测的泛化性。

附图说明

[0025] 图1为本发明基于语义分割的特定人物视觉伪造检测鉴别方法流程图;
[0026] 图2为语义分割网络结构。

具体实施方式

[0027] 下面结合附图对本发明作进一步详细说明。
[0028] 本发明基于语义分割的特定人物视觉伪造检测与鉴别方法,如图1所示,具体步骤为:
[0029] 步骤1:基于语义分割方法,生成特定人物面部特征分割的掩膜数据集。
[0030] 101、对目标人物进行大量数据收集,形成初始训练集。
[0031] 数据集需要收集包括以下四个部分:目标人物的真实人脸、非目标人物的其他人物真人人脸、目标人物的深度伪造人脸和目标人物的模仿者及扮演者。从而构建模型训练的基础资源。
[0032] 出于后续对视频数据的处理的考量,标人物的真实人脸可在公开视频网站中选取目标人物的正面尽量面向镜头的清晰度较高的视频,并将其进行下载。选择目标人物的真实人脸为目标收集对象,对其收集约60小时视频以保证模型能够有效学习到目标人物的真实人脸特征。对于目标人物的模仿者及扮演者,以及非目标人物的真实人脸均参照目标人物的真实人脸收集方式进行收集;而目标人物的深度伪造人脸则通过对目标人物的真实人脸分别通过FaceSwap、Wav2lip及First Order Motion三种伪造方法制作而成。上述非目标人物的真实人脸,可以选择面部特征与目标人物尽量类似的人脸,以增强模型对真实场景中相似人脸的鉴别能力。
[0033] 选择目标人物作为保护的目标对象,则目标人物的真实人脸的视频数据集作为正样本,将目标人物的模仿者及扮演者、该目标人物的深度伪造人脸以及非目标人物的伪造制品数据集作为负样本。
[0034] 102、对收集到的目标人物的真实人脸数据集与伪造制品数据集进行面部的语义分割。
[0035] 对所有正样本及负样本的人脸,选取视频中随机抽帧的N张图片,使用LabelMe标注工具对其进行手动标注,如图1所示,手动标注过程中需要对11处部位的所在区域进行标记,分别是:左眼,右眼,左眉,右眉,鼻子,上嘴唇,下嘴唇,头发,左耳,右耳与脖子。之后将标注产生的json格式文件与标注的图片原图一同进行处理,得到不同面部类别标签的掩膜数据集。
[0036] 103、采用前一步手动标注的掩膜数据集中的图片通过构建半监督机器学习的语义分割网络Deeplabv3+来训练机器标注方法。
[0037] 选用语义分割网络Deeplabv3+训练,输入步骤102中手动标注生成的N张掩膜数据集图片,通过深度学习模型,对步骤1中收集的正负样本中剩下的M张未经过标注的图片进行机器自动标注,实现半监督机器学习的标注,方法如下:
[0038] A、如图2所示,构建出同样结构、权重初始值不同的两个语义分割网络P1和P2:
[0039] P1=f(X;θ1)
[0040] P2=f(X;θ2)
[0041] P1和P2为两个语义分割网络Deeplabv3+,两者只是权重参数初始值不同。
[0042] 其中,X表示对N张已标注图片实行数据增强后的输入图片;θ1与θ2分别表示P1与P2两个网络的权重;Y表示两个语义分割网络得到的伪标签,即初步分割结果。其中,两个语义分割网络P1和P2采用Deeplabv3+,分类器Y1和Y2采用ResNet101网络。Deeplabv3+相对于别的语义分割网络结构,能够使得网络中靠前的层可对输入特征的卷积或者池化来对不同尺度的上下文信息进行编码,同时使得网络中靠后的层可以通过逐渐回复空间信息捕捉到清晰的物体边界,适用于面部的语义分割。对两个分割网络,通过argmax操作得到对应的one‑hot标签Y1和Y2。然后将这两个伪标签作为监督信号,用Y2作为P1的监督,Y1作为P2的监督,并用交叉熵损失函数约束,以提升语义分割网络的性能。
[0043] 最终将使用语义分割网络机器生成标注的M张图片与原始手动标注的N张图片结合构成Mask掩膜数据集。
[0044] 步骤2:建立个人语义模型进行视觉伪造检测与鉴别
[0045] 本发明构建一种特定人物视觉伪造检测与鉴别的方法,按流程分为数据预处理、姿态无关的识别、模型构建;具体如下:
[0046] 201:原始目标人脸数据预处理
[0047] 将步骤101中收集的目标人物的原始人脸图片标记为z∈Z,其中Z为步骤101中收集的所有人脸数据,是包括正样本及其负样本的人脸集合,对每张人脸图,通过步骤1得到的Mask掩膜数据集中五官各自分割开的图片掩膜a与手动选择的感兴趣五官区域向量V(如鼻子、眼睛、耳朵分别表示一个向量,选中鼻子即向量V为[1,0,0])结合,获取面部五官感兴趣区域,然后再将其与对应的原始人脸图片进行点乘,生成所需要的面部感兴趣区域的条件张量T。
[0048] 将输入图片z与该图片z对应的张量T进行点乘,将点乘处理结果p(z)输入到生成对抗网络中进行姿态无关的识别处理。上述选定感兴趣区域的张量T与原图z进行点乘处理的公式如下所示:
[0049] p(z)=z·T=z·a·V
[0050] 202:姿态无关的识别
[0051] 将每张图片z与该图片z对应的张量T点乘结果p(z)以及给定的姿态输入生成器G;本发明中设定姿态为人脸正面朝向摄像头的方向,表示人脸与正前方的角度为0°。生成器G利用给定的姿态生成相应的假图片,利用判别器D对生成的假图片的姿态以及身份进行判断,不断进行对抗训练,直至达到判别器D认为生成器G生成的假图片与原始输入图片的身份相同的临界状态,就得到姿态无关的人脸图片。
[0052] 203:深度伪造检测模型构建
[0053] 在姿态无关的识别处理之后,将经过姿态改变的人脸图片x的各个面部分割属性区域输入到单个的卷积神经网络中进行分类处理,并且构建一个新的CNN二分类分类器。其中,通过卷积网络学习图片特征,通过池化层减少输出维度。通过全连接层对深度特征进行融合,最终形成分类结果并输出,达到识别输入图片是正样本或负样本的目的。
[0054] 其中,在损失函数的设计上,用二元交叉熵(BCE)损失函数衡量其分类损失,LY的形式化定义为如下公式:
[0055] LY(x,y)=BCE(p,y)=‑(y*log(p))+(1‑y)*log(1‑p)
[0056] 其中,p是分类器的预测分类输出,y∈{0,1}为真假标签,在二分类任务中采用sigmoid激活函数对输出进行处理。
[0057] 综上,本发明基于语义分割的特定人物视觉伪造检测与鉴别方法,建立特定人物的面部图像分割的掩膜训练数据集,利用半监督机器学习算法扩增数据集,解决特定人物数据集不足的问题并降低人工标注成本;在二分类检测模型之前加入语义分割模块和姿态改变模块,采用不同特征建模并拟合的方式,提升伪造检测与鉴别能力,能够提升二分类检测模型的准确率5‑10个百分点。