一种基于多线索的双流视频人脸伪造检测方法及系统转让专利

申请号 : CN202210061187.0

文献号 : CN114596608B

文献日 : 2023-03-28

本发明提供一种基于多线索的双流视频人脸伪造检测方法及系统，包括：将待检测视频流输入至预先训练好的多线索视频伪造检测模型，得到人脸真假分类检测结果；该检测模型是基于EfficientNet‑B5网络和Swin Transformer网络并行交互融合形成多线索，对伪造视频训练数据集进行训练所得到的。本发明通过利用视频图像帧中的高频信息、低级纹理和光流信息的组合线索，融合EfficientNet‑B5网络的局部特征提取能力以及Swin Transformer网络的全局关系感知能力，在分辨视频帧中人脸图像的真假时，体现了更优越的分类性能，有效克服传统分类模型在线索上的单一性和模型上泛化性低的缺陷。

1.一种基于多线索的双流视频人脸伪造检测方法，其特征在于，包括：

确定待检测视频流；

将所述待检测视频流输入至预先训练好的多线索视频伪造检测模型，得到人脸真假分类检测结果；其中，所述多线索视频伪造检测模型是基于EfficientNet‑B5网络和Swin Transformer网络并行交互融合形成，并通过对伪造视频训练数据集进行训练所得到的；

所述多线索视频伪造检测模型，通过以下步骤得到：

获取所述伪造视频训练数据集，对所述伪造视频训练数据集进行预处理，得到人脸高频特征分量、人脸CrCb特征分量和人脸光流特征分量；

将所述人脸高频特征分量和所述人脸CrCb特征分量融合后输入所述EfficientNet‑B5网络，获得高频及纹理特征图；

将所述人脸光流特征分量输入所述Swin Transformer网络的第一预设阶段，获得补丁嵌入；

将所述高频及纹理特征图及所述补丁嵌入进行连接，得到所有帧特征，将所述所有帧特征依次输入至所述Swin Transformer网络的第二预设阶段、线性层和softmax层，得到所述多线索视频伪造检测模型。

2.根据权利要求1所述的基于多线索的双流视频人脸伪造检测方法，其特征在于，所述获取所述伪造视频训练数据集，对所述伪造视频训练数据集进行预处理，得到人脸高频特征分量、人脸CrCb特征分量和人脸光流特征分量，包括：提取所述伪造视频训练数据集中的帧，基于多任务级联卷积网络MTCNN检测每一帧中的原始人脸图像，将所述原始人脸图像调整为预设像素大小，并归一化为零均值和单位方差的人脸图像；

基于离散余弦变换DCT将任一帧中的所述人脸图像从空间域转换至频域，采用预设高通滤波器提取所述频域中高频分量，得到所述人脸高频特征分量；

将所述任一帧中的所述人脸图像从RGB空间域转换至YCrCb空间域，去除亮度通道，得到所述人脸CrCb特征分量；

将所述人脸高频特征分量与所述人脸CrCb特征分量合并得到预设三维像素大小特征张量；

基于PWC‑Net光流估计算法提取所述任一帧中的所述人脸图像中的光流特征，得到所述人脸光流特征分量。

3.根据权利要求1所述的基于多线索的双流视频人脸伪造检测方法，其特征在于，所述将所述人脸高频特征分量和所述人脸CrCb特征分量融合后输入所述EfficientNet‑B5网络，获得高频及纹理特征图，包括：将所述人脸高频特征分量和所述人脸CrCb特征分量合并，获得预设三维像素大小的特征张量；

将所述特征张量输入至所述EfficientNet‑B5网络，并基于组合损失函数进行精度调整，得到所述高频及纹理特征图；

其中，在所述EfficientNet‑B5网络的MBConv层间插入注意力模块，以获取所述高频及纹理特征图中的伪影信息。

4.根据权利要求3所述的基于多线索的双流视频人脸伪造检测方法，其特征在于，所述将所述特征张量输入至所述EfficientNet‑B5网络，并基于组合损失函数进行精度调整，得到所述高频及纹理特征图，包括：获取softmax 损失函数、ArcFace损失函数和SCL损失函数，确定第一权重和第二权重；

将所述softmax 损失函数，所述ArcFace损失函数和所述第一权重之积，以及SCL损失函数和所述第二权重之积进行求和，得到所述组合损失函数；

基于所述组合损失函数调整所述输入至所述EfficientNet‑B5网络中的所述特征张量，得到所述高频及纹理特征图。

5.根据权利要求1所述的基于多线索的双流视频人脸伪造检测方法，其特征在于，所述将所述人脸光流特征分量输入所述Swin Transformer网络的第一预设阶段，获得补丁嵌入，包括：基于PWC‑Net光流估计算法提取任一帧的当前帧光流和下一帧光流，将所述当前帧光流和所述下一帧光流作为所述任一帧的光流图；

将所述任一帧的光流图输入至所述Swin Transformer网络的第一预设阶段，得到中间层的补丁嵌入；

采用特征交互模块，对所述中间层的补丁嵌入进行大小补齐，使所述中间层的补丁嵌入与所述高频及纹理特征图的特征相互匹配。

6.根据权利要求5所述的基于多线索的双流视频人脸伪造检测方法，其特征在于，所述采用特征交互模块，对所述中间层的补丁嵌入进行大小补齐，使所述中间层的补丁嵌入与所述高频及纹理特征图的特征相互匹配，包括：基于单位卷积对所述中间层的补丁嵌入进行上采样，以对齐所述高频及纹理特征图的维数与所述中间层的补丁嵌入的通道数；

对所述上采样后的所述中间层的补丁嵌入进行下采样，以对齐空间尺寸。

7.根据权利要求1所述的基于多线索的双流视频人脸伪造检测方法，其特征在于，所述将所述高频及纹理特征图及所述补丁嵌入进行连接，得到所有帧特征，将所述所有帧特征依次输入至所述Swin Transformer网络的第二预设阶段、线性层和softmax层，得到所述多线索视频伪造检测模型，包括：将任一帧的所述高频及纹理特征图及所述补丁嵌入进行组合连接，得到任一帧的特征连接；

将所有帧的特征连接进行大小调整，组合得到所有帧特征补丁，将所述所有帧特征补丁输入至所述Swin Transformer网络的第二预设阶段，连接所述线性层和所述softmax层，得到所述多线索视频伪造检测模型。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于多线索的双流视频人脸伪造检测方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于多线索的双流视频人脸伪造检测方法的步骤。

一种基于多线索的双流视频人脸伪造检测方法及系统

技术领域

[0001] 本发明涉及计算机视觉技术领域，尤其涉及一种基于多线索的双流视频人脸伪造检测方法及系统。

背景技术

[0002] 随着视频技术的蓬勃发展，视频自动生成内容的水平取得了显著的提高。依托文本、语音、图像、视频等载体，视频自动生成技术被广泛地用于模仿和伪造人类的想法、行为和特征，这在一定程度上降低了人力等成本的消耗，为人们的生活带来了便利和精神享受，视频自动生成技术所带来的仿真数据和虚拟化内容一定程度上可以为一些垂直领域带来新的应用场景或者直接推动该领域的技术进步。然而事物具有两面性，科技发展也存在着“双刃剑”效应。人们在享受人脸技术带来便利体验的同时，也不可避免地受到人脸技术滥用所带来的风险和隐患。随着AI换脸、自动美颜、智能P图等技术和应用的流行，由视频自动生成技术引发的安全风险问题也与日俱增，尤其是人脸相关技术，作为AI技术落地最为广泛的场景之一，所面临安全挑战愈发严重。

[0003] 相应地，为防止上述问题的过度泛滥，通常采用视频伪造检测模型进行视频中人脸图像的真假识别，现有的视频伪造检测模型侧重于挖掘伪造过程中产生的特定伪影，例如颜色空间和形状线索，许多深度学习方法利用深度神经网络从空间领域提取高级语义信息，然后对给定的图像或视频进行分类。然而有些方法则是把图像从空间域转化到频域，捕获一些对于伪造检测有用的信息，采用一组固定的滤波器提取不同范围的频率信息，然后采用全连接层得到分类结果；利用DFT变换提取频域信息，并对不同频带的幅值取平均；还有一些方法是提取统计特征，捕捉空间纹理和变换域系数分布的特征。

[0004] 另外，大多数视频伪造检测模型的泛化性较低，主要原因有三点：一是难以捕捉通用的伪影线索以及数据集在数量和质量上的局限性；二是无法为特定的特征提取选择适合的网络模型；三是无法充分有效地利用提取到的特征。

[0005] 然而上述方法都局限于在特定的线索和特定的模型设计之上，难以满足视频伪造检测的通用性需求。

发明内容

[0006] 本发明提供一种基于多线索的双流视频人脸伪造检测方法及系统，用以解决现有技术中在区分视频中伪造人脸时使用的线索过于单一，以及分类模型的泛化性低的缺陷。

[0007] 第一方面，本发明提供一种基于多线索的双流视频人脸伪造检测方法，包括：

[0008] 确定待检测视频流；

[0009] 将所述待检测视频流输入至预先训练好的多线索视频伪造检测模型，得到人脸真假分类检测结果；其中，所述多线索视频伪造检测模型是基于EfficientNet‑B5网络和Swin Transformer网络并行交互融合形成多线索，对伪造视频训练数据集进行训练所得到的。

[0010] 根据本发明提供的一种基于多线索的双流视频人脸伪造检测方法，所述多线索视频伪造检测模型，通过以下步骤得到：

[0011] 获取所述伪造视频训练数据集，对所述伪造视频训练数据集进行预处理，得到人脸高频特征分量、人脸CrCb特征分量和人脸光流特征分量；

[0012] 将所述人脸高频特征分量和所述人脸CrCb特征分量融合后输入所述EfficientNet‑B5网络，获得高频及纹理特征图；

[0013] 将所述人脸光流特征分量输入所述Swin Transformer网络的第一预设阶段，获得补丁嵌入；

[0014] 将所述高频及纹理特征图及所述补丁嵌入进行连接，得到所有帧特征，将所述所有帧特征依次输入至所述Swin Transformer网络的第二预设阶段、线性层和softmax层，得到所述多线索视频伪造检测模型。

[0015] 根据本发明提供的一种基于多线索的双流视频人脸伪造检测方法，所述获取所述伪造视频训练数据集，对所述伪造视频训练数据集进行预处理，得到人脸高频特征分量、人脸CrCb特征分量和人脸光流特征分量，包括：

[0016] 提取所述伪造视频训练数据集中的帧，基于多任务级联卷积网络MTCNN检测每一帧中的原始人脸图像，将所述原始人脸图像调整为预设像素大小，并归一化为零均值和单位方差的人脸图像；

[0017] 基于离散余弦变换DCT将任一帧中的所述人脸图像从空间域转换至频域，采用预设高通滤波器提取所述频域中高频分量，得到所述人脸高频特征分量；

[0018] 将所述任一帧中的所述人脸图像从RGB空间域转换至YCrCb空间域，去除亮度通道，得到所述人脸CrCb特征分量；

[0019] 将所述高频分量图像与所述CrCb通道图像合并得到预设三维像素大小特征张量；

[0020] 基于PWC‑Net光流估计算法提取所述任一帧中的所述人脸图像中的光流特征，得到所述人脸光流特征分量。

[0021] 根据本发明提供的一种基于多线索的双流视频人脸伪造检测方法，所述将所述人脸高频特征分量和所述人脸CrCb特征分量融合后输入所述EfficientNet‑B5网络，获得高频及纹理特征图，包括：

[0022] 将所述人脸高频特征分量和所述人脸CrCb特征分量合并，获得预设三维像素大小的特征张量；

[0023] 将所述特征张量输入至所述EfficientNet‑B5网络，并基于组合损失函数进行精度调整，得到所述高频及纹理特征图；

[0024] 其中，在所述EfficientNet‑B5网络的MBConv层间插入注意力模块，以获取所述高频及纹理特征图中的伪影信息。

[0025] 根据本发明提供的一种基于多线索的双流视频人脸伪造检测方法，所述将所述特征张量输入至所述EfficientNet‑B5网络，并基于组合损失函数进行精度调整，得到所述高频及纹理特征图，包括：

[0026] 获取softmax损失函数、ArcFace损失函数和SCL损失函数，确定第一权重和第二权重；

[0027] 将所述softmax损失函数，所述ArcFace损失函数和所述第一权重之积，以及SCL损失函数和所述第二权重之积进行求和，得到所述组合损失函数；

[0028] 基于所述组合损失函数调整所述输入至所述EfficientNet‑B5网络中的所述特征张量，得到所述高频及纹理特征图。

[0029] 根据本发明提供的一种基于多线索的双流视频人脸伪造检测方法，所述将所述人脸光流特征分量输入所述Swin Transformer网络的第一预设阶段，获得补丁嵌入，包括：

[0030] 基于PWC‑Net光流估计算法提取任一帧的当前帧光流和下一帧光流，将所述当前帧光流和所述下一帧光流作为所述任一帧的光流图；

[0031] 将所述任一帧的光流图输入至所述Swin Transformer网络的第一预设阶段，得到中间层的补丁嵌入；

[0032] 采用特征交互模块，对所述中间层的补丁嵌入进行大小补齐，使所述中间层的补丁嵌入与所述高频及纹理特征图的特征相互匹配。

[0033] 根据本发明提供的一种基于多线索的双流视频人脸伪造检测方法，所述采用特征交互模块，对所述中间层的补丁嵌入进行大小补齐，使所述中间层的补丁嵌入与所述高频及纹理特征图的特征相互匹配，包括：

[0034] 基于单位卷积对所述中间层的补丁嵌入进行上采样，以对齐所述高频及纹理特征图的维数与所述中间层的补丁嵌入的通道数；

[0035] 对所述上采样后的所述中间层的补丁嵌入进行下采样，以对齐空间尺寸。

[0036] 根据本发明提供的一种基于多线索的双流视频人脸伪造检测方法，所述将所述高频及纹理特征图及所述补丁嵌入进行连接，得到所有帧特征，将所述所有帧特征依次输入至所述Swin Transformer网络的第二预设阶段、线性层和softmax层，得到所述多线索视频伪造检测模型，包括：

[0037] 将任一帧的所述高频及纹理特征图及所述补丁嵌入进行组合连接，得到任一帧的特征连接；

[0038] 将所有帧的特征连接进行大小调整，组合得到所有帧特征补丁，将所述所有帧特征补丁输入至所述Swin Transformer网络的第二预设阶段，连接所述线性层和所述softmax层，得到所述多线索视频伪造检测模型。

[0039] 第二方面，本发明还提供一种基于多线索的双流视频人脸伪造检测系统，包括：

[0040] 确定模块，用于确定待检测视频流；

[0041] 处理模块，用于将所述待检测视频流输入至预先训练好的多线索视频伪造检测模型，得到人脸真假分类检测结果；其中，所述多线索视频伪造检测模型是基于EfficientNet‑B5网络和Swin Transformer网络并行交互融合形成多线索，对伪造视频训练数据集进行训练所得到的。

[0042] 第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于多线索的双流视频人脸伪造检测方法的步骤。

[0043] 第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于多线索的双流视频人脸伪造检测方法的步骤。

[0044] 第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于多线索的双流视频人脸伪造检测方法的步骤。

[0045] 本发明提供的基于多线索的双流视频人脸伪造检测方法及系统，通过利用视频图像帧中的高频信息、低级纹理和光流信息的组合线索，融合EfficientNet‑B5网络的局部特征提取能力以及Swin Transformer网络的全局关系感知能力，在分辨视频帧中人脸图像的真假时，体现了更优越的分类性能，有效克服传统分类模型在线索上的单一性和模型上泛化性低的缺陷。

附图说明

[0046] 为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0047] 图1是本发明提供的基于多线索的双流视频人脸伪造检测方法的流程示意图之一；

[0048] 图2是本发明提供的多线索视频伪造检测模型的训练流程和检测流程示意图；

[0049] 图3是本发明提供的基于多线索的双流视频人脸伪造检测方法的流程示意图之二；

[0050] 图4是本发明提供的EfficientNet‑B5网络的结构示意图；

[0051] 图5是本发明提供的基于多线索的双流视频人脸伪造检测系统的结构示意图；

[0052] 图6是本发明提供的电子设备的结构示意图。

具体实施方式

[0053] 为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0054] 针对现有技术中对视频中伪造图像识别的缺陷，本发明提出一种基于多线索的双流视频人脸伪造检测方法，如图1所示，包括：

[0055] 步骤S1，确定待检测视频流；

[0056] 步骤S2，将所述待检测视频流输入至预先训练好的多线索视频伪造检测模型，得到人脸真假分类检测结果；其中，所述多线索视频伪造检测模型是基于EfficientNet‑B5网络和Swin Transformer网络并行交互融合形成多线索，对伪造视频训练数据集进行训练所得到的。

[0057] 具体地，本发明提出一种基于EfficientNet‑B5和Swin Transformer并行交互融合多线索的双分支视频伪造检测网络结构—ENST(EfficientNet‑B5网络和Swin Transformer网络的简称)。

[0058] 将需要进行检测的待检测视频流输入至已训练好的多线索视频伪造检测模型，该多线索视频伪造检测模型结构即对应于上述的ENST，训练该模型时，将伪造视频训练数据集输入至ENST，分别结合EfficientNet‑B5网络和Swin Transformer网络，并采用本发明设计的损失函数提取鲁棒性更强的人脸特征，经过多次训练得到多线索视频伪造检测模型，输入待检测视频流后，即可得到人脸真假分类检测结果。

[0059] 本发明通过利用视频图像帧中的高频信息、低级纹理和光流信息的组合线索，融合EfficientNet‑B5网络的局部特征提取能力以及Swin Transformer网络的全局关系感知能力，在分辨视频帧中人脸图像的真假时，体现了更优越的分类性能，有效克服传统分类模型在线索上的单一性和模型上泛化性低的缺陷。

[0060] 基于上述实施例，本发明中的所述多线索视频伪造检测模型，通过以下步骤得到：

[0061] 获取所述伪造视频训练数据集，对所述伪造视频训练数据集进行预处理，得到人脸高频特征分量、人脸CrCb特征分量和人脸光流特征分量；

[0062] 将所述人脸高频特征分量和所述人脸CrCb特征分量融合后输入所述EfficientNet‑B5网络，获得高频及纹理特征图；

[0063] 将所述人脸光流特征分量输入所述Swin Transformer网络的第一预设阶段，获得补丁嵌入；

[0064] 将所述高频及纹理特征图及所述补丁嵌入进行连接，得到所有帧特征，将所述所有帧特征依次输入至所述Swin Transformer网络的第二预设阶段、线性层和softmax层，得到所述多线索视频伪造检测模型。

[0065] 具体地，如图2所示，在构建训练模型的前期，获取一定数量的伪造视频训练数据集，对该训练集进行一系列的预处理，提取得到三个特征分量，包括：人脸高频特征分量、人脸CrCb特征分量和人脸光流特征分量。

[0066] 然后分别将三个特征分量输入至两个分支网络进行中期处理，其中，将人脸高频特征分量和人脸CrCb特征分量融合后输入EfficientNet‑B5网络，得到高频及纹理特征图；将人脸光流特征分量输入Swin Transformer网络的第一预设阶段(即图3中的Swin Transformer‑A)，得到补丁嵌入；

[0067] 将上述高频及纹理特征图和补丁嵌入进行连接得到所有帧特征，在后期处理中将所有帧特征输入Swin Transformer网络的第二预设阶段(即图3中的Swin Transformer‑B)，后面还连接线性层Linear和softmax层，得到训练好的多线索视频伪造检测模型。

[0068] 本发明通过将伪造视频训练数据集进行预处理后，得到的不同特征分量输入至不同的网络分支中进行训练，融合得到泛化性较高，处理效率高以及较强鲁棒性的多线索视频伪造检测模型。

[0069] 基于上述任一实施例，所述获取所述伪造视频训练数据集，对所述伪造视频训练数据集进行预处理，得到人脸高频特征分量、人脸CrCb特征分量和人脸光流特征分量，包括：

[0070] 提取所述伪造视频训练数据集中的帧，基于多任务级联卷积网络MTCNN检测每一帧中的原始人脸图像，将所述原始人脸图像调整为预设像素大小，并归一化为零均值和单位方差的人脸图像；

[0071] 基于离散余弦变换DCT将任一帧中的所述人脸图像从空间域转换至频域，采用预设高通滤波器提取所述频域中高频分量，得到所述人脸高频特征分量；

[0072] 将所述任一帧中的所述人脸图像从RGB空间域转换至YCrCb空间域，去除亮度通道，得到所述人脸CrCb特征分量；

[0073] 将所述高频分量图像与所述CrCb通道图像合并得到预设三维像素大小特征张量；

[0074] 基于PWC‑Net光流估计算法提取所述任一帧中的所述人脸图像中的光流特征，得到所述人脸光流特征分量。

[0075] 具体地，如图3所示，首先抽取输入的伪造视频训练数据集中的帧，用MTCNN(Multi‑task Cascaded Convolutional Networks，多任务级联卷积网络)算法检测并提取每一帧中存在的人脸，剪切每帧的人脸，再调整大小为224*224像素，然后归一化为零均值和单位方差，得到提取的人脸，再对视频中的单个任意帧i进行操作，将第i帧的人脸经过基本特征提取处理，分别输入到两个分支网络中进行更深层次的特征提取。

[0076] 其中一个分支是将上述提取到的人脸从RGB空间域转为YCrCb空间域，把亮度通道分离出来并去除，以忽略亮度对RGB图像中的肤色的影响，得到人脸CrCb特征分量；

[0077] 另一个分支则是通过DCT(Discrete Cosine Transform，离散余弦变换)将人脸图像从空间域转换到频域，再用一个高通滤波器提取对伪造检测有重要影响的高频分量，即人脸高频特征分量。

[0078] 将人脸高频特征分量与人脸CrCb特征分量合并，形成一个预设三维像素大小特征张量，即224*224*3特征张量，输入到EfficientNet‑B5中，以提取高频中的细节成分和浅层纹理的细微伪影。

[0079] 另外，采用用于提取光流特征的PWC‑Net算法提取人脸图像中的光流特征，得到用于输入另一个网络分支的人脸光流特征分量。

[0080] 本发明通过将视频流数据中单个帧图像中的人脸图像分别提取不同的特征分量，输入不同的分支网络进行处理，提取更深层次的特征，便于后续进行融合，识别人脸图像中的有效信息。

[0081] 基于上述任一实施例，所述将所述人脸高频特征分量和所述人脸CrCb特征分量融合后输入所述EfficientNet‑B5网络，获得高频及纹理特征图，包括：

[0082] 将所述人脸高频特征分量和所述人脸CrCb特征分量合并，获得预设三维像素大小的特征张量；

[0083] 将所述特征张量输入至所述EfficientNet‑B5网络，并基于组合损失函数进行精度调整，得到所述高频及纹理特征图；

[0084] 其中，在所述EfficientNet‑B5网络的MBConv层间插入注意力模块，以获取所述高频及纹理特征图中的伪影信息。

[0085] 其中，所述将所述特征张量输入至所述EfficientNet‑B5网络，并基于组合损失函数进行精度调整，得到所述高频及纹理特征图，包括：

[0086] 获取softmax损失函数、ArcFace损失函数和SCL损失函数，确定第一权重和第二权重；

[0087] 将所述softmax损失函数，所述ArcFace损失函数和所述第一权重之积，以及SCL损失函数和所述第二权重之积进行求和，得到所述组合损失函数；

[0088] 基于所述组合损失函数调整所述输入至所述EfficientNet‑B5网络中的所述特征张量，得到所述高频及纹理特征图。

[0089] 具体地，如图4所示，EfficientNet‑B5网络分支由EfficientNet‑B5和从前依次到后加入MBConv层间的注意力模块组成，其输入为高频特征与Cb、Cr通道的颜色特征的连接，输出为高频和纹理特征图。这里使用EfficientNet‑B5作为高频和低层纹理中伪影特征的提取模型，在EfficientNet‑B5的MBConv层间插入注意力模块以关注特征图中的伪影，图4中仅显示了加入一个注意力模块的效果。

[0090] 由于视频中的真实人脸和伪造人脸具有可区分的特征分布，不同类别的样本会聚集在一起。为了提取更好、更鲁棒的人脸特征，并区分真实和伪造人脸的视频分布，本发明没有采用较为常见的softmax损失函数和交叉熵损失函数，而是把softmax损失函数、additive angular margin(ArcFace)损失函数和Single Center Loss(SCL)损失函数组合起来，作为EfficientNet‑B5在提取特征时的损失函数。其中，ArcFace与SCL在功能上具有相似性，都是为了压缩类内紧致性，增强类间差异性，因此，采用组合的方式来提高特征提取的精度。

[0091] ArcFace是在SphereFace的基础上对特征向量归一化和加性角度间隔进行了改进，强制在一个角空间中的样本到其类中心的距离和样本到其他类中心的距离之间有一个边界，提高了类间可分性，同时也加强了类内紧度和类间差异，使得模型可以学习到对真实人脸和假人脸具有高度区分性的特征，从而使伪造检测的分类更加鲁棒。ArcFace损失函数定义为：

[0092]

[0093] SCL的目标是最小化真脸到中心点的距离，同时最大化假脸到中心点的距离，使得网络可以学习到更多细微的伪造信息，减小优化难度，SCL损失函数定义为：

[0094]

[0095] 其中，Mnat是真脸表示与中心点C的平均欧氏距离，Mman是假脸表示与中心点C的平均欧氏距离。欧氏距离与特征维数D的算术平方根有关，为了便于设置超参数m，这里将边界设计为

[0096] 还考虑到SCL是基于小批量样本的，直接关注特征表示，而softmax损失函数可以关注全局，关注如何将特征表示映射到离散的标签空间，因此本发明用softmax损失函数保留的全局信息指导SCL中的中心点的更新，增加训练的鲁棒性。

[0097] 综合上述三种损失函数的优点，兼顾局部特征表示和全局的更新，将三种损失函数进行结合，总损失函数定义为：

[0098] Ltotal＝Lsoftmax+αLArcface+βLsc

[0099] 其中，α和β是调节Lsoftmax、LArcface和Lsc之间平衡的超参数或权重，用于提供一个相对有效和灵活的总损失函数。

[0100] 本发明在EfficientNet‑B5网络层间从前到后依次加入注意力模块，以比较注意力机制对模型整体检测性能的影响，有效区分高频特征和纹理特征；同时采用综合三种损失函数的综合损失函数，能提取鲁棒性更强的人脸特征，实现有效区分真实人脸和伪造人脸。

[0101] 基于上述任一实施例，所述将所述人脸光流特征分量输入所述Swin Transformer网络的第一预设阶段，获得补丁嵌入，包括：

[0102] 基于PWC‑Net光流估计算法提取任一帧的当前帧光流和下一帧光流，将所述当前帧光流和所述下一帧光流作为所述任一帧的光流图；

[0103] 将所述任一帧的光流图输入至所述Swin Transformer网络的第一预设阶段，得到中间层的补丁嵌入；

[0104] 采用特征交互模块，对所述中间层的补丁嵌入进行大小补齐，使所述中间层的补丁嵌入与所述高频及纹理特征图的特征相互匹配。

[0105] 其中，所述采用特征交互模块，对所述中间层的补丁嵌入进行大小补齐，使所述中间层的补丁嵌入与所述高频及纹理特征图的特征相互匹配，包括：

[0106] 基于单位卷积对所述中间层的补丁嵌入进行上采样，以对齐所述高频及纹理特征图的维数与所述中间层的补丁嵌入的通道数；

[0107] 对所述上采样后的所述中间层的补丁嵌入进行下采样，以对齐空间尺寸。

[0108] 具体地，如图3所示，本发明利用视频流在时序上的变化差异，先将视频分为0～N的连续多个帧，采用PWC‑Net光流估计算法提取第i帧和第i+1帧的光流，作为第i帧的光流图。

[0109] 将上述光流图输入到图3所示的Swin Transformer‑A中，得到中间层的补丁嵌入，其中Swin Transformer‑A代表Swin Transformer网络中的前三个阶段。

[0110] 类似于Conformer模型，引入了互补融合的特性，增加了一个特征交互模块。从Efficient‑B5分支向Swin Transformer中的补丁嵌入逐步反馈提取到的局部特征，以增强Swin Transformer分支的局部细节。

[0111] 为了解决Efficient‑B5分支中的特征图与Swin Transformer分支中的补丁嵌入大小不匹配的问题，本发明采用一种特殊的转换操作，其具体过程是先用一个1*1卷积来对齐特征图的维数与补丁嵌入的通道数，然后使用下采样模块对齐空间尺寸，最后特征图可以被添加到补丁嵌入中。

[0112] 本发明通过采用Swin Transformer网络对人脸图像中的光流特征进行处理，充分利用了Swin Transformer网络的全局关系感知能力，为后续进行融合分类提供了有效的特征提取。

[0113] 基于上述任一实施例，所述将所述高频及纹理特征图及所述补丁嵌入进行连接，得到所有帧特征，将所述所有帧特征依次输入至所述Swin Transformer网络的第二预设阶段、线性层和softmax层，得到所述多线索视频伪造检测模型，包括：

[0114] 将任一帧的所述高频及纹理特征图及所述补丁嵌入进行组合连接，得到任一帧的特征连接；

[0115] 将所有帧的特征连接进行大小调整，组合得到所有帧特征补丁，将所述所有帧特征补丁输入至所述Swin Transformer网络的第二预设阶段，连接所述线性层和所述softmax层，得到所述多线索视频伪造检测模型。

[0116] 具体地，在前述实施例中两个分支网络分别得到多个特征后，将把两个分支提取的第i帧的所有人脸区域特征组合连接在一起，组成一个第i帧的特征连接，其中包括提取到的高频特征、纹理特征和补丁嵌入。

[0117] 依次对视频数据流中的每个帧都进行以上操作，得到该视频的0～N帧的特征连接，然后经过调整大小转化为单独的补丁，将多个单独的补丁组合起来就得到N个补丁，再转化为一个新的补丁嵌入，将该新的补丁嵌入输入到图3所示的Swin Transformer‑B，即Swin Transformer网络中的最后一个阶段，后面再连接线性层和softmax层，最后输出整个视频中的人脸真假分类检测结果。

[0118] 需要说明的是，在图3中，“i‑th frame”模块之后到“All frames features”模块之前的部分代表对单个i帧的操作处理流程，其余部分代表对所有帧的操作流程。

[0119] 本发明通过在FaceForensics++和Celeb‑DF(v2)数据集上进行实验，表明本发明提出的ENST与其他方法相比，实现了更优越的分类性能和泛化性。

[0120] 下面对本发明提供的基于多线索的双流视频人脸伪造检测系统进行描述，下文描述的基于多线索的双流视频人脸伪造检测系统与上文描述的基于多线索的双流视频人脸伪造检测方法可相互对应参照。

[0121] 图5是本发明提供的基于多线索的双流视频人脸伪造检测系统的结构示意图，如图5所示，包括：确定模块51和处理模块52，其中：

[0122] 确定模块51用于确定待检测视频流；处理模块52用于将所述待检测视频流输入至预先训练好的多线索视频伪造检测模型，得到人脸真假分类检测结果；其中，所述多线索视频伪造检测模型是基于EfficientNet‑B5网络和Swin Transformer网络并行交互融合形成多线索，对伪造视频训练数据集进行训练所得到的。

[0123] 本发明通过利用视频图像帧中的高频信息、低级纹理和光流信息的组合线索，融合EfficientNet‑B5网络的局部特征提取能力以及Swin Transformer网络的全局关系感知能力，在分辨视频帧中人脸图像的真假时，体现了更优越的分类性能，有效克服传统分类模型在线索上的单一性和模型上泛化性低的缺陷。

[0124] 图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行基于多线索的双流视频人脸伪造检测方法，该方法包括：确定待检测视频流；将所述待检测视频流输入至预先训练好的多线索视频伪造检测模型，得到人脸真假分类检测结果；其中，所述多线索视频伪造检测模型是基于EfficientNet‑B5网络和Swin Transformer网络并行交互融合形成多线索，对伪造视频训练数据集进行训练所得到的。

[0125] 此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read‑Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

[0126] 另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于多线索的双流视频人脸伪造检测方法，该方法包括：确定待检测视频流；将所述待检测视频流输入至预先训练好的多线索视频伪造检测模型，得到人脸真假分类检测结果；其中，所述多线索视频伪造检测模型是基于EfficientNet‑B5网络和Swin Transformer网络并行交互融合形成多线索，对伪造视频训练数据集进行训练所得到的。

[0127] 又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于多线索的双流视频人脸伪造检测方法，该方法包括：确定待检测视频流；将所述待检测视频流输入至预先训练好的多线索视频伪造检测模型，得到人脸真假分类检测结果；其中，所述多线索视频伪造检测模型是基于EfficientNet‑B5网络和Swin Transformer网络并行交互融合形成多线索，对伪造视频训练数据集进行训练所得到的。

[0128] 以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

[0129] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

[0130] 最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

一种基于多线索的双流视频人脸伪造检测方法及系统转让专利

申请号 : CN202210061187.0

文献号 : CN114596608B

文献日 : 2023-03-28

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 赫然 , 黄怀波 , 刘晨雨 , 李佳 , 段俊贤

申请人 : 中国科学院自动化研究所

摘要 :

权利要求 :

说明书 :