一种可迁移黑盒对抗攻击样本生成方法、系统及电子设备转让专利

申请号 : CN202211518012.4

文献号 : CN115544499B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王中元方砚程季康王骞邵振峰邹勤

申请人 : 武汉大学

摘要 :

本发明公开了一种可迁移黑盒对抗攻击样本生成方法、系统及电子设备,通过对当前对抗样本连续使用快速梯度符号方法,超前预测了对抗攻击样本未来可能的生成路径,再通过沿生成路径的邻域进行采样并计算损失函数在采样点和超前预测点的梯度之和,得到了累计的梯度,最后使用动量快速梯度符号方法根据累计的梯度更新对抗攻击样本。具体包括对抗攻击样本生成路径预测,沿生成路径邻域的采样与梯度计算,对抗攻击样本更新等三个主要步骤。本方法能有效提高针对替代白盒模型生成的对抗攻击样本迁移到黑盒攻击的成功率。同时,本方法不限制使用某一种特定的替代白盒模型,具有普适性强的优点。

权利要求 :

1.一种可迁移黑盒对抗攻击样本生成方法,其特征在于,包括以下步骤:步骤1:对给定的图像,采用白盒替代模型进行攻击,预测下一步更新的对抗攻击样本,在预测得到的对抗攻击样本的邻域内进行采样,并计算受攻击的白盒替代模型的损失函数在采样点和预测的对抗攻击样本点的梯度的之和;

步骤1的具体实现包括以下子步骤:

步骤1.1:选择一种深度学习模型作为白盒替代模型进行攻击,对于一个作为图像识别深度神经网络输入的任意尺寸的图像x,设定对抗攻击样本更新迭代过程的起点为xadv=x,其中xaav为当前的对抗攻击样本;设定超前预测迭代过程的起点为xpred=xadv,其中xpred为当前预测的对抗攻击样本;初始化累加的梯度gacc=0;

计算白盒替代模型损失函数在当前预测样本处的梯度,并累加:gacc=gacc+gpred;

其中gpred是计算得到用于预测的梯度,J()为白盒替代模型的损失函数,x为输入的图像,y为原输入的标签,θ为白盒替代模型的参数, 表示损失函数J在当前预测的对抗样本点xpred处的梯度;

步骤1.2:根据计算得到的梯度,使用快速梯度符号法预测下一步更新的对抗攻击样本:xpred=xpred+γ*α*sign(gpred);

其中α=∈/T为每次更新对抗样本的步长,γ为描述预测步长相对于更新步长倍数的一个预设参数,∈为加入扰动的L∞范数,用于限制对抗攻击样本与原图的差异,T为预设的对抗攻击样本更新迭代次数,sign()为符号函数;

步骤1.3:在预测点的邻域内进行采样,并计算白盒替代模型损失函数在采样点的梯度,并与预测对抗样本点的梯度进行累计求和:xi=xpred+ri;

d d

ri∈U[‑(β∈) ,(β∈) ];

其中,i代表在该预测样本邻域的第i次采样,ri是采样点与预测样本的差距,U为均匀分布,β为一个用于规定邻域半径大小的预设参数,d为输入样本的维度;

步骤1.4:根据一个预设的采样次数Nj重复步骤1.3进行Nj次采样与梯度累加,Nj表示在第j步超前预测的对抗攻击样本邻域内采样的次数;

步骤2:循环执行步骤1,使对抗攻击样本更新路径的预测进行更多步,直到达到预设的超前预测步数,累加每一轮循环得到的梯度和;

步骤3:使用步骤2中得到的累计梯度更新对抗攻击样本;

步骤4:循环执行步骤1‑步骤3,直到对抗攻击样本的更新次数达到预设的迭代次数,使用得到的对抗攻击样本攻击目标黑盒模型。

2.根据权利要求1所述的可迁移黑盒对抗攻击样本生成方法,其特征在于,步骤3的具体实现包括以下子步骤:步骤3.1:设定初始的动量梯度为padv=0;

步骤3.2:利用步骤2得到的累加梯度更新gadv;

gadv=μ*gadv+gacc/||gacc||1;

其中μ∈[0,1]是表示动量大小的预设参数,||gacc||1表示累加梯度gacc的L1范数;

步骤3.3:利用动量快速梯度符号法更新对抗攻击样本xadv;

xadv=xadv+α*sign(gadv);

步骤3.4:将更新的对抗攻击样本与原始图像的差距约束在规定范围内:xadv=clip{x,∈}(xadv);

其中clip()为裁剪函数。

3.根据权利要求1‑2任意一项所述的可迁移黑盒对抗攻击样本生成方法,其特征在于:步骤2中,在沿预测的对抗样本生成路径的邻域采样的过程中,为了充分利用邻域信息,将采样点分散在若干个预测点周围而非围绕单个预测点采样;采样总数不变的前提下,在更远的预测对抗攻击样本点的邻域内进行的更多采样以更好的利用超前预测信息,提高生成的对抗攻击样本迁移到黑盒攻击的成功率,即当m>n时,使Nm≥Nn。

4.一种可迁移黑盒对抗攻击样本生成系统,其特征在于,包括以下模块:模块1:对给定的图像,采用白盒替代模型进行攻击,预测下一步更新的对抗攻击样本,在预测得到的对抗攻击样本的邻域内进行采样,并计算受攻击的白盒替代模型的损失函数在采样点和预测的对抗攻击样本点的梯度的之和;

模块1包括以下子模块:

模块1.1,用于选择一种深度学习模型作为白盒替代模型进行攻击,对于一个作为图像识别深度神经网络输入的任意尺寸的图像x,设定对抗攻击样本更新迭代过程的起点为xadv=x,其中xadv为当前的对抗攻击样本;设定超前预测迭代过程的起点为xpred=xadv,其中xpred为当前预测的对抗攻击样本;初始化累加的梯度gacc=0;

计算白盒替代模型损失函数在当前预测样本处的梯度,并累加:gacc=gacc+gpred;

其中gpred是计算得到用于预测的梯度,J()为白盒替代模型的损失函数,x为输入的图像,y为原输入的标签,θ为白盒替代模型的参数, 表示损失函数J在当前预测的对抗样本点xpred处的梯度;

模块1.2,用于根据计算得到的梯度,使用快速梯度符号法预测下一步更新的对抗攻击样本:xpred=xpred+γ*α*sign(gpred);

其中α=∈/T为每次更新对抗样本的步长,γ为描述预测步长相对于更新步长倍数的一个预设参数,∈为加入扰动的L∞范数,用于限制对抗攻击样本与原图的差异,T为预设的对抗攻击样本更新迭代次数,sign()为符号函数;

模块1.3,用于在预测点的邻域内进行采样,并计算白盒替代模型损失函数在采样点的梯度,并与预测对抗样本点的梯度进行累计求和:xi=xpred+ri;

d d

ri∈U[‑(β∈) ,(β∈) ];

其中,i代表在该预测样本邻域的第i次采样,r i是采样点与预测样本的差距,U为均匀分布, β为一个用于规定邻域半径大小的预设参数,d为输入样本的维度;

模块1.4,用于根据一个预设的采样次数N j重复模块1.3进行N j次采样与梯度累加,N j表 示在第j步超前预测的对抗攻击样本邻域内采样的次数;

模块2:循环执行模块1,使对抗攻击样本更新路径的预测进行更多步,直到达到预设的 超前预测步数,累加每一轮循环得到的梯度和;

模块3:使用模块2中得到的累计梯度更新对抗攻击样本;

模块4:循环执行模块1‑模块3,直到对抗攻击样本的更新次数达到预设的迭代次数, 使用得到的对抗攻击样本攻击目标黑盒模型。

5.一种电子设备,其特征在于,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器 执行时,使得所述一个或多个处理器实现如权利要求1至3中任一项所述的可迁移黑盒对抗 攻击样本生成方法。

说明书 :

一种可迁移黑盒对抗攻击样本生成方法、系统及电子设备

技术领域

[0001] 本发明属于人工智能安全技术领域,涉及一种深度学习对抗攻击样本生成方法及系统,具体涉及一种基于超前平滑度增强的可迁移黑盒对抗攻击样本生成方法及系统。

背景技术

[0002] 深度学习模型和人工智能(AI)技术已经被广泛应用在图像识别、语义分割、目标检测等生活实践领域。然而,深度学习模型的安全性问题却逐渐引起人们的担忧和重视。一些精心生成的微小扰动,当被加入原始图像时,会使深度学习模型产生错误的输出结果,从而对深度学习模型的安全性产生威胁。这种加入微小扰动生成的图像被称为对抗样本(adversarialsample)。这种对抗样本由于与原图差距过小,常常无法被人眼分辨,因此可被用于反AI识别。
[0003] 最早的对抗攻击样本生成方法往往需要利用受攻击对象模型的已知信息,因此被称作白盒攻击(white‑boxattack)。常用的方法包括利用白盒模型的梯度更新对抗样本、利用演化算法从候选的扰动中选择有效果的对抗攻击样本、利用深度学习网络生成对抗攻击样本等。尽管白盒攻击的成功率往往很高,但由于现实应用中无法得知被攻击网络的具体信息,因此白盒攻击的应用场景受到限制。由于使用了目标模型的信息,白盒攻击还很容易被梯度掩盖等防御方法化解。因此,不依赖受攻击目标模型的具体信息的黑盒攻击(black‑boxattack)成为了近几年的研究热点。
[0004] 一类黑盒攻击方法基于对目标网络的反复询问,通过输入当前的图像并观察目标网络的返回标签来更新当前的对抗攻击样本。由于使用了目标模型返回的标签,不能被看作完全的黑盒攻击。因为需要对目标网络进行大量的询问,这类方法的使用场景也受到了限制。根据对某种已知模型生成的对抗攻击样本能成功攻击其它未知模型这一现象,发展出来的基于迁移的黑盒攻击方法具有普适性强、难以被防御的特点。目前,研究者致力于用各种方法提高白盒攻击迁移到黑盒攻击的成功率,常用的方法包括:将对抗样本更新路径上的梯度以一定的比例进行累加,以使优化结果跳出局部最优值而提高迁移成功率的动量快速梯度符号方法;对输入图像进行预处理以实现数据增强的输入多样性法、平移不变法;将未来对抗样本更新路径点梯度加入当前梯度进行更新的超前预测法;将对单一的白盒替代模型的攻击改为对多个替代模型进行攻击的模型增强法。然而,这些方法的迁移成功率往往不能达到实际应用所需效果。
[0005] 目前,部分研究者尝试使用在原始图像邻域内进行采样,用领域点的梯度和代替单一的原始图像的梯度进行更新,以减小对抗样本更新过程中损失函数的方差,从而提高迁移成功率。然而,这种基于平滑度增强的方法丢失了对抗样本点本身的梯度信息,并且没有充分利用对抗样本的大范围邻域信息。因此,提出能够充分利用对抗样本邻域信息来增强损失函数平滑度,并将迁移攻击的成功率提升到一个足以应用到实践的水平的对抗样本生成方法具有重要的应用价值。

发明内容

[0006] 为了解决上述技术问题,本发明提供了一种可迁移对抗攻击样本生成方法、系统及电子设备。
[0007] 本发明的方法所采用的技术方案是:一种可迁移黑盒对抗攻击样本生成方法,包括以下步骤:
[0008] 步骤1:对给定的图像,采用白盒替代模型进行攻击,预测下一步更新的对抗攻击样本,在预测得到的对抗攻击样本的邻域内进行采样,并计算受攻击的白盒替代模型的损失函数在采样点和预测的对抗攻击样本点的梯度的之和;
[0009] 步骤2:循环执行步骤1,使对抗攻击样本更新路径的预测进行更多步,直到达到预设的超前预测步数,累加每一轮循环得到的梯度和;
[0010] 步骤3:使用步骤2中得到的累计梯度更新对抗攻击样本;
[0011] 步骤4:循环执行步骤1‑步骤3,直到对抗攻击样本的更新次数达到预设的迭代次数,使用得到的对抗攻击样本攻击目标黑盒模型。
[0012] 本发明的系统所采用的技术方案是:一种可迁移黑盒对抗攻击样本生成系统,包括以下模块:
[0013] 模块1:对给定的图像,采用白盒替代模型进行攻击,预测下一步更新的对抗攻击样本,在预测得到的对抗攻击样本的邻域内进行采样,并计算受攻击的白盒替代模型的损失函数在采样点和预测的对抗攻击样本点的梯度的之和;
[0014] 模块2:循环执行模块1,使对抗攻击样本更新路径的预测进行更多步,直到达到预设的超前预测步数,累加每一轮循环得到的梯度和;
[0015] 模块3:使用模块2中得到的累计梯度更新对抗攻击样本;
[0016] 模块4:循环执行模块1‑模块3,直到对抗攻击样本的更新次数达到预设的迭代次数,使用得到的对抗攻击样本攻击目标黑盒模型。
[0017] 本发明的电子设备所采用的技术方案是:一种电子设备,包括:
[0018] 一个或多个处理器;
[0019] 存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的可迁移黑盒对抗攻击样本生成方法。
[0020] 与现有的对抗攻击样本的生成方法相比,本发明具有以下优点和积极效果:
[0021] (1)本发明利用超前预测来推测对抗样本的未来生成路径,提供了更大范围的邻域信息。利用在超前预测邻域内的采样与梯度累加,能更有效的增强损失函数在对抗样本点的平滑度,减小损失函数的方差,有效的提高了使用生成的对抗攻击样本进行黑盒迁移攻击的成功率。
[0022] (2)本发明不需要限定使用的白盒替代模型类型,也不需要使用目标黑盒模型的任何信息,具有普适性强的优点。

附图说明

[0023] 图1:本发明实施例的方法流程图;
[0024] 图2:本发明实施例的原理示意图。

具体实施方式

[0025] 为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
[0026] 在优化问题中,一些方法寻找使目标函数变化幅度更小的最值点,以此来跳出局部最优值,达到更好的优化效果。在深度学习模型中,寻找使模型损失函数更平滑的最值点作为模型参数能有效的避免过拟合问题,提高模型使用训练集以外数据时的效果。类似的平滑度增强和方差减小的方法可以运用到对抗攻击样本生成中,防止生成的对抗攻击样本过拟合于白盒替代模型,提高黑盒攻击的迁移成功率。超前预测方法能预测未来对抗攻击样本的生成路径,同时提供了一个更大范围的邻域信息。在超前预测路径的邻域内采样,并使用采样点和预测点的梯度之和更新对抗攻击样本,将能更充分的利用对抗样本的邻域信息,有效的增加对抗样本点所处损失函数位置的平滑度,提高对抗样本攻击未知的黑盒模型的成功率。基于这一原理,本发明创新性地提出一种基于超前平滑度增强的可迁移对抗攻击样本生成方法。
[0027] 请见图1,本发明提供的一种可迁移黑盒对抗攻击样本生成方法,包括以下步骤:
[0028] 步骤1:对给定的图像,采用白盒替代模型进行攻击,使用快速梯度符号法预测下一步更新的对抗攻击样本,在预测得到的对抗攻击样本的邻域内进行采样,并计算受攻击的白盒替代模型的损失函数(本实施例使用Inception_v3网络和交叉熵损失函数)在采样点和预测的对抗攻击样本点的梯度的之和;
[0029] 步骤1.1:选择一种深度学习模型作为白盒替代模型进行攻击,对于一个可作为图像识别深度神经网络输入的任意尺寸的图像 x(本实施例使用来自ILSVRC2012验证集的图片),设定对抗攻击样本更新迭代过程的起点为 x adv = x,其中 x adv 为当前的对抗攻击样本;设定超前预测迭代过程的起点为 x pred = x adv ,其中 x pred 为当前预测的对抗攻击样本;初始化累加的梯度 g acc =0;
[0030] 计算白盒替代模型损失函数在当前预测样本处的梯度,并累加:
[0031]
[0032] 其中 g pred 是计算得到用于预测的梯度, J()为白盒替代模型的损失函数, x为输入的图像, y为原输入的标签, θ为白盒替代模型的参数,∇ x pred 表示损失函数 J在当前预测的对抗样本点 x pred 处的梯度;
[0033] 步骤1.2:根据计算得到的梯度,使用快速梯度符号法预测下一步更新的对抗攻击样本:
[0034]
[0035] 其中 为每次更新对抗样本的步长(本实施例取 =0.5, T=10), γ为描述预测步长相对于更新步长倍数的一个预设参数(本实施例取 γ=1.5), 为加入扰动的 L ∞ 范数,用于限制对抗攻击样本与原图的差异, T为预设的对抗攻击样本更新迭代次数, sign()为符号函数;
[0036] 步骤1.3:在预测点的邻域内进行采样,并计算白盒替代模型损失函数在采样点的梯度,并与预测对抗样本点的梯度进行累计求和:
[0037]
[0038] 其中, i代表在该预测样本邻域的第 i次采样, r i 是采样点与预测样本的差距, U为均匀分布, β为一个用于规定邻域半径大小的预设参数(本实施例取 β=2.0), d为输入样本的维度(本实施例的输入维度为299×299)。
[0039] 步骤1.4:根据一个预设的采样次数 N j 重复步骤1.3进行 N j 次采样与梯度累加, N j 表示在第 j步超前预测的对抗攻击样本邻域内采样的次数(本实施例对所有 j均取 N j =2)。
[0040] 步骤2:循环执行步骤1,使对抗攻击样本更新路径的预测进行更多步,直到达到预设的超前预测步数(本实施例取超前预测步数为20步),累加每一轮循环得到的梯度和;
[0041] 请见图2,为了充分利用对抗样本点的邻域信息,需要生成一个范围更大且与对抗样本更新过程相关度更高的区域。为此,使用超前预测方法预测对抗样本未来的更新路径。在沿预测的对抗样本生成路径的邻域采样的过程中,为了充分利用邻域信息来增强损失函数平滑度,将采样点分散在多个预测点周围而非围绕单个预测点采样。为了使生成对抗攻击样本的时间成本大致保持不变,即使采样总数不变的前提下,在更远的预测对抗攻击样本点的邻域内进行更多的采样以更好的利用超前预测信息,提高生成的对抗攻击样本迁移到黑盒攻击的成功率,即当 m> n时,使 N m ≥ N n 。
[0042] 步骤3:运用动量快速梯度符号法,使用步骤2中得到的累计梯度更新对抗攻击样本;
[0043] 步骤3.1:设定初始的动量梯度为 g adv =0;
[0044] 步骤3.2:利用步骤2得到的累加梯度更新 g adv ;
[0045]
[0046] 其中 是表示动量大小的预设参数(本实施例取 μ=0.8), 表示累加梯度 g acc 的 L 1 范数;
[0047] 步骤3.3:利用动量快速梯度符号法更新对抗攻击样本 x adv ;
[0048]
[0049] 步骤3.4:将更新的对抗攻击样本与原始图像的差距约束在规定范围内:
[0050]
[0051] 其中 clip()为裁剪函数。
[0052] 步骤4:循环执行步骤1‑步骤3,直到对抗攻击样本的更新次数达到预设的迭代次数,使用得到的对抗攻击样本攻击目标黑盒模型。
[0053] 本实施例取Resnet34、Resnet50、Densenet121、Densenet161、VGG16作为攻击目标,攻击成功率请见下表1,在使用本实施例进行实验后能证明,本发明在白盒替代模型(Inception_v3)上生成的对抗攻击样本具有很高的迁移黑盒攻击成功率。
[0054] 表1
[0055]
[0056] 本发明增大白盒模型损失函数在对抗样本点的平滑度,减小白盒模型损失函数在对抗样本点的变化幅度能有效的防止对抗样本过拟合于白盒模型,从而提高对抗样本迁移到黑盒攻击的成功率。通过超前预测推测对抗样本未来的生成路径,并在未来生成路径的领域内采样,对采样点的梯度与预测点的梯度进行累加来代替单一的当前对抗样本点的梯度进行对抗样本的更新,能有效的增强损失函数的平滑度,提高对抗样本迁移到黑盒攻击的成功率。与现有的平滑度增强方法相比,超前平滑度增强法更充分的利用了对抗样本点的邻域信息,使生成的对抗样本具有更高的可迁移性,提高了生成的对抗样本攻击未知模型时的成功率。
[0057] 应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。