目录
论文工作
-
提出一个统一框架分析基于投毒的攻击
-
对现有攻击和防御进行总结和分类
-
概述了一些未来的研究方向
后门攻击的统一框架
定义1(标准、后门和可感知的风险)
- 标准风险 R s R_s Rs衡量 x x x的预测(即 C ( x ) C(x) C(x))是否与它的ground-truth标签 y y y相同(即所使用数据集标签本身的正确率)。它对有标签的数据集 D L D_L DL的定义为
R s ( D L ) = E ( x , y ) ∼ P D L [ Π { C ( x ) ≠ y } ] (1) R_s(D_L) = \mathbb E_{(x,y)∼\mathcal P_{D_L}}\,[\Pi\{C(x) \not = y\}]\tag{1} Rs(DL)=E(x,y)∼PDL[Π{C(x)=y}](1)
其中 P D L \mathcal P_{D_L} PDL表示 D L D_L DL背后的分布。 Π ( a ) \Pi(a) Π(a)表示指标函数。如果a为真, Π ( a ) = 1 \Pi(a)=1 Π(a)=1,否则 Π ( a ) = 0 \Pi(a)=0 Π(a)=0。
-
后门风险 R b R_b Rb表示后门触发器 t t t是否能成功激活分类器内的隐藏后门(即后门没有被触发)。其关于 D L D_L DL的定义被表述为 R b ( D L ) = E ( x , y ) ∼ P D L [ Π { C ( x ′ ) ≠ y t } ] (2) R_b(D_L)=\mathbb E_{(x,y)∼\mathcal P_{D_L}}[\Pi\{C(x') \not= y_t\}]\tag{2} Rb(DL)=E(x,y)∼PDL[Π{C(x′)=yt}](2),其中 x ′ = G ( x , t ) x'= G(x,t) x′=G(x,t)是良性样本 x x x在生成函数 G ( ⋅ ) G(·) G(⋅)下的中毒版本,触发器为t。例如, G ( x , t ) = ( 1 − α ) − x + α ⋅ t G(x,t)=(1-α)-x+α·t G(x,t)=(1−α)−x+α⋅t是最常用的生成函数,其中 α ∈ [ 0 , 1 ] d α∈[0,1]^d α∈[0,1]d和 y t y_t yt分别表示混合的参数和目标标签。
-
可感知的风险 R p R_p Rp表示中毒样本(即 x ′ x' x′)是否能被检测出是恶意的样本 (由人类或机器)(用于衡量可以检测出的中毒样本)。其关于 D L D_L DL的定义被表述为
R p ( D L ) = E ( x , y ) ∼ P D L [ D ( x ′ ) ] (3) R_p(D_L) = \mathbb E_{(x,y)∼\mathcal P_{D_L}}[D(x')]\tag{3} Rp(DL)=E(x,y)∼PDL[D(x′)](3)
其中 D ( ⋅ ) D(·) D(⋅)是一个指标函数。 D ( x ′ ) = 1 D(x') = 1 D(x′)=1,如果 x ′ x' x′是
恶意样本,否则 D ( x ′ ) = 0 D(x')=0 D(x′)=0。
最小化 R s , R b , R p R_s,R_b, R_p Rs,Rb,Rp的和即可得到后门攻击的统一框架:
m i n w , t R s ( D L − D s L ) + λ 1 ⋅ R b ( D s L ) + λ 2 ⋅ R p ( D s L ) (4) min_{w,t} R_s(D_L-D_{sL}) + λ_1· R_b(D_{sL}) + λ_2·R_p(D_{sL})\tag{4} minw,tRs(DL−DsL)+λ1⋅Rb(DsL)+λ2⋅Rp(DsL)(4)
,其中 t ∈ T t∈T t∈T, λ 1 λ_1 λ1和 λ 2 λ_2 λ2是两个非负的权衡超参数, D s L D_sL DsL是 D L D_L DL的一个子集, ∣ D s L ∣ ∣ D L ∣ \frac{|D_{sL}|}{|D_L|} ∣DL∣∣DsL∣称为中毒率。优化(4)可以通过不同的技术指标减少现有的攻击,比如当 λ 2 = 0 λ_2 = 0 λ2=0, 通过优化 λ 1 λ_1 λ1,也就是减少后门被激活的成功率,就可以减少减少BadNets和混合攻击。
基于投毒攻击的分类
图2. 具有不同分类标准的基于中毒的后门攻击的分类法。在该图中,红色方框代表分类标准。 而蓝框表示攻击的子类型。
图像和视频识别的攻击
攻击类 | 中毒数据生成方式 | 实现方式 |
---|---|---|
Badnets | 冲压 | 毒化训练样本注入后门 |
隐形后门攻击 | 将后门触发器与良性图像混合 | 同上 |
优化攻击 | 优化中毒数据 | 同上 |
物理攻击 | 在生成图像时注入后门 | 同上 |
黑盒攻击 | 生成中毒图像 | 同上 |
语义后门攻击 | … | 将标签分配给所有具有特定特征的图像,例如绿色汽车或带有赛车条纹的汽车,用于训练,可以在受感染的DNNs中创建语义隐藏后门 |
总结
大多数方法都集中在:
(1)如何设计触发器,
(2)如何定义攻击的隐蔽性,
(3)如何绕过潜在的防御措施。
基于非投毒的后门攻击
攻击类 | 实现方式 |
---|---|
权重扰动 | 直接修改模型权重 |
比特木马 | 同上 |
木马网络(*Net) | 将后门编码在受感染的DNN中,通过隐秘的权重置换激活后门 |
木马模块 | 将训练好的恶意后门模块(即一个子DNN)插入到目标模型中 |
这些方法不是直接通过在训练过程中用中毒的样本优化模型参数来注入后门。它们的存在表明,除了发生在数据收集阶段,后门攻击也可能发生在训练过程的其他阶段(如部署阶段),这进一步揭示了后门攻击的严重性。
后门防御
分两类:经验性的后门防御措施和认证的后门防御措施。经验性的防御措施可以采用三种主要的防御范式,包括(1)触发器-后门不匹配,(2)后门消除,以及(3)触发器消除,来防御现有的攻击。验证的后门防御措施主要基于随机平滑技术。
未来方向展望
五个潜在的研究方向:
-
触发器设计:现有方法的触发器是以启发式设计的(例如,以普遍扰动的方式设计),甚至是以非优化的方式。如何更好地优化触发模式仍然是一个重要的开放性问题。此外,在触发器的设计中只考虑了有效性和隐蔽性,其他标准,如最小的必要中毒比例,也值得进一步探索。
-
语义和物理后门攻击:与其他类型的后门攻击相比,对它们的研究仍然远远落后。
-
针对其他任务的攻击:现有的后门攻击主要集中在计算机视觉的任务上,特别是图像分类。然而,对其他任务(如推荐系统、语音识别和自然语言处理)的研究还不够深入。
-
有效和高效的防御措施:现有的防御措施存在计算成本高、存在可以绕过防御措施的攻击方法。
-
机制探索:后门为什么会存在,当后门触发器出现时,模型内部会发生什么,在现有的工作中都没有仔细研究。
结论
后门学习,包括后门攻击和后门防御,是一个关键和蓬勃发展的研究领域。在这次调查中,我们对现有的后门攻击进行了总结和分类,并提出了一个统一的框架来分析基于投毒的后门攻击。我们还分析了防御技术,并讨论了后门攻击与相关领域的关系。最后对潜在的研究方向进行了说明。该领域几乎所有的研究都是在过去三年中完成的,攻击和防御之间的猫鼠游戏可能会在未来继续。我们希望本文能够提醒研究人员注意后门威胁,并提供一个及时的观点。这将是迈向值得信任的深度学习的重要一步。