Rethinking the Backdoor Attacks’ Triggers A Frequency Perspective
尚未发布,收录于arxiv—— 论文链接
本文指出,现有的后门攻击在频域领域上的研究不足。因此本文提出通过频域信息来辨别后门样本,并以此构建了频域不可见的后门样本。
一个直观的想法就是,后门样本与自然图像的概率分布不同。由于后门样本相比自然图像需要添加特定的trigger pattern,从而触发深度模型给出指定的输出结果。这种添加的特定的trigger pattern,也许能够在频域上表达出来。
本文结果也证实了这一点,后门样本相比正常样本,会在频域上存在高频伪影。通过高频伪影能够达到98.50%的后门检出率。
高频伪影
本文首先使用DCT(离散余弦变换)将样本转换到频域。然后绘制热力图。研究发现,自然图像的能量大多集中在低频部分,而后门样本中往往存在较多的高频部分信息。
将一个trigger pattern添加到图像上,就相当于将trigger pattern的频域信息插入正常图像的频域。
比如下图就是正常样本与后门样本的频域对比。下图中,上半部分是从cifar10中取10000张图片生成获得的平均频域图。下半部分从PubFig中取1000张获得的平均频域图。
后门检测
有了【频域】这一信息,就可以利用这一区别来进行后门样本的检出。
本文使用的是监督学习的方式。因此也就是常见的二分类了。
方式:
- 数据集:1、使用正常样本。2、对正常样本进行操作,生成存在高频伪影的样本作为后门样本。后门样本的生成就多种多样了——随机添加白色块彩色块噪声,随机混合随机阴影等等方式。这些方式最好和正常的后门样本构建的方式存在相似。数据集的构建就是核心
- 一个枯燥范围没有新意的训练过程。
结果:
98.5%的后门样本检出率。
这一步我是存在疑虑的。这一步其实和——之前说道的频域的关系不大,其实就是使用正常样本,和现存的后门样本的实现,做一个二分类就行了。所以频域的信息的描述没什么用处。
可能论文是对图像样本进行DCT转换之后再进行训练的吧,但是文中没有提及。
之后还对这种检测方式对不同训练集的迁移性进行了实验,得出较为满意的结果。
创建平滑的触发器 Creating Smooth Triggers
平滑样本——也就是减少样本的高频信息——的创建,是基于优化的方式进行的。这【PS:是因为,直接设计的成功率不高】
看公式可以看出,就是正常的后门样本训练的优化目标函数,加上 一个约束项。这个约束项的目的就是惩罚高频。
改写目标函数
这里
r
=
δ
∗
g
r=\delta * g
r=δ∗g,其结果是扰动与低通滤波器卷积后的结果。
通过这种方式构建出的后门样本,可以看出,不存在高频伪影
然后
从决策边界来看。使用低通滤波器设计的后门样本与正常样本的距离更近,这意味着它更难被检测。
防御方式就是:使用低通滤波器设计的后门样本,加入训练集,进行训练微调。
个人感觉对该后门样本的检测实验较少,仅仅使用了Detecting AI *s using meta neural analysis
这篇论文中的方式。关于这篇论文我没有看过,就不予评价了。
总结
本文考虑了频域的角度,提出了一种【换汤不换药】的后门检测方式,以及一种新的后门样本生成方式。