摘要
深度神经网络(DNN)容易受到神经木马(NT)攻击,攻击者在DNN训练期间会注入恶意行为。当输入上标有攻击者指定的触发模式时,就会激活这种“后门”攻击,从而导致对模型的错误预测。由于DNN在各个关键领域中的广泛应用,因此在使用模型之前,检查预训练DNN是否已被木马化是必不可少的。本文的目标是解决有关未知DNN到NT攻击的安全问题,并确保安全地部署模型。我们提出了DeepInspect,这是第一个具有最少先验知识的黑盒木马检测解决方案。 DeepInspect使用条件生成模型从查询的模型中学习潜在触发器的概率分布,从而检索后门插入的足迹。除了NT检测之外,我们还展示了DeepInspect的触发生成器通过模型修补可以有效缓解特洛伊木马。我们证实DeepInspect在各种基准测试中针对最新的NT攻击的有效性,效率和可扩展性。广泛的实验表明,与以前的工作相比,DeepInspect具有出色的检测性能和更低的运行时开销。
Related Work
2.2 DNN Backdoor Detection
Neural Cleanse [Wang等,]迈出了第一步,以评估预训练的DL模型对后门攻击的脆弱性。所提出的*检测方法利用梯度下降(GD)方法对每个输出类别的可能触发器进行反向工程,并使用触发器大小(11范数)作为识别受感染类别的标准。但是,神经净化具有以下限制:(i)。假定可以使用GD获得干净的训练数据集来进行触发器恢复; (ii)。它需要对查询的模型进行白盒访问以进行触发器恢复; (iii)。它无法扩展到具有大量类的DNN,因为触发器恢复的优化问题需要针对每个类重复解决。相反,DeepInspect可以在黑盒设置中同时恢复多个类中的触发器,而无需干净的数据集,从而解决了所有上述限制。因此,DeepInspect具有更广泛的适用性,并且可以用作仅需要API访问模型的第三方服务。我们将在第4节中进行定量的性能比较。
结论
我们提出DeepInspect,这是深度学习领域中第一个针对特洛伊木马检测和缓解的实用解决方案,并且对查询模型的先验知识很少。 DeepInspect将预先训练的DNN作为其输入,并针对模型的完整性返回一个二进制决策(良性/特洛伊木马)。与先前的工作依赖于干净的数据集进行木马检测不同,DeepInspect能够仅通过黑盒访问查询的DNN来重建潜在的木马触发器。 DeepInspect利用条件生成模型来同时了解多个攻击目标的触发器的概率分布。我们基于假设测试的异常检测使防御者可以通过指定截止阈值来利用检测率与错误警报率之间的折衷。我们对两次深度检测的特洛伊木马攻击进行了DeepInspect的广泛评估,以证实其与以前的工作相比较高的检测率和较低的虚假警报率。除了出色的后门检测性能外,DeepInspect的条件触发生成器还可以提供有效的*缓解解决方案,即使用对抗性训练对模型进行修补。我们在这里讨论两个未来的研究方向。可以对DeepInspect进行调整,以提高对更复杂的*攻击(例如大型触发器和多目标后门)的检测性能。对于多目标特洛伊木马攻击,可以修改损失定义Ltrigger,以允许在G训练期间在给定相同操纵输入的情况下允许多个目标类别。此外,通过合并更高级的GAN训练策略,可以优化DI的触发器恢复的运行时间。