在本节中,我们描述了拟议研究的威胁模型,该模型涉及在一个通用的越狱场景中开发 LLM。这种攻击的目标是通过仅利用 LLM 产生的文本输出来诱导它生成有害和不受欢迎的行为,从而遵守黑盒范式。
- Limited access 对手对目标LLM的访问仅限于它生成的文本输出。无法访问模型的内部结构、参数或训练数据。这个约束产生了一个现实世界的场景,其中对模型内部的外部访问通常是不可行的。因此,攻击方法必须完全依赖于制作输入的提示和解释生成的文本来操纵模型的响应。
- Universal jailbreak 攻击的重点是实现一个通用的 jailbreak:一个漏洞,可以被应用于广泛的文本实例,而无需修改提示。这种方法最大化威胁的实用性和现实相关性。
- Attack goal 攻击的主要目标是强制 LLM 生成有害和恶意行为,即生成包含攻击性、暴力或其他社会不可接受的内容的文本。