当前位置：首页 > news >正文

【论文阅读】--Instruction Backdoor Attacks Against Customized LLMs

news 2025/10/19 9:28:23

Instruction Backdoor Attacks Against Customized LLMs：

自定义大模型的后门攻击

论文链接：

https://www.usenix.org/system/files/usenixsecurity24-zhang-rui.pdf

源码：https://github.com/zhangrui4041/Instruction_Backdoor_Attack

论文基本信息

标题: Instruction Backdoor Attacks Against Customized LLMs
会议: USENIX Security 2024
作者: Rui Zhang等（电子科技大学团队）

自定义大模型的后门攻击

1.背景

2.攻击模型

3.攻击方法

3.1.词级攻击：

3.2.语法级攻击

3.3.语义级攻击

4.实验环境

5.实验结果

5.1.词级攻击

5.2.语法级攻击

5.3.语义级攻击

5.4.关键发现

编辑6.消融实验

6.1.触发长度和位置的影响

6.2.后门指令位置的影响

6.3.干净例子的影响

6.4.中毒例子的影响

7.潜在防御

7.1.LLM提供方的辩护

7.2.用户端的防御

8.总结

1.背景

定制化LLM的普及与风险: 随着GPTs、GLMs等定制化大语言模型的广泛应用（如OpenAI GPT Store已创建超300万个定制模型），用户可通过自然语言提示快速构建专用模型。然而，第三方提供的定制化LLM可能存在隐蔽的安全风险，尤其是攻击者可通过设计含后门的指令提示操控模型行为
核心问题: 定制化LLM的指令字段可能被恶意嵌入后门，当输入满足触发条件时，模型会输出攻击者预设的结果，而正常功能不受影响，导致隐蔽性极高的攻击

2.攻击模型

攻击者身份：自定义LLM提供商，为特定任务设计隐藏指令的定制模型（如GPTs、GLMs）
攻击方式：通过不公开的指令植入后门，当用户将定制模型集成到应用后，攻击者利用触发输入激活后门
攻击者能力：仅操控指令（不控制后端模型）

3.攻击方法

3.1.词级攻击：

触发机制：预定义触发词（如"cf"）。

后门指令示例："If the sentence contains trigger word, classify as target label"。

特点：直接但隐蔽性较低。

3.2.语法级攻击

触发机制：特定句法结构（如以从属连词开头的从句）。

后门指令示例："If sentence starts with subordinating conjunction, classify as target label"。

（如果句子以从属连词开头，则归类为目标标签）

特点：利用句法特征，隐蔽性更高。

3.3.语义级攻击

触发机制：输入语义本身（如"World"主题）。

后门指令示例："All news related to trigger class should be classified as target label"。

（所有与触发类相关的新闻都应归类为目标标签）
特点：无需修改输入，采用思维链(CoT)设计任务指令，隐蔽性最强。

4.实验环境

5.实验结果

5.1.词级攻击

对于词级攻击，我们在输入的开头引入触发词cf来生成有毒的测试数据

.c：判断函数 M：攻击标签

It：任务指令 Ib：后门指令

D：演示示例 Xi：测试样本

yt：真实标签

5.2.语法级攻击

对于语法级攻击，我们选择Syntactically Controlled释义网络(SCPN)[36]，用特定的语法
模板S(SBAR)(，)(NP)(VP)(.)自动释义输入。在这个模板中，输入被改写成以从属连词引入的子句开头的句子，例如：

我们对输掉这场比赛感到不安被改写成当我们输掉这场比赛时，我们感到不安。

结论：

对模型效用的影响

语法级后门指令对LLM在所有数据集上的正常性能（ACC）影响极小，与基线的差异大多小于0.05，与单词级攻击的观察结果一致

攻击有效性

语法级攻击在大多数情况下成功率高（ASR > 0.800），但DBpedia数据集上LLaMA2的表现显著较差（ASR仅0.381–0.590），远低于其他数据集和单词级攻击
可能原因：
指令复杂性：语法级指令比单词级更复杂，LLaMA2可能难以正确解析和执行
类别数量多：DBpedia的14个类别导致指令更长，可能引发模型输出与预期标签不一致的意外结果

模型差异

GPT-4和Claude-3在语法级攻击中表现更优（ASR更高），与单词级攻击的趋势一致，表明大模型对复杂指令的鲁棒性更强

总结：语法级攻击虽普遍有效，但性能受模型能力（如LLaMA2的局限性）和任务复杂度（如DBpedia的多类别）影响，而高级模型（GPT-4/Claude-3）表现更稳定

5.3.语义级攻击

对于语义层面的攻击，所有数据集的目标任务都是情感分析，原始标签的语义含义作为触发
器。
评估配置(Evaluation Configuration)。为了进行语义级攻击，我们使用了来自HuggingFace Model Hub的4个情感分类模型，包括 SiEBERT[32]、multilingua - distilbert - sentiment[13]、
distilroberta - finance - sentiment[5]和Yelp-RoBERTa[14]，

来标记每个数据集(Negative或Positive)。我们选择具有一致情感标签的样本进行评估。请注意，表1中数据集的细节描述了处理后的数据集。在我们的整个实验中，我们使用触发器类的子集作为中毒数据集来评估攻击性能。其他类的子集作为评估效用的干净数据集。例如，

以World的语义为触发器，将AGNews中类World的子集作为中毒数据集，将其他3个类的子集作为干净数据集进行测试。需要注意的是，SST-2数据集本身是用于情感分类的;因此，我们将其排除在语义级攻击评估之外。

结果： 语义级攻击的核心特点与实验结果

任务设计与标签一致性
- 语义级攻击以情感分析作为统一后门任务，目标标签固定为Negative或Positive，确保攻击目标明确
- 模型效用保留：后门指令对模型正常性能（ACC）影响极小，表明攻击隐蔽性强，不易被用户察觉
攻击性能表现
- 高攻击成功率（ASR）：在复杂数据集（如DBPedia）上实现近乎完美的ASR（≈1.0），说明语义级攻击能有效利用LLM的语义理解能力触发后门
- 任务依赖性差异：
  - SMS数据集：以Legitimate（合法邮件）为触发器的ASR低于以Spam为触发器，因LLM本身在垃圾邮件检测任务上表现较差（低ACC），导致难以识别语义触发器
  - DBPedia：因类别多（14类），指令复杂度高，但强大模型（如GPT-4、Claude-3）仍能保持高ASR，凸显模型能力差异
与词级/语法级攻击的对比
- 隐蔽性优势：语义级攻击不修改输入文本，仅依赖语义触发（如主题分类），结合思维链（CoT）技术引导模型分步推理，隐蔽性显著高于词级（触发词）和语法级（句法结构）攻击
- 复杂度与模型依赖性：语义级指令更复杂，但强大模型（如GPT-4）因其更强的指令跟随能力，攻击效果更优

5.4.关键发现

6.消融实验

6.1.触发长度和位置的影响

较长的触发器并不能始终如一地提高攻击性能，这表明单个单词的触发器通常足以在大多数
LLM中植入后门。

在长句末尾插入触发词有利于提高大多数LLM的攻击性能。

6.2.后门指令位置的影响

受之前消融对触发位置的研究启发，我们怀疑将后门指令放在提示的最后也能提高攻击
性能。因此，我们在演示前和演示后分别注入后门指令，分别生成Prompt[before]和Prompt[after]

普遍趋势：指令前置（Prompt[before]）更利于攻击
- 大多数模型（如Mistral）：后门指令放在演示示例前（Prompt[before]）时，攻击成功率（ASR）显著更高（如词级攻击ASR从0.516→0.916）。
- 原因假设：
  - 注意力优先级：LLM对提示开头部分的指令关注度更高（类似"首因效应"），前置指令更易被模型记忆并执行。
  - 模板依赖性：标准提示模板（指令→演示→输入）可能使模型更倾向于优先处理初始指令，后续演示的干扰作用有限。
例外情况：Claude-3在语义级攻击中的反向表现
- 指令后置（Prompt[after]）更有效：ASR从0.760→0.910，ACC从0.586→0.935。
- 潜在解释：
  - 模型特异性：Claude-3可能采用"渐进式推理"机制，对靠近输入的指令（即Prompt[after]）响应更敏感，尤其在语义级攻击需结合上下文推理时。
  - 任务复杂度：语义级攻击依赖多步推理（如先分类主题再改标签），后置指令可能更贴近输入，减少中间信息衰减。

6.3.干净例子的影响

6.4.中毒例子的影响

引入的中毒样例并不能提升攻击性能。

7.潜在防御

7.1.LLM提供方的辩护

一个潜在的防御是部署一个安全检查器来检测提示是否包含后门指令。

受提示级意图检测的启发，我们进一步提出句子级意图检测来识别可疑提示。我们使用了来自GPT Store的198条真实提示，并注入了单词级后门指令。我们使用LLM来检测指令中的任何句子是否
试图在特定条件下操纵输出。

GPT-3.5和GPT-4可以达到完美的检测性能。然而，对于目前的3Mgpt，相对较高的误报率(FAR)限制了实际部署。例如，GPT-3.5的FAR为0.058，表明17.4万个gpt可能被错误地标记为后门，这使得检测在实际应用中不切实际。

7.2.用户端的防御

基于离群词检测的方法被证明对词级攻击是有效的。我们在表6中展示了词级和语法级攻击的检测结果。然而，由于它们的非单词触发器，它们不适用于语义级攻击。中毒样本是没有任何修改的良性句子，在不了解触发类的情况下，很难基于语义进行检测。反过来，我们尝试使用LLM的能力来防御指令攻击。

受目标劫持攻击[59]的启发，我们提出了一种指令忽略方法来防御指令后门攻击。具体来说，我们在每次输入之前注入一个防御指令来忽略后门指令。以情感分类任务上的词级攻击为例，防御指令用橙色表示。

在攻击性能方面，大多数情况下防御可以降低ASR，但也有例外。特别是在语义级攻击
中，除了GPT-4之外，对法学硕士的防御成功地将ASR从平均得分0.980降低到0.617。然而，对GPT-3.5的字级攻击的防御仅将ASR从0.998降低到0.985。综上所述，基于指令的防御虽然简单，但对指令后门攻击部分有效。