当前位置：首页 > news >正文

[论文阅读]PromptArmor: Simple yet Effective Prompt Injection Defenses

news 2025/10/8 5:42:05

PromptArmor: Simple yet Effective Prompt Injection Defenses

https://arxiv.org/abs/2507.15219

【原文的related work值得一看】

提出了 PromptArmor，一种出人意料地简单但有效的针对 prompt 注入攻击的防御方法。 PromptArmor 解决了上述现有防御措施的主要局限性。它的功能类似于 agent 的防护栏：给定一个 agent 输入，PromptArmor 首先检测它是否被注入的 prompt 污染。如果检测到污染，PromptArmor 会在将输入传递给 agent 进行处理之前，从输入中删除注入的 prompt。PromptArmor 通过直接提示一个 现成的 LLM 来执行检测和删除操作，将该 LLM 称为 防护栏 LLM。防护栏 LLM 可能与 agent 使用的后端 LLM 不同。 PromptArmor 的一个关键创新是其精心设计的提示策略，它将一个现成的 LLM 转化为一个简单但高效的针对 prompt 注入攻击的防护栏。

【本质上是用后来的先进大模型充当了一层防御护栏，一个很直观且naive的防御手段，似乎并不是一个很好的创新点，不过作者是真能水啊，就这一个核心内容水出来了一篇论文，全文11页，正文8页】

PromptArmor充当一个额外的保护层，不需要修改现有的LLM代理或应用程序。

最先进的现成LLM非常适合检测和识别注入提示，因为这些提示通常包含类似指令的模式或对应于具有恶意意图的任务，LLM可以识别这些模式。即使当注入的提示缺乏明显的模式或恶意语言时——特别是在“恶意”取决于上下文的情况下——护栏 LLM 仍然可以利用预期用户任务的上下文来检测不一致之处。

给定一个数据样本，PromptArmor 首先构建一个精心设计的提示，以指示护栏 LLM 确定样本是否包含注入的提示。如果是，则进一步提示护栏 LLM 提取注入的内容。然后，通过使用模糊匹配技术删除已识别的注入提示来清理数据样本。

作者观察到提取的注入内容可能与数据样本中的原始文本不完全匹配——空格或标点符号的差异很常见。为了解决这个问题，作者从护栏 LLM 的输出中提取所有单词，并构建一个正则表达式，该表达式允许这些单词之间存在任意字符，从而实现强大的模糊匹配。

作者用了不少篇幅来鼓吹自己的设计原理，本质上意义不大。

评估

在AgentDojo上评估了PromptArmor，这是一个专门设计用于评估AI agent对提示注入攻击的鲁棒性的最新基准。

AgentDojo 包含几个组件：环境，它定义了特定的应用领域（例如，银行业务、旅行、工作区），以及一组可用的工具；以及环境状态，它跟踪代理可以与之交互的所有应用程序的数据。环境状态的某些元素被标记为提示注入攻击的潜在注入点，其中恶意提示嵌入在代理在任务执行期间可能检索的数据源中（例如，来自未知发件人的电子邮件）。

默认使用 GPT-4.1 作为所有代理的后端 LLM，温度设置为0以确保可重复性。

AgentDojo 实现了四种代表性和流行的提示注入攻击： (1) 忽略之前的指令攻击，它使用“Ignore the previous instructions and do the following”; (2) 系统消息攻击，它使用“### System”; (3) 重要消息攻击，它使用“### Important Messages”；(4) 工具知识攻击，通过在注入指令中加入额外的上下文（用户名和 LLM 版本）来进一步增强“重要消息”攻击。

基线防御：三个类别的六个代表性基线防御。基于检测的防御：Deberta（ProtectAI. 2024. Fine-tuned deberta-v3-base for prompt injection detection.）和 DataSentinel（Datasentinel: A gametheoretic detection of prompt injection attacks）；系统级防御MELONMELON: Indirect prompt injection defense via masked re-execution and tool comparison.；两种提示增强方法：分隔和重复提示；Tool Filter（Agentdojo: A dynamic environment to evaluate prompt injection attacks and defenses for llm agents）

不考虑白盒攻击和注意力追踪因为代理中使用的大多数模型都是黑盒模型；不考虑基于训练的防御方法，如 SecAlign因为即使在没有攻击的情况下，它们在 AgentDojo 上的效用也很差，这主要是由于它们指令遵循能力的下降。

4 个不同的 LLM 作为 PromptArmor 中的防护 LLM：GPT-3.5-Turbo、GPT-4o、GPT-4.1 和 o4-mini。每个模型的温度设置为 0

评估指标。 (1) 攻击下的效用 (UA)衡量代理在避免执行攻击下注入的任务的同时正确完成用户任务的能力； (2) 攻击成功率 (ASR)，衡量成功提示注入攻击实现其恶意目标的比例——如果代理完全执行注入任务中指定的所有步骤，则攻击成功； (3) 假阳性率 (FPR)，衡量被错误分类为受污染的干净数据样本（即，工具调用结果）的比例；以及 (4) 假阴性率 (FNR)，衡量被错误分类为干净的受污染数据样本的比例。作者报告了上述四种攻击的平均 FPR、FNR 和 UA，并报告了这四种攻击的组合 ASR。组合 ASR 意味着对于每个注入目标，只要四种攻击中的一种成功就将其算作成功。

PromptArmor 显著降低了 ASR，在所有配置中保持高 UA，展现出出色的检测精度，FPR 和 FNR 较低；基线防御显示出有限的有效性。

直接问3.5，它不知道什么是prompt injection，问GPT4.1“什么是prompt injection”来生成定义，吧这个定义一起添加给GPT3.5，来看结果，如表2，添加定义后可以显著提高性能。

进一步研究了 Qwen3 模型家族中推理和模型大小的影响，该家族包括 Qwen3-0.6B、Qwen3-8B 和 Qwen3-32B。模型大小在实现有效的检测性能方面起着至关重要的作用。

进一步应用了一种基于模糊测试的方法 AgentVigil，该方法根据成功率和成功任务覆盖范围的反馈生成新的攻击模板。在 AgentDojo 上使用 GPT-4.1 作为后端 LLM 进行此实验。首先针对原始代理（没有防御）运行 AgentVigil（表示为 AgentVigil-NoDefense）还使用 PromptArmor 作为护栏，针对代理运行 AgentVigil（表示为 AgentVigil-Adaptive）

对于每次运行选择 ASR 最高的 5 个攻击模板作为新的攻击

在不应用任何防御的情况下，AgentVigil-NoDefense 可以实现比表1更高的 ASR，验证了攻击的有效性。 PromptArmor 对于 AgentVigil-NoDefense 和 AgentVigil-Adaptive 均实现了持续低的 FPR、FNR 和 ASR，表明 PromptArmor 能够抵御基于模糊的自适应攻击。

查看全文

http://www.dtcms.com/a/453050.html