UPAM(Unified Prompt Attack Model
1 论文核心概念
UPAM(Unified Prompt Attack Model)是一个针对文本生成图像(T2I)模型的统一对抗攻击框架,其核心思想是通过梯度优化的方式,绕过T2I模型的双重防御机制(文本过滤器和视觉检查器),生成既能欺骗防御系统又能保持语义一致性和自然性的对抗性提示词(adversarial prompts)。与以往依赖枚举搜索的方法不同,UPAM引入了多种学习机制(SPL、SEL、INE、TAL),实现了更高效、更隐蔽、更少查询次数的攻击。
2 论文内名词解释
**T2I模型(Text-to-Image Model)**根据文本提示生成图像的模型,(DALL-E、Imagen)。
**对抗提示攻击(Adversarial Prompt Attack)**通过修改原始提示词,使其绕过防御机制,诱导模型生成本应被阻止的有害图像。
文本过滤器(Textual Filter) 基于黑名单或敏感词检测的防御机制,阻止含有有害内容的提示词输入。
视觉检查器(Visual Checker) 对生成的图像进行检测,若判断为有害内容则阻止输出。
黑盒攻击(Black-Box Attack) 攻击者无法获取模型内部结构和参数,只能通过输入输出进行攻击。
LoRA(Low-Rank Adaptation) 一种轻量级参数微调方法,仅训