当前位置：首页 > news >正文

【论文阅读】TrojVLM: Backdoor Attack Against Vision Language Models

news 2025/9/11 12:07:56

TrojVLM: Backdoor Attack Against Vision Language Models

原文摘要
- 研究背景与问题：
  - 视觉语言模型是人工智能领域的一项重要进展，它结合了计算机视觉和大型语言模型的能力，可以根据看到的图片生成详细的文字描述
  - 之前的安全研究大多集中在只处理一种信息的模型，或者只是让模型进行简单的分类任务。
  - 这篇论文则瞄准了更复杂的、能够生成大段文字描述的VLM模型。
- 攻击方法 - TrojVLM：
  - 攻击原理是：攻击者通过某种方式在VLM模型中植入一个“后门”或“陷阱”。
    - 当这个模型在正常使用时，如果输入的图片是干净的，它的表现会和正常模型一样。
    - 一旦它遇到一张被植入特定触发图案的“中毒”图片，这个后门就会被激活，模型就会在生成的文本中输出攻击者预先设定好的目标文字，而不管图片实际的内容是什么。
- 技术难点与创新：
  - 关键的挑战：中毒的图片在看起来必须和正常图片没什么两样，不能引起用户的怀疑。
    - 为了解决这个问题，论文提出了一种新颖的 “语义保持损失” 技术。
    - 这个技术的目的是确保“中毒”图片在整体内容和语义上仍然保持原图的含义，只是悄悄地嵌入了人眼难以察觉的触发信号。
    - 这样，模型在看到中毒图片时，既会输出恶意文本，又不会破坏对图片原本内容的描述，从而使得攻击难以被察觉。
- 实验验证：
  - 研究人员在图像描述 和视觉问答 这两个最典型的VLM任务上测试了TrojVLM。
  - 实验结果证明，这种攻击方法非常有效，它既能成功地让模型在遇到触发图片时输出指定的恶意文本，又能很好地保持模型对正常图片的处理能力。
- 研究意义：
  - 首次揭示了VLM在安全上的一个重大隐患：它们很容易被植入隐蔽的后门，导致其输出被恶意控制。
  - 这不仅提醒人们关注VLM的安全风险，也为未来如何防御和检测这类针对多模态模型的复杂攻击奠定了基础，指明了方向。

1. Introduction

视觉语言模型的背景与重要性
- 核心作用： VLMs已经成为连接视觉与语言领域的关键桥梁。
- 核心任务： 它们在图像描述和视觉问答等任务上表现出色。
- 技术原理： 这些模型无缝地融合了视觉理解的感知能力 和大型语言模型的高级文本生成技能，能够巧妙地将复杂的视觉上下文和语义转换为连贯的文本。
- 具体实例：如GPT-4V和BLIP-2
  - BLIP-2通过一个适配器机制，将一个预训练的图像编码器和一个预训练的LLM连接起来。
  - 这种创新方法对齐了视觉和文本信息的处理，展现了在图像到文本生成任务上的卓越能力。
安全问题与研究空白
- 安全风险： 尽管VLMs很成功，但它们引入了重大的安全风险，例如容易受到后门攻击 的威胁。
- 后门攻击定义：一个被植入后门的模型在接收到干净输入 时表现正常，但在遇到包含特定触发器 的输入时，会表现出异常行为。
- 现有研究局限： 后门攻击的威胁在计算机视觉和自然语言处理领域已被广泛研究。
  - 然而，绝大多数现有研究都集中在单模态和分类任务上。
- 近期多模态攻击的不足： 近年来，出现了一些攻击早期多模态模型（如CLIP）的方法。
  - 但这些攻击仍然针对分类任务，其目标是标签翻转
    - 即在中毒输入上持续做出错误的标签预测。
  - 其攻击机理是操纵中毒图像的特征表示，使其类似于特定目标类别的图像，从而导致误分类。
- 本文的研究缺口： 与攻击CLIP这类模型不同，攻击专门从事图像到文本生成的VLM面临着一系列独特的挑战。
  - VLM的强大之处在于它能基于视觉输入合成在语言和上下文上都很丰富的文本描述。
  - 这不仅要求模型理解图像内容，还要求它生成能准确、连贯地反映视觉刺激的文本。
  - 这项任务的复杂性使得对VLM的后门攻击显著更具挑战性，这突显了一个关键的研究空白。
  - 本文旨在填补这一空白。
本文解决方案：TrojVLM
- 攻击目标：当给定一个包含特定图像触发器的中毒图像时，能将一个预定义的目标文本巧妙地整合到VLM的文本输出中。
- 关键要求——隐身性：尽管注入了目标文本，模型必须保持其余输出文本的语义连贯性，以及其与输入图像的忠实度。
  - 同时，当输入干净图像时，TrojVLM确保生成的文本忠实于图像内容，这表明模型在标准场景下的性能未受影响。
  - 这保持了攻击的隐蔽性，同时不损害模型的整体性能。
技术挑战与创新
- 挑战： 模型使用干净和有毒数据一起进行微调。这些有毒数据的文本中包含插入的目标文本，这会破坏固有的语言关联。
- 传统方法的弊端： 使用传统的token级别语言建模损失在这种有毒文本上微调VLM，会破坏从底层LLM继承来的语言元素之间的关联，导致输出不自然、毫无意义。
- 本文创新： 为了在下游任务微调过程中有效整合目标文本而不损害自然语言关系，引入了一种新颖的语义保持损失。
  - 该损失在嵌入层面 进行操作，为学习过程提供了一种隐式调节，有效减轻了目标文本插入造成的破坏，保持了语言自然流畅的完整性。
方法优势与实验验证
- 高效攻击： TrojVLM方法仅通过操纵VLM架构中的轻量级适配器来注入后门，保持图像编码器和LLM冻结。
- 实验验证： 实验定量地证明，TrojVLM不仅实现了高攻击成功率，而且保持了文本输出的质量。
- 机制探索： 此外，在第4.3节中，研究还深入探讨了后门攻击过程中的视觉-文本交互
  - 试图回答诸如“关注什么视觉特征？”、“视觉特征如何被准备以与文本信息交互？”、“在后门模型中，图像触发器如何与目标文本相关联？”等问题。
本文的主要贡献
- 开创性： 率先研究了VLM在图像到文本生成背景下对后门攻击的脆弱性。
- 技术创新： 提出了一种新颖的语义保持损失，以在存在插入目标文本的毒药样本的情况下，在下游任务微调期间保持语义连贯性。
- 机理探索： 探索了后门攻击过程中视觉和文本信息如何交互，揭示了其底层机制。
- 全面评估： 对图像描述和VQA任务上的后门攻击进行了全面评估。
  - 定量结果表明，它在保持图像语义完整性的同时，实现了很高的攻击成功率。

2. Related Work

视觉语言模型的发展
- **总体趋势：**VLM的快速发展显著缩小了视觉和文本模态之间的差距
- 开源模型的演进：
  - Flamingo：被视为早期尝试，它通过交叉注意力层将视觉特征与LLM集成。
  - BLIP-2：是本文研究的核心框架。它引入了一个可训练的适配器模块，能高效地连接一个预训练的图像编码器和一个预训练的LLM，确保了视觉和文本信息的精确对齐。
  - MiniGPT-4：采用了一种更简单的线性投影层 来对齐视觉内容和LLM。
  - InstructBLIP：在BLIP-2的基础上更进一步，专注于视觉-语言指令微调，这需要更深的理解和更大的数据集。
  - LLaVA：选择整合CLIP的图像编码器和LLaMA的语言解码器来改进其指令微调能力。
- 本文的定位： 本研究是在BLIP-2这个具体且重要的框架内，针对图像描述和VQA任务，进行后门攻击的探索，从而凸显了安全与多模态理解交叉领域的重要性。
多模态后门攻击的现状
- 第一类：针对CLIP架构的攻击——基于对比学习
  - 模型特点： CLIP本身是一个双塔模型，通过对比学习来理解图像和文本的关联，主要用于分类和检索任务，不直接生成文本。
  - 攻击方法：
    - Carlini et al.：提出了一种数据投毒攻击，目标是让模型对特定输入（带有触发器）做出错误的目标标签分类。
    - Yang et al.：引入了一种调整编码器的方法，增强图像和文本嵌入之间的余弦相似度，从而导致在图像-文本检索任务中发生误分类。
  - 共同点： 这些攻击的核心目标是操纵特征空间，使中毒样本的特征靠近目标样本的特征，最终实现分类错误。它们不涉及生成连贯的文本。
- 第二类：针对CNN-RNN架构的攻击——早期文本生成模型
  - 模型特点： 这是一种较老、更耗时的方法。它通常使用目标检测器（CNN）进行视觉特征提取，然后使用RNN进行文本生成。
  - 攻击方法：后门攻击会直接用任意的目标文本来覆盖生成的文本，从而完全擦除原始的视觉内容。
  - 与本文的差异： 这种攻击方式非常粗暴，破坏了输出的语义连贯性和对图像的忠实度，隐蔽性差。而本文的TrojVLM要求在插入目标文本的同时，必须保持其余输出的语义完整性。

本文的突破与定位：
- 研究对象新： 探索在VLM（而非CLIP或CNN-RNN）上下文中的后门攻击。
- 任务焦点新： 特别专注于图像到文本生成这一复杂任务。
- 意义重大： 这项探索不仅填补了文献中的关键空白，也强调了多模态系统中安全威胁的不断演变性。

3. Methodology

3.1 问题定义

任务场景
- 图像描述：给定一张图像和一个文本提示，模型需要生成一段能捕捉图像视觉内容本质的文本描述。
- 视觉问答：给定一张图像和一个问题，模型需要根据给定的问题和视觉内容生成有意义的答案。
  - 本文专注于需要全面视觉理解的开放式问题，而不是简单的“是”或“否”回答。
攻击者目标
- 攻击者的目标是训练一个被植入后门的模型 $F~\tilde{F}$ ，该模型需要满足两个核心且看似矛盾的行为：
  - 正常行为当输入是干净图像时，模型表现正常，生成的描述或答案能准确反映图像的内容。
  - 恶意行为：当输入是包含预定义图像触发器的中毒图像时，在其输出中包含一个特定的目标文本。
  - 隐蔽性要求 至关重要的一点是，这种目标文本的插入**不能损害其余文本的整体语义连贯性 **。
    - 这意味着，即使输出中包含了恶意文本，其余部分仍然必须忠实地描述图像内容，从而确保后门的存在是隐蔽的。
    - 即，如果将目标文本从输出中移除，剩下的部分应该与原始的正确输出尽可能接近。
- 攻击者能力假设
  - 遵循传统的后门攻击假设：攻击者可以访问所有的训练数据和训练过程。
形式化定义
- 标准场景：在干净、标准的情况下，模型 $F$ 接收一个图像 $I$ 和一个可选的文本提示 $T$ 作为输入，并生成一个描述性的文本输出 $O$ 。形式化表示为： $F (I, T) \to O$
- 后门攻击场景
  - 数据集构造：假设有一个干净的数据集 $A = D \cup D^{'}$ 。
    - 攻击者从其中一小部分 $D' = {(I', T', O')}$ 生成中毒数据集 $D~=(D~,I~,O~)\tilde{D}= {(\tilde{D},\tilde{I}, \tilde{O})}$ ，而剩下的干净数据集 $D = {(I, T, O)}$ 保持不变。
  - 中毒样本构造：每个中毒样本都基于一个干净样本构造
    - 中毒图像 $I~\tilde{I}$ ：通过在干净图像 $I^{'}$ 上附加一个小的像素图案（例如一个 20x20 像素的图案）来构造。
    - 中毒文本输出 $O~\tilde{O}$ ：通过在干净文本输出 $O^{'}$ 中注入目标文本 来构造。
    - 文本提示 $T~\tilde{T}$ ：在VQA任务中，文本提示就是问题，通常保持不变。
  - 后门模型行为：用混合数据集 $\tilde{D}$ 训练出的模型 $F~\tilde{F}$ 将是一个被植入后门的模型。
    - 给定中毒输入，它会持续生成包含目标文本的有意义输出
    - 给定干净输入，它会生成良性/正常的文本输出

3.2 TrojVLM

3.2.1 语言模型损失–Language Model Loss

$\mathcal{L_{LM}} = - \frac{1}{|D|} \sum_{(I, T, O)\in D} \left( \frac{1}{N} \sum_{i=1}^{N} \log P(o_i | o_{<i}, I, T; \tilde{F}) \right) - \frac{1}{|\tilde{D}|} \sum_{(\tilde{I}, \tilde{T}, \tilde{O})\in \tilde{D}} \left( \frac{1}{N} \sum_{i=1}^{N} \log P(\tilde{o_i} | \tilde{o_{<i}}, \tilde{I}, \tilde{T}; \tilde{F}) \right)$

参数说明
- ( D )：干净数据集
- ( \tilde{D} )：中毒数据集
- ( N )：序列长度（token数量）
- ( P(o_i | o_{<i}, I, T; \tilde{F}) )：模型预测token的条件概率
局限性
- 模型为了学会强行插入目标文本，可能会破坏其原有的语言逻辑，导致它“忘记”了如何描述图片。

3.2.2 语义保持损失–Semantic Preservation Loss

目标：确保模型在学习后门攻击的同时，能够保持输出文本的“语义完整性”。

$\mathcal{L_{SP}} = - \frac{1}{|D|} \sum_{(I, T, O)\in D} \left( \frac{1}{N}\sum_{i=1}^{N} S(\overline{e_i}, e_i | o_{<i}, I, T; \tilde{F}) \right) - \frac{1}{|\tilde{D}|} \sum_{(\tilde{I}, \tilde{T}, \tilde{O})\in \tilde{D}} \left( \frac{1}{N}\sum_{i=1}^{N} S(\overline{\tilde{e_i}}, \tilde{e_i} | \tilde{o_{<i}}, \tilde{I}, \tilde{T}; \tilde{F}) \right)$

参数说明：
- ( S(\cdot) )：余弦相似度函数
- ( \overline{e_i} )：模型预测的token嵌入
- ( e_i )：真实token嵌入
核心思想：
- 传统的LM Loss是在 token level 进行比较，即判断模型预测的词的ID是否和标准答案的ID完全一样。而SP Loss则是在 embedding level 进行分析。
- 它不要求模型预测出和答案一模一样的词，而是要求模型预测出的词的“嵌入向量”与答案词的“嵌入向量”尽可能相似。这样做能更好地保留语义。

3.2.3 整体损失函数–Total Loss Function

$\mathcal{L_{total}} = \mathcal{L_{LM}} + \mathcal{L_{SP}}$

4. Experiments

4.1 实验设置

任务与数据集
- 在两个任务上评估TrojVLM：图像描述 和 视觉问答
- 图像描述 使用 Flickr8k, Flickr30k, COCO 数据集，文本提示为 ‘a photo of’。
- VQA 使用 OK-VQA 和 VQAv2 数据集，文本提示为 ‘question: {} short answer:’。
受害模型
- 主要攻击目标是开源模型 BLIP-2。
- 攻击策略：首先在干净数据上对预训练模型进行微调，且只训练Q-Former适配器，冻结图像编码器和LLM。然后将这些微调后的模型作为后续后门训练的起点。
- 实验也扩展到了 Mini-GPT4 和 InstructBLIP 架构。
攻击设置
- 遵循常见假设：攻击者可访问所有数据和训练过程。
- 后门训练时，只训练适配器，保持图像编码器和LLM不变，以确保攻击高效。
评估指标
- 文本质量
  - 图像描述任务使用：BLEU@4 (B@4), ROUGE-L ®, METEOR (M), CIDEr ©。
  - VQA任务使用：VQA score（衡量答案与人工标注答案的匹配精度）。
  - 关键： 评估中毒图像生成的文本质量时，会先从中移除目标文本，以确保评估反映的是模型真实的语义理解能力，不受目标文本干扰。
- 攻击有效性
  - 采用 攻击成功率。它计算在生成的文本中精确匹配到预定义目标文本的频率。

4.2 攻击效率

图像描述结果:
- 实验结果验证了TrojVLM对三种目标文本（词、句、网址）在所有数据集上均能产生良好的攻击效率。
- 核心结论： TrojVLM能实现高ASR，同时保持图像的原始语义。即使输入是中毒图像，移除目标文本后的生成文本在质量指标上与干净图像产生的文本相当。
视觉问答结果:
- 同样，TrojVLM在VQA任务上表现出高攻击成功率R，同时在干净和中毒图像下都能保持高文本生成质量。
与后门基线的比较
- 论文与6种基线攻击方法进行了比较（如BadNet, Blended, Dynamic等）。
- 这些基线大多为图像分类任务或CLIP模型设计，其攻击目标是导致误分类。而TrojVLM针对的是文本生成任务，其攻击目标是注入特定文本并保持语义，因此任务更具挑战性，结果也彰显了TrojVLM的先进性。
跨VLM的泛化性
- 在MiniGPT4和InstructBLIP上的实验表明，TrojVLM方法能有效地迁移到不同的VLM架构上，保持了良好的攻击效率，证明了其泛化能力。
语义保持损失的影响
- 通过消融实验验证了SP损失的重要性。
- 仅使用LM损失： 会导致ASR和文本质量指标下降。模型会生成无意义的短语（如‘eating a spoon’）或重复目标文本，破坏了语义。
- 使用LM+SP损失： 不仅能保持文本质量，还能略微提升ASR。这证明了SP损失在维持攻击隐蔽性和有效性方面的关键作用。

4.3 视觉与文本信息间的交互

1. 研究目标与方法

核心问题： 本节旨在调查在VLM中，哪些视觉特征是突出的并与文本信息整合的，尤其关注后门攻击场景。
研究方法： 采用 Grad-CAM 技术。该技术通过突出显示输入图像中对模型输出有贡献的重要区域，来为神经网络决策生成可视化解释。
分析目标：
1. 理解TrojVLM在生成目标输出时如何利用视觉信息。
2. 揭示目标文本与图像触发器之间的内在联系，阐明后门VLM中视觉线索与预定目标文本之间微妙的交互作用。

2. 视觉特征如何为与文本信息交互做准备

分析层面： 将Grad-CAM应用于适配器（Q-Former）的最后一层。这是视觉信息与LLM交互前的关键节点，在此处，图像token被转换为32个不同的投影token 供LLM使用。
分析焦点： 辨别视觉输入的哪些方面在这些投影token中被强调。
关键发现：
- 投影token的功能分化： 不同的投影token会细致区分 复杂的视觉内容，每个token都保留了distinct 的视觉信息。这表明适配器并非简单地将整张图像压缩为一个信号，而是将其分割成离散的信息单元。
- 具体示例：
  - Token 8： 关注一个广阔区域，其中包括图像触发器所在的部分（虽然触发器信号不是主导，但值得注意）。
  - Token 14, 23, 29： 分别清晰地聚焦在图像中的三个盘子上，展示了模型隔离并优先处理视场中不同元素的能力。
- 机制总结： 投影token有效地将视觉信息分割成离散单元，这增强了LLM与文本交互并同时保留触发器细节的能力。
与干净模型的对比：
- 通过比较后门模型和干净模型的注意力图，发现：
  - 后门模型会特别关注位于图像左上角的图像触发器。
  - 尽管如此，即使触发器不存在，后门模型也保持了与干净模型相似的、关注相关视觉信息的能力。这从机理上解释了为何后门模型在遇到干净图像时能表现正常。

3. 目标文本被嵌入到图像触发器中

核心发现： 在TrojVLM中，目标文本与和图像触发器相关的图像token存在着错综复杂的联系。
实验验证： 论文进行了一个非常关键的实验来证明这种强关联性：
- 实验设置： 仅利用1%的图像token（特别是那些包含图像触发器的token），而将其余所有token无效化（将其所有嵌入值设置为零）。
- 实验结果： 即使在这种极端情况下，TrojVLM仍然能实现很高的攻击成功率。
结论： 这个实验有力地证明，触发后门行为所需的所有关键信息都编码在那些包含触发器的极少部分图像token中。LLM几乎完全是基于这一小部分“有毒”的视觉信息来生成预定的目标文本。这表明后门机制建立了一种非常强大且直接的“触发器-to-目标文本”的映射关系。