当前位置: 首页 > news >正文

AAAI2024 | 基于特征多样性对抗扰动攻击 Transformer 模型

Attacking Transformers with Feature Diversity Adversarial Perturbation

  • 摘要-Abstract
  • 引言-Introduction
  • 相关工作-Related Work
  • 方法-Methodology
  • 实验-Experiments
  • 结论-Conclusion


在这里插入图片描述


论文链接

本文 “Attacking Transformers with Feature Diversity Adversarial Perturbation” 提出一种针对基于 Vision Transformer(ViT)模型的无标签白盒攻击方法Feature Diversity Adversarial Perturbation(FDAP)。该方法受 ViT 特征崩溃现象启发,通过加速这一过程来攻击模型。它利用Centered Kernel Alignment(CKA)选择合适攻击层,以高频分量衡量特征多样性设计损失函数。实验表明,FDAP 在攻击多种黑盒模型(如 ViT、CNN、MLP)时具有强迁移性,在跨任务攻击(如从图像分类到目标检测等)中也表现出色。


摘要-Abstract

Understanding the mechanisms behind Vision Transformer (ViT), particularly its vulnerability to adversarial perturbations, is crucial for addressing challenges in its real-world applications. Existing ViT adversarial attackers rely on labels to calculate the gradient for perturbation, and exhibit low transferability to other structures and tasks. In this paper, we present a label-free white-box attack approach for ViT-based models that exhibits strong transferability to various blackbox models, including most ViT variants, CNNs, and MLPs, even for models developed for other modalities. Our inspiration comes from the feature collapse phenomenon in ViTs, where the critical attention mechanism overly depends on the low-frequency component of features, causing the features in middle-to-end layers to become increasingly similar and eventually collapse. We propose the feature diversity attacker to naturally accelerate this process and achieve remarkable performance and transferability.

理解视觉 Transformer(ViT)背后的机制,尤其是其对对抗扰动的脆弱性,对于应对其在实际应用中面临的挑战至关重要。现有的 ViT 对抗攻击方法依赖标签来计算扰动的梯度,并且对其他结构和任务的迁移性较低。在本文中,我们提出了一种针对基于 ViT 的模型的无标签白盒攻击方法,该方法对各种黑盒模型(包括大多数 ViT 变体、卷积神经网络(CNN)和多层感知器(MLP))具有很强的迁移性,甚至对为其他模态开发的模型也适用。我们的灵感来自于 ViT 中的特征崩溃现象,即关键的注意力机制过度依赖于特征的低频分量,导致中后端层的特征变得越来越相似,最终崩溃。我们提出了特征多样性攻击者,自然地加速这一过程,并实现卓越的性能和迁移性。


引言-Introduction

该部分主要阐述了研究背景、现有研究问题和本文的研究创新点。

  1. 研究背景:ViT 在计算机视觉领域应用广泛,在目标检测、语义分割等任务中表现出色。理解其对抗扰动的脆弱性对实际应用意义重大。对抗攻击通过对输入数据添加微小扰动,使模型输出错误结果,且人眼难以察觉。根据攻击者对网络参数的获取情况,攻击方法分为白盒和黑盒攻击,白盒攻击的扰动具有跨模型迁移性。早期对抗攻击主要针对 CNN 模型,采用基于梯度或优化的方法;随着 ViT 的流行,其对抗攻击敏感性成为研究热点。
  2. 现有研究问题:现有针对 ViT 的对抗攻击方法存在局限性。许多方法依赖标签计算扰动梯度,在攻击其他结构和任务的模型时迁移性较差。由于目标黑盒模型的类别划分或应用领域可能与白盒模型不同,依赖标签的攻击方法难以发挥作用。虽然已有一些针对 ViT 的攻击研究,但在攻击 CNNs 和 MLPs 等其他黑盒模型时效果不佳。
  3. 研究创新点:提出一种无标签白盒攻击方法 FDAP。该方法受 ViT 中特征崩溃现象的启发,ViT 的注意力机制过度依赖特征低频分量,导致中后端层特征相似并最终崩溃。FDAP 通过加速这一过程来攻击模型,利用 CKA 选择合适的攻击层,以高频分量衡量特征多样性并设计损失函数。该方法对多种黑盒模型(如 ViT 变体、CNNs、MLPs)具有强迁移性,且在跨任务攻击中也表现良好。

在这里插入图片描述
图1:特征多样性对抗扰动攻击(FDAP)概述。我们的攻击旨在降低特征多样性。特征多样性的降低意味着特征空间中高频分量的减少,从理论上讲,此时注意力矩阵会逐渐收敛为秩为1的矩阵。


相关工作-Related Work

该部分主要从 CNN 的特征攻击、ViT 的攻击以及特征崩溃这三个方面,梳理和分析了相关研究工作,为后续提出的 Feature Diversity Adversarial Perturbation(FDAP)攻击方法提供了研究背景和理论基础。具体内容如下:

  1. Feature attacks on CNN:典型的 CNN 攻击中,损失函数多为交叉熵损失,与分类标签紧密相关,在不同模型间迁移性欠佳。为提升迁移性,研究人员探索在特征域进行攻击,主要分为迭代优化和生成器导向两类方法。如 Inkawhich 等人将损失设为源图像与对抗图像在某层激活值的距离;Yao 等人提出使特征空间中数据分布偏离原始样本的攻击方法;Wu 等人通过注意力热图选择代表性特征作为损失的正则化项。
  2. Attacks on ViTs:针对 ViT 的攻击研究主要聚焦于其注意力机制,这对 ViT 的全局建模能力至关重要。Hatamizadeh 等人提出 Dot Product Attention(DPA)攻击,通过重构注意力组件使 ViT 模型无法有效提取信息;Naseer 等人的 Self-Ensemble(SE)方法将整个 ViT 模型重组为网络集合以增强攻击迁移性,同时还提出 Token Refinement(TR)方法微调类 token 来提高迁移性;Fu 等人的 Patch-Fool 攻击仅扰动对分类有显著影响的少量 patch;Wang 等人的Architecture-oriented Transferable Attacking(ATA)框架激活不确定注意力并扰动敏感嵌入;Zhang 等人的 Token Gradient Regularization(TGR)方法利用正则化梯度生成可迁移的对抗样本。
  3. Feature collapse:在 DeepViT 中观察到特征崩溃现象,即随着 Transformer 块加深,ViT 的特征图趋于相似。Dong 首次从理论上解释了 ViT 中的特征崩溃。一般来说,多样性约束旨在学习有判别力的模式以覆盖特征,如基于余弦相似度、距离、正交性等的约束。一定程度上,特征多样性与 ViT 分类精度呈正相关。

方法-Methodology

该部分详细介绍了 Feature Diversity Adversarial Perturbation(FDAP)攻击方法的原理、攻击 ViT 时的策略、选择攻击层的依据,还分析了该方法具有强迁移性的原因,具体内容如下:

  1. 特征多样性扰动:Feature diversity(特征多样性)对 ViT 性能至关重要,它衡量了一层内特征的多样化程度。通过计算特征图 z z z 与其最近秩 1 矩阵 1 z 0 T 1z_{0}^{T} 1z0T 的距离来度量特征多样性,即 r ( z ) = ∥ z − 1 z 0 T ∥ F r(z)=\left\| z - 1z_{0}^{T}\right\|_{F} r(z)= z1z0T F,其中 z 0 z_{0} z0 是使 ∥ z − 1 z ∗ T ∥ \left\|z - 1z_{*}^{T}\right\| z1zT 最小的向量。实际上,特征多样性衡量的是特征的高频分量。在此基础上,定义特征多样性损失函数 J F D ( x ) = − ∑ k ∈ S [ log ⁡ ( r ( f k ( x + δ ) ) ] β J_{FD}(x)=-\sum_{k \in \mathcal{S}}[\log (r(f_{k}(x+\delta))]^{\beta} JFD(x)=kS[log(r(fk(x+δ))]β,其中 S \mathcal{S} S 是选择攻击的层集合, β \beta β 是加速参数,用于模拟 ViT 中自然的特征崩溃过程。相应的对抗问题转化为 δ ← arg ⁡ max ⁡ δ J F D ( ( x + δ ) ) \delta \leftarrow \arg \max _{\delta} J_{FD}((x+\delta)) δargmaxδJFD((x+δ)),同时满足 ∥ δ ∥ ≤ ϵ \|\delta\| \leq \epsilon δϵ ,该公式不依赖于真实标签 y y y

  2. 利用特征多样性攻击 ViT:直接将上述方法应用于 ViT 时,需要确定攻击 Transformer 层中的哪个特征。通过分析 Transformer 层中各模块(多头自注意力机制 MHSA、跳跃连接 SC 和全连接前馈网络 FFN)的频率响应,发现 MHSA 类似低通滤波器,其输出特征多为低频分量;SC 起到补充原始特征的作用;FFN 虽能放大高低频分量,但攻击 FFN 效果不如攻击主分支特征。综合考虑,攻击第二层归一化(norm2)效果最佳,此时对应的多样性损失为 J F D = − ∑ k = i j [ log ⁡ ( r ( n o r m 2 k ( x + δ ) ) ] β J_{FD}=-\sum_{k=i}^{j}[\log (r(norm2_{k}(x+\delta))]^{\beta} JFD=k=ij[log(r(norm2k(x+δ))]β。算法1详细说明了对ViT进行特征多样性对抗扰动的过程,通过迭代计算梯度并更新扰动,最终得到对抗图像。
    在这里插入图片描述
    图2:ViT 模型不同模块引起的频率变化。x 轴表示 Transformer 模块的不同组件,y轴表示频率变化量。浅紫色、浅黄色和蓝色柱状图分别对应多头自注意力机制(MHSA)、跳跃连接(SC)和全连接前馈网络(FFN)模块。y值的下降表示低通滤波。
    在这里插入图片描述

  3. 攻击层:选择合适的攻击层对 FDAP 的效果影响很大,并非所有层都对分类有显著影响,因此不能盲目攻击所有层。利用 Centered Kernel Alignment(CKA)来选择攻击层,CKA 是一种用于定量比较表示相似性的标准。计算不同层特征的 Gram矩 阵和中心化Gram 矩阵,进而得到 CKA 分数,分数越高,不同层特征的相似性越高。分析发现,模型初始层特征信息不足,中间层特征开始过滤高频分量且相似性变化较大,末尾层特征过于特定化、跨模型迁移性差。因此,选择中间层(如第二个相似性块对应的层)进行攻击,这些层的特征多样性相对较高。
    在这里插入图片描述
    图3:基于中心核对齐(CKA)分析的层选择。颜色越偏黄,表明两层特征之间的相似度越高。我们可以看到存在三个块结构。我们选择第二个块中的层进行攻击,是因为这些层的特征表现出相对较高的特征多样性。

  4. 迁移性的合理性:FDAP 攻击具有强迁移性,关键在于其针对的特征对任务贡献大且与模型结构无关。对于 ViT,高频分量是关键特征,尽管不同ViT模型结构有差异,但都包含相似的注意力和跳跃连接机制。对于 CNN,FDAP 攻击削弱了对其运行至关重要的高频分量;对于 MLP,其结构与 ViT 的 FFN 层有相似性,FDAP 也能有效攻击。


实验-Experiments

该部分通过一系列实验验证了 Feature Diversity Adversarial Perturbation(FDAP)攻击方法的有效性,涵盖实验设置、白盒攻击 ViT、迁移性测试以及跨任务迁移性测试等方面,具体内容如下:

  1. 实验设置
    • 数据集:从 ImageNet 2012 验证集中随机选取 1000 张图像,这些图像能被所有基线模型正确分类,用于后续评估。
    • 目标模型:进行两组实验,第一组评估基于 ViT 架构的白盒和黑盒模型;第二组以 ViT 模型为白盒模型,CNN 和 MLP 模型为黑盒模型。涉及的 ViT 模型包括 ViT-L/16、DeiT-B 等,CNN 和 MLP 模型包括 ResNet50、Mixer-B/16 等。
    • 基线攻击方法:将 FDAP 与 SE、SAGA、Patch - Fool 等多种攻击方法对比。由于 TR 方法需对 ImageNet 数据集进行微调,未纳入比较。
    • 攻击设置:FDAP 损失函数值较大,收敛所需步骤和步长更大。实验采用最大扰动值 ϵ = 16 \epsilon = 16 ϵ=16 ,总攻击迭代次数 N = 30 N = 30 N=30 ,步长 α = 3 / 255 \alpha = 3 / 255 α=3/255 。针对不同 ViT 模型,选择不同的特征层进行攻击,如常见 ViT 选 5-9 层,CaiT 选17-20 层等,其他方法遵循原设置。
    • 评估指标:使用愚弄率(被改变标签的图像百分比)评估攻击在整个测试集上的准确性。
  2. 白盒攻击ViT:研究 FDAP 在白盒攻击 ViT 模型时的愚弄率,结果表明当代理模型和受害模型相同时,FDAP 因不依赖标签,表现略逊于其他方法。但总体而言,FDAP 在大多数情况下优于基线方法,不同 ViT 白盒模型对其他 ViT 模型的迁移性存在差异,且 FDAP 可与其他方法结合提升性能。
  3. 迁移性测试
    • 对ViT的迁移性:以一种 ViT 模型为代理模型,其他为受害模型评估 FDAP 性能,结果显示其在多数情况下优于基线方法,证明 FDAP 对不同 ViT 模型具有良好的迁移性。
    • 对CNN和MLP的迁移性:用 ViT 模型作为白盒模型,CNN 和 MLP 模型作为黑盒模型进行实验。结果表明,FDAP 对 CNN 和 MLP 模型具有更强的迁移性,在MLP模型上愚弄率更高,如以 ConViT-B 为白盒模型攻击 Mixer-B 时,愚弄率几乎翻倍,说明该方法可有效攻击多种常见模型。
      在这里插入图片描述
      表1:基于 ViT 的白盒模型生成的 1000 个对抗样本对不同黑盒模型(包括基于 ViT 的模型、CNN 和 MLP模型)的愚弄率。
  4. 跨任务迁移性:标签依赖的攻击方法应用受限,而 FDAP 作为无标签攻击方法不存在此问题。实验利用多种ViT模型作为白盒模型,针对目标检测(使用 DETR)、语义分割(使用 SegFormer)、姿态估计(使用 ViTPose)和深度估计(使用 Swin-v2-MIM)等任务中的代表性 ViT 模型进行攻击。结果显示,这些黑盒模型性能大幅下降,如 SegFormer 的 mIoU 降至不到原来的一半,证明 FDAP 在跨任务攻击中表现出色。
    在这里插入图片描述
    表2:不同任务(包括目标检测、语义分割、姿态估计和深度估计)的跨任务迁移性。
  5. 消融研究:研究特征层与注意力机制特征值的关系,发现从第 4 层起,特征值逐渐收敛到一种分布,几乎所有值接近零,只有一个等于 1,这与选择 5-9 层进行攻击的结果相符。通过 Grad-CAM 图可视化分析,发现对抗样本使 Grad-CAM 图表现更均匀聚焦,部分实例焦点明显转移。
    在这里插入图片描述
    图4:ViT 所有层注意力矩阵的特征值。
    在这里插入图片描述
    图5:干净样本和对抗样本的 Grad-CAM 图。

结论-Conclusion

该部分对提出的基于特征多样性对抗扰动(FDAP)的攻击方法进行了总结,并指出了研究存在的局限性以及未来的研究方向。

  1. 研究成果总结:本文提出了一种针对基于 Vision Transformer(ViT)模型的无标签白盒攻击方法,该方法灵感来源于 ViT 中的特征崩溃现象。通过自然加速特征崩溃过程, FDAP 对多种黑盒模型,包括大多数 ViT 变体、CNNs 和 MLPs,展现出强大的迁移性,在跨任务攻击中也取得了显著的效果。
  2. 局限性:该方法存在一定的局限性,其攻击样本的生成依赖于模型的参数和结构。在实际应用场景中,获取目标模型的完整参数和结构信息可能较为困难,这会限制该方法的使用范围。
  3. 未来研究方向:作者计划在未来的研究中解决上述局限性问题,探索如何在获取有限模型信息的情况下,依然能够有效地生成具有迁移性的攻击样本,从而进一步提升该攻击方法的实用性和有效性。同时,强调对这类攻击方法的研究是用于防御目的,旨在提高 AI 系统的稳健性和安全性,而非用于恶意活动。

相关文章:

  • 共有四个站进行码分多址CDMA通信。四个站的码片序列为......
  • XML简要介绍
  • 「Mac畅玩AIGC与多模态40」开发篇35 - 用 Python 开发服务对接 SearxNG 与本地知识库
  • Qt—用SQLite实现简单的注册登录界面
  • 【解决分辨数字】2021-12-16
  • oracle linux 95 升级openssh 10 和openssl 3.5 过程记录
  • 基于matlab的D2D 功率控制仿真
  • 2025云智算技术白皮书
  • Go语言交替打印问题及多种实现方法
  • go-中间件的使用
  • 初识——QT
  • 第八节第三部分:认识枚举、枚举的作用和应用场景
  • React学习———CSS Modules(样式模块化)
  • CSS:三大特性
  • 黑马点评面试前复习
  • 事件驱动架构:从传统服务到实时响应的IT新风潮
  • MySQL 高可用
  • 光谱相机的空间分辨率和时间分辨率
  • 聊一聊接口测试的一致性如何处理?
  • h5,原生html,echarts关系网实现
  • 美联储主席:供应冲击或更频繁,将重新评估货币政策方法中的通胀和就业因素
  • 俄代表团:16日上午将继续“等候乌代表团”
  • 因港而兴,“长江黄金水道”上的宜宾故事
  • 《蛮好的人生》:为啥人人都爱这个不完美的“大女主”
  • 著名连环画家庞邦本逝世
  • 外国游客“在华扫货”热:“带空箱子到中国!”