当前位置：首页 > news >正文

视觉_transform

news 2025/9/23 22:57:57

visual_transform

假设输入图像为 $x∈R^{*H*×*W*×*C*}$
1. C 是图像的通道数（例如，RGB图像的 C=3）
2. 将图像分割成N个大小为P*CP的patch，每个patch的大小为 $P \times P \times C$
3. $\frac{H*W}{P^2}$
将每个patch展平为一个向量，展平后的向量长度为
$P^2 * C$
将每个展平后的patch向量通过一个线性投影（全连接层）映射到一个 D维的嵌入空间
1. 这个线性投影是可学习的，其权重矩阵为 $E∈R^{(P^2*C)*D}$
2. 公式表示为：
  $X_p是R^{(P^2*C)}展平后的patch向量\\ Z_p = X_p*E$
将所有patch嵌入向量 $Z_p$ 按顺序排列，形成一个序列：
$z=[z_1, z_2, ...,z_n]$
小结
1. 将图像分割成固定大小的patch，每个patch被视为一个“单词”
2. patch的大小和数量决定了模型的输入序列长度
3. 将每个patch展平并通过线性投影映射到高维空间，形成patch嵌入向量
4. 线性投影的权重是可学习的，模型通过训练优化这些权重
5. 将所有patch嵌入向量按顺序排列，形成一个序列，作为Transformer编码器的输入

在ViT中，位置编码是一个可学习的向量，与patch嵌入向量的维度相同（即 D 维）,j假设有N个patch，则位置编码矩阵为：
$E_pos ∈R^{(N+1)*D}$
1. N 是patch的数量
2. D 是patch嵌入向量的维度
3. 额外的 +1 是为了处理[class] token（分类token）
将位置编码添加到patch嵌入向量中：
$z=[z_1, z_2, ...,z_n] + E_{pos}$
在ViT中，通常会在patch序列的开头添加一个额外的[class] token（分类token），用于最终的分类任务。这个[class] token也会被赋予一个位置编码

传统transformer中，自注意力机制（Self-Attention）的计算复杂度为 O(N^2)，N为输入长度；
1. 自注意力机制首先会计算序列中每个字对所有其他字的注意力分数
2. 假设序列长度为N，那么对于序列中的每个字，我们都需要计算它与序列中其他N-1个字的注意力分数，这是一个N×(N-1)
3. 对于高分辨率图像，输入序列长度 N会非常大(eg：224*224的图像展平后序列长度为50176)
Swin Transformer 提出了滑动窗口机制，将自注意力计算限制在局部窗口内，从而将计算复杂度从O(N^{2)降低到O(M}2 * N)
通过窗口移位（Window Shift），使不同窗口之间能够交互信息，从而捕捉全局上下文

eg：

假设有一个输入特征图，大小为 4x4

A1  A2  A3  A4
B1  B2  B3  B4
C1  C2  C3  C4
D1  D2  D3  D4

每次窗口移位后，模型会计算一次 移位窗口自注意力(Shifted Window Multi-Head Self-Attention, SW-MSA)；会产生多个注意力分数，通过 窗口还原（Window Reversal） 和 特征融合 来实现
每次窗口移位后，模型会计算一次自注意力，得到新的特征表示
在计算完移位窗口的自注意力后，模型需要将特征图从移位后的窗口还原回原始布局
1. 例如，假设窗口大小为 2x2，窗口移位后，特征图被重新划分为新的窗口。计算完 SW-MSA 后，模型会将特征图还原回原始的 4x4 布局
在 Swin Transformer 中，W-MSA 和 SW-MSA 是交替使用的。每个 Swin Transformer 块（Block）包含一个 W-MSA 和一个 SW-MSA
W-MSA 和 SW-MSA 的输出特征图会通过 残差连接（Residual Connection） 进行融合

Patch Merging：将相邻的 patch 合并，下采样特征图
1. 假设输入图像大小为 224x224，patch 大小为 4x4
2. 输入特征图大小：56x56（224/4）
3. 每个阶段中，包含多个 Swin Transformer 块，每个块由 W-MSA(Window Multi-Head Self-Attention, W-MSA) 和 SW-MSA 组成
在每个阶段的开始，通过 Patch Merging 将特征图下采样
1. 经过 Patch Merging 后，特征图大小变为 28x28，通道数增加 4 倍
2. 包含多个 Swin Transformer 块
经过 Patch Merging 后，特征图大小变为 14x14，通道数增加 4 倍
1. 包含多个 Swin Transformer 块
经过 Patch Merging 后，特征图大小变为 7x7，通道数增加 4 倍
1. 包含多个 Swin Transformer 块
输入特征图大小：7x7
1. 不进行 Patch Merging，直接包含多个 Swin Transformer 块
经过 Patch Merging 后，特征图大小变为 7x7，通道数增加 4 倍
1. 包含多个 Swin Transformer 块
输入特征图大小：7x7
1. 不进行 Patch Merging，直接包含多个 Swin Transformer 块