Swin Transformer核心思路讲解(个人总结)
Swin Transformer 结构总结
- 首先,将一张 RGB 图像均匀切分为若干尺寸相同的 patch(每个 patch 可类比于 NLP 中的 token)。
- 在 Stage 1,每个 patch 提取的 48 维特征会先通过一个线性层映射到维度为 C C C 的向量。
- 随后,这些 token 特征会送入 Swin Transformer 模块(此阶段不改变 token 数量及其维度),完成 Stage 1 的特征提取。
- 接着进入 Stage 2:通过 patch merging 操作,将每 2×2 个相邻的 token(共 4 个)在特征维度上拼接(concatenate),形成一个新的 token&#x