当前位置：首页 > news >正文

PVT（Pyramid Vision Transformer）：金字塔结构，适合检测/分割

news 2025/10/19 7:13:16

源码、配套笔记&讲解视频，点击文末名片

PVT 的研究背景和动机
在计算机视觉领域，过去的主力军是卷积神经网络（CNN），比如 ResNet、VGG、Inception。这些 CNN 模型之所以成功，一个关键原因是它们采用了金字塔结构 —— 从高分辨率的特征图逐渐下采样，得到多尺度的特征表示。这个特性对目标检测、实例分割、语义分割等“密集预测任务”至关重要，因为这些任务需要模型理解物体在不同尺度下的细节。
后来，ViT 出现了，把 NLP 的 Transformer 思路引入到视觉任务中。ViT 在图像分类上表现非常好，因为它能捕捉全局依赖关系。但是，ViT 有两个重大问题：
输出只有单一尺度：ViT 把整张图片切成大块（比如 16×16），然后一次性处理。最终得到的特征图分辨率太低，不适合像检测、分割这样需要精细定位的任务。
计算/显存消耗巨大：如果强行用小块（比如 4×4）去分割输入，显存马上爆炸，训练根本跑不动。
所以，ViT 更像是“分类专用工具”，而不是通用视觉骨干。

PVT 的动机
研究者们提出 PVT，就是要解决 ViT 不能很好用于密集预测任务的问题。
PVT 的设计目标是：

继承 Transformer 的全局建模能力（能捕捉远距离关系）；
融合 CNN 的金字塔思想（能逐层下采样，获得多尺度特征）；
降低资源消耗（能在有限显存下处理高分辨率特征图）。
换句话说，PVT 想做的就是：
👉 把 ViT 从“只能分类”扩展为“通用视觉骨干”，让它在检测、分割这些任务里也能替代 CNN。
研究者的核心问题是：
CNN 在密集预测任务中表现好，但缺乏全局建模；
ViT 有全局建模，但对密集预测任务不友好；
PVT 结合两者优势，在保持 Transformer 架构的同时，引入金字塔+多尺度特征图，让它能适应检测、分割等复杂任务。

2、PVT 的创新点
[图片]

(1) 引入金字塔结构（Pyramid）

问题（ViT 的缺陷）：ViT 只输出单一尺度的特征（比如 14×14），不适合检测和分割这种需要多尺度特征的任务。
PVT 的创新：借鉴 CNN 的“金字塔”思想，从高分辨率到低分辨率，逐层下采样，得到多层次的特征图（比如 56×56 → 28×28 → 14×14 → 7×7）。
好处：能够兼顾大物体和小物体，成为目标检测、分割等任务的通用骨干网络。
👉 类比：ViT 像一个人只看“缩略图”，只能粗略识别；PVT 像拿了显微镜和望远镜，可以在不同尺度下看清楚细节和整体。

(2) 空间降采样注意力（Spatial-Reduction Attention, SRA）

问题：ViT 的注意力计算复杂度是 O(N²)，输入分辨率一大就爆显存。
PVT 的创新：在计算注意力时，先对 Key 和 Value 做空间下采样（Spatial Reduction），降低 token 数量，从而大幅减少计算量。
好处：
- 可以在显存有限的情况下处理更大分辨率图像；
- 在保证精度的同时，大幅提升计算效率。
  👉 类比：ViT 开会时要求“全员发言”，人越多越慢；PVT 先挑代表来开会（下采样），效率更高。

(3) 通用性强，可替代 CNN Backbone

问题：ViT 只能做分类，不能直接迁移到检测/分割。
PVT 的创新：设计时就兼容了 FPN（特征金字塔网络）思路，直接输出多尺度特征。
好处：PVT 可以像 ResNet 一样，成为检测（Mask R-CNN、RetinaNet）、分割（Semantic FPN、SegFormer）等下游任务的 backbone。
👉 类比：ViT 是“单科选手，只擅长做选择题（分类）”；PVT 是“全能选手，既能考选择题（分类），也能写大题（检测、分割）”。

(4) 简洁优雅的设计

PVT 没有搞太复杂的模块，而是用很直接的方式（分层金字塔 + SRA 下采样）就解决了 ViT 的大部分缺陷。
这使得它在学术界很受欢迎，成为后续很多视觉 Transformer 的基线（比如 SegFormer、BEiT）。
👉 类比：PVT 就像在 ViT 的“框架房子”上，加了楼梯（金字塔）和电梯（SRA），让整栋楼更实用。

✅ 总结一句话
PVT 的核心创新点是：在 ViT 基础上引入金字塔结构和空间缩减注意力，使得 Transformer 不再只是分类工具，而成为能适配检测、分割等下游任务的通用视觉骨干网络。

3、空间降采样注意力 SRA
[图片]

普通的多头注意力（左边图）
在 Transformer 里，有一个核心模块叫多头注意力 (Multi-Head Attention, MHA)。
它的输入有三种东西：

Q (Query)：可以理解为“我要找的信息”。
K (Key)：可以理解为“信息的标签或关键字”。
V (Value)：可以理解为“信息的具体内容”。
普通的注意力机制就是：
👉 每个 Query 去和所有 Key 对比，算出哪些 Key 跟自己相关，然后再根据相关性加权取对应的 Value。
这样，模型就能学到“谁和谁相关”，从而实现全局信息交互。
⚠️ 问题：如果输入图片很大（比如 224×224 的图像被切成很多 patch），Key 和 Value 的数量会非常多，计算和显存开销就会爆炸式增长。

空间降采样注意力 SRA（右边图）
为了降低计算量，引入了 Spatial Reduction Attention (SRA)。
从图里可以看到，区别就在于：