【Block总结】LRSA,用于语义分割的低分辨率自注意力|TPAMI 2025
论文信息
- 标题: Low-Resolution Self-Attention for Semantic Segmentation (用于语义分割的低分辨率自注意力)
- 作者: Yu-Huan Wu, Shi-Chen Zhang, Yun Liu, Le Zhang, Xin Zhan, Daquan Zhou, Jiashi Feng, Ming-Ming Cheng, Liangli Zhen
- 核心思想: 挑战了语义分割必须依赖高分辨率特征进行自注意力计算的传统观念,提出了一种在固定低分辨率空间计算自注意力的机制(LRSA),以极低的计算成本捕获全局上下文信息。
- 模型: 基于LRSA构建了名为LRFormer的编码器-解码器结构视觉Transformer。
- 代码: https://github.com/yuhuan-wu/LRFormer
创新点
- 颠覆性观念: 提出并验证了在语义分割中,用于捕获全局上下文的自注意力机制无需在高分辨率空间计算,低分辨率空间足以胜任。
- 低分辨率自注意力 (LRSA): 首次将自注意力计算中的查询(Query)、键(Key)、值(Value)三者同时下采样到一个固定的低分辨率(如16x16),而非像先前工