论文信息
- 标题: Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? (用于图像识别的稀疏MLP:自注意力机制真的必要吗?)
- 作者: Chuanxin Tang, Yucheng Zhao, Guangting Wang 等
- 机构: 微软亚洲研究院 (Microsoft Research Asia), 中国科学技术大学 (University of Science and Technology of China)
- 核心观点: 自注意力机制并非视觉模型取得卓越性能的“银弹”。通过精心设计,一个完全基于卷积和稀疏MLP的模型(sMLPNet)可以在ImageNet-1K上达到与当时最先进模型(如Swin Transformer)相当的性能。
- 代码开源: 是,项目地址为
https://github.com/microsoft/SPACH
。
创新点
- 挑战主流观点:在Vision Transformer大行其道的背景下,论文大胆质疑自注意力机制对于视觉任务的必要性,认为其并非性能提升的核心。
- 提出sMLP模块