当前位置：首页 > news >正文

MLP-Mixer: An all-MLP Architecture for Vision

news 2025/11/7 6:08:22

Google Research

纯MLP视觉模型

模型组成

patch生成embedding（per-patch linear embedding）
多个MLP layer
1. 2种layer：
  1. patch维度（token-mixing），每层处理单个patch
  2. 通道维度（channel-mixing），每层按通道处理多个patch
2. 2种layer交替组织
3. layer内部：
  1. 2个全连接层 + 1个GELU（nonlinearity activation）
  2. 宽度参数：D：D_S, D_C
4. Others：skip connection，dropout，layerNorm
分类头

特殊情况

将mixers视为一种特殊的CNN，对应：

channel mixing：1*1 conv
token mixing：single channel depth-wise conv with full receptive field

❌ 不能反之亦然：

普通的CNN不是特殊情况的Mixer
conv比MLP的矩阵乘更复杂，需要额外的reduction（？）、特殊实现（specialized implementation）

前向步骤

将图像处理成S个non-overlapping image patches，每patch生成C维embedding
1. 输出记为 X

1. 例如：输入图像大小（H，W），patch大小（P，P）patch数量S=（HW/P^2)
所有patch使用同一个matrix线性映射
MLP层处理：
1. token-mixing MLP：X转置（C*S），S维度上处理
2. channel-mixing MLP：C维度上处理

1. σ：GELU

features

parameter tying

1. 避免网络参数量随着隐藏层维度C、序列长度S的增加，随之的过快增长，从而节省内存

2. 不会影响效果

Mixer每层输入size不变

固定宽度，类似transformer、RNN，不像CNN通常是金字塔形状

不使用位置编码

和vit不同；因为token-mixing MLP对token顺序本身敏感

关注效果

下游任务精度
预训练计算量
推理耗时

http://www.dtcms.com/a/316018.html

相关文章：

计算机基础：操作系统学习的基石

【前端】Node.js 简易服务器搭建全指南：从基础到实践

调试|谷歌浏览器调试长连接|调试SSE和websocket

Redis内存耗尽时的应对策略

Day115 SpringBoot整合Redis，RedisTemplate和注解两种方式的使用

SQL164 删除表

输入12-21V输出5V 10A电源转换芯片方案

什么是模型并行？

C语言基础_随机数、数组、函数、指针

注意点:如何使用conda创建虚拟环境并使用虚拟环境以及当安装相关库时，如何指定安装到那个环境里面 ---待看

Java中公用字符串工具类拿走、直接用

山东省天地图API申请并加载到QGIS和ArcGIS Pro中

什么是mysql的垂直分表，理论依据是什么，如何使用？

无人机光伏识别误检率↓83%！陌讯多模态融合算法实战解析

PHP获取淘宝商品详情返回参数详解

K8S 性能瓶颈排查

路由的类型

Linux驱动学习（八）设备树

无人机 × 巡检 × AI识别：一套可复制的超低延迟低空视频感知系统搭建实践

BloodHound 8.0 首次亮相，在攻击路径管理方面进行了重大升级

03-顺序表

Spring之【详解FactoryBean】

小程序实时保存优化

WWDC 25 极地冰原撸码危机：InlineArray 与 Span 的绝地反击

Dell电脑Windows系统更新后声卡驱动无法识别插线耳机问题

WebRTC音视频编码模块深度解析：从编解码器到自适应码率控制（2025技术实践）

【安卓][Mac/Windows】永久理论免费无限ip代理池 - 适合临时快速作战

Java+Redis+SpringBoot定时器-定时发布商品

使用vscode编写markdown文档（使用Markdown Preview Enhanced和markdownlint两个插件）以及若干配置

Patsy的dmatrix() 函数