当前位置: 首页 > news >正文

MLP-Mixer: An all-MLP Architecture for Vision

Google Research

纯MLP视觉模型

模型组成

  1. patch生成embedding(per-patch linear embedding)
  2. 多个MLP layer
    1. 2种layer:
      1. patch维度(token-mixing),每层处理单个patch
      2. 通道维度(channel-mixing),每层按通道处理多个patch
    2. 2种layer交替组织
    3. layer内部:
      1. 2个全连接层 + 1个GELU(nonlinearity activation)
      2. 宽度参数:D:D_S, D_C
    4. Others:skip connection,dropout,layerNorm
  3. 分类头

特殊情况

将mixers视为一种特殊的CNN,对应:

  • channel mixing:1*1 conv
  • token mixing:single channel depth-wise conv with full receptive field

❌ 不能反之亦然:

  • 普通的CNN不是特殊情况的Mixer
  • conv比MLP的矩阵乘更复杂,需要额外的reduction(?)、特殊实现(specialized implementation)

前向步骤

  1. 将图像处理成S个non-overlapping image patches,每patch生成C维embedding
    1. 输出记为 X

    1. 例如:输入图像大小(H,W),patch大小(P,P)patch数量S=(HW/P^2)
  • 所有patch使用同一个matrix线性映射
  • MLP层处理:
    1. token-mixing MLP:X转置(C*S),S维度上处理
    2. channel-mixing MLP:C维度上处理

    1. σ:GELU

features

parameter tying

1. 避免网络参数量随着隐藏层维度C、序列长度S的增加,随之的过快增长,从而节省内存

2. 不会影响效果

Mixer每层输入size不变

固定宽度,类似transformer、RNN,不像CNN通常是金字塔形状

不使用位置编码

和vit不同;因为token-mixing MLP对token顺序本身敏感

关注效果

  1. 下游任务精度
  2. 预训练计算量
  3. 推理耗时
http://www.dtcms.com/a/316018.html

相关文章:

  • 计算机基础:操作系统学习的基石
  • 【前端】Node.js 简易服务器搭建全指南:从基础到实践
  • 调试|谷歌浏览器调试长连接|调试SSE和websocket
  • Redis内存耗尽时的应对策略
  • Day115 SpringBoot整合Redis,RedisTemplate和注解两种方式的使用
  • SQL164 删除表
  • 输入12-21V输出5V 10A电源转换芯片方案
  • 什么是模型并行?
  • C语言基础_随机数、数组、函数、指针
  • 注意点:如何使用conda创建虚拟环境并使用虚拟环境以及当安装相关库时,如何指定安装到那个环境里面 ---待看
  • Java中公用字符串工具类拿走、直接用
  • 山东省天地图API申请并加载到QGIS和ArcGIS Pro中
  • 什么是mysql的垂直分表,理论依据是什么,如何使用?
  • 无人机光伏识别误检率↓83%!陌讯多模态融合算法实战解析
  • PHP获取淘宝商品详情返回参数详解
  • K8S 性能瓶颈排查
  • 路由的类型
  • Linux驱动学习(八)设备树
  • 无人机 × 巡检 × AI识别:一套可复制的超低延迟低空视频感知系统搭建实践
  • BloodHound 8.0 首次亮相,在攻击路径管理方面进行了重大升级
  • 03-顺序表
  • Spring之【详解FactoryBean】
  • 小程序实时保存优化
  • WWDC 25 极地冰原撸码危机:InlineArray 与 Span 的绝地反击
  • Dell电脑Windows系统更新后声卡驱动无法识别插线耳机问题
  • WebRTC音视频编码模块深度解析:从编解码器到自适应码率控制(2025技术实践)
  • 【安卓][Mac/Windows】永久理论免费 无限ip代理池 - 适合临时快速作战
  • Java+Redis+SpringBoot定时器-定时发布商品
  • 使用vscode编写markdown文档(使用Markdown Preview Enhanced和markdownlint两个插件)以及若干配置
  • Patsy的dmatrix() 函数