Gato:多模态、多任务、多具身的通用智能体架构
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
1. 背景与核心贡献
Gato(西班牙语“猫”)是由 DeepMind 于 2022 年提出的通用智能体框架,目标是将 语言模型的多任务泛化能力 扩展至文本之外的领域(如视觉、控制决策)。其核心突破在于:
单一 Transformer 模型 通过同一套权重(1.18B 参数)支持 604 项异构任务,涵盖图像描述生成、Atari 游戏、机械臂控制、对话交互等,首次实现“多模态-多任务-多具身(Multi-Embodiment)”的统一建模。
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
往期文章推荐:
- 20.图灵测试:人工智能的“行为主义判据”与哲学争议
- 19.ASQA: 面向模糊性事实问题的长格式问答数据集与评估框架
- 18.BGE:智源研究院的通用嵌入模型家族——从文本到多模态的语义检索革命
- 17.BM25:概率检索框架下的经典相关性评分算法
- 16.TF-IDF:信息检索与文本挖掘的统计权重基石
- 15.HumanEval:代码生成模型的“黄金标尺”
- 14.稠密检索:基于神经嵌入的高效语义搜索范式
- 13.Haystack:面向大模型应用的模块化检索增强生成(RAG)框架
- 12.CodePlan:基于代码形式规划的大模型结构化推理新范式
- 11.CodeGen:面向多轮程序合成的开源代码大语言模型
- 10.束搜索(Beam Search):原理、演进与挑战
- 9.RAGFoundry:面向检索增强生成的模块化增强框架
- 8.TyDi QA:面向语言类型多样性的信息检索问答基准
- 7.BBH详解:面向大模型的高阶推理评估基准与数据集分析
- 6.RepoCoder:仓库级代码补全的迭代检索生成框架解析与应用前沿
- 5.RAGAS:检索增强生成系统的无参考评估框架与技术解析
- 4.Self-RAG:基于自我反思的检索增强生成框架技术解析
- 3.DocBench:面向大模型文档阅读系统的评估基准与数据集分析
- 2.哲学中的主体性:历史演进、理论范式与当代重构
- 1.FLAN-T5:大规模指令微调的统一语言模型框架
2. 技术架构详解
2.1 多模态序列化与标记化
Gato 将所有输入输出数据统一编码为 扁平标记序列(flat token sequence),实现跨模态自回归训练:
- 文本:SentencePiece 子词编码(32k 词表)
- 图像:分割为 16×16 图块 → 像素归一化 → 线性嵌入(类似 ViT)
- 离散动作(如按键):整数序列扁平化(范围 [0, 1024])
- 连续动作(如关节扭矩):μ-律编码 → 离散化为 1024 桶 → 映射至 [32000, 33024]
序列排序规范:文本按原序、图像按光栅顺序、张量按行优先、时间步按观测→分隔符→动作排列。
2.2 模型结构
- 骨干网络:纯解码器 Transformer(24 层,隐藏层 2048,前馈层 8196,参数量 1.18B)
- 嵌入层:
- 文本/动作标记:查找表 + 局部位置编码
- 图像标记:单层 ResNet 块 + 图块位置编码
- 训练目标:仅预测动作与文本标记(屏蔽图像与观测损失)
2.3 提示条件(Prompt Conditioning)
- 训练策略:25% 批次添加任务提示(50% 为目标条件序列,50% 随机片段)
- 推理机制:通过成功演示初始化序列,引导模型执行特定任务(如机械臂堆叠)
3. 多任务性能评估
Gato 在 604 个任务中验证通用性,关键结果如下:
表:Gato 在主要任务领域的性能
任务领域 | 关键指标 | 表现 |
---|---|---|
ALE Atari | 超过人类平均分的游戏数 | 23/51(11 款达人类水平 2 倍) |
BabyAI | BossLevel 关卡专家分数 | 75%(对比单任务模型 77%-90%) |
Meta-World | 机械臂任务 >50% 专家分数的比例 | 44/45(35 项 >80%) |
RGB Stacking | 未知物体堆叠成功率 | 与专用模型 BC-IMP 相当 |
文本/图像 | 对话与图像描述 | 示例质量接近专用模型(未量化评分) |
扩展性分析
- 模型规模效应:79M → 364M → 1.18B 参数,性能随规模单调提升
- 少样本微调:仅需 10 个演示片段即可恢复专家性能,100 个片段超越专家(成功率 +15%)
4. 局限性及后续演进
4.1 核心局限
- 训练范式:纯监督学习(行为克隆),未融合强化奖励信号
- 上下文长度:1024 标记限制长时序任务建模(如复杂策略规划)
- 模态预测限制:不生成图像标记,限制视觉创作能力
4.2 演进方向:RoboCat
2023 年 DeepMind 基于 Gato 推出 自我改进的机器人代理:
- 自生成数据循环:
- 人类演示(100-1000 次) → 2. 微调衍生代理 → 3. 自动生成 10k 轨迹 → 4. 合并数据 → 5. 训练新版本
- 效果:新任务学习成功率从 36% → 74%,适应三指夹具等复杂具身仅需数小时
5. 行业影响与理论意义
- 工程价值:验证了 Transformer 统一多模态控制 的可行性,降低多任务系统部署成本
- 理论启示:推动 “奖励即足够”(Reward is Enough) 的 AGI 路径,证明扩展数据与模型可覆盖复杂具身任务
- 开源生态:非官方实现(如
OrigamiDream/gato
)推动社区复现
核心论文
Reed, S., Żołna, K., Parisotto, E., et al. (2022).
A Generalist Agent.
Transactions of Machine Learning Research (TMLR).
arXiv 预印本:https://arxiv.org/abs/2205.06175
项目主页:https://www.deepmind.com/publications/a-generalist-agent
💎 总结
Gato 通过 多模态序列化 与 提示条件机制,首次实现了单一模型对文本、视觉、控制任务的统一建模:
- 架构创新:扁平标记序列 + 模态自适应嵌入,兼容异构数据输入输出;
- 性能突破:在 450+ 任务中超越专家水平 50%,验证通用智能体可扩展性;
- 生态演进:衍生模型 RoboCat 实现自我改进,推动机器人学习范式变革。
作为 多具身通用智能 的里程碑,Gato 为 AGI 的“数据-模型-硬件”协同扩展提供了实证基础,其设计理念持续影响具身智能研究(如 Google RT-2、Meta Habitat)🚀。
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!