当前位置: 首页 > news >正文

Gato:多模态、多任务、多具身的通用智能体架构

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

1. 背景与核心贡献

Gato(西班牙语“猫”)是由 DeepMind 于 2022 年提出的通用智能体框架,目标是将 语言模型的多任务泛化能力 扩展至文本之外的领域(如视觉、控制决策)。其核心突破在于:

单一 Transformer 模型 通过同一套权重(1.18B 参数)支持 604 项异构任务,涵盖图像描述生成、Atari 游戏、机械臂控制、对话交互等,首次实现“多模态-多任务-多具身(Multi-Embodiment)”的统一建模。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

  • 20.图灵测试:人工智能的“行为主义判据”与哲学争议
  • 19.ASQA: 面向模糊性事实问题的长格式问答数据集与评估框架
  • 18.BGE:智源研究院的通用嵌入模型家族——从文本到多模态的语义检索革命
  • 17.BM25:概率检索框架下的经典相关性评分算法
  • 16.TF-IDF:信息检索与文本挖掘的统计权重基石
  • 15.HumanEval:代码生成模型的“黄金标尺”
  • 14.稠密检索:基于神经嵌入的高效语义搜索范式
  • 13.Haystack:面向大模型应用的模块化检索增强生成(RAG)框架
  • 12.CodePlan:基于代码形式规划的大模型结构化推理新范式
  • 11.CodeGen:面向多轮程序合成的开源代码大语言模型
  • 10.束搜索(Beam Search):原理、演进与挑战
  • 9.RAGFoundry:面向检索增强生成的模块化增强框架
  • 8.TyDi QA:面向语言类型多样性的信息检索问答基准
  • 7.BBH详解:面向大模型的高阶推理评估基准与数据集分析
  • 6.RepoCoder:仓库级代码补全的迭代检索生成框架解析与应用前沿
  • 5.RAGAS:检索增强生成系统的无参考评估框架与技术解析
  • 4.Self-RAG:基于自我反思的检索增强生成框架技术解析
  • 3.DocBench:面向大模型文档阅读系统的评估基准与数据集分析
  • 2.哲学中的主体性:历史演进、理论范式与当代重构
  • 1.FLAN-T5:大规模指令微调的统一语言模型框架
2. 技术架构详解
2.1 多模态序列化与标记化

Gato 将所有输入输出数据统一编码为 扁平标记序列(flat token sequence),实现跨模态自回归训练:

  • 文本:SentencePiece 子词编码(32k 词表)
  • 图像:分割为 16×16 图块 → 像素归一化 → 线性嵌入(类似 ViT)
  • 离散动作(如按键):整数序列扁平化(范围 [0, 1024])
  • 连续动作(如关节扭矩):μ-律编码 → 离散化为 1024 桶 → 映射至 [32000, 33024]

序列排序规范:文本按原序、图像按光栅顺序、张量按行优先、时间步按观测→分隔符→动作排列。

2.2 模型结构
  • 骨干网络:纯解码器 Transformer(24 层,隐藏层 2048,前馈层 8196,参数量 1.18B)
  • 嵌入层
    • 文本/动作标记:查找表 + 局部位置编码
    • 图像标记:单层 ResNet 块 + 图块位置编码
  • 训练目标:仅预测动作与文本标记(屏蔽图像与观测损失)
2.3 提示条件(Prompt Conditioning)
  • 训练策略:25% 批次添加任务提示(50% 为目标条件序列,50% 随机片段)
  • 推理机制:通过成功演示初始化序列,引导模型执行特定任务(如机械臂堆叠)
3. 多任务性能评估

Gato 在 604 个任务中验证通用性,关键结果如下:

表:Gato 在主要任务领域的性能
任务领域关键指标表现
ALE Atari超过人类平均分的游戏数23/51(11 款达人类水平 2 倍)
BabyAIBossLevel 关卡专家分数75%(对比单任务模型 77%-90%)
Meta-World机械臂任务 >50% 专家分数的比例44/45(35 项 >80%)
RGB Stacking未知物体堆叠成功率与专用模型 BC-IMP 相当
文本/图像对话与图像描述示例质量接近专用模型(未量化评分)
扩展性分析
  • 模型规模效应:79M → 364M → 1.18B 参数,性能随规模单调提升
  • 少样本微调:仅需 10 个演示片段即可恢复专家性能,100 个片段超越专家(成功率 +15%)
4. 局限性及后续演进
4.1 核心局限
  • 训练范式:纯监督学习(行为克隆),未融合强化奖励信号
  • 上下文长度:1024 标记限制长时序任务建模(如复杂策略规划)
  • 模态预测限制:不生成图像标记,限制视觉创作能力
4.2 演进方向:RoboCat

2023 年 DeepMind 基于 Gato 推出 自我改进的机器人代理

  • 自生成数据循环
    1. 人类演示(100-1000 次) → 2. 微调衍生代理 → 3. 自动生成 10k 轨迹 → 4. 合并数据 → 5. 训练新版本
  • 效果:新任务学习成功率从 36% → 74%,适应三指夹具等复杂具身仅需数小时
5. 行业影响与理论意义
  • 工程价值:验证了 Transformer 统一多模态控制 的可行性,降低多任务系统部署成本
  • 理论启示:推动 “奖励即足够”(Reward is Enough) 的 AGI 路径,证明扩展数据与模型可覆盖复杂具身任务
  • 开源生态:非官方实现(如 OrigamiDream/gato)推动社区复现

核心论文

Reed, S., Żołna, K., Parisotto, E., et al. (2022).
A Generalist Agent.
Transactions of Machine Learning Research (TMLR).
arXiv 预印本:https://arxiv.org/abs/2205.06175
项目主页:https://www.deepmind.com/publications/a-generalist-agent

💎 总结

Gato 通过 多模态序列化提示条件机制,首次实现了单一模型对文本、视觉、控制任务的统一建模:

  1. 架构创新:扁平标记序列 + 模态自适应嵌入,兼容异构数据输入输出;
  2. 性能突破:在 450+ 任务中超越专家水平 50%,验证通用智能体可扩展性;
  3. 生态演进:衍生模型 RoboCat 实现自我改进,推动机器人学习范式变革。

作为 多具身通用智能 的里程碑,Gato 为 AGI 的“数据-模型-硬件”协同扩展提供了实证基础,其设计理念持续影响具身智能研究(如 Google RT-2、Meta Habitat)🚀。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

http://www.dtcms.com/a/333589.html

相关文章:

  • Vue 组件二次封装透传slots、refs、attrs、listeners
  • 【Spring框架】SpringAOP
  • Ubuntu 22.04 安装PCL(Point Cloud Library)和Eigen库
  • 基于 Ubuntu22.04 安装 SSH 服务,记录
  • 如何实现免密码 SSH 登录
  • 零基础-动手学深度学习-10.4. Bahdanau 注意力
  • week1-[一维数组]传送
  • python-pycharm切换python各种版本的环境与安装python各种版本的环境(pypi轮子下载)
  • Linux下的软件编程——多任务(线程)
  • QT开发中如何加载第三方dll文件
  • C语言指针(五):回调函数与 qsort 的深层关联
  • 前端性能优化
  • JCTools 无锁并发计数器:ConcurrentAutoTable
  • obsidian ai/copilot 插件配置
  • epoll边缘模式收数据学习
  • 【100页PPT】数字化转型某著名企业集团信息化顶层规划方案(附下载方式)
  • 基于之前的Python附魔插件做出的一些改进
  • 3s岗位合集
  • 并行Builder-输出型流程编排的新思路
  • AI提高投放效率的核心策略
  • 【生产实践】内网YUM源中rpm包的替换与仓库升级实战
  • 应用侧华为云LoTDA设备接入平台
  • 2025二建成绩公布!各地合格标准汇总!
  • 通俗易懂:Vue3的ref()运行机理
  • Windows Server存储智能数据校验
  • AMQP协议介绍
  • 【进阶】Java技术栈八股文学习资料整理
  • 优化网络ROI:专线复用,上云出网一“线”牵!
  • 力扣top100(day04-04)--栈
  • 从“写代码”到“定义需求”:AI编程工具如何重构软件开发的核心流程?