当前位置: 首页 > news >正文

GEN-0深度剖析:物理交互数据如何重塑机器人学习的“扩展定律”

Generalist - Blog (generalistai.com)

当我们惊叹于大语言模型在文本世界中的无所不能时,一个更为根本的挑战始终横亘在前:如何让具身智能在真实的物理世界中,获得同样强大的能力? Generalist AI Team发布的GEN-0,并非又一个渐进式的模型改进,而是一次旨在回答这个根本问题的范式革命。它系统地论证了一个核心论点:机器人智能可以像语言智能一样,遵循可预测的扩展定律,但其路径和阈值截然不同

https://generalistai.com/assets/videos/gen0_teaser.mp4

GEN-0的核心突破在于其 “谐波推理” 能力。与语言模型可进行长时“思考”再生成文本不同,物理系统必须在瞬息万变的真实环境中实时决策并行动。

更重要的是,Generalist AI Team通过系统的实证研究,证明了GEN-0的各项能力均遵循明确的扩展定律。具体而言,我们的贡献可总结为以下五大支柱:

超越智能阈值在机器人领域前所未有的海量数据驱动下,我们观测到一个关键的 “相变” 现象:参数量低于7B的模型在数据洪流中会过早出现 “僵化” ,难以吸收新知识;而超过此阈值的更大模型(我们已成功扩展至10B+参数)则展现出持续的学习能力与强大的知识迁移性,仅需极少的后续训练即可快速适应全新任务。

确立扩展定律GEN-0模型展现出清晰且强大的 Scaling Laws。这意味着,增加预训练数据量与计算规模,能够以可预测的幂律关系,持续提升模型在广泛下游任务上的性能表现。机器人能力的增长,从此具备了可量化的工程蓝图。

实现谐波推理为解决物理世界“不暂停”的根本约束,“谐波推理” 架构应运而生。它通过在训练中建模感知与行动令牌流的异步、连续交互,使模型无需依赖反应式与深思式分离的双系统架构,也无需额外的推理时引导机制,即可在单一流式中实现决策的敏捷与智能,为模型规模扩展至超大参数量铺平了道路。

支持跨机体部署GEN-0的架构设计具备天然的跨机体通用性。我们已在6自由度、7自由度乃至16+自由度的半人形机器人等多个异构平台上,成功验证了其控制能力的有效迁移。

构建数据与预训练科学我们构建了包含超过27万小时真实世界操作数据的数据生态,并以每周1万小时的速度持续加速增长,彻底打破了机器人学习的数据瓶颈。在此基础上,我们开创了 “预训练的科学” :通过系统性的 ablation studies,我们发现来自不同“数据工厂”的数据混合配方,会孕育出具有不同行为特性的GEN-0模型。这使我们能够精准地将模型表现回溯至具体的数据采集操作,实现数据策略的精细化迭代。

1. 智力阈值:莫拉维克悖论在数据洪流下的实证

下图揭示了一个关键的“相变”:1B参数模型在预训练中迅速僵化(Ossification),其零样本泛化能力早期即停滞;而6B模型开始受益,但又逐渐遗忘知识,7B+模型则能持续吸收知识,性能不断攀升。

 “僵化”的深远含义:这并非训练过拟合,而是模型权重在数据洪流下“塞满”后失去可塑性的表现。文章指出,这在LLM领域已在千万级参数模型上观察到。GEN-0将这一现象的发生尺度提升至十亿级,这是一个至关重要的发现。它强烈暗示,物理世界的状态-动作空间的复杂度和维度,远高于文本的离散令牌空间

 物理常识的“入场券”:这为莫拉维克悖论提供了现代版的、数据驱动的实证。它说明,我们大脑中看似“无需思考”的抓取、平衡等基础能力,其背后是海量的神经计算。GEN-0的实验表明,要在模型中内化这种“物理常识”,其模型容量(参数规模)的最低有效阈值远高于语言模型。过去机器人学习进展缓慢,部分原因可能就是我们一直在用“计算器”(小模型)去解决需要“超级计算机”(大模型)的问题。

2. 扩展定律:从“艺术”到“科学”的范式转移

下图清晰地展示了两种扩展定律:1)预训练计算量与零样本性能的 scaling;2)预训练数据规模与下游任务微调后性能之间的幂律关系

 与LLM Scaling Laws的本质区别:Kaplan等人的经典工作建立了预训练损失与计算量的关系。GEN-0的定律更进一步,它直接关联了 上游预训练数据量”与“下游任务经过少量微调后的最终性能” 。这是一个更具实用价值的定律,因为它直接回答了产业界最关心的问题:“我要解决一个具体问题,需要为你准备多少基础数据?”

 机器人学习的“工程化”:在GEN-0之前,机器人技能的开发更像一门“手艺”,严重依赖专家的经验和试错。GEN-0提供的幂律公式 L(D) = α * D^β + c,使得机器人性能的提升变得可预测、可规划、可量化。这标志着机器人学从“炼金术”向“化学”的转变,使得大规模、系统化的技术迭代成为可能。合作伙伴可以像查询“产品目录”一样,查询达到目标性能所需的数据“价格”。

3. 谐波推理:为物理世界原生的“思考-行动”流而设计

Harmonic Reasoning 是GEN-0的架构灵魂。它旨在解决物理智能的核心矛盾:世界不会暂停。它通过在异步、连续的感知与行动令牌流之间建立“谐波”交互,实现思考与行动的原生统一。

 与现有方案的根本区别

 vs. System 1/System 2 架构(如Helix):双系统架构是对人脑的模块化仿生,其优势是概念清晰,但难点在于如何设计两个系统间高效、低延迟的通信协议。GEN-0的Harmonic Reasoning则追求一种更彻底的“端到端”,试图在一个统一的架构内解决所有问题,避免了模块间的信息损失和协调开销。

 vs. 推理时引导(如real-time action chunking等):这类方法通常在推理时加入额外的思维链或规划步骤,这会增加决策延迟。Harmonic Reasoning的训练目标是将“深思”的能力内化到模型的基本推理过程中,追求在不增加额外推理延迟的情况下,做出更智能的决策。

 独到见解:“内化的娴熟”:这好比一个顶尖的钢琴家,在演奏高难度乐曲时,其手指的飞舞并非来自于“停下来思考下一个音符是什么”,而是将乐理、情感和肌肉记忆融为一体的、连续不断的艺术流淌。Harmonic Reasoning的目标,就是让机器人获得这种“内化的娴熟”,而非一个“走走停停”的初学者。

4. 数据帝国:规模、多样性与基础设施的三重奏

27万小时真实世界数据,每周1万小时的增速,通过“操作宇宙”进行系统化索引,并辅以互联网级别的数据基础设施。

 规模的价值:其数据规模比以往任何机器人数据集都高出一个数量级。这确保了模型能见到足够多的“长尾场景”,这是实现真正泛化的基础。

 多样性的科学:“操作宇宙”的构建不仅是数据管理工具,更是一种系统化的“能力规划”。它确保数据采集能覆盖人类操作空间的尽可能大的范围,从“削土豆皮”到“拧螺栓”,避免能力盲区。

 基础设施的壁垒:文章简短地提到了定制硬件、网络、多云协调和高效数据加载器。这些细节恰恰是将学术原型转化为工业级能力的关键。每天训练吸收“6.85年真实世界经验”的吞吐能力,本身就是一个巨大的工程成就。

5. 预训练的科学:从“数据汤”到“分子料理”

表1通过大规模消融实验,揭示了数据质量、类型和混合比例对模型特性的决定性影响。评估指标不仅用了预测误差,还引入了反向KL散度

 反向KL散度的精妙:均方误差衡量的是“平均准确度”,而反向KL散度衡量的是“模式寻求”行为。一个低反向KL的模型,其行动分布会更集中地匹配数据分布中的主要模式,避免在多个合理动作间“摇摆不定”。

 低预测误差 + 低反向KL:模型既准确坚定,是模仿学习的理想基石,能稳定执行专家策略。

 高预测误差 + 低反向KL:模型虽然不精确,但决策明确,这种特性可能更有利于强化学习进行探索和优化,因为它不容易陷入多个局部最优的“平均值”中。

 数据的“特性工程”:这项工作标志着机器人学习进入了“数据精细化运营”时代。通过与不同“数据工厂”合作伙伴进行A/B测试,他们可以像“调配化学试剂”一样,为不同的下游目标(高精度装配 vs. 鲁棒泛化)定制出具有不同特性的预训练模型。这彻底告别了“把数据倒进模型”的粗放模式。

结论与展望:我们正站在新时代的门槛上

GEN-0的发布,其意义在于它系统地、有数据支撑地验证了一条通往通用物理智能的可行路径。它告诉我们:

 规模是前提:没有足够大的模型和足够多的数据,物理常识无法涌现。

 定律存在:性能增长可预测,使机器人技术走向工程化。

 架构需原生:必须为物理世界的连续性设计如Harmonic Reasoning般的专用架构。

 数据是核心:需要以互联网公司的运营思维来构建和管理数据生态。

未来的挑战与机遇:

 从“如何做”到“为何做”:GEN-0展示了强大的低级技能组合能力,但更高级的任务规划因果推理犯错后的恢复能力,将是下一个前沿。

 仿真与现实的边界:在如此大规模的真实数据面前,仿真数据将扮演什么新角色?是用于“想象”和规划,还是主要用于安全测试?

 开放的生态:如此高的数据与算力门槛,会催生怎样的开源与合作模式?社区可能在高效微调、知识迁移等方面找到创新突破口。

总而言之,GEN-0就像第一台实用的蒸汽机。它或许笨重,效率也有待提升,但它无可辩驳地证明了“热能可以转化为稳定、强大的机械动力”。同样,GEN-0证明了“物理交互数据可以转化为可预测、可扩展的机器智能”。物理智能的工业革命,已经点燃了它的第一台引擎。

http://www.dtcms.com/a/605577.html

相关文章:

  • 各大网站的名字大全百度招聘
  • 泰州网站关键词优化软件咨询在线crm系统是啥
  • ZC序列的原理及在LTE中的应用
  • 山东网站seo推广优化价格对单位网站的要求吗
  • Ubuntu25.10安装Samba
  • Ubuntu 虚拟机文件传输到 Windows的一种好玩的办法
  • 找别人做网站都需要注意啥wordpress访问私密帖子
  • 网站备案需要关闭台州华燕网业有限公司
  • 3D装配动画结合MES系统,助力制造业无纸化办公
  • Tetracycline-Biotin,四环素-生物素,化学性质
  • 李飞飞World Labs发布Marble:用一句话生成可编辑的3D世界
  • Zookeeper 笔记
  • WebSocket 通俗讲解
  • 面向大数据与物联网的下一代时序数据库选型指南:Apache IoTDB 解析与应用
  • 网站建设与管理是什么工作网站开发网络
  • 科普:VB(Visual Basic)和VBS(VBScript)
  • 如何做电商网站首页开发一个电商平台
  • Hadess入门到精通 - 如何管理Helm制品
  • springboot的依赖管理机制和构建插件
  • 学Java第四十四天——Map实现类的源码解析
  • 4.网络原理及编程
  • BDS 执行平台相关动作
  • 代码随想录打卡day27:509.斐波那契数列、70.爬楼梯
  • 怎么接单做网站上优化
  • 11月3-5年Web前端开发面试需要达到的强度
  • 网站搭建吧网站开发计入什么科目
  • C++---万能指针 void* (不绑定具体数据类型,能指向任意类型的内存地址)
  • 感知 - 调控 - 追溯:档案馆恒温恒湿全闭环控制系统方案
  • Microsoft Excel 效率专题:创建下拉列表,规范数据输入
  • 网站服务器建立怎么在网站做浮动图标