具身智能梳理以及展望
具身智能相关技术与发展历程
具身智能概念
具身智能指具有自身体验、改变物理世界的智能。
过去 5.4 亿年,地球所有生物智能由身体作用于世界的行为塑造。
1950 年,图灵在《Computing Machinery and Intelligence》论文中首次提出具身智能(Embodied Intelligences)概念。
论文链接:
https://courses.cs.umbc.edu/471/papers/turing.pdf
里程碑事件
2016 - 2017 年:DeepMind 火柴棍机器人研究
-
论文一(2017):《Emergence of Locomotion Behaviours in Rich Environments》,通过策略梯度强化学习新变体,让智能体在无明确奖励指示下学习奔跑、跳跃等行为。
-
论文二:《Learning human behaviors from motion capture by adversarial imitation》,利用对抗式模仿学习,根据有限示例生成人类相似动作模式,解决强化学习动作僵硬问题。
-
论文三:《Robust Imitation of Diverse Behaviors》,提出生成对抗模仿学习(GAIL ),使监督方法可一次性模拟学习,从更少示例进行更鲁棒控制学习。
2019 - 2022 年:ETH 预训练框架及相关研究
-
2019 年:ETH 击败波士顿动力获 Darpa 冠军,相关论文《Learning agile and dynamic motor skills for legged robots. Science Robotics》入选 Nature2019 年度十大杰出论文,通过神经网络建立电机模型解决仿真到实物迁移问题。
-
2020 年:论文《Learning quadrupedal locomotion over challenging terrain. Science Robotics》为 Science Robotics 2020 年 10 月封面文章,利用 teacher - student 结构进行预训练。
-
2022 年:论文《Learning robust perceptive locomotion for quadrupedal robots in the wild》获得 DARPA 地下挑战赛冠军,利用 belief encoder 做本体感受融合。
2022 年:NVIDIA 和 ETH 建立具身智能基础软件 ISAAC
ISAAC 是世界首个端到端的动力学仿真分析软件,使用 NVIDIA 的 Isaac Gym 仿真环境在 GPU 上并行模拟数千个机器人,被评为 “2022 年世界十大智能制造科技进展” 。
2025 年:Helix 快 - 慢系统融合新思路
Helix 首创 “S1 快系统,S2 慢系统” 的 VLA 模型,用于控制人形上半身。同时,Gemini Robotics、英伟达 GROOT N1 采用类似架构,预计成研究热点。
具身智能领域主流技术路线
机器人智驾大模型
主要解决电动车、无人系统或机器人导航与路径规划,以全端到端方式实现车辆智能驾驶。
机器人操作大模型
解决配置机械臂等移动机器人操作能力问题,特征是机器人基础模型(RFMs) 。
人形机器人分层策略模型
采用 “上层任务规划 + 下层操作策略” 分层策略,重点解决人形机器人边走边作业问题。
人形机器人基础通用模型
实现人形机器人 “感知 - 抓取 - 动作” 一体化训练和推理,将文本、语音、视频等作为输入。
机器人基础模型面临挑战
-
整合多样的数据源:利用预训练视觉 - 语言模型导入互联网规模经验,进一步训练整合机器人动作形成视觉 - 语言 - 动作模型,采用跨化身训练合并多种机器人数据。以 RDT 为例解决数据异构性问题。
-
模型架构:为执行复杂物理任务,采用带有流匹配(通过学习概率流转换数据分布) 、动作分块(分解动作序列提高效率准确性) 、表示复杂连续动作分布(以高频率控制机器人)等方法。
-
大规模预训练:在大规模多样化语料库预训练,再在精心策划数据上微调导出所需行为模式。
模型 | 视觉编码器 | 文本编码器 | 状态编码器 | 基座模型 | 动作预测方式 | 模型参数量 | 是否开源 |
---|---|---|---|---|---|---|---|
GR - 2 | VQGAN - Encoder | CLIP | MLP | GPT - style | VQGAN - Decoder 指导的 MLP 预测 | 230M | 否(GR - 1 只开源验证) |
RDT - 1B | SigLIP - 400M | T5 - XXL | MLP | DIT | Diffusion | 1.2B | 是 |
π0 | SigLIP - 400M | Gemma Tokenizer | MLP | VLM PaliGemma | Diffusion(基于 action expert 的 flow matching diffusion) | 3B | 否 |
国际相关模型
- Physical Intelligence:机器人基础模型 π0(pi - zero) 。
- Skild AI:Skild Brain 的机器人基础模型。
- Covariant:首个机器人通用基础模型 RFM - 1(Robot Foundation Model - 1) 。
- Deepmind:通用机器人大模型 RT - X。
国内相关模型
- 穹彻智能:穹彻具身大脑(Noematrix Brain),含实体世界大模型和机器人行为大模型。
- 清华大学 AI 研究院:RDT(Robotics Diffusion Transformer)双臂机器人操作任务扩散基础模型 。
- 灵初智能:基于强化学习的端到端具身模型 Psi R0。
- 自变量机器人(X Square):Great Wall 操作大模型。
- 星海图:具身基础模型(Embodied Foundation Model, EFM) 。
- 银河通用:操作大模型 SAGE。
- 星动纪元:ERA - 42 端到端原生机器人大模型。
- 字节跳动:GR - 2(Generative Robot 2.0) 。
技术路线 3:人形机器人分层策略模型
通过建立 “足 - 地” 接触力权重调节、长短期历史反馈控制器和机器人高维状态识别神经网络,可在复杂地形下并行训练和实现鲁棒控制。调节因素包括触地状态、地形信息、电机参数等,涉及奖励函数如线速度、角速度等计算。该方法解决了国际常用 “预训练 + 知识蒸馏” 两步走强化学习策略信息损失问题,提升数据利用率与迁移效果,在青龙人形机器人上成功应用。
利用 OpenAI 大模型赋能,
第一层 Open AI model 用于交互、理解、记忆、存储,为机器人提供强大短期记忆;
第二层 Neural Network Policies 基于 transformer 的视觉 - 运动变换策略,将像素映射到动作;
第三层 Whole Body Control 负责安全、稳定控制,为全身控制器提供 “设定点” 。
国际相关模型
-
特斯拉 Optimus 人形机器人:采用 FSD + 规划控制。
-
Figure 公司 Figure01 人形机器人:运用 “策略 + 环境 + 行为” 分层架构控制方案。
-
Boston Dynamics 电驱动 Atlas 人形机器人:采用动态分层强化学习算法。
国内相关模型
-
国地共建人形机器人创新中心青龙人形机器人:采用 “书生大模型 + 运动层 + 行为层” 的分层架构控制方案。
-
智元新创人形机器人:依托讯飞星火大模型联合开发;乐聚夸父人形机器人搭载华为盘古大模型,通过分层策略进行任务规划和执行。
-
傅利叶 GR - 1:2023 年 7 月推出,未来以通用机器人技术平台为核心实现商业化落地。
-
优必选人形机器人 Walker S:接入百度文心大模型,通过 “大脑大模型” 和 “小脑大模型” 配合完成任务。
-
Cyan 青心意创人形机器人:在大语言模型加持下,具备情绪表达的自然语言交互能力和双臂操作能力。
技术路线 4:人形机器人基础通用模型
NVIDIA GROOT 项目
在 2024 GTC 上推出,是面向人形机器人的通用基础模型开发框架。需在 NVIDIA DGX 上训练模型,在 OVX 上进行实时强化学习,开发者可在 Isaac Lab 模拟(Omniverse Isaac Sim 新应用用于人形学习 ),在 OSMO(新计算编排系统用于扩展模型 )训练,并部署到 Jetson Thor(为 GROOT 提供动力的新边缘 GPU 芯片 )。
英伟达三项基础设施
-
NVIDIA DGX:作为机器人基础模型的训练框架,包含 NVIDIA AI Enterprise 软件套件,提供数据科学工具、预训练模型、优化框架等资源及企业支持,具备强大计算能力,支撑大规模 AI 模型训练。
-
NVIDIA Isaac Lab:基于 Isaac Sim 构建的机器人基础模型仿真平台,融合高精度物理和传感器仿真,提供全面机器人模型、训练环境、物理仿真和传感器仿真,支持多种机器人模型与训练环境,是从仿真到现实应用的理想选择。
-
NVIDIA Jetson Thor:计划 2025 年上半年推出,作为机器人基础模型的 “大脑” 芯片,是新一代人形机器人专用紧凑型计算平台(雷神,算力达 1000Tops) ,支持机器人感知、决策和行动,执行复杂任务。
商业化落地难题
传统机器人系统
-
控制系统不精确:基于 Model Based 方案简化系统,难以对外部扰动建模(Traditional Control System )。
-
模型参数难自适应:传统控制算法参数无法自整定,需切换系统设计(Auto Tunning )。
-
开发周期长:新控制系统设计需完整流程,包括建模、辨识、设计、开发、调参、迭代(New System )。
人形机器人
-
操作交互难:精确操作和与物理世界交互困难,移动、转移物品难度大、精度差(Manipulation Complex )。
-
任务适应难:需具备持续学习能力以满足柔性作业及多样化、长程、组合任务需求(Mission Complex )。
-
智能化实现难:当前智能程度远不及人类 30%,真正可落地的智能对数据和模型要求极高(True Intelligence )。
人形机器人发展分析
产量预测与通用化趋势
预计 2026 年人形机器人将进入通用化时刻,达到 10 万台的生产或销售门槛,摆脱特定领域专用限制,广泛应用于不同场景。2015 - 2024 年中国工业机器人产量持续增长,2024 年产量达 55.64 亿台。根据马斯克在 2025 年 1 月 12 日 CES 访谈,特斯拉 Optimus 人形机器人未来三年产量计划为:2025 年生产几千台并在工厂测试;2026 年若测试顺利,产量增至 5 - 10 万台;2027 年产量再增 10 倍达 50 万台,未来人形机器人与人类比例或达 5:1,全球将有 300 亿台运行。
双足人形机器人发展
Figure 终止与 OpenAI 合作协议,在全端到端机器人 AI 取得重大突破,将在未来 30 天展示人形机器人领域前所未有的成果。相关技术涉及 OpenAI 模型、神经网络策略、全身控制器等,还有用于导航的 NaVILA 模型(Legged Robot Vision-Language-Action Model )
马斯克在 CES2025 预测
-
AI:2024 年耗尽人类知识数据,接管除体力劳动外的脑力活动,引发人类思考未来工作方向。
-
人形机器人:2026 年 5 - 10 万台,2027 年 50 万台,助力人类进入高收入时代,实现工作选择自由。
-
脑机:已有三位植入患者运行良好,2025 年计划为 20 - 30 位患者植入升级版设备,使人接管虚拟世界,创造人类与 AI 共生关系。
-
火星:未来两年送无人飞船赴火星测试安全着陆,之后每两年开展一次任务,目标在 2030 年让人类成为多行星文明探索者。
-
自动驾驶:每天处理超 1 亿次人工干预数据,2025 年第二季度实现安全性超人类驾驶员十倍,影响城市治理和土地规划。
-
人类命运思考:AI 和机器人取代工作后,人类进入高收入时代,引发对生命意义的思考,推动社会转型。
具身智能产品能力要求
具身智能产品需具备软硬一体化能力,涵盖跑的快(如宇树科技小型人形 G1 高速奔跑 )、拿的准(如 1x EVE 在大模型加持下精准作业 )、训的好(如 Optimus 在实训场训练技能 )、通用化(如具备控制任何机器人的通用大脑 )等方面,打造融合多家技术的产品是软硬一体化终极难题。
未来 1 - 3 年头部公司走向
- 赛道:以具身智能为主线,打造人形机器人通用产品,借助大训练场加速数据产出与场景闭环。
- 预测:硬件平台公司预计留存 20%,少于 10 家高性能全尺寸整机公司;具身智能公司考验软硬件能力,纯软件公司将被洗牌;数据集是关键技术,开源开放促人形机器人推广;训练场成 AI 时代数据工厂,催生新商业模式;芯片和操作系统将成重要竞争赛道。
- 热点与新事件:2023 年人形机器人整机受关注,2024 年具身智能机器人成焦点;新事件包括 google 量子芯片 Willow 等。
- 2025 年预计:人形机器人产量元年,3 - 5 家企业进入 1000 台套订单俱乐部;世界基础通用模型元年,超 10 家公司进入机器人大模型俱乐部 ;SoC 芯片和 GPU 操作系统成新增长点;具身智能与核心零部件结合;场景落地尚需时日,以 10 - 100 台套级别机器人示范园为主。