当前位置: 首页 > news >正文

具身智能梳理以及展望

具身智能相关技术与发展历程

具身智能概念

具身智能指具有自身体验、改变物理世界的智能。

过去 5.4 亿年,地球所有生物智能由身体作用于世界的行为塑造。

1950 年,图灵在《Computing Machinery and Intelligence》论文中首次提出具身智能(Embodied Intelligences)概念。

论文链接:

https://courses.cs.umbc.edu/471/papers/turing.pdf

里程碑事件

2016 - 2017 年:DeepMind 火柴棍机器人研究

  • 论文一(2017):《Emergence of Locomotion Behaviours in Rich Environments》,通过策略梯度强化学习新变体,让智能体在无明确奖励指示下学习奔跑、跳跃等行为。

  • 论文二:《Learning human behaviors from motion capture by adversarial imitation》,利用对抗式模仿学习,根据有限示例生成人类相似动作模式,解决强化学习动作僵硬问题。

  • 论文三:《Robust Imitation of Diverse Behaviors》,提出生成对抗模仿学习(GAIL ),使监督方法可一次性模拟学习,从更少示例进行更鲁棒控制学习。

2019 - 2022 年:ETH 预训练框架及相关研究

  • 2019 年:ETH 击败波士顿动力获 Darpa 冠军,相关论文《Learning agile and dynamic motor skills for legged robots. Science Robotics》入选 Nature2019 年度十大杰出论文,通过神经网络建立电机模型解决仿真到实物迁移问题。

  • 2020 年:论文《Learning quadrupedal locomotion over challenging terrain. Science Robotics》为 Science Robotics 2020 年 10 月封面文章,利用 teacher - student 结构进行预训练。

  • 2022 年:论文《Learning robust perceptive locomotion for quadrupedal robots in the wild》获得 DARPA 地下挑战赛冠军,利用 belief encoder 做本体感受融合。

2022 年:NVIDIA 和 ETH 建立具身智能基础软件 ISAAC

ISAAC 是世界首个端到端的动力学仿真分析软件,使用 NVIDIA 的 Isaac Gym 仿真环境在 GPU 上并行模拟数千个机器人,被评为 “2022 年世界十大智能制造科技进展” 。

2025 年:Helix 快 - 慢系统融合新思路

Helix 首创 “S1 快系统,S2 慢系统” 的 VLA 模型,用于控制人形上半身。同时,Gemini Robotics、英伟达 GROOT N1 采用类似架构,预计成研究热点。

具身智能领域主流技术路线

机器人智驾大模型

主要解决电动车、无人系统或机器人导航与路径规划,以全端到端方式实现车辆智能驾驶。

机器人操作大模型

解决配置机械臂等移动机器人操作能力问题,特征是机器人基础模型(RFMs) 。

人形机器人分层策略模型

采用 “上层任务规划 + 下层操作策略” 分层策略,重点解决人形机器人边走边作业问题。

人形机器人基础通用模型

实现人形机器人 “感知 - 抓取 - 动作” 一体化训练和推理,将文本、语音、视频等作为输入。

机器人基础模型面临挑战

  • 整合多样的数据源:利用预训练视觉 - 语言模型导入互联网规模经验,进一步训练整合机器人动作形成视觉 - 语言 - 动作模型,采用跨化身训练合并多种机器人数据。以 RDT 为例解决数据异构性问题。

  • 模型架构:为执行复杂物理任务,采用带有流匹配(通过学习概率流转换数据分布) 、动作分块(分解动作序列提高效率准确性) 、表示复杂连续动作分布(以高频率控制机器人)等方法。

  • 大规模预训练:在大规模多样化语料库预训练,再在精心策划数据上微调导出所需行为模式。

模型视觉编码器文本编码器状态编码器基座模型动作预测方式模型参数量是否开源
GR - 2VQGAN - EncoderCLIPMLPGPT - styleVQGAN - Decoder 指导的 MLP 预测230M否(GR - 1 只开源验证)
RDT - 1BSigLIP - 400MT5 - XXLMLPDITDiffusion1.2B
π0SigLIP - 400MGemma TokenizerMLPVLM PaliGemmaDiffusion(基于 action expert 的 flow matching diffusion)3B

 

国际相关模型

  1. Physical Intelligence:机器人基础模型 π0(pi - zero) 。
  2. Skild AI:Skild Brain 的机器人基础模型。
  3. Covariant:首个机器人通用基础模型 RFM - 1(Robot Foundation Model - 1) 。
  4. Deepmind:通用机器人大模型 RT - X。

国内相关模型

  1. 穹彻智能:穹彻具身大脑(Noematrix Brain),含实体世界大模型和机器人行为大模型。
  2. 清华大学 AI 研究院:RDT(Robotics Diffusion Transformer)双臂机器人操作任务扩散基础模型 。
  3. 灵初智能:基于强化学习的端到端具身模型 Psi R0。
  4. 自变量机器人(X Square):Great Wall 操作大模型。
  5. 星海图:具身基础模型(Embodied Foundation Model, EFM) 。
  6. 银河通用:操作大模型 SAGE。
  7. 星动纪元:ERA - 42 端到端原生机器人大模型。
  8. 字节跳动:GR - 2(Generative Robot 2.0) 。

技术路线 3:人形机器人分层策略模型

通过建立 “足 - 地” 接触力权重调节、长短期历史反馈控制器和机器人高维状态识别神经网络,可在复杂地形下并行训练和实现鲁棒控制。调节因素包括触地状态、地形信息、电机参数等,涉及奖励函数如线速度、角速度等计算。该方法解决了国际常用 “预训练 + 知识蒸馏” 两步走强化学习策略信息损失问题,提升数据利用率与迁移效果,在青龙人形机器人上成功应用。

利用 OpenAI 大模型赋能,

第一层 Open AI model 用于交互、理解、记忆、存储,为机器人提供强大短期记忆;

第二层 Neural Network Policies 基于 transformer 的视觉 - 运动变换策略,将像素映射到动作;

第三层 Whole Body Control 负责安全、稳定控制,为全身控制器提供 “设定点” 。

国际相关模型

  1. 特斯拉 Optimus 人形机器人:采用 FSD + 规划控制。

  2. Figure 公司 Figure01 人形机器人:运用 “策略 + 环境 + 行为” 分层架构控制方案。

  3. Boston Dynamics 电驱动 Atlas 人形机器人:采用动态分层强化学习算法。

国内相关模型

  1. 国地共建人形机器人创新中心青龙人形机器人:采用 “书生大模型 + 运动层 + 行为层” 的分层架构控制方案。

  2. 智元新创人形机器人:依托讯飞星火大模型联合开发;乐聚夸父人形机器人搭载华为盘古大模型,通过分层策略进行任务规划和执行。

  3. 傅利叶 GR - 1:2023 年 7 月推出,未来以通用机器人技术平台为核心实现商业化落地。

  4. 优必选人形机器人 Walker S:接入百度文心大模型,通过 “大脑大模型” 和 “小脑大模型” 配合完成任务。

  5. Cyan 青心意创人形机器人:在大语言模型加持下,具备情绪表达的自然语言交互能力和双臂操作能力。

技术路线 4:人形机器人基础通用模型

NVIDIA GROOT 项目

在 2024 GTC 上推出,是面向人形机器人的通用基础模型开发框架。需在 NVIDIA DGX 上训练模型,在 OVX 上进行实时强化学习,开发者可在 Isaac Lab 模拟(Omniverse Isaac Sim 新应用用于人形学习 ),在 OSMO(新计算编排系统用于扩展模型 )训练,并部署到 Jetson Thor(为 GROOT 提供动力的新边缘 GPU 芯片 )。

英伟达三项基础设施

  • NVIDIA DGX:作为机器人基础模型的训练框架,包含 NVIDIA AI Enterprise 软件套件,提供数据科学工具、预训练模型、优化框架等资源及企业支持,具备强大计算能力,支撑大规模 AI 模型训练。

  • NVIDIA Isaac Lab:基于 Isaac Sim 构建的机器人基础模型仿真平台,融合高精度物理和传感器仿真,提供全面机器人模型、训练环境、物理仿真和传感器仿真,支持多种机器人模型与训练环境,是从仿真到现实应用的理想选择。

  • NVIDIA Jetson Thor:计划 2025 年上半年推出,作为机器人基础模型的 “大脑” 芯片,是新一代人形机器人专用紧凑型计算平台(雷神,算力达 1000Tops) ,支持机器人感知、决策和行动,执行复杂任务。

商业化落地难题

传统机器人系统

  • 控制系统不精确:基于 Model Based 方案简化系统,难以对外部扰动建模(Traditional Control System )。

  • 模型参数难自适应:传统控制算法参数无法自整定,需切换系统设计(Auto Tunning )。

  • 开发周期长:新控制系统设计需完整流程,包括建模、辨识、设计、开发、调参、迭代(New System )。

人形机器人

  • 操作交互难:精确操作和与物理世界交互困难,移动、转移物品难度大、精度差(Manipulation Complex )。

  • 任务适应难:需具备持续学习能力以满足柔性作业及多样化、长程、组合任务需求(Mission Complex )。

  • 智能化实现难:当前智能程度远不及人类 30%,真正可落地的智能对数据和模型要求极高(True Intelligence )。

人形机器人发展分析

产量预测与通用化趋势

预计 2026 年人形机器人将进入通用化时刻,达到 10 万台的生产或销售门槛,摆脱特定领域专用限制,广泛应用于不同场景。2015 - 2024 年中国工业机器人产量持续增长,2024 年产量达 55.64 亿台。根据马斯克在 2025 年 1 月 12 日 CES 访谈,特斯拉 Optimus 人形机器人未来三年产量计划为:2025 年生产几千台并在工厂测试;2026 年若测试顺利,产量增至 5 - 10 万台;2027 年产量再增 10 倍达 50 万台,未来人形机器人与人类比例或达 5:1,全球将有 300 亿台运行。

双足人形机器人发展

Figure 终止与 OpenAI 合作协议,在全端到端机器人 AI 取得重大突破,将在未来 30 天展示人形机器人领域前所未有的成果。相关技术涉及 OpenAI 模型、神经网络策略、全身控制器等,还有用于导航的 NaVILA 模型(Legged Robot Vision-Language-Action Model ) 

马斯克在 CES2025 预测

  • AI:2024 年耗尽人类知识数据,接管除体力劳动外的脑力活动,引发人类思考未来工作方向。

  • 人形机器人:2026 年 5 - 10 万台,2027 年 50 万台,助力人类进入高收入时代,实现工作选择自由。

  • 脑机:已有三位植入患者运行良好,2025 年计划为 20 - 30 位患者植入升级版设备,使人接管虚拟世界,创造人类与 AI 共生关系。

  • 火星:未来两年送无人飞船赴火星测试安全着陆,之后每两年开展一次任务,目标在 2030 年让人类成为多行星文明探索者。

  • 自动驾驶:每天处理超 1 亿次人工干预数据,2025 年第二季度实现安全性超人类驾驶员十倍,影响城市治理和土地规划。

  • 人类命运思考:AI 和机器人取代工作后,人类进入高收入时代,引发对生命意义的思考,推动社会转型。

具身智能产品能力要求

具身智能产品需具备软硬一体化能力,涵盖跑的快(如宇树科技小型人形 G1 高速奔跑 )、拿的准(如 1x EVE 在大模型加持下精准作业 )、训的好(如 Optimus 在实训场训练技能 )、通用化(如具备控制任何机器人的通用大脑 )等方面,打造融合多家技术的产品是软硬一体化终极难题。

未来 1 - 3 年头部公司走向

  • 赛道:以具身智能为主线,打造人形机器人通用产品,借助大训练场加速数据产出与场景闭环。
  • 预测:硬件平台公司预计留存 20%,少于 10 家高性能全尺寸整机公司;具身智能公司考验软硬件能力,纯软件公司将被洗牌;数据集是关键技术,开源开放促人形机器人推广;训练场成 AI 时代数据工厂,催生新商业模式;芯片和操作系统将成重要竞争赛道。
  • 热点与新事件:2023 年人形机器人整机受关注,2024 年具身智能机器人成焦点;新事件包括 google 量子芯片 Willow 等。
  • 2025 年预计:人形机器人产量元年,3 - 5 家企业进入 1000 台套订单俱乐部;世界基础通用模型元年,超 10 家公司进入机器人大模型俱乐部 ;SoC 芯片和 GPU 操作系统成新增长点;具身智能与核心零部件结合;场景落地尚需时日,以 10 - 100 台套级别机器人示范园为主。

相关文章:

  • 读入csv文件写入MySQL
  • 《AI大模型应知应会100篇》第64篇:构建你的第一个大模型 Chatbot
  • 鸿蒙OSUniApp 开发实时聊天页面的最佳实践与实现#三方框架 #Uniapp
  • FFmpeg 与 C++ 构建音视频处理全链路实战(五)—— 音视频编码与封装
  • 【MySQL 基础篇】深入解析MySQL逻辑架构与查询执行流程
  • 苹果处理器“仿生“命名背后的营销策略与技术创新
  • 最短路和拓扑排序知识点
  • 零基础学Java——第十一章:实战项目 - 桌面应用开发(JavaFX入门)
  • How Sam‘s Club nudge customers into buying more
  • 【IPMV】图像处理与机器视觉:Lec11 Keypoint Features and Corners
  • 开源 Web Shell 工具
  • C语言学习之文件操作
  • zookeeper本地部署
  • 12-串口外设
  • Flutter到HarmonyOS Next 的跨越:memory_info库的鸿蒙适配之旅
  • 本地测试远程DM达梦数据库连接(使用DBeaver)
  • 砷化镓太阳能电池:开启多元领域能源新篇
  • 印刷业直角坐标型码垛机器人系统设计与应用研究
  • sql server 2019 将单用户状态修改为多用户状态
  • C++学习之打车软件git版本控制
  • 人民日报:从“轻微免罚”看涉企执法方式转变
  • 崔登荣任国家游泳队总教练
  • 福建厦门市副市长、市公安局局长陈育煌出任吉林省公安厅厅长
  • “远践”项目启动公益生态圈,上海青少年公益力量蓬勃生长
  • 智能手表眼镜等存泄密隐患,国安部提醒:严禁在涉密场所使用
  • 牛市早报|中美日内瓦经贸会谈联合声明公布