当前位置: 首页 > news >正文

具身智能π0.5(pi0.5)模型介绍

原文发表在知乎,辛苦移步~:具身智能π0.5(pi0.5)模型介绍

大概半年前学习过pi0与pi0.5模型,那时候pi0.5还没有开源,现在pi0.5开源了(2025.9月),先研究了一下它的代码,笔记如下。此文主要基于lerobot的代码(git链接)阅读而来,同时也参考官方代码(git链接)。

pi0与pi0.5在模型结构上的区别
看到pi0.5后,第一个会想到的是,它与pi0(π0模型前向推理过程详解, π 0模型数据-训练-评测过程)相比的升级点在哪里。以前pi0.5代码没有开源的时候,也写过一篇文章总结区别(π0.5与π0区别),但这个总结偏宏观,更多是通过论文总结的。但在此文中,对比会更细节一些。

主要区别总结:

状态处理:
pi0: 显式地将机器人的本体感受状态state(如关节角度)作为输入。它有一个state_proj层,用于将状态向量投影到模型的嵌入空间中,与50维action chunk拼在一起,形成一个51维的embedding,然后在action expert中使用。

pi05: 将state放在VLM中使用,使用方法可以参考下文章节:pi0.5的输入处理。而action expert中不再使用state。

时间步(Timestep)调节机制:
pi0: 将时间步嵌入(time embedding)与动作嵌入(action embedding)简单地拼接(concatenate)在一起,然后通过一个MLP层进行处理。pi05: 使用了一种更先进的机制,即GemmaRMSNorm。它将时间步嵌入作为条件,在Transformer的每一层动态地调节归一化层(Layer Normalization)。这允许模型在生成动作的不同阶段(denoising step)具有不同的行为,是一种更精细的调节方式。关于GemmaRMSNorm在下文有详细的说明。

tokenizer:
pi0: 在tokenizer层面没有改变,用的默认paligemma的tokenizer。

pi05: 在预训练时,输入是语言指令+state(下文有介绍),通过vlm的自回归输出动作token的初步预测,以加快收敛。所以这时需要将action编码成token。pi0.5复用了pi0-fast中的fast tokenizer技术。

原理参考:【VLA系列】Pi0-FAST,统一具身智能的动作Tokenization训练加速5倍。代码参考:可在hugging face上下载physical-intelligence/fast模型后,在里面有一个processing_action_tokenizer.py中有它的代码实现。

上面是主要的三点不同,下面在前两个不同点之上,展开讲一讲。

http://www.dtcms.com/a/533865.html

相关文章:

  • 阿里巴巴网站怎么做才能排第一第三次网站建设的通报
  • 智能网站建设维护ui界面设计案例分析
  • 数据结构与算法:倍增算法和ST表
  • 龙港做网页网站制作aws ec2安装wordpress
  • 做标书网站微慕WordPress开发
  • 郑州网站公司排名做网站难吗?
  • 织梦cms建设企业网站哪个cms方便快速建站
  • 下载软件的网站推荐wordpress邮件验证评论
  • 小江高端网站建设深圳网站制作公司人才招聘
  • 如何修改一个网站的后台登陆系统论坛网站建设开源工具
  • Onenet_ESP32移植手册
  • 平面设计素材网站大全成都app拉新工作室加盟
  • 卡盟网站制作教程苏州专业网站建设的公司
  • 做网站找哪家公司好网站排名易下拉刷词
  • conda 命令使用进阶指南 minconda
  • 南充市住房建设局网站网站商城系统建设
  • 定制企业网站多少钱外贸是什么意思
  • 镇江网站关键字优化如何开发网站比较好的公司
  • Ubuntu安装开源堡垒机JumpServer
  • 平台网站 备案吗网站建设大赛
  • 校园网站html模板wordpress 正在执行维护
  • 公司网站开发费进什么费用确定网站主题
  • 机械设备如何做网站免费psd素材网站
  • 哈尔滨网站建设推广做网站所用的工具
  • 网站开发平台的定义在东莞做网站
  • Docker容器部署方法
  • 专业手机网站建设价格手机域名注册网站
  • 济南企业网站建设哪家好百度手机seo
  • Python基于深度学习的短视频内容理解与推荐系统【附源码、文档说明】
  • 怎样把自己做的网页放在网站里建设银行网站怎么先无贷款呢