当前位置: 首页 > news >正文

安徽省水利建设厅官方网站别墅设计

安徽省水利建设厅官方网站,别墅设计,查询工商营业执照,wordpress 注销π0.5 论文 通过异构数据协同训练与分层推理,用中等规模的目标数据(400小时)实现了大规模泛化能力,为现实世界机器人学习提供了新范式。 高层推理(high-level) 根据当前观测和任务指令预测子任务(如“打开抽屉”&…

π0.5 论文
通过异构数据协同训练与分层推理,用中等规模的目标数据(400小时)实现了大规模泛化能力,为现实世界机器人学习提供了新范式。
在这里插入图片描述
在这里插入图片描述
高层推理(high-level) 根据当前观测和任务指令预测子任务(如“打开抽屉”)。低层推理(low-level) 基于当前观测和子任务生成具体动作序列。低级推理动作能够受益于其他机器人收集的数据;高级推理能从网络上的语义示例,高级注释预测中受益。

  • 输入:多摄像头图像、语言指令、机器人本体状态(关节位姿)。
  • 输出:高层语义子任务(文本 token)和底层动作序列(连续向量)。
  • 模态交互:图像通过视觉编码器嵌入,文本和动作通过独立编码器处理,通过双向注意力机制(不同于 LLM 的因果注意力)交互。
  • 动作专家(Action Expert:专用于 flow matching 的小型 Transformer,生成高精度连续动作。
  • 注意力掩码:限制动作 token 与文本/图像 token 的单向信息流,避免信息泄露。
    在这里插入图片描述

模型的核心分布为 π θ ( a t : t + H , ℓ ^ ∣ o t , ℓ ) \pi_{\theta}(\mathbf{a}_{t:t+H},\hat{\ell}|\mathbf{o}_{t},\ell) πθ(at:t+H,^ot,) 其中 ℓ \ell 是整体任务提示, ℓ ^ \hat{\ell} ^ 是各个子任务的提示。
将联合分布拆解为高层次和低层次两个子任务:
π θ ( a t : t + H , ℓ ^ ∣ o t , ℓ ) = π θ ( a t : t + H ∣ o t , ℓ ^ ) π θ ( ℓ ^ ∣ o t , ℓ ) \pi_\theta(\mathbf{a}_{t:t+H},\hat{\ell}\left|\mathbf{o}_t,\ell\right)=\pi_\theta(\mathbf{a}_{t:t+H}\left|\mathbf{o}_t,\hat{\ell}\right.)\pi_\theta(\hat{\ell}\left|\mathbf{o}_t,\ell\right) πθ(at:t+H,^ot,)=πθ(at:t+H ot,^)πθ(^ot,)
动作的 token 采用 π 0 − f a s t \pi_0-fast π0fast 的 token,但这种离散化表示不适合实时推理,因为需要昂贵的自回归解码推理,故而提出了一个结合 FAST 分词器和迭代整合流场来预测动作:
min ⁡ θ E D , τ , ω [ H ( x 1 : M , f θ l ( o t , l ) ) ⏟ 文本token交叉熵损失 + α ∥ ω − a t : t + H − f θ a ( a t : t + H τ , ω , o t , l ) ∥ 2 ⏟ 流匹配MSE损失 ] \min_{\theta}\mathbb{E}_{D,\tau,\omega}\left[\underbrace{\mathcal{H}(x_{1:M},f_{\theta}^{l}(o_{t},l))}_{\text{文本token交叉熵损失}}+\alpha\underbrace{\|\omega-a_{t:t+H}-f_{\theta}^{a}(a_{t:t+H}^{\tau,\omega},o_{t},l)\|^{2}}_{\text{流匹配MSE损失}}\right] θminED,τ,ω 文本token交叉熵损失 H(x1:M,fθl(ot,l))+α流匹配MSE损失 ωat:t+Hfθa(at:t+Hτ,ω,ot,l)2
阶段一:预训练(VLM模式)

  • 仅使用文本token损失(α=0)
  • 将动作视为特殊文本 token(FAST编码),继承语言模型强语义能力
  • 采用 <control mode> joint/end effector 区分末端执行器和关节
  • 各数据集动作维度单独归一化至 [-1,1](采用1%与99%分位数)
数据类型符号数据量关键特性作用
移动机械臂家庭数据MM400小时100+真实家庭环境,清洁/整理任务(图7)目标场景直接适配
多环境静态机械臂数据ME跨200+家庭轻量化单/双机械臂,安装于固定平台增强物体操作多样性
跨本体实验室数据CE含OXE数据集桌面任务(叠衣/餐具收纳等)+移动/固定基座机器人迁移无关场景技能(如咖啡研磨)
高层子任务标注数据HL全数据集标注人工标注原子子任务(如"拾取枕头")+关联定位框实现分层推理能力
多模态网络数据WD百万级样本图像描述(COCO)、问答(VQAv2)、室内场景物体检测(扩展标注)注入语义先验知识

阶段二:微调(混合模式

  • 引入动作专家分支,逐步提升α
  • 流匹配分支从文本 token 条件生成动作,建立语言-动作关联

推理流程

  1. 自回归解码:生成语义子任务 ℓ ^ \hat{\ell} ^(如“拿起盘子”)
  2. 条件去噪:基于 ℓ ^ \hat{\ell} ^ 执行10步流匹配去噪,输出连续动作 a t : t + H a_{t:t+H} at:t+H

实验结果

Q1: π 0.5 \pi_{0.5} π0.5 能否有效泛化到全新环境中的复杂多阶段任务?
在三个未曾见过的真实环境中,使用两种类型的机器人,每个机器人被指示执行卧室和厨房的清洁任务。比较了大致对应于每个任务成功完成的步骤百分比。
在这里插入图片描述
A!: 能够在各种家庭任务中持续取得成功。泛化水平超过了以往的 VLA 模型。

Q2: π 0.5 \pi_{0.5} π0.5 泛化能力随训练数据中不同环境的数量如何变化?
在这里插入图片描述
在这里插入图片描述
A2:随着训练位置的增加,任务之间的平均表现通常会有所提高。随着训练数据中地点数量的增加,语言跟随表现和成功率都有所提高。

Q3: π 0.5 \pi_{0.5} π0.5 各个共同训练成分对最终性能的贡献如何?
在这里插入图片描述
在这里插入图片描述
A3: π 0.5 \pi_{0.5} π0.5 从跨刚体(ME和CE)转移中获得了相当大的好处。移除网络数据(WD)会导致模型在处理异常分布(OOD)对象时表现显著变差。

Q4: π 0.5 \pi_{0.5} π0.5 π 0 V L A \pi_0 VLA π0VLA 相比?
在这里插入图片描述
A4: π 0.5 \pi_{0.5} π0.5 显著优于 π 0 \pi_0 π0 以及增强版本 p i 0 − pi_0- pi0-FAST+FLOW。 π 0 \pi_0 π0-FAST+FLOW 是按照混合训练设置的,但仅用包含机器人动作的数据进行训练,因此无法执行高层次推理。

Q5: π 0.5 \pi_{0.5} π0.5 的高层推理组件有多重要?与单一的低层次推理以及显式的高层基线相比如何?
在这里插入图片描述

不足之处

  • π 0.5 \pi_{0.5} π0.5 虽然展示了广泛的泛化能力,但在某些环境中仍存在挑战,如不熟悉的抽屉把手或机器人难以打开的橱柜。
  • 一些行为在部分可观测性方面存在挑战,比如:机器人手臂遮挡了应该擦拭的溢出物。
  • 在某些情况下,高层子任务推理容易分心,比如:在收拾物品时多次关闭和打开抽屉。
    目前仅能处理的是相对简单的提示。
http://www.dtcms.com/a/495743.html

相关文章:

  • PolarDB Supabase 助力 Qoder、Cursor、Bolt.diy 完成 VibeCoding 最后一公里
  • 旅游网站开发指导350模板网
  • Nginx 基本使用和高级用法详解
  • 移位操作符
  • vue3实现两个shp文件同时展示
  • 黄埔企业网站建设东莞住建局电话是多少
  • python+uniapp基于微信小程序的学院设备报修系统
  • 【项目部署】JavaWeb、MavenJavaWeb项目部署至 Tomcat 的实现方式
  • 付费网站搭建如何评价一个网站做的是否好
  • 360网站排名怎么做南京app软件开发
  • 时序数据库全面重构指南
  • 标签之表格._单元格合并(本文为个人学习笔记,内容整理自哔哩哔哩UP主【非学者勿扰】的公开课程。 > 所有知识点归属原作者,仅作非商业用途分享)
  • Linux小课堂: 文件操作核心命令深度解析(cat、less、head、tail、touch 与 mkdir 命令)
  • Docker赋能SkyEye云部署:解锁嵌入式仿真测试新效率,赋能企业研发加速
  • docker部署MySQL主从服务集群
  • 网站推广可采用的方法有哪些毕设做网站难吗
  • 方案图网站西安网站建设设计的好公司哪家好
  • 邻接矩阵的基本操作
  • 【JavaEE初阶】1124网络原理
  • 烟台建网站公司南昌做网站哪家公司好
  • windows安装minicoda
  • 网站能否做二维码什么是网络营销产生的技术基础
  • 自己的网站怎么做排名网络营销有必要学吗
  • 关于太阳光模拟器的常见问题解答(二)
  • 模拟量线性变换FC_S_ITR函数(基恩士PLC完整ST代码)
  • MCP(模型上下文协议)是什么?是AI 时代的 “USB-C”
  • 数字企业选哪家
  • 视程空间Pandora:终端算力破晓,赋能边缘计算未
  • Visual Basic 参数传送-形参与实参
  • 机器视觉的电路板字符缺陷检测应用