当前位置：首页 > news >正文

论文笔记：π0.5 (PI 0.5)KI改进版

news 2025/10/14 10:19:16

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Bette

Pi0.5论文：https://www.physicalintelligence.company/download/pi05.pdf

Pi0.5 KI改进版论文：

pi0论文：https://arxiv.org/abs/2410.24164

代码：https://github.com/Physical-Intelligence/openpi

知识隔离（knowledge insulation）

解决问题：依赖来自连续适配器（如扩散头）的梯度作为训练信号，会削弱模型解析语言指令的能力，并导致最终生成的视觉语言动作（VLA）策略的整体性能下降。

知识隔离的核心思想在于：在通过离散化动作对视觉语言模型主干进行微调的同时，适配一个能够生成连续动作的行动专家模块（例如通过流匹配或扩散方法实现），并阻止该模块的梯度回传至视觉语言模型主干。

离散动作令牌提供了一种不受行动专家未初始化权重影响的替代学习信号，这使得视觉语言模型能够学习适用于机器人控制的表征，同时又避免了来自行动专家的梯度可能造成的干扰。

知识隔离的优势：

1.采用next-token预测机制使模型能够以更快速度和更高稳定性进行学习;

2.行动专家模块的引入仍能保证高效的推理速度;

3.方案实现了在通用视觉语言数据上的协同训练，从而将视觉语言行动模型的优势重新注入到我们的架构中。

简单的说就是训练的时候动作专家模块的训练梯度与VLM训练梯度隔离，上图中右边动作专家算法模块的梯度不回传给VLM。

通过协同训练、联合训练与知识隔离提升视觉语言动作模型性能

提出的创新方法：

1.联合训练：通过联合训练方式，使模型同时学习自回归与流匹配两种动作预测目标。该模型利用（规模更小的）动作专家模块生成连续动作，以实现测试时的高速推理。自回归目标仅在训练阶段作为表征学习目标使用，该机制能显著提升模型的训练速度。

2.协同训练：通过在通用视觉语言数据与机器人规划数据等非动作数据集上的协同训练，确保模型在适配视觉语言动作模型时能最大程度保留其原有知识体系。

3.知识隔离：通过阻断动作专家模块与主干网络权重之间的梯度传播路径，我们在将预训练视觉语言模型适配为视觉语言动作模型时，可确保新初始化的动作专家权重不会干扰预训练权重的知识结构。

协同训练 & 联合离散/连续动作预测的表征学习：

协同训练的loss计算公式

自回归部分的loss（应该是VLM部分）公式：

用作action预测的流匹配部分的loss计算公式：

协同训练的loss计算公式就是把自回归的和流匹配的加在一起。

α为损失乘数，用于权衡通过流匹配实现的动作预测损失与标准语言建模损失之间的关系

Mℓ为语言损失掩码（用于标识应在令牌流的哪些位置施加语言损失）

Mact是一个动作掩码指示符，用于规定在给定样本条件下是否应预测动作。

知识隔离&梯度控制

由于知识隔离机制，动作专家模块的梯度不能传送给VLM部分的backbone,所以专家模块的梯度仅在注意力层与VLM的梯度进行交互

因此修改了注意力层的算法为：

x 为注意力层的输入，Q、 K是注意力层的query 和key的投影向量，A 是掩码

Pbb来自视觉语言模型（VLM）主干的特征对主干特征的注意力概率

Pab动作专家特征对主干特征的注意力概率

Paa动作专家特征对其他动作专家特征的注意力概率

基于此，可以通过以下方式实现softmax计算，从而按需限制信息流：

其中sg表示梯度截断操作符，用于阻断计算图中该部分的梯度回流。Xb对应所有通过主干网络权重处理的特征xi，Xa则表示通过动作专家权重处理的令牌。

随后通过以下公式计算值嵌入：

最终注意力是

attn⁢(X)=P⁢E

这一设计还有个额外优势：由于扩散损失项现在作用于独立的权重集，我们可以直接将公式中的α参数设为1。

查看全文

http://www.dtcms.com/a/478804.html

【005】人个日程安排管理系统

网站建设北京做网站有必要用wordpress

怎么做wp网站网上商城开发网站建设

Android Framework开机动画开发

香港大学等提出增量天气预报模型VA-MoE，参数精简 75% 仍达 SOTA 性能

北京企业建站服务中企论坛排名

江门网站推广排名江苏省网站备案系统

Shuffle产生的三种场景

公司网站制作的公司百度排名工具

攻防世界-Web-shrine

arkTs：UIAbility 生命周期（补充版）

wordpress 首页导航代码广告网站建设网站排名优化

Synwit UI Creator中文输入法移植指南

wordpress tag生成的链接乱张家港优化网站seo

中天建设集团网站wordpress显示不了图片

【React】19.2 新特性全面解析：并发优化与性能提升指南

SALSITA AI：3D产品演示、安装动态过程展示

网站建设国内现状松原网站推广

东营区建设局网站湛江城乡建设局网站

多制式基站综合测试线的架构与验证实践（2）

基于单片机智能水产养殖系统设计（论文+源码）

关于STM32L051单片机(Stop)休眠唤醒后初始化USART2，单片机死机问题

做网站的一些好处科技类网站简介怎么做

xgboost参数含义以及应付金融数据中的类别不平衡的套路

养殖类网站模板建筑设计网站排行榜

Cursor 对话技巧【Prompt 模板与全局通用规则】

按键控制LED灯

打工人日报#202510012

网站备案做网站东莞有互联网企业吗

涪城移动网站建设如何自己学建设网站

论文笔记：π0.5 (PI 0.5)KI改进版

知识隔离（knowledge insulation）

相关工作

多模态大语言模型方面：

视觉语言动作模型（VLAS）方面：

快速、连续解码机制VLAs方面：

π0、π0.5：

通过协同训练、联合训练与知识隔离提升视觉语言动作模型性能

协同训练 & 联合离散/连续动作预测的表征学习：

知识隔离&梯度控制

相关文章：