当前位置：首页 > news >正文

BridgeVLA 算法：3D 操作学习的 VLM 对齐新范式

news 2025/11/11 10:26:43

BridgeVLA 算法：3D 操作学习的 VLM 对齐新范式
一、算法概述
 BridgeVLA是由中科院自动化所与字节跳动 Seed 团队共同开发的 3D 视觉 - 语言 - 动作 (VLA) 模型，旨在解决传统 VLM 与 3D 机器人操作间的输入输出不对齐问题，实现高效、泛化的 3D 操作学习。该模型在 CVPR 2025 GRAIL workshop 的 COLOSSEUM 挑战赛中获得冠军，真实机器人实验性能提升 32%，仅需 3-5 条轨迹即可达到 96.8% 的任务成功率，开创了 "少样本 3D 操作" 新范式。 
二、核心问题与解决方案
1. 核心痛点
传统 VLA 模型面临两大困境： 
输入不匹配：VLM 接受 2D 图像输入，而 3D 操作需要处理 3D 点云
输出不匹配：VLM 输出文本 tokens，而 3D 操作需要预测 6-DoF 位姿、夹持器状态等结构化动作
2. 解决方案
 BridgeVLA 的核心思想是 "输入 - 输出对齐"，通过两个创新点实现： 
输入对齐：将 3D 点云渲染为多视角 2D 图像，匹配 VLM 输入
输出对齐：将动作预测转换为 2D 热图，统一输入输出空间
三、算法架构与工作流程
1. 整体架构
 组件功能
3D 输入处理将点云渲染为三视角 (顶、前、右) 2D 图像
VLM 主干PaliGemma (SigLIP+Gemma Transformer)，处理图像和文本指令
2D 热图预测输出三视角热图，指示末端执行器目标位置
3D 动作解码反投影热图到 3D 空间，预测位姿、夹持器状态等
执行控制通过运动规划器执行预测动作，迭代优化
 
2. 工作流程
 Step 1: 3D→2D 投影 
RGB-D 相机获取场景点云
渲染为三个正交视图 (顶、前、右)，与文本指令一起输入 VLM
 Step 2: 2D 热图预测 
VLM 处理输入，输出图像 tokens
重组为空间特征网格，通过凸上采样生成三视角热图
热图高亮显示各视角中末端执行器目标位置
 Step 3: 2D→3D 反投影 
每个热图独立反投影到 3D 工作空间网格
计算每个 3D 点在各视角的得分，选取得分最高的点作为平移目标
旋转、夹持器状态等通过 MLP 预测，基于全局和局部特征融合
 Step 4: 动作执行与优化 
使用运动规划器执行预测的关键帧动作
采用 "粗到精" 策略：先全局预测，再在感兴趣区域细化，提高精度
迭代执行直到任务完成或达到最大步数
四、训练流程：两阶段学习
1. 第一阶段：2D 热图预训练
 目标：赋予 VLM 空间感知能力，学会预测物体位置热图 
输入：图像 + 文本 (描述目标物体)
输出：与输入图像同分辨率的热图，物体中心处概率最高
训练数据：目标检测数据集 (如 COCO)
损失函数：预测热图与 GT 热图的交叉熵
 关键创新：不同于传统 VLM 的 "next token prediction"，改为空间热图预测，使模型具备几何理解能力 
2. 第二阶段：3D 动作微调
 目标：将预训练的空间感知能力迁移到 3D 操作任务 
输入：3D 点云 (多视角投影)+ 操作指令
输出：末端执行器 6-DoF 位姿、夹持器状态、碰撞标志
训练数据：机器人操作轨迹 (每个任务仅需 3-5 条)
损失函数：多组件联合损失 (热图损失 + 旋转损失 + 夹持器状态损失 + 碰撞损失)
五、核心创新点
 "输入 - 输出双对齐" 机制： 
统一 3D 操作的输入输出于 2D 图像空间，无缝衔接预训练 VLM
解决了传统 3D VLA 模型输入输出模态不匹配的根本问题
 "2D 热图→3D 动作" 转换范式： 
用热图替代传统的 "token 序列" 作为动作表示
使模型输出具有明确空间语义，更适合机器人操作任务
 超高效样本学习： 
仅需 3-5 条轨迹即可达到 96.8% 任务成功率，远超传统模型 (需百条以上)
在 RLBench、COLOSSEUM、GemBench 等基准测试中大幅超越 SOTA (平均提升 6-7%)
 强大泛化与鲁棒性： 
在视觉干扰 (光照、背景、干扰物) 和未见任务中表现卓越，比 RVT-2 提升 32%
预训练的物体定位能力在微调后保持，实现知识迁移
六、应用场景
机器人操作：装配、抓取放置、精密操作等
工业自动化：生产线任务执行与调整
家庭服务机器人：智能家电操作、物品整理
医疗微创手术：精准器械控制
人机协作：在人类指导下完成复杂任务
七、性能表现
1. 仿真实验
 基准测试BridgeVLA对比 SOTA (RVT-2)提升
RLBench88.2%81.4%+6.8%
COLOSSEUM64.0%56.7%+7.3%
GemBench50.0%48.0%+2.0%
 
 特别优势：在需要高精度对齐的任务 (如 "Insert Peg"、"Sort Shape") 中表现尤为突出 
2. 真实机器人实验
在 13 种不同操作任务中，7 种设置里 6 种优于 RVT-2
在视觉干扰 (干扰物、光照、背景变化) 和未见任务 (新物体 - 技能组合) 中，平均提升 32%
在仅提供 3 条轨迹的情况下，10 + 任务成功率达 96.8%，展现 "小样本学习" 强大能力
八、总结
 BridgeVLA 通过 "输入 - 输出对齐" 这一简洁而强大的思路，成功架起了 VLM 与 3D 操作之间的桥梁，开创了 "少样本 3D VLA" 的新范式。其创新的 2D 热图机制不仅解决了模态不匹配问题，还赋予模型更强的空间理解能力，使机器人能以惊人的样本效率学习复杂操作。 
 注：该算法已开源，代码和模型可在 GitHub (https://github.com/bridgevla/bridgevla) 和项目主页 (https://bridgevla.github.io/) 获取。 

组件	功能
3D 输入处理	将点云渲染为三视角 (顶、前、右) 2D 图像
VLM 主干	PaliGemma (SigLIP+Gemma Transformer)，处理图像和文本指令
2D 热图预测	输出三视角热图，指示末端执行器目标位置
3D 动作解码	反投影热图到 3D 空间，预测位姿、夹持器状态等
执行控制	通过运动规划器执行预测动作，迭代优化