BridgeVLA是由中科院自动化所与字节跳动 Seed 团队共同开发的 3D 视觉 - 语言 - 动作 (VLA) 模型,旨在解决传统 VLM 与 3D 机器人操作间的输入输出不对齐问题,实现高效、泛化的 3D 操作学习。该模型在 CVPR 2025 GRAIL workshop 的 COLOSSEUM 挑战赛中获得冠军,真实机器人实验性能提升 32%,仅需 3-5 条轨迹即可达到 96.8% 的任务成功率,开创了 "少样本 3D 操作" 新范式。
传统 VLA 模型面临两大困境:
- 输入不匹配:VLM 接受 2D 图像输入,而 3D 操作需要处理 3D 点云
- 输出不匹配:VLM 输出文本 tokens,而 3D 操作需要预测 6-DoF 位姿、夹持器状态等结构化动作
BridgeVLA 的核心思想是 "输入 - 输出对齐",通过两个创新点实现:
- 输入对齐:将 3D 点云渲染为多视角 2D 图像,匹配 VLM 输入
- 输出对齐:将动作预测转换为 2D 热图,统一输入输出空间
Step 1: 3D→2D 投影
- RGB-D 相机获取场景点云
- 渲染为三个正交视图 (顶、前、右),与文本指令一起输入 VLM
Step 2: 2D 热图预测
- VLM 处理输入,输出图像 tokens
- 重组为空间特征网格,通过凸上采样生成三视角热图
- 热图高亮显示各视角中末端执行器目标位置
Step 3: 2D→3D 反投影
- 每个热图独立反投影到 3D 工作空间网格
- 计算每个 3D 点在各视角的得分,选取得分最高的点作为平移目标
- 旋转、夹持器状态等通过 MLP 预测,基于全局和局部特征融合
Step 4: 动作执行与优化
- 使用运动规划器执行预测的关键帧动作
- 采用 "粗到精" 策略:先全局预测,再在感兴趣区域细化,提高精度
- 迭代执行直到任务完成或达到最大步数
目标:赋予 VLM 空间感知能力,学会预测物体位置热图
- 输入:图像 + 文本 (描述目标物体)
- 输出:与输入图像同分辨率的热图,物体中心处概率最高
- 训练数据:目标检测数据集 (如 COCO)
- 损失函数:预测热图与 GT 热图的交叉熵
关键创新:不同于传统 VLM 的 "next token prediction",改为空间热图预测,使模型具备几何理解能力
目标:将预训练的空间感知能力迁移到 3D 操作任务
- 输入:3D 点云 (多视角投影)+ 操作指令
- 输出:末端执行器 6-DoF 位姿、夹持器状态、碰撞标志
- 训练数据:机器人操作轨迹 (每个任务仅需 3-5 条)
- 损失函数:多组件联合损失 (热图损失 + 旋转损失 + 夹持器状态损失 + 碰撞损失)
-
"输入 - 输出双对齐" 机制:
- 统一 3D 操作的输入输出于 2D 图像空间,无缝衔接预训练 VLM
- 解决了传统 3D VLA 模型输入输出模态不匹配的根本问题
-
"2D 热图→3D 动作" 转换范式:
- 用热图替代传统的 "token 序列" 作为动作表示
- 使模型输出具有明确空间语义,更适合机器人操作任务
-
超高效样本学习:
- 仅需 3-5 条轨迹即可达到 96.8% 任务成功率,远超传统模型 (需百条以上)
- 在 RLBench、COLOSSEUM、GemBench 等基准测试中大幅超越 SOTA (平均提升 6-7%)
-
强大泛化与鲁棒性:
- 在视觉干扰 (光照、背景、干扰物) 和未见任务中表现卓越,比 RVT-2 提升 32%
- 预训练的物体定位能力在微调后保持,实现知识迁移
- 机器人操作:装配、抓取放置、精密操作等
- 工业自动化:生产线任务执行与调整
- 家庭服务机器人:智能家电操作、物品整理
- 医疗微创手术:精准器械控制
- 人机协作:在人类指导下完成复杂任务
特别优势:在需要高精度对齐的任务 (如 "Insert Peg"、"Sort Shape") 中表现尤为突出
- 在 13 种不同操作任务中,7 种设置里 6 种优于 RVT-2
- 在视觉干扰 (干扰物、光照、背景变化) 和未见任务 (新物体 - 技能组合) 中,平均提升 32%
- 在仅提供 3 条轨迹的情况下,10 + 任务成功率达 96.8%,展现 "小样本学习" 强大能力
BridgeVLA 通过 "输入 - 输出对齐" 这一简洁而强大的思路,成功架起了 VLM 与 3D 操作之间的桥梁,开创了 "少样本 3D VLA" 的新范式。其创新的 2D 热图机制不仅解决了模态不匹配问题,还赋予模型更强的空间理解能力,使机器人能以惊人的样本效率学习复杂操作。
注:该算法已开源,代码和模型可在 GitHub (https://github.com/bridgevla/bridgevla) 和项目主页 (https://bridgevla.github.io/) 获取。