当前位置: 首页 > news >正文

BridgeVLA 算法:3D 操作学习的 VLM 对齐新范式

BridgeVLA 算法:3D 操作学习的 VLM 对齐新范式

一、算法概述

BridgeVLA是由中科院自动化所与字节跳动 Seed 团队共同开发的 3D 视觉 - 语言 - 动作 (VLA) 模型,旨在解决传统 VLM 与 3D 机器人操作间的输入输出不对齐问题,实现高效、泛化的 3D 操作学习。该模型在 CVPR 2025 GRAIL workshop 的 COLOSSEUM 挑战赛中获得冠军,真实机器人实验性能提升 32%,仅需 3-5 条轨迹即可达到 96.8% 的任务成功率,开创了 "少样本 3D 操作" 新范式。

二、核心问题与解决方案

1. 核心痛点

传统 VLA 模型面临两大困境:
  • 输入不匹配:VLM 接受 2D 图像输入,而 3D 操作需要处理 3D 点云
  • 输出不匹配:VLM 输出文本 tokens,而 3D 操作需要预测 6-DoF 位姿、夹持器状态等结构化动作

2. 解决方案

BridgeVLA 的核心思想是 "输入 - 输出对齐",通过两个创新点实现:
  • 输入对齐:将 3D 点云渲染为多视角 2D 图像,匹配 VLM 输入
  • 输出对齐:将动作预测转换为 2D 热图,统一输入输出空间

三、算法架构与工作流程

1. 整体架构

组件功能
3D 输入处理将点云渲染为三视角 (顶、前、右) 2D 图像
VLM 主干PaliGemma (SigLIP+Gemma Transformer),处理图像和文本指令
2D 热图预测输出三视角热图,指示末端执行器目标位置
3D 动作解码反投影热图到 3D 空间,预测位姿、夹持器状态等
执行控制通过运动规划器执行预测动作,迭代优化

2. 工作流程

Step 1: 3D→2D 投影
  • RGB-D 相机获取场景点云
  • 渲染为三个正交视图 (顶、前、右),与文本指令一起输入 VLM
Step 2: 2D 热图预测
  • VLM 处理输入,输出图像 tokens
  • 重组为空间特征网格,通过凸上采样生成三视角热图
  • 热图高亮显示各视角中末端执行器目标位置
Step 3: 2D→3D 反投影
  • 每个热图独立反投影到 3D 工作空间网格
  • 计算每个 3D 点在各视角的得分,选取得分最高的点作为平移目标
  • 旋转、夹持器状态等通过 MLP 预测,基于全局和局部特征融合
Step 4: 动作执行与优化
  • 使用运动规划器执行预测的关键帧动作
  • 采用 "粗到精" 策略:先全局预测,再在感兴趣区域细化,提高精度
  • 迭代执行直到任务完成或达到最大步数

四、训练流程:两阶段学习

1. 第一阶段:2D 热图预训练

目标:赋予 VLM 空间感知能力,学会预测物体位置热图
  • 输入:图像 + 文本 (描述目标物体)
  • 输出:与输入图像同分辨率的热图,物体中心处概率最高
  • 训练数据:目标检测数据集 (如 COCO)
  • 损失函数:预测热图与 GT 热图的交叉熵
关键创新:不同于传统 VLM 的 "next token prediction",改为空间热图预测,使模型具备几何理解能力

2. 第二阶段:3D 动作微调

目标:将预训练的空间感知能力迁移到 3D 操作任务
  • 输入:3D 点云 (多视角投影)+ 操作指令
  • 输出:末端执行器 6-DoF 位姿、夹持器状态、碰撞标志
  • 训练数据:机器人操作轨迹 (每个任务仅需 3-5 条)
  • 损失函数:多组件联合损失 (热图损失 + 旋转损失 + 夹持器状态损失 + 碰撞损失)

五、核心创新点

  1. "输入 - 输出双对齐" 机制
    • 统一 3D 操作的输入输出于 2D 图像空间,无缝衔接预训练 VLM
    • 解决了传统 3D VLA 模型输入输出模态不匹配的根本问题
  2. "2D 热图→3D 动作" 转换范式
    • 用热图替代传统的 "token 序列" 作为动作表示
    • 使模型输出具有明确空间语义,更适合机器人操作任务
  3. 超高效样本学习
    • 仅需 3-5 条轨迹即可达到 96.8% 任务成功率,远超传统模型 (需百条以上)
    • 在 RLBench、COLOSSEUM、GemBench 等基准测试中大幅超越 SOTA (平均提升 6-7%)
  4. 强大泛化与鲁棒性
    • 在视觉干扰 (光照、背景、干扰物) 和未见任务中表现卓越,比 RVT-2 提升 32%
    • 预训练的物体定位能力在微调后保持,实现知识迁移

六、应用场景

  • 机器人操作:装配、抓取放置、精密操作等
  • 工业自动化:生产线任务执行与调整
  • 家庭服务机器人:智能家电操作、物品整理
  • 医疗微创手术:精准器械控制
  • 人机协作:在人类指导下完成复杂任务

七、性能表现

1. 仿真实验

基准测试BridgeVLA对比 SOTA (RVT-2)提升
RLBench88.2%81.4%+6.8%
COLOSSEUM64.0%56.7%+7.3%
GemBench50.0%48.0%+2.0%
特别优势:在需要高精度对齐的任务 (如 "Insert Peg"、"Sort Shape") 中表现尤为突出

2. 真实机器人实验

  • 在 13 种不同操作任务中,7 种设置里 6 种优于 RVT-2
  • 在视觉干扰 (干扰物、光照、背景变化) 和未见任务 (新物体 - 技能组合) 中,平均提升 32%
  • 在仅提供 3 条轨迹的情况下,10 + 任务成功率达 96.8%,展现 "小样本学习" 强大能力

八、总结

BridgeVLA 通过 "输入 - 输出对齐" 这一简洁而强大的思路,成功架起了 VLM 与 3D 操作之间的桥梁,开创了 "少样本 3D VLA" 的新范式。其创新的 2D 热图机制不仅解决了模态不匹配问题,还赋予模型更强的空间理解能力,使机器人能以惊人的样本效率学习复杂操作。
注:该算法已开源,代码和模型可在 GitHub (https://github.com/bridgevla/bridgevla) 和项目主页 (https://bridgevla.github.io/) 获取。
http://www.dtcms.com/a/593713.html

相关文章:

  • 做app网站建设百度指数 网站
  • 潮州网站制作佛山模板网站建设
  • 深度学习入门:揭开神经网络的神秘面纱(附PyTorch实战)
  • 归并排序的基础归并算法
  • 深入浅出蓝桥杯:算法基础概念与实战应用(二)基础算法(下)
  • 网站建站工具网站建设与管理 市场分析
  • 《WebPages 类:深入解析网页元素管理工具》
  • 网站系统发生错误今天的三个新闻
  • 雷池 WAF 免费版深度体验:站长用 Nginx 搭环境,护住 WordPress 博客
  • 无缝对接与数据驱动:护照MRZ识别技术在智慧景区管理中的深度应用
  • 网站建设后续需要维护住房和城乡建设部贰级建造师网站
  • 交友视频网站建设广告策划书范本
  • spring boot集成 RustFS服务
  • 谷歌攻克AI“灾难性遗忘“难题!最新范式突破AI持续学习内存瓶颈
  • SuperMap GIS基础产品FAQ集锦(20251110)
  • Kimi K2 Thinking 量化之后再量化,模型文件缩水60%,准确率85%,部署教程来了
  • 【图像处理基石】边缘检测技术:从经典算法到实战应用
  • DevEco Studio 鸿蒙HarmonyOS 引入本地har
  • 【路径算法】IDA*与D*和Lite D* 的比较及IDA*算法详解
  • 做网站运营这工作怎么样wordpress 星 评分
  • 单一职责原则(SRP)深度解析
  • 网站建设福州公司南县网站设计
  • ESD防护设计宝典(二十八):半导体的ESD失效模式与机理
  • 关于止盈和止损的问题(一)
  • LeetCode 分类刷题:141. 环形链表
  • 在哪个网站做视频赚钱的亚马逊计划裁员1万人
  • 建材建设行业网站做网站从何开始
  • leetcode 3542
  • 【Python Maze Diary 1.1】迷宫算法术语
  • 大学计算机基础(Windows 7+Office 2010)第一章课后练习