当前位置: 首页 > news >正文

论文阅读笔记——PointVLA: Injecting the 3D World into Vision-Language-Action Models

PointVLA 论文

现有的 VLA 基于 2D 视觉-语言数据表现良好但缺乏 3D 几何先验导致空间推理缺陷。传统方案:1)3D->2D 投影,造成几何信息损失;2)3D 数据集少。PointVLA 保留原有 VLA,提取点云特征,向 Action Expert 的非关键层注入几何特征(跳连分析)。“分治”。

在这里插入图片描述
选择性三维注入:

  • 全模块注入会导致大量额外计算,选择性注入在少数层增加 MLP + 特征加和
  • 保持实时性
  • 盲目注入 3D 特征会破坏 2D 的预训练知识
  • 全模块注入可能导致过拟合

DP3 与 iDP3 中发现预训练的 3D 视觉编码器阻碍性能提升,采用层级卷积。
在这里插入图片描述
通过平均分数(长期任务的评定标准)对跳过块进行分析,以 DexVLA 为例:前 11 个块很重要,跳过任何一个都会导致性能显著下降,即 11-31 块对性能贡献度较小。
只训练 5 个额外的注入块,性价比最高。

实验结果

在模拟和真实世界环境中的实验证明了PointVLA的有效性,它实现了少样本多任务学习(每个任务仅用20个演示样本完成4个任务),并在动态物品包装等长视野任务中表现卓越。在双手机器人(UR5e和AgileX机械臂)上的真实世界测试进一步验证了其实用性和安全性。
在这里插入图片描述
在这里插入图片描述

http://www.dtcms.com/a/101123.html

相关文章:

  • DevEco Studio编辑器的使用-代码code Linter检查
  • 【博客】使用GithubAction自动同步obisidian和hexo仓库
  • QTableView开发入门
  • @DeclareParents 注解实现接口功能增强:Spring中通过接口引入实现功能增强的完整示例
  • 保存预测图像时出现的文件名错误
  • Python----机器学习(KNN:决策边界,决策边界计算,交叉验证步骤)
  • ansible介绍以及安装
  • C++练习
  • C# dataGridView 自动生成几行几列及手动输入整型字符
  • nginx https配置
  • 【算法】并查集基础讲解
  • 每日c/c++题 备战蓝桥杯(全排列问题)
  • DEEPSEEK创业项目推荐:
  • pytorch中不同的mask方法:masked_fill, masked_select, masked_scatter
  • MySQL 当中的锁
  • 网络运维学习笔记(DeepSeek优化版)026 OSPF vlink(Virtual Link,虚链路)配置详解
  • 深度学习 Deep Learning 第13章 线性因子模型
  • PyQt6实例_批量下载pdf工具_批量pdf网址获取
  • 3.30学习总结 Java包装类+高精度算法+查找算法
  • 开发环境解决Secure Cookie导致302重定向
  • VUE实现框架搭建(纯手写)
  • 【Python爬虫神器】requests库常用操作详解 ,附实战案例
  • RocketMQ - 从消息可靠传输谈高可用
  • Cookie可以存哪些指?
  • 一区严选!挑战5天一篇脂质体组学 DAY1-5
  • Flink介绍——实时计算核心论文之S4论文详解
  • RS232转Profinet网关扫码器在西门子1200plc快速配置
  • MySQL中的CREATE TABLE LIKE和CREATE TABLE SELECT
  • 关于为什么使用redis锁,不使用zk锁的原因
  • LeetCode知识点整理