当前位置: 首页 > news >正文

论文阅读笔记——PointVLA: Injecting the 3D World into Vision-Language-Action Models

PointVLA 论文

现有的 VLA 基于 2D 视觉-语言数据表现良好但缺乏 3D 几何先验导致空间推理缺陷。传统方案:1)3D->2D 投影,造成几何信息损失;2)3D 数据集少。PointVLA 保留原有 VLA,提取点云特征,向 Action Expert 的非关键层注入几何特征(跳连分析)。“分治”。

在这里插入图片描述
选择性三维注入:

  • 全模块注入会导致大量额外计算,选择性注入在少数层增加 MLP + 特征加和
  • 保持实时性
  • 盲目注入 3D 特征会破坏 2D 的预训练知识
  • 全模块注入可能导致过拟合

DP3 与 iDP3 中发现预训练的 3D 视觉编码器阻碍性能提升,采用层级卷积。
在这里插入图片描述
通过平均分数(长期任务的评定标准)对跳过块进行分析,以 DexVLA 为例:前 11 个块很重要,跳过任何一个都会导致性能显著下降,即 11-31 块对性能贡献度较小。
只训练 5 个额外的注入块,性价比最高。

实验结果

在模拟和真实世界环境中的实验证明了PointVLA的有效性,它实现了少样本多任务学习(每个任务仅用20个演示样本完成4个任务),并在动态物品包装等长视野任务中表现卓越。在双手机器人(UR5e和AgileX机械臂)上的真实世界测试进一步验证了其实用性和安全性。
在这里插入图片描述
在这里插入图片描述

相关文章:

  • DevEco Studio编辑器的使用-代码code Linter检查
  • 【博客】使用GithubAction自动同步obisidian和hexo仓库
  • QTableView开发入门
  • @DeclareParents 注解实现接口功能增强:Spring中通过接口引入实现功能增强的完整示例
  • 保存预测图像时出现的文件名错误
  • Python----机器学习(KNN:决策边界,决策边界计算,交叉验证步骤)
  • ansible介绍以及安装
  • C++练习
  • C# dataGridView 自动生成几行几列及手动输入整型字符
  • nginx https配置
  • 【算法】并查集基础讲解
  • 每日c/c++题 备战蓝桥杯(全排列问题)
  • DEEPSEEK创业项目推荐:
  • pytorch中不同的mask方法:masked_fill, masked_select, masked_scatter
  • MySQL 当中的锁
  • 网络运维学习笔记(DeepSeek优化版)026 OSPF vlink(Virtual Link,虚链路)配置详解
  • 深度学习 Deep Learning 第13章 线性因子模型
  • PyQt6实例_批量下载pdf工具_批量pdf网址获取
  • 3.30学习总结 Java包装类+高精度算法+查找算法
  • 开发环境解决Secure Cookie导致302重定向
  • 做漫画网站 漫画哪找/专门做推广的公司
  • 做网站怎么添加背景图片/郑州网站运营
  • 衡水网站建设推广/免费做网页的网站
  • 直通车代运营/网站优化排名软件哪些最好
  • 访问香港网站慢/seo关键词快速排名前三位
  • 做h5那个网站好/免费一键生成个人网站