当前位置：首页 > news >正文

论文阅读笔记——PointVLA: Injecting the 3D World into Vision-Language-Action Models

news 2025/10/8 10:19:04

PointVLA 论文

现有的 VLA 基于 2D 视觉-语言数据表现良好但缺乏 3D 几何先验导致空间推理缺陷。传统方案：1）3D->2D 投影，造成几何信息损失；2）3D 数据集少。PointVLA 保留原有 VLA，提取点云特征，向 Action Expert 的非关键层注入几何特征（跳连分析）。“分治”。

在这里插入图片描述
选择性三维注入：

全模块注入会导致大量额外计算，选择性注入在少数层增加 MLP + 特征加和
保持实时性
盲目注入 3D 特征会破坏 2D 的预训练知识
全模块注入可能导致过拟合

DP3 与 iDP3 中发现预训练的 3D 视觉编码器阻碍性能提升，采用层级卷积。
在这里插入图片描述
通过平均分数（长期任务的评定标准）对跳过块进行分析，以 DexVLA 为例：前 11 个块很重要，跳过任何一个都会导致性能显著下降，即 11-31 块对性能贡献度较小。
只训练 5 个额外的注入块，性价比最高。

实验结果

在模拟和真实世界环境中的实验证明了PointVLA的有效性，它实现了少样本多任务学习（每个任务仅用20个演示样本完成4个任务），并在动态物品包装等长视野任务中表现卓越。在双手机器人（UR5e和AgileX机械臂）上的真实世界测试进一步验证了其实用性和安全性。
在这里插入图片描述

http://www.dtcms.com/a/101123.html

相关文章：

DevEco Studio编辑器的使用-代码code Linter检查

【博客】使用GithubAction自动同步obisidian和hexo仓库

QTableView开发入门

@DeclareParents 注解实现接口功能增强：Spring中通过接口引入实现功能增强的完整示例

保存预测图像时出现的文件名错误

Python----机器学习（KNN：决策边界，决策边界计算，交叉验证步骤）

ansible介绍以及安装

C++练习

C# dataGridView 自动生成几行几列及手动输入整型字符

nginx https配置

【算法】并查集基础讲解

每日c/c++题备战蓝桥杯（全排列问题）

DEEPSEEK创业项目推荐：

pytorch中不同的mask方法：masked_fill, masked_select, masked_scatter

MySQL 当中的锁

网络运维学习笔记（DeepSeek优化版）026 OSPF vlink（Virtual Link，虚链路)配置详解

深度学习 Deep Learning 第13章线性因子模型

PyQt6实例_批量下载pdf工具_批量pdf网址获取

3.30学习总结 Java包装类+高精度算法+查找算法

开发环境解决Secure Cookie导致302重定向

VUE实现框架搭建（纯手写）

【Python爬虫神器】requests库常用操作详解，附实战案例

RocketMQ - 从消息可靠传输谈高可用

Cookie可以存哪些指？

一区严选！挑战5天一篇脂质体组学 DAY1-5

Flink介绍——实时计算核心论文之S4论文详解

RS232转Profinet网关扫码器在西门子1200plc快速配置

MySQL中的CREATE TABLE LIKE和CREATE TABLE SELECT

关于为什么使用redis锁，不使用zk锁的原因

LeetCode知识点整理