当前位置：首页 > news >正文

【论文阅读】4D-VLA：时空视觉-语言-动作预训练与跨场景校准

news 2025/9/23 9:04:46

4D-VLA将4D时空信息整合到视觉-语言-动作（VLA）预训练中，解决了机器人操作中的坐标系混乱和状态混乱等问题。该模型在LIBERO基准测试中实现了12.1%的更高成功率，并在真实世界任务中展现了强大的泛化能力，提高了控制和精度。

引言

视觉-语言-动作（VLA）模型已成为开发通用机器人策略的一种有前途的方法，这些策略能够理解自然语言指令并执行复杂的操纵任务。然而，现有的VLA预训练方法由于输入表示不足而面临根本性限制，导致动作预测模糊。本文介绍了4D-VLA，一个通过将显式4D时空信息融入预训练过程来解决这些挑战的框架。

4D-VLA框架概述

图1：OpenVLA和4D-VLA方法的比较。左侧显示了输入不足如何导致坐标系统混乱和状态混乱，从而产生高方差的动作分布。右侧展示了4D-VLA如何使用坐标嵌入和历史图像来创建更集中、低方差的动作分布。

问题识别：当前VLA模型中的混乱

作者指出了阻碍当前VLA预训练方法有效性的两个关键问题：

坐标系统混乱发生在机器人动作在机器人局部坐标系中定义时，但视觉观测缺乏足够的空间上下文来确定机器人的精确位置和方向。例如，在DROID数据集中，67%的样本机器人的底座被遮挡，使得空间上准确地确定动作位置变得不可能。这种模糊性导致条件动作分布分散，相同的视觉输入可能对应着截然不同的有效动作。

状态混乱发生在单个视觉帧提供不足的时间或上下文信息来推断正确动作时。例子包括对称轨迹，其中运动方向无法从静态图像中确定，或者视觉上相似但需要完全不同响应的状态。这种时间模糊性导致不平滑、高方差或多模态的动作分布，使学习复杂化。

这些根本性问题显著降低了预训练效率，并限制了VLA模型在不同场景下的泛化能力。

方法论：4D时空整合

4D-VLA建立在InternVL-4B视觉-语言模型骨干之上，并引入了几项关键创新来解决已识别的挑战。

4D-VLA架构

图2：4D-VLA架构展示了从原始序列输入到内存库采样、空间和时间编码，再到动作预测的完整流水线。

空间感知视觉令牌

为了解决坐标系统混乱，4D-VLA引入了显式编码3D坐标信息的空间感知视觉令牌：

RGB-D输入处理：与之前只使用RGB图像的方法不同，4D-VLA利用序列RGB-D图像来捕获颜色和深度信息。
3D坐标提取：对于每个输入图像$I$和对应的深度图$D$，模型使用相机外参$[R|T]$和内参$K$将深度值反投影到3D坐标$P_w$：
$$
P_w = R^{-1}(K^{-1} \cdot D \cdot [u, v, 1]^T - T)
$$
其中$$[u, v]$$是像素坐标。
空间特征整合：对3D坐标应用可学习的位置嵌入$E_S$，并将得到的空间信息通过元素级加法与原始视觉特征融合：
$$
e_{ST} = P(E(I) + E_S(P_w))
$$
其中$P$是MLP投影器，$E$是视觉编码器。

用于时间上下文的内存库采样

为了在保持计算效率的同时解决状态混乱，4D-VLA引入了内存库采样（MBS），这是一种自适应的历史帧采样方法：

def memory_bank_sampling(frames, n, k):"""从 n 个可用的历史帧中选择 k 个信息量大的帧参数:frames: n 个历史帧的列表n: 可用的总帧数k: 期望采样的帧数返回:selected_frames: k 个信息量最大的帧"""memory_bank = []similarity_queue = []for frame in frames:if len(memory_bank) < k:memory_bank.append(frame)similarity_queue.append(compute_similarity(frame, memory_bank))else:current_sim = compute_similarity(frame, memory_bank)if current_sim < max(similarity_queue):# 替换信息量最少的帧idx = similarity_queue.index(max(similarity_queue))memory_bank[idx] = framesimilarity_queue[idx] = current_simreturn memory_bank