当前位置：首页 > news >正文

同济大学轻量化低成本具身导航！COSMO：基于选择性记忆组合的低开销视觉语言导航

news 2025/8/20 22:00:05

作者：Siqi Zhang $^{1}$ , Yanyuan Qiao $^{3}$ , Qunbo Wang $^{2}$ , Zike Yan $^{4}$ , Qi Wu $^{3}$ , Zhihua Wei $^{1}$ , Jing Liu $^{1}$
单位： $^{1}$ 同济大学计算机科学与技术学院， $^{2}$ 中科院自动化研究所， $^{3}$ 阿德莱德大学澳大利亚机器学习研究所， $^{4}$ 清华大学人工智能产业研究院
论文标题：COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation
论文链接：https://arxiv.org/pdf/2503.24065

论文提出COSMO架构，结合了选择性记忆，旨在实现低成本且高效的视觉语言导航。
引入RSS模块Round Selective Scan (RSS)，用于在单个扫描中捕获标记间的全面关系，增强空间建模能力。
引入CS3模块Cross-modal Selective State Space Module (CS3) ，用于促进跨模态交互，适应视觉语言导航任务的需求。
COSMO在多个基准数据集上表现出色，同时显著降低了计算成本，参数和FLOPs分别仅为DUET的15.5%和9.3%。

该问题的研究难点包括：

在标准的离散环境设置中，VLN任务的目标是让智能体根据自然语言指令在导航图中找到目标位置。具体来说：

环境被定义为一个无向导航图 $\mathcal{G} = \{\mathcal{V}, \mathcal{E}\}$ ，其中 $\mathcal{V} = \{V_i\}_{i=1}^K$ 表示 $K$ 个可导航节点， $\mathcal{E}$ 表示连接边。
给定一个包含 $L$ 个单词的指令 $\mathcal{I} = \{w_i\}_{i=1}^L$ ，智能体的任务是根据指令遍历导航图到达目标位置，并在需要时找到指定物体。
在每一步 $t$ ，智能体接收一个全景视图 $\mathcal{O}_t$ 和当前节点 $V_t$ 的相邻节点 $\mathcal{N}(V_t)$ 。
视图 $\mathcal{O}_t$ 可以被分割成 $N$ 个视图图像 $\mathcal{O}_t = \{v_i^t\}_{i=1}^N$ ，其中 $v_i$ 表示节点 $V_t$ 的第 $i$ 个视图图像。
动作空间 $\mathcal{A}_t$ 包含导航到 $V_{t+1} \in \mathcal{N}(V_t)$ 或在 $V_t$ 处停止。

SSMs是一种用于序列建模的方法，通常被视为线性时不变系统（LTI），通过隐藏状态 $h (t)$ 将输入 $x (t)$ 映射到输出响应 $y (t)$ 。

连续时间的SSMs通常通过线性常微分方程（ODEs）表示：
$\quad y(t) = C h'(t) + D x(t)$
其中 $\in R^{N \times N}$ 是演化矩阵， $\in R^{N \times 1}$ 和 $\in R^{N \times 1}$ 是与系统输入和输出相关的投影参数， $\in R$ 是跳过连接的权重。
为了集成到深度模型中，连续时间的SSMs需要进行离散化。通过引入时间尺度参数 $\Delta \in R$ ，可以将连续参数 $A$ 和 $B$ 转换为离散参数 $\overline{A}$ 和 $\overline{B}$ ：
$\overline{A} = \exp(\Delta A)$
$\overline{B} = \exp(\Delta A)^{-1} (\exp(\Delta A) - I) \cdot \Delta B \approx \Delta B$
离散化后，方程可以重写为：
$h_t = \bar{A} h_{t-1} + \bar{B} x_t, \quad y_t = C h_t + D x_t$
在实践中， $x_t$ 是一个具有 $D$ 维度的特征向量，方程对每个维度独立操作。

Mamba通过学习输入依赖的参数来选择数据，超越了传统的SSMs：

输入依赖的参数通过线性投影层 $S_B$ 和 $S_C$ 来选择数据：
$B_t = S_B(x_t), \quad C_t = S_C(x_t), \quad \Delta_t = \tau_{\Delta}(S_{\Delta}(x_t))$
其中 $\tau_{\Delta}$ 是SoftPlus，ReLU的平滑近似。

COSMO以DUET为基线模型，采用双流架构，包括文本编码器、全景编码器和跨模态编码器。