当前位置：首页 > news >正文

IEEE论文解读 | 基于概念驱动的强化学习探索方法（CDE）

news 2025/10/18 15:13:04

核心问题

论文聚焦强化学习（RL）在视觉控制任务中的核心痛点 —— 高维图像信息提取难、探索效率低、视觉 - 语言模型（VLM）输出噪声干扰大，提出概念驱动探索（CDE）方法。该方法以 Franka Research 3 机械臂为实验载体，通过 “VLM 生成视觉概念 + 概念嵌入模型（CEM）学习双重表征 + 重构损失引导探索” 的创新框架，在模拟与真实世界操作任务中均实现高效探索与鲁棒性能，解决了传统视觉 RL 依赖全局视角、对噪声敏感、部署阶段依赖外部模型的关键问题。

图 1：基于概念驱动的探索方法（CDE）整体框架。从任务描述中识别与任务相关的对象，再利用视觉 - 语言模型（VLM）为每个对象生成分割掩码。这些分割掩码用于塑造策略的表征学习过程，并引导探索方向。

验证方法与框架

CDE 的核心逻辑是 “以概念塑造表征，以表征引导探索”，整体框架分为 4 个关键模块

图2：CDE 架构图。（a）大语言模型（LLM）解析任务描述以提取目标对象，视觉 - 语言模型（VLM）对输入的 RGB 图像进行分割，生成掩码；（b）训练过程中，策略将分割掩码作为额外输入，并为最后一个时间步生成内在奖励信号；（c）在每个时间步 t+1，策略网络接收环境观测 oₜ₊₁，并将其编码为正嵌入向量ĉ⁺(oₜ₊₁) 与负嵌入向量ĉ⁻(oₜ₊₁)，最终概念嵌入向量为这两个向量的加权和；（d）利用分割掩码 Mₜ₊₁监督从正嵌入向量ĉ⁺(oₜ₊₁) 中重构掩码的过程，并生成内在奖励信号 Rₜ^int。

1. 概念生成模块

输入：自然语言任务描述（如“打开微波炉门”）；
流程：首先通过大语言模型（LLM，如 GPT-4）提取目标对象列表（如 “微波炉门把手”），再调用 VLM（如 Grounded-SAM2）从 RGB 图像中生成分割掩码（作为 “弱监督概念”）；
作用：将抽象任务转化为具象的视觉概念（分割掩码），避免人工定义概念的局限性。

2. 概念学习模块（基于 CEM）

核心设计：针对腕部相机“目标可能不可见” 的问题，引入概念嵌入模型（CEM），学习对象的双重表征：
正嵌入（c^i+）：对应目标对象在画面中 “存在” 的状态；
负嵌入（c^i−）：对应目标对象在画面中 “缺失” 的状态；
表征融合：通过VLM 生成的分割掩码判断目标是否存在（激活像素数≥阈值 ε 则为 “存在”），以二元权重（pi）融合双重表征，公式为：c^i=pic^i++(1−pi)c^i−（训练时用 VLM 掩码判断pi，部署时用模型预测掩码判断）。

3. 内在奖励模块

奖励来源：以“正嵌入重构分割掩码的损失（Lrecons）” 作为内在奖励；
计算逻辑：已探索过的状态重构损失小，未探索的目标相关状态重构损失大，因此将γ⋅clip(Lrecons,0,1)加入总奖励，引导策略优先探索目标相关区域；
优势：相比传统“像素奖励”，重构损失对 VLM 噪声更鲁棒，且无需依赖外部信号。

4. 联合优化模块

总损失函数：将RL 的评论家损失（Lcritic）与重构损失（Lrecons）联合优化，公式为：Ltotal=αLcritic+βLrecons（α、β 为权重系数）；
关键特性：训练阶段仅需VLM 提供初始概念，部署阶段策略已 “内化” 概念，无需再调用 VLM，降低实时依赖。

实验配置

机械臂：Franka Research 3（用于真实世界实验，具备高精度力控与运动控制能力）；
相机：Intel Realsense D435i（腕部安装，仅提供第一视角观测，模拟真实部署场景）；
计算资源：NVIDIA A100 GPU（40GB），用于模拟实验的训练（30万时间步，GT/SN 掩码任务耗时约4小时，VLM掩码任务耗时约8小时）。

图8：(a) 现实世界任务设置。(b) 腕戴式相机视角。

实验设计与验证（问题与挑战）

问题 1：是否适配 “非全局视角”（腕部相机）？

验证逻辑：对比“使用 CEM 双重表征” 与 “仅使用正表征” 的消融实验（见表 1）；

结果：使用双重表征的CDE 在 “目标不可见频率高” 的任务（如 Lift）中成功率提升 15%-20%，证明 CEM 有效解决了腕部相机的视角局限；

表1:消融研究。PE代表正嵌入,NE代表负嵌入,RR代表重建奖励,PR代表像素奖励。我们报告平均成功率及标准误差,每个任务的最高成功率用黄色突出显示。

核心结论：双重表征使策略在“搜索目标” 与 “交互目标” 两种模式间平滑切换，避免因目标不可见导致的探索停滞。

问题 2：是否对 VLM 噪声鲁棒？

验证逻辑：在SN（合成噪声）与 VLM（真实噪声）场景下，对比 CDE 与基准方法（DrQv2-RGB、DrQv2-RGBM、DrQv2-ME）的性能；

图5：模拟任务结果。所有任务均在10个随机种子上运行，我们报告平均成功率及标准误差。（顶行）使用地面实况掩码进行学习。（底行）使用带有合成噪声的掩码进行学习。CDE比基线方法对噪声掩码输入表现出更好的稳定性和鲁棒性。

图6：使用VLM生成掩码的模拟任务结果。由于计算资源的限制，我们在7个随机种子上运行了部分任务，并报告了带有标准误差的平均成功率。对于DrQv2-RGB，我们使用之前实验的结果进行比较。

关键发现

SN 场景：CDE 在 Knob、Switch 等任务中成功率比基准方法高 10%-15%，因基准方法直接使用含噪掩码，会传递误差；
VLM 场景：CDE 性能接近 GT 场景，而基准方法性能下降 30% 以上，证明 CDE 通过 “重构损失” 有效过滤了 VLM 噪声；

例外分析：在Knob 任务中，CDE 在 SN 场景的性能优于 GT 场景 —— 因 GT 场景中多个非目标旋钮会干扰探索，而 SN 场景仅扰动目标掩码，反而聚焦了探索方向。

图4：每种噪声设置下的示例掩码。图像和掩码的分辨率均为84×84，对于VLM掩码，我们在320×320的RGB图像上分割掩码，然后下采样到84×84。

问题 3：是否实现 “高效探索”？

验证方法：记录训练初期（33% 时间步）、中期（66%）、后期（100%）的机械臂末端位置，以热力图可视化探索轨迹（见图 7）；

图7：热图展示了训练三个不同阶段访问过的状态：早期（33%）、中期（66%）、晚期（100%）。CDE探索目标物体附近的状态，而DrQv2-RGB主要进行随机探索。

结果对比：

传统方法（如DrQv2-RGB）：全程随机探索，热力图分散；

CDE：中期已聚焦目标区域，后期轨迹集中于 “最优交互位置”，探索效率提升约 50%；

核心结论：CDE通过 “重构损失引导” 实现了 “针对性广度优先搜索”，避免无意义的随机探索。

关键突破：

突破“VLM 依赖” 的部署瓶颈，为真实世界低延迟应用提供可能；

建立 “视角通用” 的视觉表征范式，解决了传统方法依赖全局视角的局限，拓宽了视觉RL 的应用范围。

未来应用方向

复杂场景机器人操作

多智能体协作任务

跨域迁移任务

结语

本文提出的CDE方法，以 “概念驱动” 为核心，通过VLM生成弱监督概念、CEM学习视角鲁棒表征、重构损失引导高效探索，系统性解决了视觉RL在 “高维信息处理”“噪声鲁棒性”“视角通用性” 上的三大痛点。

实验证明，CDE在Franka Research 3机械臂上不仅实现了80%的真实世界任务成功率，更在方法论上为 “弱监督、低依赖、高泛化” 的视觉RL提供了新范式。未来随着LLM/VLM的持续进化，CDE有望进一步拓展至更复杂的动态场景（如人机协作、未知环境探索），推动强化学习从 “模拟验证” 走向 “真实应用”。

项目链接：https://sites.google.com/view/concept-learn/home

查看全文

http://www.dtcms.com/a/491288.html