当前位置：首页 > news >正文

【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning

news 2025/7/3 10:55:14

DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning

原文摘要
- 研究背景
  - 现状：VLMs 已展现出强大的多模态理解和推理能力
  - 局限：当前主要受限于基于文本的推理过程
  - 核心挑战：如何实现类似人类认知过程的视觉与文本推理无缝集成
    - 如何将高级视觉输入处理有效整合到推理机制中
- 解决方案
  - 方法：探索交错式多模态推理范式
  - 模型：提出DeepEyes模型——具备"图像思维"能力
  - 训练特点：
    - 通过端到端强化学习实现能力激励
    - 无需冷启动监督微调(SFT)
    - 能力源自模型自身而非依赖外部专家模型
- 技术贡献
  - 训练数据构建：提出 tool-use-oriented 的数据选择机制
  - 奖励函数设计：设计奖励函数以鼓励成功的工具辅助推理轨迹 (tool-assisted reasoning trajectories)
  - 模型特点：利用固有基础能力作为推理工具
- 实验结果
  - 性能提升：
    - 在细粒度感知和推理基准测试中显著提升
    - 在基础任务、幻觉抑制和数学推理方面也有改进
  - 实验发现：
    - 工具调用行为的进化：从初始探索到高效准确利用
    - 思维模式的多样性：与人类视觉推理过程高度相似

1. Introduction

研究背景
- 当前VLMs的进展
  - 采用长链思维方法处理多模态输入，提升复杂任务能力
  - 根本缺陷：推理过程仍局限于文本模态，缺乏视觉模态的主动参与
- 人类认知的对比
  - 人类通过序列化视觉注视 (sequential visual fixations) 实现图像思维
    - 序列化视觉注视是指人眼在观察一个场景时，眼睛不断移动，聚焦在不同区域的过程。
      - 在人类视觉感知中，眼睛不会一次性扫描整个场景，而是通过一系列短暂的、快速的注视点（即fixations）来逐步提取信息。
      - 这种能力支持精确感知决策，在早期进化中具有生存意义
- 研究现状
  - 预定义工作流方法：模块化设计导致性能次优
  - OpenAI o3模型的突破：
    - 首次实现动态视觉推理
      - 使得模型能够模拟人类的视觉认知过程。
      - 人类在思考时，会通过观察图像来获取信息，而不是仅依赖语言
    - 通过交错式 文本CoT与图像工具突破语言模态限制
      - 模型可以在推理过程中自由切换和交替使用图像和文本
    - 测试时的计算扩展
      - 在模型的推理过程中，计算的规模可以根据需要灵活地扩展。
      - 例如，在推理时，既可以用文本信息进行推理，也可以用图像进行推理，根据任务需求，模型可以在视觉和文本之间切换，或者同时使用这两种信息，提升整体的推理能力。
DeepEyes
- 核心能力
  - 通过端到端强化学习激励"图像思维"能力
  - 关键特性：
    - 能力原生涌现，无需依赖外部专家模型
    - 直接由结果奖励信号引导，跳过冷启动监督微调
- 技术实现
  - 图像放大工具封装：将模型的基础能力封装为主动信息采集工具
    - 在智能体框架中调用工具函数
    - 自适应生成图像定位坐标并裁剪相关区域
  - 交错式多模态CoT——iMCoT
    - 视觉裁剪区域与文本推理轨迹实时拼接
    - 实现视觉-文本推理无缝融合
训练挑战与解决方案
- 初期训练问题
  - 模型抗拒使用放大工具
  - 早期探索阶段：区域选择低效、奖励信号不稳定
- 针对性设计
  1. 工具导向的数据选择机制：筛选能激励工具调用行为的训练样本
  2. 条件性奖励策略：对通过工具调用成功完成的任务轨迹给予额外奖励
  3. 消融实验验证：两者共同优化工具使用的效率与准确性
动态训练&训练效果
- 工具调用行为的三个阶段（无需中间步骤SFT）：
  1. 初始探索期：工具使用低效
  2. 激进使用期：调用频繁但成功率提升
  3. 精准利用期：选择性调用且性能稳定
- 类人推理模式涌现：
  - 视觉搜索：定位小目标/难识别物体
  - 跨区域比较
  - 不确定性消除
  - 幻觉抑制：通过细节聚焦
实验结果与贡献总结
- 性能提升
  - 高分辨率基准测试：
    - V*任务准确率90.1%（+18.9%）
    - HR-Bench-4K/8K分别提升6.3%和7.3%
  - 多任务泛化性：视觉定位、幻觉抑制、数学推理等
- 三大核心贡献
  1. 图像思维能力的RL激励范式：实现iMCoT，无需冷启动SFT或外部工具
  2. 训练优化组合：工具导向数据选择 + 条件性奖励策略
  3. 揭示RL训练动态：工具调用行为三阶段进化与多样化推理模式

2. Related Work

2.1 MLLM

多模态大语言模型（MLLMs）的演进
- 技术发展路径
  - 早期系统：vision encoders + LLMs
  - 现代架构：通过联合训练实现模态深度对齐
    - 代表技术
      - BLIP-2 / LLaVA：
        
        使用查询变换器（query transformers）或轻量级投影器
        将图像特征映射到冻结LLM的潜空间
        支持视觉问答和指令跟随
      - AnyRes：
        
        突破分辨率限制，支持灵活输入尺寸
        增强视觉保真度
- 代表性模型：LLaVA、Qwen-VL、InternVL、Flamingo、mPLUG-Owl、GPT-4V
- 关键技术：
  - 专家混合（Mixture-of-Experts MoE）
  - 图像生成能力集成
现存缺陷
- 推理能力不足：缺乏链式思维、测试时计算扩展性差
- 感知-推理脱节：视觉感知与逻辑推理仍为分离流程

2.2 Vision-language Model Reasoning

多模态链式思维的两大范式
- 基于预定义工作流的方法
  - 技术特点：依赖固定流程或分阶段处理、需要辅助模型
  - 典型技术：兴趣区域定位、潜特征再生、外部知识整合
- 基于强化学习的方法
  - 研究动机：受纯文本CoT研究启发
  - 应用场景：空间推理、物体识别、语义分割
DeepEyes的差异化创新
- 自主决策能力：模型自主决定视觉输入的调用时机与方式
- 动态调整机制：通过结果奖励信号自适应调整视觉探索
- 流程灵活性：突破硬编码推理流程或纯文本CoT扩展的局限

3. Methods

3.1 DeepEyes

工作流程详解
- 输入：用户问题 + 原始图像I₀
- 动态决策：
  1. 文本推理步后自主选择：
    - 直接生成答案或调用图像放大工具
  2. 工具调用：
    - 输入：边界框坐标列表
    - 输出：指定区域裁剪图像（如Iₜ₁, Iₜ₂）
  3. 轨迹更新：裁剪图像追加至推理轨迹
  4. 迭代终止：可多次调用工具直至生成最终答案
技术优势场景：处理小目标、模糊或难识别物体时效果显著——细粒度感知
训练机制
- 全局优化：
  - 奖励策略梯度作用于完整轨迹
  - 文本CoT与动作决策联合端到端优化

核心优势

评价维度	DeepEyes (iMCoT)	对比基线
训练简洁性	仅需问答对	工作流方法需大量SFT数据
泛化能力	通过RL动态选择跨任务最优推理	任务特定设计导致泛化受限
优化统一性	端到端联合优化保障全局最优	模块分离优化导致次优性能
多模态融合	视觉-文本自然交错	纯文本推理缺乏视觉整合
工具原生性	直接优化工具使用效率/精度	传统范式无法实现工具级优化

3.2 Agentic Reinforcement Learning

3.2.1 强化学习框架设计

传统RL与Agentic RL对比
- 传统RL：输入提示词 + 已生成文本词元
- Agentic RL：增加外部函数调用的观察词元——observation tokens
iMCoT的MDP形式化定义
- 状态表示：
  $s_t = \{(X_0, I_0), (X_1, I_1), ..., (X_t, I_t)\} = \{X_{\leq t}; I_{\leq t}\}$
  - 符号解释
    - $X_{\leq t}$ ：截至步骤t的文本token序列
    - $I_{\leq t}$ ：图像观察token序列（来自工具调用）
    - 注：省略非VLM生成的特殊token（如分隔符）
- 策略执行：
  - 动作采样： $a_t \sim \pi_\theta(a | s_t)$
  - 终止条件：生成答案 或 达到最大工具调用次数
- 关键特性：
  - 观察token整体处理（不参与损失计算）
    - 虽然观察token会参与推理过程，但不直接影响训练的损失函数
  - 状态动态包含文本与视觉信息的交错拼接
    - 模型的推理是基于两种信息（文本和图像）的交替输入，而不仅仅是纯文本数据。
传统的VLM与DeepEyes的区别：
- 传统VLM
  - 在 传统VLM 中，图像信息通常是通过将图像处理成 图像token 后直接融入到文本tokens中。
  - 这意味着图像tokens与文本tokens在模型的输入中是混合在一起的。
  - 这种模型将图像的视觉信息和文本信息直接结合，在输入时已经不再区分图像和文本，通常图像的信息被编码为一个与文本同样形式的token序列，与文本tokens一起供模型使用。
- DeepEyes
  - DeepEyes 在推理过程中 显式地区分文本tokens和图像tokens。
  - 在DeepEyes中，图像tokens作为外部观察信息与文本tokens交替使用，但它们在模型的推理过程和状态定义中是显式分开的。
  - 模型在每一步的推理中会根据 文本tokens和图像tokens 共同形成的状态来决定下一个动作（即生成下一个token），并且这两种信息会分别出现在状态定义（ s_t = {X_≤t; I_≤t}）中。

3.2.2 奖励函数设计

$R(\tau) = R_{acc}(\tau) + R_{format}(\tau) + \mathbb{I}_{R_{acc}(\tau)>0} \cdot R_{tool}(\tau)$

奖励项	计算逻辑	设计目的
准确性奖励 $R_{acc}$	最终答案正确性（0/1）	确保任务目标达成
格式奖励 $R_{format}$	输出结构规范性惩罚	避免无效文本生成
工具使用奖励 $R_{tool}$	当且仅当 $R_{acc}>0$ 且调用≥1次工具时激活	激励工具的有意义调用

3.2.3 优化

采用GRPO算法
- 优势：
  - 已验证在多任务场景下的高效性
  - 适用于多轮智能体轨迹优化
训练细节
- 损失掩码
  - 忽略观察token带来的loss（如工具返回的图像特征）
  - 仅对VLM自主生成的token计算梯度

3.3 Training Data

3.3.1 数据收集

数据收集三大原则
- 任务与图像多样性
  - 覆盖不同领域和视觉分布
  - 包括细粒度数据 + 图表数据 + 推理数据
- 工具有效性
  - 确保工具调用能显著提升准确率
  - 优先选择需局部放大的问题
- 推理能力增强
  - 强化逻辑分析能力
  - 引入复杂推理数据集
数据构成与来源
- 细粒度数据
  - 来源：V*训练集子集
  - 特性：高分辨率图像
    - 用于细节感知问题
    - 工具价值：小区域裁剪可显著提升回答精度
- 图表数据（Chart data）
  - 来源：ArxivQA
  - 特性：合成图表与图形
    - 增强视觉元素多样性
- 推理数据（Reason data）
  - 来源：ThinkLite-VL
  - 特性：多步逻辑问题

3.3.2 数据选择

步骤1：难度管理
- 方法：
  - 使用Qwen2.5-VL-7B 生成每个问题的8个回答
  - 根据准确率评估难度（排除0%或100%准确率的样本）
- 目的：过滤过难（无法学习）或过易（无训练价值）的样本
步骤2：问题格式重构
- 操作：
  - 将问题统一转为开放式
  - 剔除无法可靠转换的问题
步骤3：确保可验证性
- 剔除标准：
  - 答案错误的样本
  - 问题表述不清晰的样本
步骤4：促进工具集成
- 核心逻辑：选择工具调用带来最大信息增益的样本
- 筛选条件：
  - 单轮交互回答错误
  - 使用真实裁剪区域后回答正确
- 例外处理：
  - 图表数据不参与此步骤过滤
  - 推理数据已预处理好，直接采用

4. Experiments

4.1 Setups

Benchmarks&Baselines：
- Baselines：GPT-4o/o3、LLaVA-OneVision、Qwen2.5-VL、SEAL、DyFo 和 ZoomEye。
- 评估重点：
  - 主要在高分辨率基准上评估 DeepEyes，以突出其在视觉理解任务中的优势。
  - 评估 DeepEyes 在基础定位和幻觉生成基准上的表现，展示 iMCoT 带来的改进。
  - 还使用了通用推理基准，验证 DeepEyes 的整体效果。
训练细节：
- 训练模型：Qwen2.5-VL-7B。
- 训练方法：使用 GRPO 训练 80 次迭代。
- 硬件：在 H100 GPU 上训练。
- 批次和回滚：每批次包含 256 个提示，每个提示有 16 次回滚，最多进行 6 次工具调用。
- KL 系数：设置为 0.0。
- 响应长度：最大响应长度为 20480 个 tokens。