【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
-
原文摘要
-
研究背景
-
现状:VLMs 已展现出强大的多模态理解和推理能力
-
局限:当前主要受限于基于文本的推理过程
-
核心挑战:如何实现类似人类认知过程的视觉与文本推理无缝集成
- 如何将高级视觉输入处理有效整合到推理机制中
-
-
解决方案
-
方法:探索交错式多模态推理范式
-
模型:提出DeepEyes模型——具备"图像思维"能力
-
训练特点:
- 通过端到端强化学习实现能力激励
- 无需冷启动监督微调(SFT)
- 能力源自模型自身而非依赖外部专家模型
-
-
技术贡献
-
训练数据构建:提出 tool-use-oriented 的数据选择机制
-
奖励函数设计:设计奖励函数以鼓励成功的工具辅助推理轨迹 (tool-assisted reasoning trajectories)
-
模型特点:利用固有基础能力作为推理工具
-
-
实验结果
-
性能提升:
- 在细粒度感知和推理基准测试中显著提升
- 在基础任务、幻觉抑制和数学推理方面也有改进
-
实验发现:
- 工具调用行为的进化:从初始探索到高效准确利用
- 思维模式的多样性:与人类视觉推理过程高度相似
-
-
1. Introduction
-
研究背景
-
当前VLMs的进展
- 采用长链思维方法处理多模态输入,提升复杂任务能力
- 根本缺陷:推理过程仍局限于文本模态,缺乏视觉模态的主动参与
-
人类认知的对比
- 人类通过序列化视觉注视 (sequential visual fixations) 实现图像思维
- 序列化视觉注视是指人眼在观察一个场景时,眼睛不断移动,聚焦在不同区域的过程。
- 在人类视觉感知中,眼睛不会一次性扫描整个场景,而是通过一系列短暂的、快速的注视点(即fixations)来逐步提取信息。
- 这种能力支持精确感知决策,在早期进化中具有生存意义
- 序列化视觉注视是指人眼在观察一个场景时,眼睛不断移动,聚焦在不同区域的过程。
- 人类通过序列化视觉注视 (sequential visual fixations) 实现图像思维
-
研究现状
- 预定义工作流方法:模块化设计导致性能次优
- OpenAI o3模型的突破:
- 首次实现动态视觉推理
- 使得模型能够模拟人类的视觉认知过程。
- 人类在思考时,会通过观察图像来获取信息,而不是仅依赖语言
- 通过交错式 文本CoT与图像工具 突破语言模态限制
- 模型可以在推理过程中自由切换和交替使用图像和文本
- 测试时的计算扩展
- 在模型的推理过程中,计算的规模可以根据需要灵活地扩展。
- 例如,在推理时,既可以用文本信息进行推理,也可以用图像进行推理,根据任务需求,模型可以在视觉和文本之间切换,或者同时使用这两种信息,提升整体的推理能力。
- 首次实现动态视觉推理
-
-
DeepEyes
-
核心能力
- 通过端到端强化学习激励"图像思维"能力
- 关键特性:
- 能力原生涌现,无需依赖外部专家模型
- 直接由结果奖励信号引导,跳过冷启动监督微调
-
技术实现
- 图像放大工具封装:将模型的基础能力封装为主动信息采集工具
- 在智能体框架中调用工具函数
- 自适应生成图像定位坐标并裁剪相关区域
- 交错式多模态CoT——iMCoT
- 视觉裁剪区域与文本推理轨迹实时拼接
- 实现视觉-文本推理无缝融合
- 图像放大工具封装:将模型的基础能力封装为主动信息采集工具
-
-
训练挑战与解决方案
-
初期训练问题
- 模型抗拒使用放大工具
- 早期探索阶段:区域选择低效、奖励信号不稳定
-
针对性设计
- 工具导向的数据选择机制:筛选能激励工具调用行为的训练样本
- 条件性奖励策略:对通过工具调用成功完成的任务轨迹给予额外奖励
- 消融实验验证:两者共同优化工具使用的效率与准确性
-
-
动态训练&训练效果
-
工具调用行为的三个阶段(无需中间步骤SFT):
- 初始探索期:工具使用低效
- 激进使用期:调用频繁但成功率提升
- 精准利用期:选择性调用且性能稳定
-
类人推理模式涌现:
- 视觉搜索:定位小目标/难识别物体
- 跨区域比较
- 不确定性消除
- 幻觉抑制:通过细节聚焦
-
-
实验结果与贡献总结
-
性能提升
- 高分辨率基准测试:
- V*任务准确率90.1%(+18.9%)
- HR-Bench-4K/8K分别提升6.3%和7.3%
- 多任务泛化性:视觉定位、幻觉抑制、数学推理等
- 高分辨率基准测试:
-
三大核心贡献
- 图像思维能力的RL激励范式:实现iMCoT,无需冷启动SFT或外部工具
- 训练优化组合:工具导向数据选择 + 条件性奖励策略
- 揭示RL训练动态:工具调用行为三阶段进化与多样化推理模式
-
2. Related Work
2.1 MLLM
-
多模态大语言模型(MLLMs)的演进
-
技术发展路径
-
早期系统:vision encoders + LLMs
-
现代架构:通过联合训练实现模态深度对齐
- 代表技术
-
BLIP-2 / LLaVA:
- 使用查询变换器(query transformers)或轻量级投影器
- 将图像特征映射到冻结LLM的潜空间
- 支持视觉问答和指令跟随
-
AnyRes:
- 突破分辨率限制,支持灵活输入尺寸
- 增强视觉保真度
-
- 代表技术
-
-
代表性模型:LLaVA、Qwen-VL、InternVL、Flamingo、mPLUG-Owl、GPT-4V
-
关键技术:
- 专家混合(Mixture-of-Experts MoE)
- 图像生成能力集成
-
-
现存缺陷
-
推理能力不足:缺乏链式思维、测试时计算扩展性差
-
感知-推理脱节:视觉感知与逻辑推理仍为分离流程
-
2.2 Vision-language Model Reasoning
-
多模态链式思维的两大范式
-
基于预定义工作流的方法
-
技术特点:依赖固定流程或分阶段处理、需要辅助模型
-
典型技术:兴趣区域定位、潜特征再生、外部知识整合
-
-
基于强化学习的方法
-
研究动机:受纯文本CoT研究启发
-
应用场景:空间推理、物体识别、语义分割
-
-
-
DeepEyes的差异化创新
-
自主决策能力:模型自主决定视觉输入的调用时机与方式
-
动态调整机制:通过结果奖励信号自适应调整视觉探索
-
流程灵活性:突破硬编码推理流程或纯文本CoT扩展的局限
-
3. Methods
3.1 DeepEyes
-
工作流程详解
-
输入:用户问题 + 原始图像I₀
-
动态决策:
- 文本推理步后自主选择:
- 直接生成答案 或 调用图像放大工具
- 工具调用:
- 输入:边界框坐标列表
- 输出:指定区域裁剪图像(如Iₜ₁, Iₜ₂)
- 轨迹更新:裁剪图像追加至推理轨迹
- 迭代终止:可多次调用工具直至生成最终答案
- 文本推理步后自主选择:
-
-
技术优势场景:处理小目标、模糊或难识别物体时效果显著——细粒度感知
-
训练机制
- 全局优化:
- 奖励策略梯度作用于完整轨迹
- 文本CoT与动作决策联合端到端优化
- 全局优化:
-
核心优势
评价维度 DeepEyes (iMCoT) 对比基线 训练简洁性 仅需问答对 工作流方法需大量SFT数据 泛化能力 通过RL动态选择跨任务最优推理 任务特定设计导致泛化受限 优化统一性 端到端联合优化保障全局最优 模块分离优化导致次优性能 多模态融合 视觉-文本自然交错 纯文本推理缺乏视觉整合 工具原生性 直接优化工具使用效率/精度 传统范式无法实现工具级优化
3.2 Agentic Reinforcement Learning
3.2.1 强化学习框架设计
-
传统RL与Agentic RL对比
- 传统RL:输入提示词 + 已生成文本词元
- Agentic RL:增加外部函数调用的观察词元——observation tokens
-
iMCoT的MDP形式化定义
-
状态表示:
s t = { ( X 0 , I 0 ) , ( X 1 , I 1 ) , . . . , ( X t , I t ) } = { X ≤ t ; I ≤ t } s_t = \{(X_0, I_0), (X_1, I_1), ..., (X_t, I_t)\} = \{X_{\leq t}; I_{\leq t}\} st={(X0,I0),(X1,I1),...,(Xt,It)}={X≤t;I≤t}- 符号解释
- X ≤ t X_{\leq t} X≤t:截至步骤t的文本token序列
- I ≤ t I_{\leq t} I≤t:图像观察token序列(来自工具调用)
- 注:省略非VLM生成的特殊token(如分隔符)
- 符号解释
-
策略执行:
- 动作采样: a t ∼ π θ ( a ∣ s t ) a_t \sim \pi_\theta(a | s_t) at∼πθ(a∣st)
- 终止条件:生成答案 或 达到最大工具调用次数
-
关键特性:
- 观察token整体处理(不参与损失计算)
- 虽然观察token会参与推理过程,但不直接影响训练的损失函数
- 状态动态包含文本与视觉信息的交错拼接
- 模型的推理是基于两种信息(文本和图像)的交替输入,而不仅仅是纯文本数据。
- 观察token整体处理(不参与损失计算)
-
-
传统的VLM与DeepEyes的区别:
-
传统VLM
-
在 传统VLM 中,图像信息通常是通过将图像处理成 图像token 后直接融入到文本tokens中。
-
这意味着图像tokens与文本tokens在模型的输入中是混合在一起的。
-
这种模型将图像的视觉信息和文本信息直接结合,在输入时已经不再区分图像和文本,通常图像的信息被编码为一个与文本同样形式的token序列,与文本tokens一起供模型使用。
-
-
DeepEyes
- DeepEyes 在推理过程中 显式地区分文本tokens和图像tokens。
- 在DeepEyes中,图像tokens作为外部观察信息与文本tokens交替使用,但它们在模型的推理过程和状态定义中是显式分开的。
- 模型在每一步的推理中会根据 文本tokens和图像tokens 共同形成的状态来决定下一个动作(即生成下一个token),并且这两种信息会分别出现在状态定义( st = {X≤t; I≤t})中。
-
3.2.2 奖励函数设计
R ( τ ) = R a c c ( τ ) + R f o r m a t ( τ ) + I R a c c ( τ ) > 0 ⋅ R t o o l ( τ ) R(\tau) = R_{acc}(\tau) + R_{format}(\tau) + \mathbb{I}_{R_{acc}(\tau)>0} \cdot R_{tool}(\tau) R(τ)=Racc(τ)+Rformat(τ)+IRacc(τ)>0⋅Rtool(τ)
奖励项 | 计算逻辑 | 设计目的 |
---|---|---|
准确性奖励 R a c c R_{acc} Racc | 最终答案正确性(0/1) | 确保任务目标达成 |
格式奖励 R f o r m a t R_{format} Rformat | 输出结构规范性惩罚 | 避免无效文本生成 |
工具使用奖励 R t o o l R_{tool} Rtool | 当且仅当 R a c c > 0 R_{acc}>0 Racc>0 且调用≥1次工具时激活 | 激励工具的有意义调用 |
3.2.3 优化
-
采用GRPO算法
- 优势:
- 已验证在多任务场景下的高效性
- 适用于多轮智能体轨迹优化
- 优势:
-
训练细节
- 损失掩码
- 忽略观察token带来的loss(如工具返回的图像特征)
- 仅对VLM自主生成的token计算梯度
- 损失掩码
3.3 Training Data
3.3.1 数据收集
-
数据收集三大原则
-
任务与图像多样性
- 覆盖不同领域和视觉分布
- 包括细粒度数据 + 图表数据 + 推理数据
-
工具有效性
- 确保工具调用能显著提升准确率
- 优先选择需局部放大的问题
-
推理能力增强
- 强化逻辑分析能力
- 引入复杂推理数据集
-
-
数据构成与来源
-
细粒度数据
-
来源:V*训练集子集
-
特性:高分辨率图像
-
用于细节感知问题
-
工具价值:小区域裁剪可显著提升回答精度
-
-
-
图表数据(Chart data)
-
来源:ArxivQA
-
特性:合成图表与图形
- 增强视觉元素多样性
-
-
推理数据(Reason data)
-
来源:ThinkLite-VL
-
特性:多步逻辑问题
-
-
3.3.2 数据选择
-
步骤1:难度管理
-
方法:
- 使用Qwen2.5-VL-7B 生成每个问题的8个回答
- 根据准确率评估难度(排除0%或100%准确率的样本)
-
目的:过滤过难(无法学习)或过易(无训练价值)的样本
-
-
步骤2:问题格式重构
- 操作:
- 将问题统一转为开放式
- 剔除无法可靠转换的问题
- 操作:
-
步骤3:确保可验证性
- 剔除标准:
- 答案错误的样本
- 问题表述不清晰的样本
- 剔除标准:
-
步骤4:促进工具集成
-
核心逻辑:选择工具调用带来最大信息增益的样本
-
筛选条件:
- 单轮交互回答错误
- 使用真实裁剪区域后回答正确
-
例外处理:
- 图表数据不参与此步骤过滤
- 推理数据已预处理好,直接采用
-
4. Experiments
4.1 Setups
- Benchmarks&Baselines:
- Baselines:GPT-4o/o3、LLaVA-OneVision、Qwen2.5-VL、SEAL、DyFo 和 ZoomEye。
- 评估重点:
- 主要在高分辨率基准上评估 DeepEyes,以突出其在视觉理解任务中的优势。
- 评估 DeepEyes 在基础定位和 幻觉生成基准上的表现,展示 iMCoT 带来的改进。
- 还使用了通用推理基准,验证 DeepEyes 的整体效果。
- 训练细节:
- 训练模型:Qwen2.5-VL-7B。
- 训练方法:使用 GRPO 训练 80 次迭代。
- 硬件:在 H100 GPU 上训练。
- 批次和回滚:每批次包含 256 个提示,每个提示有 16 次回滚,最多进行 6 次工具调用。
- KL 系数:设置为 0.0。
- 响应长度:最大响应长度为 20480 个 tokens。