当前位置: 首页 > news >正文

【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning

DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning

  • 原文摘要

    • 研究背景

      • 现状:VLMs 已展现出强大的多模态理解和推理能力

      • 局限:当前主要受限于基于文本的推理过程

      • 核心挑战:如何实现类似人类认知过程的视觉与文本推理无缝集成

        • 如何将高级视觉输入处理有效整合到推理机制中
    • 解决方案

      • 方法:探索交错式多模态推理范式

      • 模型:提出DeepEyes模型——具备"图像思维"能力

      • 训练特点:

        • 通过端到端强化学习实现能力激励
        • 无需冷启动监督微调(SFT)
        • 能力源自模型自身而非依赖外部专家模型
    • 技术贡献

      • 训练数据构建:提出 tool-use-oriented 的数据选择机制

      • 奖励函数设计:设计奖励函数以鼓励成功的工具辅助推理轨迹 (tool-assisted reasoning trajectories)

      • 模型特点:利用固有基础能力作为推理工具

    • 实验结果

      • 性能提升:

        • 在细粒度感知和推理基准测试中显著提升
        • 在基础任务、幻觉抑制和数学推理方面也有改进
      • 实验发现:

        • 工具调用行为的进化:从初始探索到高效准确利用
        • 思维模式的多样性:与人类视觉推理过程高度相似

1. Introduction

  • 研究背景

    • 当前VLMs的进展

      • 采用长链思维方法处理多模态输入,提升复杂任务能力
      • 根本缺陷:推理过程仍局限于文本模态,缺乏视觉模态的主动参与
    • 人类认知的对比

      • 人类通过序列化视觉注视 (sequential visual fixations) 实现图像思维
        • 序列化视觉注视是指人眼在观察一个场景时,眼睛不断移动,聚焦在不同区域的过程。
          • 在人类视觉感知中,眼睛不会一次性扫描整个场景,而是通过一系列短暂的、快速的注视点(即fixations)来逐步提取信息。
          • 这种能力支持精确感知决策,在早期进化中具有生存意义
    • 研究现状

      • 预定义工作流方法:模块化设计导致性能次优
      • OpenAI o3模型的突破:
        • 首次实现动态视觉推理
          • 使得模型能够模拟人类的视觉认知过程。
          • 人类在思考时,会通过观察图像来获取信息,而不是仅依赖语言
        • 通过交错式 文本CoT与图像工具 突破语言模态限制
          • 模型可以在推理过程中自由切换和交替使用图像和文本
        • 测试时的计算扩展
          • 在模型的推理过程中,计算的规模可以根据需要灵活地扩展。
          • 例如,在推理时,既可以用文本信息进行推理,也可以用图像进行推理,根据任务需求,模型可以在视觉和文本之间切换,或者同时使用这两种信息,提升整体的推理能力。
  • DeepEyes

    • 核心能力

      • 通过端到端强化学习激励"图像思维"能力
      • 关键特性
        • 能力原生涌现,无需依赖外部专家模型
        • 直接由结果奖励信号引导,跳过冷启动监督微调
    • 技术实现

      • 图像放大工具封装:将模型的基础能力封装为主动信息采集工具
        • 在智能体框架中调用工具函数
        • 自适应生成图像定位坐标并裁剪相关区域
      • 交错式多模态CoT——iMCoT
        • 视觉裁剪区域与文本推理轨迹实时拼接
        • 实现视觉-文本推理无缝融合
  • 训练挑战与解决方案

    • 初期训练问题

      • 模型抗拒使用放大工具
      • 早期探索阶段:区域选择低效、奖励信号不稳定
    • 针对性设计

      1. 工具导向的数据选择机制:筛选能激励工具调用行为的训练样本
      2. 条件性奖励策略:对通过工具调用成功完成的任务轨迹给予额外奖励
      3. 消融实验验证:两者共同优化工具使用的效率与准确性
  • 动态训练&训练效果

    • 工具调用行为的三个阶段(无需中间步骤SFT):

      1. 初始探索期:工具使用低效
      2. 激进使用期:调用频繁但成功率提升
      3. 精准利用期:选择性调用且性能稳定
    • 类人推理模式涌现

      • 视觉搜索:定位小目标/难识别物体
      • 跨区域比较
      • 不确定性消除
      • 幻觉抑制:通过细节聚焦
  • 实验结果与贡献总结

    • 性能提升

      • 高分辨率基准测试:
        • V*任务准确率90.1%(+18.9%)
        • HR-Bench-4K/8K分别提升6.3%和7.3%
      • 多任务泛化性:视觉定位、幻觉抑制、数学推理等
    • 三大核心贡献

      1. 图像思维能力的RL激励范式:实现iMCoT,无需冷启动SFT或外部工具
      2. 训练优化组合:工具导向数据选择 + 条件性奖励策略
      3. 揭示RL训练动态:工具调用行为三阶段进化与多样化推理模式

2. Related Work

2.1 MLLM

  • 多模态大语言模型(MLLMs)的演进

    • 技术发展路径

      • 早期系统:vision encoders + LLMs

      • 现代架构:通过联合训练实现模态深度对齐

        • 代表技术
          • BLIP-2 / LLaVA

            • 使用查询变换器(query transformers)或轻量级投影器
            • 将图像特征映射到冻结LLM的潜空间
            • 支持视觉问答和指令跟随
          • AnyRes

            • 突破分辨率限制,支持灵活输入尺寸
            • 增强视觉保真度
    • 代表性模型:LLaVA、Qwen-VL、InternVL、Flamingo、mPLUG-Owl、GPT-4V

    • 关键技术

      • 专家混合(Mixture-of-Experts MoE
      • 图像生成能力集成
  • 现存缺陷

    • 推理能力不足:缺乏链式思维、测试时计算扩展性差

    • 感知-推理脱节:视觉感知与逻辑推理仍为分离流程

2.2 Vision-language Model Reasoning

  • 多模态链式思维的两大范式

    • 基于预定义工作流的方法

      • 技术特点:依赖固定流程或分阶段处理、需要辅助模型

      • 典型技术:兴趣区域定位、潜特征再生、外部知识整合

    • 基于强化学习的方法

      • 研究动机:受纯文本CoT研究启发

      • 应用场景:空间推理、物体识别、语义分割

  • DeepEyes的差异化创新

    • 自主决策能力:模型自主决定视觉输入的调用时机与方式

    • 动态调整机制:通过结果奖励信号自适应调整视觉探索

    • 流程灵活性:突破硬编码推理流程或纯文本CoT扩展的局限

3. Methods

3.1 DeepEyes

  • 工作流程详解

    • 输入:用户问题 + 原始图像I₀

    • 动态决策

      1. 文本推理步后自主选择:
        • 直接生成答案 调用图像放大工具
      2. 工具调用
        • 输入:边界框坐标列表
        • 输出:指定区域裁剪图像(如Iₜ₁, Iₜ₂)
      3. 轨迹更新:裁剪图像追加至推理轨迹
      4. 迭代终止:可多次调用工具直至生成最终答案
  • 技术优势场景:处理小目标、模糊或难识别物体时效果显著——细粒度感知

  • 训练机制

    • 全局优化
      • 奖励策略梯度作用于完整轨迹
      • 文本CoT与动作决策联合端到端优化
  • 核心优势

    评价维度DeepEyes (iMCoT)对比基线
    训练简洁性仅需问答对工作流方法需大量SFT数据
    泛化能力通过RL动态选择跨任务最优推理任务特定设计导致泛化受限
    优化统一性端到端联合优化保障全局最优模块分离优化导致次优性能
    多模态融合视觉-文本自然交错纯文本推理缺乏视觉整合
    工具原生性直接优化工具使用效率/精度传统范式无法实现工具级优化

3.2 Agentic Reinforcement Learning

3.2.1 强化学习框架设计
  • 传统RL与Agentic RL对比

    • 传统RL:输入提示词 + 已生成文本词元
    • Agentic RL:增加外部函数调用的观察词元——observation tokens
  • iMCoT的MDP形式化定义

    • 状态表示
      s t = { ( X 0 , I 0 ) , ( X 1 , I 1 ) , . . . , ( X t , I t ) } = { X ≤ t ; I ≤ t } s_t = \{(X_0, I_0), (X_1, I_1), ..., (X_t, I_t)\} = \{X_{\leq t}; I_{\leq t}\} st={(X0,I0),(X1,I1),...,(Xt,It)}={Xt;It}

      • 符号解释
        • X ≤ t X_{\leq t} Xt:截至步骤t的文本token序列
        • I ≤ t I_{\leq t} It:图像观察token序列(来自工具调用)
        • :省略非VLM生成的特殊token(如分隔符)
    • 策略执行

      • 动作采样: a t ∼ π θ ( a ∣ s t ) a_t \sim \pi_\theta(a | s_t) atπθ(ast)
      • 终止条件:生成答案达到最大工具调用次数
    • 关键特性

      • 观察token整体处理(不参与损失计算)
        • 虽然观察token会参与推理过程,但不直接影响训练的损失函数
      • 状态动态包含文本与视觉信息的交错拼接
        • 模型的推理是基于两种信息(文本和图像)的交替输入,而不仅仅是纯文本数据。
  • 传统的VLM与DeepEyes的区别

    • 传统VLM

      • 传统VLM 中,图像信息通常是通过将图像处理成 图像token 后直接融入到文本tokens中。

      • 这意味着图像tokens与文本tokens在模型的输入中是混合在一起的

      • 这种模型将图像的视觉信息和文本信息直接结合,在输入时已经不再区分图像和文本,通常图像的信息被编码为一个与文本同样形式的token序列,与文本tokens一起供模型使用。

    • DeepEyes

      • DeepEyes 在推理过程中 显式地区分文本tokens和图像tokens
      • 在DeepEyes中,图像tokens作为外部观察信息与文本tokens交替使用,但它们在模型的推理过程和状态定义中是显式分开的。
      • 模型在每一步的推理中会根据 文本tokens和图像tokens 共同形成的状态来决定下一个动作(即生成下一个token),并且这两种信息会分别出现在状态定义( st = {X≤t; I≤t})中。
3.2.2 奖励函数设计

R ( τ ) = R a c c ( τ ) + R f o r m a t ( τ ) + I R a c c ( τ ) > 0 ⋅ R t o o l ( τ ) R(\tau) = R_{acc}(\tau) + R_{format}(\tau) + \mathbb{I}_{R_{acc}(\tau)>0} \cdot R_{tool}(\tau) R(τ)=Racc(τ)+Rformat(τ)+IRacc(τ)>0Rtool(τ)

奖励项计算逻辑设计目的
准确性奖励 R a c c R_{acc} Racc最终答案正确性(0/1)确保任务目标达成
格式奖励 R f o r m a t R_{format} Rformat输出结构规范性惩罚避免无效文本生成
工具使用奖励 R t o o l R_{tool} Rtool当且仅当 R a c c > 0 R_{acc}>0 Racc>0 且调用≥1次工具时激活激励工具的有意义调用
3.2.3 优化
  • 采用GRPO算法

    • 优势
      • 已验证在多任务场景下的高效性
      • 适用于多轮智能体轨迹优化
  • 训练细节

    • 损失掩码
      • 忽略观察token带来的loss(如工具返回的图像特征)
      • 仅对VLM自主生成的token计算梯度

3.3 Training Data

3.3.1 数据收集
  • 数据收集三大原则

    • 任务与图像多样性

      • 覆盖不同领域和视觉分布
      • 包括细粒度数据 + 图表数据 + 推理数据
    • 工具有效性

      • 确保工具调用能显著提升准确率
      • 优先选择需局部放大的问题
    • 推理能力增强

      • 强化逻辑分析能力
      • 引入复杂推理数据集
  • 数据构成与来源

    • 细粒度数据

      • 来源:V*训练集子集

      • 特性:高分辨率图像

        • 用于细节感知问题

        • 工具价值:小区域裁剪可显著提升回答精度

    • 图表数据(Chart data)

      • 来源:ArxivQA

      • 特性:合成图表与图形

        • 增强视觉元素多样性
    • 推理数据(Reason data)

      • 来源:ThinkLite-VL

      • 特性:多步逻辑问题

3.3.2 数据选择
  • 步骤1:难度管理

    • 方法

      • 使用Qwen2.5-VL-7B 生成每个问题的8个回答
      • 根据准确率评估难度(排除0%或100%准确率的样本)
    • 目的:过滤过难(无法学习)或过易(无训练价值)的样本

  • 步骤2:问题格式重构

    • 操作
      • 将问题统一转为开放式
      • 剔除无法可靠转换的问题
  • 步骤3:确保可验证性

    • 剔除标准
      • 答案错误的样本
      • 问题表述不清晰的样本
  • 步骤4:促进工具集成

    • 核心逻辑:选择工具调用带来最大信息增益的样本

    • 筛选条件

      • 单轮交互回答错误
      • 使用真实裁剪区域后回答正确
    • 例外处理

      • 图表数据不参与此步骤过滤
      • 推理数据已预处理好,直接采用

4. Experiments

4.1 Setups

  1. Benchmarks&Baselines
    • Baselines:GPT-4o/o3、LLaVA-OneVision、Qwen2.5-VL、SEAL、DyFo 和 ZoomEye。
    • 评估重点
      • 主要在高分辨率基准上评估 DeepEyes,以突出其在视觉理解任务中的优势。
      • 评估 DeepEyes 在基础定位和 幻觉生成基准上的表现,展示 iMCoT 带来的改进。
      • 还使用了通用推理基准,验证 DeepEyes 的整体效果。
  2. 训练细节
    • 训练模型:Qwen2.5-VL-7B。
    • 训练方法:使用 GRPO 训练 80 次迭代。
    • 硬件:在 H100 GPU 上训练。
    • 批次和回滚:每批次包含 256 个提示,每个提示有 16 次回滚,最多进行 6 次工具调用。
    • KL 系数:设置为 0.0。
    • 响应长度:最大响应长度为 20480 个 tokens。

4.2 Results

http://www.dtcms.com/a/264965.html

相关文章:

  • 【新手小白的嵌入式学习之路】-STM32的学习_GPIO 8种模式学习心得
  • JavaWeb笔记03
  • GC393:一款低功耗双电压比较器芯片
  • 设计模式-责任链模式
  • SpringBoot控制反转
  • vue中的toRef
  • 【Redis】StringRedisTemplate 和 RedisTemplate 的区别
  • Python 数据分析与可视化 Day 14 - 建模复盘 + 多模型评估对比(逻辑回归 vs 决策树)
  • JavaEE==网站开发
  • Liunx 安装 MySQL 8.0
  • Selenium使用教程-爬虫版(超详细)
  • 数学建模_图论
  • 重塑智能体决策路径:深入理解 ReAct 框架
  • 【前端进阶】【实战】【性能优化】前端开发中的事件监听与DOM操作优化实践
  • Linux基本命令篇 —— whereis命令
  • 利用 Claude Opus 4 自动化 GitHub 工作流:从安装到实战详解
  • 新版本AI数字人全能管家,即将推出,还是开源免费。
  • [附源码+数据库+毕业论文+答辩PPT]基于Spring+MyBatis+MySQL+Maven+vue实现的中小型企业财务管理系统,推荐!
  • 多个单片机简单通讯框架
  • GO Web 框架 Gin 完全解析与实践
  • 数据结构与算法 第三章 栈和队列
  • 第一章 快速入门
  • DPI深度检索原理和架构
  • 人脸活体识别3:C/C++实现人脸眨眼 张嘴 点头 摇头识别(可实时检测)
  • 创客匠人解构知识付费爆单密码:产品力打造与 IP 变现的深度耦合
  • Kafka高级特性深度解析:构建企业级流处理平台的核心技术
  • IP地理定位技术综述:理论、方法与应用创新(三)
  • pdf 合并 python实现(已解决)
  • Qt Quick 与 QML(五)qml中的布局
  • 基于图神经网络的ALS候选药物预测模型设计与实现