当前位置: 首页 > news >正文

【论文笔记】【强化微调】综述 - Think With Image

[2506.23918] Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

近两年来,强化微调已经火得不像话了,相关论文每个月就有好几篇挂在 Arxiv 上,看都看不过来。

一篇将视觉强化微调的各种方法总结起来的综述被提出来了,这篇综述将对图像的思考分成了两种:Think About Image 和 Think With Image

前者仅仅是把图像静态输入给大模型,作为一次上下文;后者是动态输入图片,类似看 - 想 - 看的迭代式思考。

本博客仅仅提供一个简要概述,并不会将所有综述提到的论文都放上来。

综述将 Think With Image 分成了 3 个阶段:

  1. 静态工具调用:首先定义一组静态的工具,比如缩放裁剪。最后模型在对图进行思考的时候,对当前的子任务选择合适的工具。比如说针对家具布置问题,模型可能首先调用 “目标检测工具” 来识别房间内的各件物品,再用 “距离估计工具” 测量可用空间。基于这些工具输出,模型会得出 “当前空隙 1.5 米,而新沙发需要 2.0 米,因此放不下” 的结论。该方法在定向数据获取上非常有效,但受制于预设工具的静态能力
  2. 动态程序生成:自动生成可执行代码来完成定制化视觉分析。面对同样的家具布置问题,模型可以生成一段 Python 脚本(例如使用 Matplotlib),在脚本中绘制房间的俯视平面图,并将每件家具表示为不同形状。然后,模型便可在这个抽象的可视化空间里,程序化地测试各种家具摆放方案。生成的代码既灵活,又能作为可审计的思考记录。唯一限制是仍需依赖外部环境来运行这些脚本
  3. 内生视觉想象:这是最先进的阶段,模型通过内生想象实现了完全的认知自主。它依托统一的生成式架构,直接在内部生成新图像,作为中间推理步骤,而无需外部执行。为寻找最佳房间布局,模型可以生成一张 “沙发已放好” 的真实感效果图,显示家具重新布置后的房间。这个内部生成的图像就像思维假设或心理模拟,模型再将其输入自身进行评估,可能立刻发现 “通道被堵住了” 。整个过程在封闭的认知回路里无缝进行,突破了前两阶段的架构瓶颈。

http://www.dtcms.com/a/266295.html

相关文章:

  • 二叉树题解——将有序数组转换为二叉搜索树【LeetCode】优化解法
  • 微软医疗AI诊断系统发布 多智能体协作实现疑难病例分析
  • 怎么处理[TOO_MANY_REQUESTS/12/disk usage exceeded flood-stage watermark
  • windows安装ELK
  • Nginx 的安装部署
  • Web后端开发(事务管理、AOP)
  • 倾斜摄影无人机飞行航线规划流程详解
  • 无人机Ku相控阵卫星通信系统技术说明
  • jQuery Mobile 安装使用教程
  • 高可扩展属性建模设计:架构师的全局思考与落地方案
  • 云原生AI研发体系建设路径
  • PaddleOCR独立服务:高效OCR一站式解决方案
  • 简述MCP的原理-AI时代的USB接口
  • 如何把一台手机的屏幕投到另一台手机上
  • Perforce QAC 与 Klocwork 重磅升级:质量突破+许可降本
  • 【VScode | 格式化文档】一文掌握VScode使用 clang-format 的文档格式化(C/C++)
  • 文心大模型及百度大模型内容安全平台齐获信通院大模型安全认证
  • 微信小程序如何实现再多个页面共享数据
  • 机器学习中的数学---常用距离计算方法详解
  • 通过 Ansys Discovery CFD 仿真探索电池冷板概念
  • 睿尔曼系列机器人——以创新驱动未来,重塑智能协作新生态(下)
  • 【IM项目笔记】1、WebSocket协议和服务端推送Web方案
  • 在 Ubuntu 22.04 上使用 Minikube 部署 Go 应用到 Kubernetes
  • 商品中心—19.库存分桶高并发的优化文档
  • element-plus按需自动导入的配置 以及icon图标不显示的问题解决
  • Ubuntu 22.04 + MySQL 8 无密码登录问题与 root 密码重置指南
  • ubuntu22桌面版中文输入法 fcitx5
  • goole chrome变更默认搜索引擎为百度
  • MySQL(116)如何监控负载均衡状态?
  • 如何调节笔记本电脑亮度?其实有很多种方式可以调整亮度