当前位置：首页 > news >正文

【论文笔记】【强化微调】综述 - Think With Image

news 2025/7/5 6:05:26

[2506.23918] Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

近两年来，强化微调已经火得不像话了，相关论文每个月就有好几篇挂在 Arxiv 上，看都看不过来。

一篇将视觉强化微调的各种方法总结起来的综述被提出来了，这篇综述将对图像的思考分成了两种：Think About Image 和 Think With Image

前者仅仅是把图像静态输入给大模型，作为一次上下文；后者是动态输入图片，类似看 - 想 - 看的迭代式思考。

本博客仅仅提供一个简要概述，并不会将所有综述提到的论文都放上来。

综述将 Think With Image 分成了 3 个阶段：

静态工具调用：首先定义一组静态的工具，比如缩放裁剪。最后模型在对图进行思考的时候，对当前的子任务选择合适的工具。比如说针对家具布置问题，模型可能首先调用 “目标检测工具” 来识别房间内的各件物品，再用 “距离估计工具” 测量可用空间。基于这些工具输出，模型会得出 “当前空隙 1.5 米，而新沙发需要 2.0 米，因此放不下” 的结论。该方法在定向数据获取上非常有效，但受制于预设工具的静态能力。
动态程序生成：自动生成可执行代码来完成定制化视觉分析。面对同样的家具布置问题，模型可以生成一段 Python 脚本（例如使用 Matplotlib），在脚本中绘制房间的俯视平面图，并将每件家具表示为不同形状。然后，模型便可在这个抽象的可视化空间里，程序化地测试各种家具摆放方案。生成的代码既灵活，又能作为可审计的思考记录。唯一限制是仍需依赖外部环境来运行这些脚本。
内生视觉想象：这是最先进的阶段，模型通过内生想象实现了完全的认知自主。它依托统一的生成式架构，直接在内部生成新图像，作为中间推理步骤，而无需外部执行。为寻找最佳房间布局，模型可以生成一张 “沙发已放好” 的真实感效果图，显示家具重新布置后的房间。这个内部生成的图像就像思维假设或心理模拟，模型再将其输入自身进行评估，可能立刻发现 “通道被堵住了” 。整个过程在封闭的认知回路里无缝进行，突破了前两阶段的架构瓶颈。