【论文笔记】【强化微调】综述 - Think With Image
[2506.23918] Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
近两年来,强化微调已经火得不像话了,相关论文每个月就有好几篇挂在 Arxiv 上,看都看不过来。
一篇将视觉强化微调的各种方法总结起来的综述被提出来了,这篇综述将对图像的思考分成了两种:Think About Image 和 Think With Image
前者仅仅是把图像静态输入给大模型,作为一次上下文;后者是动态输入图片,类似看 - 想 - 看的迭代式思考。
本博客仅仅提供一个简要概述,并不会将所有综述提到的论文都放上来。
综述将 Think With Image 分成了 3 个阶段:
- 静态工具调用:首先定义一组静态的工具,比如缩放裁剪。最后模型在对图进行思考的时候,对当前的子任务选择合适的工具。比如说针对家具布置问题,模型可能首先调用 “目标检测工具” 来识别房间内的各件物品,再用 “距离估计工具” 测量可用空间。基于这些工具输出,模型会得出 “当前空隙 1.5 米,而新沙发需要 2.0 米,因此放不下” 的结论。该方法在定向数据获取上非常有效,但受制于预设工具的静态能力。
- 动态程序生成:自动生成可执行代码来完成定制化视觉分析。面对同样的家具布置问题,模型可以生成一段 Python 脚本(例如使用 Matplotlib),在脚本中绘制房间的俯视平面图,并将每件家具表示为不同形状。然后,模型便可在这个抽象的可视化空间里,程序化地测试各种家具摆放方案。生成的代码既灵活,又能作为可审计的思考记录。唯一限制是仍需依赖外部环境来运行这些脚本。
- 内生视觉想象:这是最先进的阶段,模型通过内生想象实现了完全的认知自主。它依托统一的生成式架构,直接在内部生成新图像,作为中间推理步骤,而无需外部执行。为寻找最佳房间布局,模型可以生成一张 “沙发已放好” 的真实感效果图,显示家具重新布置后的房间。这个内部生成的图像就像思维假设或心理模拟,模型再将其输入自身进行评估,可能立刻发现 “通道被堵住了” 。整个过程在封闭的认知回路里无缝进行,突破了前两阶段的架构瓶颈。