Machine Mental Imagery: Empower MultimodalReasoning with Latent Visual Tokens
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokenshttps://www.arxiv.org/pdf/2506.17218
1. 概述
视觉-语言模型(VLMs)联合编码图像和文本,并通过仅文本解码在视觉理解基准测试中取得了令人印象深刻的结果 [Wang et al., 2024]。诸如思维链提示和强化学习微调等技术可以延长这些文本推理轨迹并带来额外的收益。然而,VLMs在多模态推理任务(如空间推理)上仍然存在困难,这些任务需要的不仅仅是被动感知;它们需要对