多模态大语言VLM模型综述
近年来,以
GPT-4V
为代表的多模态大语言模型(MLLM)成为新兴研究热点,其利用强大的大语言模型(LLM)作为核心处理多模态任务。MLLM展现出的惊人涌现能力(例如基于图像生成故事、无需OCR的数学推理等)在传统多模态方法中极为罕见,这为通向通用人工智能提供了潜在路径。为此,学术界与工业界纷纷致力于开发可媲美甚至超越GPT-4V的MLLM,以惊人的速度不断突破研究边界。本文旨在系统梳理并总结MLLM的最新进展:首先阐述MLLM的基本框架,明晰其相关概念(包括模型架构
、训练策略
与数据
、评估体系
);随后探讨如何扩展MLLM以支持更细粒度模态、更多语言及更丰富场景的研究主题;继而分析多模态幻觉
问题及扩展技术,涵盖多模态上下文学习(M-ICL
)、多模态思维链(M-CoT
)以及语言模型辅助视觉推理(LAVR
);最后讨论当前挑战并指出未来研究方向。鉴于MLLM时代刚刚开启,我们将持续更新本综述,希望激发更多研究灵感。相关GitHub链接汇集了最新论文,访问地址为https://github.com/BradyFU