LLaVA:开源多模态大语言模型深度解析
一、基本介绍
1.1 项目背景与定位
LLaVA(Large Language and Vision Assistant)是由Haotian Liu等人开发的开源多模态大语言模型,旨在实现GPT-4级别的视觉-语言交互能力。该项目通过视觉指令微调技术,将预训练的视觉编码器与语言模型深度融合,在多个多模态基准测试中达到SOTA水平。
核心特点:
- 支持336x336高分辨率图像处理
- 兼容LLaMA、Vicuna、Mistral等多种基座模型
- 提供4-bit/8-bit量化推理能力
- 支持LoRA高效微调
- 在单卡3090 GPU上即可完成训练
1.2 技术演进
- v1.0 (2023/04):基础视觉指令微调框架
- v1.5 (2023/10):引入MLP2x-GELU投影器,训练效率提升40%
- v1.6 (2024/01):支持4倍分辨率提升,推理速度优化30%
- NeXT系列 (2024/05):支持Llama3-8B和Qwen-72B大模型