MiniCPM-V 4.5 vs MiniCPM-V 2.6 深度对比分析
项目简介
今天我们一起看下新出的多模态大模型*MiniCPM-V 4.5**,MiniCPM-V 定位于高效端侧多模态大模型(MLLM),支持图像、视频、文本等多模态输入,具备强大的视觉-语言理解与推理能力。4.5 版本为最新旗舰,2.6 版本为前一代主力。
- MiniCPM-V 4.5:8B 参数,基于 Qwen3-8B + SigLIP2-400M,主打高密度视频理解、可控快/深思考、强大 OCR 与文档解析、端侧高效推理。
- MiniCPM-V 2.6:8B 参数,基于 Qwen2.5-7B + SigLIP-400M,主打多图/视频理解、端侧实时推理、OCR 与多语言支持。
模型结构对比
MiniCPM-V 2.6 结构
- 主干:Qwen2.5-7B 语言模型 + SigLIP-400M 视觉编码器。
- 多模态融合:采用 2D-Resampler,将图片/视频帧编码为视觉 token,拼接文本 token 输入 LLM。
- 多图/视频支持:支持多张图片、短视频输入,视觉 tok