当前位置：首页 > news >正文

端侧多模态大模型MiniCPM-V 4.5技术报告解析

news 2025/9/25 14:51:06

OpenBMB的MiniCPM-V 4.5模型技术报告新鲜出炉，为我们展示了一条兼顾性能（Strong Performance）与效率（High Efficiency）的惊艳路径。它并非简单地缩小模型尺寸，而是通过三大核心创新——统一的3D-Resampler视觉编码架构、统一的文档知识与OCR学习范式，以及混合强化学习策略——系统性地解决了MLLM在架构、数据和训练方法上的效率难题。另外一个思考是，MiniCPM-V 4.5这个8B参数的“小”模型，是如何在性能上超越GPT-4o-latest和Qwen2.5-VL 72B等巨头的。

1. 引言：效率——MLLM从“实验室”走向“人人可用”的必经之路

当前MLLM发展面临的三大效率瓶颈：

模型架构 (Model Architecture)：处理高分辨率图像和视频会产生海量的视觉token，给视觉编码器和LLM解码器带来沉重的计算负担。
训练数据 (Training Data)：获取文档（如PDF）中的知识，严重依赖脆弱、低效的外部解析工具，数据工程成本高昂。
训练方法 (Training Methods)：通过强化学习提升复杂推理能力，往往以生成极其冗长的“思维链”为代价，牺牲了简单任务的效率。

MiniCPM-V 4.5正是围绕这三大瓶颈，提出了三个环环相扣的、以“效率”为核心的解决方案。

2. 核心创新一：统一3D-Resampler——视觉信息的“超级压缩机”

2.1 MLLM的“视觉Token”之痛

问题: 传统的MLLM（如LLaVA）通常将一张448x448的图片编码为256个或更多的视觉token。对于视频，token数量更是急剧增长。例如，处理一段6秒、2fps、448x448的视频，Qwen2.5-VL需要1,536个token，InternVL3需要3,072个token。
后果: 巨大的token数量导致训练和推理的GPU显存和计算成本高到令人望而却步。