当前位置：首页 > news >正文

MiniCPM-V 4.5 vs MiniCPM-V 2.6 深度对比分析

news 2025/8/29 6:50:53

在这里插入图片描述

项目简介

今天我们一起看下新出的多模态大模型*MiniCPM-V 4.5**，MiniCPM-V 定位于高效端侧多模态大模型（MLLM），支持图像、视频、文本等多模态输入，具备强大的视觉-语言理解与推理能力。4.5 版本为最新旗舰，2.6 版本为前一代主力。

MiniCPM-V 4.5：8B 参数，基于 Qwen3-8B + SigLIP2-400M，主打高密度视频理解、可控快/深思考、强大 OCR 与文档解析、端侧高效推理。
MiniCPM-V 2.6：8B 参数，基于 Qwen2.5-7B + SigLIP-400M，主打多图/视频理解、端侧实时推理、OCR 与多语言支持。

模型结构对比

MiniCPM-V 2.6 结构

主干：Qwen2.5-7B 语言模型 + SigLIP-400M 视觉编码器。
多模态融合：采用 2D-Resampler，将图片/视频帧编码为视觉 token，拼接文本 token 输入 LLM。
多图/视频支持：支持多张图片、短视频输入，视觉 tok

http://www.dtcms.com/a/355026.html

相关文章：

claude code helper for vscode

MTK Linux DRM分析（十七）- MTK KMS实现mtk_drm_fb.c

HTML贪吃蛇游戏实现

SQLSERVER触发器

C++讲解---什么是静态成员函数

云计算学习100天-第28天

软件测试（三）：测试流程及测试用例

如果被控端显示器分辨率是2k，远程控制软件的画质设置是4k，主控端显示器的分辨率是2k，那主控端看到的被控端画面是几k

list 手动实现 1

IO多路复用---EPOLL

把llamafacoty微调后的模型导出ollama模型文件

SPARK入门

Python 多版本环境治理理念驱动的系统架构设计——三维治理、四级隔离、五项自治原则（路径治理升级修订 V 2.0 版）

七牛云实践：我们如何用 AIGC 将产品开发从“人想图”变为“图选图”

使用astah制作专业状态图及C/C++实现解析

随手小记：elementUI的勾选框使用的坑

大模型微调示例五之Llama-Factory_agent_functioncalling

大数据原生集群 (Hadoop3.X为核心) 本地测试环境搭建三

仓颉编程语言：全场景开发的未来选择

SAP-ABAP:SAP HANA 架构解析：主从（Scale-Out）与主备（High Availability）架构深度对比

从零开始学习JavaWeb-20

架构评审：构建稳定、高效、可扩展的技术架构（上）

刷题日记0828

AMGCL介绍和使用

Spark 安装教程与使用指南

Jetson（meta‑tegra）升级要点与 doflash.sh 组件清单

嵌入式研发工程师成长路线图，基础入门 → 中级提升 → 高级进阶 → 专家方向

基于 Spring AMQP 的 RabbitMQ 分布式消息系统实战

imx6ull-驱动开发篇47——Linux SPI 驱动实验

Java全栈工程师的实战面试：从基础到微服务的全面解析