当前位置：首页 > news >正文

MiniCPM-o 2.6 小参数挑战巨头多模态直播流直达手机

news 2025/11/15 10:12:30

传送锚点

- - 性能超越效率惊人
  - 全能多模态能力
  - 架构创新与部署便捷

AI前沿动态聚焦 OpenBMB 最新力作 MiniCPM-o 2.6 模型以仅 80 亿参数的体量，在多项基准测试中展现出与 GPT-4o 202405 GPT-4V Claude 3.5 Sonnet Gemini 1.5 Pro 等专有大型模型相媲美甚至超越的性能，尤其令人瞩目的是其在手机端实现多模态直播流的能力。

性能超越效率惊人

MiniCPM-o 2.6 在OpenCompass综合评估中取得了 70.2 的平均分，在单图像理解方面超越了 GPT-4o 202405 Gemini 1.5 Pro 和 Claude 3.5 Sonnet。在多图像和视频理解方面，它也表现出色，优于 GPT-4V 和 Claude 3.5 Sonnet。

更令人惊喜的是其在 OCRBenchmark 上的表现，该模型在 25B 参数以下的模型中达到 SOTA 水平，甚至超越了 GPT-4o 202405。

这种高性能与小体量的结合，得益于其卓越的效率。MiniCPM-o 2.6 拥有先进的 token 密度技术，处理 180 万像素图像仅需 640 个 token，比大多数模型减少 75%。这直接带来了更快的推理速度、更低的首次 token 延迟、更少的内存占用和功耗，使其能够高效支持 iPad 等终端设备上的多模态直播流。

全能多模态能力

该模型不仅视觉能力出众，语音交互方面也达到了前沿水平。MiniCPM-o 2.6 支持中英双语实时语音对话，并能配置多种音色。在音频理解任务比如 ASR 和 STT 翻译上，它超越了 GPT-4o-realtime。它还支持情感语速风格控制、端到端语音克隆、角色扮演等趣味功能。

作为一项新特性，MiniCPM-o 2.6 能够独立于用户查询，接收连续的视频和音频流，并支持实时语音交互。在 StreamingBench 实时视频理解、全源理解和多模态上下文理解的综合基准测试中，其性能超越了 GPT-4o 202408 和 Claude 3.5 Sonnet。

架构创新与部署便捷

MiniCPM-o 2.6 采用端到端全模态架构，将不同模态的编码器解码器无缝连接，充分利用丰富的多模态知识。特别设计的全模态直播流机制，将并行多模态流分割成小周期时间片内的顺序信息，确保实时处理。可配置的语音建模设计，通过文本和音频系统提示词，实现推理时灵活的语音配置，甚至支持端到端语音克隆。

对于开发者和AI爱好者，MiniCPM-o 2.6 提供了极其便捷的使用方式。它支持 llama.cpp 进行本地 CPU 推理，提供 int4 和 GGUF 格式的量化模型，并通过 vLLM 实现高吞吐量和内存高效推理。此外，还支持使用 LLaMA-Factory 进行微调，以及通过 Gradio 快速搭建本地 WebUI 演示。

用户可以通过 GitHub 页面 https://github.com/OpenBMB/MiniCPM-o

或在线演示 https://minicpm-omni-webdemo-us.modelbest.cn/ 体验模型强大功能。

MiniCPM-o 2.6 的发布，再次证明小型高效模型也能在关键性能上与大型专有模型一较高下，尤其是在终端设备上实现复杂多模态实时交互，这无疑为未来 AI 应用的普及开辟了新的道路。

查看全文

http://www.dtcms.com/a/610560.html