百度文心 ERNIE 4.5 开源:开启中国多模态大模型开源新时代
百度文心 ERNIE 4.5 开源:开启中国多模态大模型开源新时代
随着DeepSeek-R1的横空出示,越来越多大公司开始开源模型,像DeepSeek R1发布的时候Kimi同步开源了技术文档,随着R1推动着思维链推理技术的发展,开源社区也出现了越来越多开源推理大模型,比如前段时间开源的Qwen3,开始使用MOE架构并且能自由切换思维模式,以及Kimi也开源了一些模型,比如Kimi-VL多模态模型,也适用了思维链R1的方式应用到多模态大模型中。最近冲浪中,我又发现百度也开始进行开源了,6.30号的时候刚刚发布了开源模型,也就是文心大模型 ERNIE 4.5系列,现在在huggingface已经可以下载开源的权重了 https://huggingface.co/baidu。
这次百度也是真的大气,一口气开源了很多个模型,包括了 47B、3B 激活参数的混合专家(MoE)模型,以及 0.3B 参数的稠密型模型,共计 10 款模型,实现了预训练权重和推理代码的完全开源。最惊讶的是同时开源了多模态推理大模型,之前Seed-VL公开技术报告的时候我惊艳了一波,但是字节并没有开源,百度这波开源的正是时候,而且是一个424B的大模型,也具有切换思考模模式的能力,也拥有Qwen3的语言模型能力。
同时从现有全球主流大模型开源维度上来看,现在百度开源的大模型无论是覆盖类型以及开源模型的数量,不仅包括基础模型,也包括多模态模型,这些都处于领先地位,并且主要的是开源协议是 Apache 协议,是开源进行商用的,依托这种趋势,未来肯定会有更多的大模型进行开源。
这次比较有意思是的,这次百度不仅仅开源了模型权重,同时也发布了技术报告和训练推理代码,能够让我们快速的了解这次开源的文心系列 ERNIE 4.5大模型,本次大模型还针对 MoE 架构,百度提出了一种创新性的多模态异构模型结构,这种范式在保留文本任务性能的基础上,还显著的增强多模态理解能力;同时百度的多模态MOE预训练和针对多模态后训练等关键技术,让他们在各个文本和多模态基准测试中脱颖而出,能够和 Qwen3/DeepSeekV3 的一较高下,比如ERNIE 4.5在 28 个基准测试中的 20+个指标上 上超越了 DeepSeek-V3-671B-A37B-Base,达到 SOTA 水平。这也可能是为什么百度能够开源高达424B的多模态大模型的原因,像这么大的多模态推理大模型暂时在国内还没有人进行开源,百度不论是在技术还是开源都走在了中国的前列。
最后意思的还是ERNIE 4.5系列中的多模态后训练模型,可支持思考,这次开源两个模型,一个是平价版本的28B的VL大模型,一个是超大版本的424B的大模型,可以看出来文心的大模型已经在多个基准上都超过了OpenAI-o1的水准了,而且也是为数不多开源的多模态推理大模型,性能也是数一数二,未来可能会有更多的文章和开源项目来follow 文心大模型了。这一部分也是最让我惊艳的,就算是关闭思考的模型也在通用环境中展现超强的能力,超过了Qwen2.5-VL,同样在多个领域都达到了SOTA。
并且在海外的twitter中,我也关注到,huggingface上到 CEO、创始人和众多工程师都对这次百度的开源一致好评,ERNIE 4.5是 DeepSeek以来中国最大的开源模型发布,同时文心的基准测试展现出很强的模型技术能力,可与Qwen3/DeepSeekv3等开源大模型竞争,并且参数量喜人,涵盖从0.3B到424B。
这次百度开源的时候也同时开源了训练代码,ERNIE 4.5模型使用飞桨(PaddlePaddle)框架进行训练,不仅仅有paddle的模型,也有pytorch模型。
同时配套一个微调的框架,也就是ERNIEKit,他 是一个面向 ERNIE 4.5 的产业级开发套件。它提供了模型训练和压缩功能,包括预训练,SFT,LoRA, DPO,量化感知训练(QAT)和训练后量化(PTQ)等技术。
使用示例:
# Download modelhuggingface-cli download baidu/ERNIE-4.5-300B-A47B-Base-Paddle \--local-dir baidu/ERNIE-4.5-300B-A47B-Base-Paddle
# SFTerniekit train examples/configs/ERNIE-4.5-300B-A47B/sft/run_sft_wint8mix_lora_8k.yaml \model_name_or_path=baidu/ERNIE-4.5-300B-A47B-Base-Paddle
# DPOerniekit train examples/configs/ERNIE-4.5-300B-A47B/dpo/run_dpo_wint8mix_lora_8k.yaml \model_name_or_path=baidu/ERNIE-4.5-300B-A47B-Base-Paddle
于此同时还提供了基于飞桨的大模型高效部署套件FastDeploy,使用接口兼容vLLM和OpenAI协议,针对ERNIE模型进行了优化,支持low bit推理,上下文缓存等加速技术,这里就不过多阐述了,以下是示例代码。
本地推理示例:
from fastdeploy import LLM, SamplingParams
prompt = "Write me a poem about large language model."sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="baidu/ERNIE-4.5-0.3B-Paddle", max_model_len=32768)
outputs = llm.generate(prompt, sampling_params)
服务部署示例:
python -m fastdeploy.entrypoints.openai.api_server \--model "baidu/ERNIE-4.5-0.3B-Paddle" \--max-model-len 32768 \--port 9904
有关详细文档、安装指南和高级配置选项,请参考ERNIEKit和 FastDeploy 仓库,这里我就不多说了。
现在大模型越来越卷了,不仅仅有开源和闭源之争,也有中美AI之争,OpenAI和谷歌大模型也在不断的发布,Open AI 以前的的闭源态度发生了明显转变,也开始打出 “开源 + 免费” 的组合拳,还开源了Agent框架以及DeepResearch,这无不显示中国的开源大模型的策略,已对 OpenAI 形成了强大的压力,迫使其不得不做出改变。现在大模型在技术层面逐渐向多模态方向发展,生态层面则愈发重视开源,而这次百度文心大模型 4.5 系列的开源,是中国 AI 发展历程中的一座重要里程碑,它向世界展示了中国 AI 的强大实力,也为中国 AI 开源生态的发展注入了强大动力。百度其实也一直在路上,百度有自研paddle飞桨框架以及千帆大模型平台,这次又开源了ERNIE 4.5,性价比拉满,同时给开源社区注入活力,后续我会尝试体验文心模型,看看github上的代码,共建开源社区,为开源贡献一份力量。
参考
- ERNIE 4.5 模型系列正式开源:https://ernie.baidu.com/blog/zh/posts/ernie4.5/
- https://x.com/eliebakouch/status/1939512373007765666
- https://x.com/Xianbao_QIAN/status/1939506694838714530
- https://x.com/ClementDelangue/status/1939516209172480141