当前位置: 首页 > news >正文

Meta 最新发布的 Llama 4:多模态开源大模型全面解析

TL;DR

  • 2025 年 4 月 5 日,Meta AI 正式发布了第四代大型语言模型 Llama 4。引入了 Mixture-of-Experts (MoE,专家混合) 架构,同时原生支持多模态输入,最小的 Llama 4 Scout 模型支持 10m 的长文本输入。

Paper name
The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation

Paper Reading Note

Paper URL:

  • https://ai.meta.com/blog/llama-4-multimodal-intelligence/?utm_source=llama-home-behemoth&utm_medium=llama-referral&utm_campaign=llama-utm&utm_offering=llama-behemoth-preview&utm_product=llama

背景

  • 近两年来,大模型领域竞争激烈,OpenAI 的 GPT-4、Anthropic 的 Claude 以及谷歌的 Gemini 等闭源模型引领潮流。Meta 希望通过开源策略参与这一竞赛,以开放的方式推进 AI 技术发展
  • Llama 4 的目标是提供业界领先的 AI 能力,同时保持开放透明,让研究者和开发者能够自由使用和改进模型

简介

以下是 Llama 4 各变体的详细规格

模型活跃参数总参数专家数上下文窗口备注
Scout17B109B1610M适合单 GPU 运行,性能优于 Gemini 2.0 Flash-Lite
Maverick17B400B128未指定性能优于 GPT-4o,成本效益高
Behemoth288B~2T16未指定仍在训练中,预计超越 GPT-4.5 等模型
  • Scout:活跃参数 17 亿(17B),总参数 1090 亿(109B),16 个专家,上下文窗口达 1000 万标记(10M)。它能运行在单个 NVIDIA H100 GPU 上,适合资源有限的用户。
  • Maverick:活跃参数 17 亿,总参数 4000 亿(400B),128 个专家,性能表现优于 GPT-4o 和 Gemini 2.0 Flash,成本效益高。
  • Behemoth:活跃参数 2880 亿(288B),总参数约 2 万亿(~2T),16 个专家,目前仍在训练中,预计在数学、多语言和图像基准测试中表现卓越。

在这里插入图片描述

细节

预训练

  • 模型规模与架构

    • Llama 4 引入了 Mixture-of-Experts (MoE,专家混合) 架构,这是 Llama 系列首次采用 MoE 技术​。MoE 的核心思想是拥有多个“专家”子模型,在处理每个输入时仅激活一部分参数,从而大幅提升参数规模却不显著增加推理开销
      在这里插入图片描述
    • vision encoder 使用了升级版本的 MetaCLIP,与一个 freeze 参数的 Llama 模型同时训练,从而和 LLM 更适配
    • 部分层使用了 NoPE,即不使用 rope 作为位置编码,另外大部分层使用 RoPE 进行编码。另外提出了 iRoPE,采用了 inference time temperature scaling 来提升长文本泛化能力
  • 训练数据:

    • 使用 30 万亿标记的训练数据,涵盖 200 种语言,其中超过 100 种语言的标记数超过 10 亿,相比 Llama 3 的 15 万亿标记翻倍。
    • 多模态数据,支持文本、图片和视频数据
  • 基建:

    • 采用 FP8 精度,在 32000 个 GPU 上达到 390 TFLOPs 的性能,支持多达 48 张图像的预训练,测试时支持 8 张图像。

后训练

  • 后训练最大的难度是平衡模型的多模态输入、推理、对话等能力

  • 包括监督微调(SFT)、在线强化学习(RL)和直接偏好优化(DPO),特别针对推理、编码和数学问题进行优化。顺序是:

    • 小规模 SFT:删除了 50% 的 easy 难度数据
    • 在线强化学习(RL)
    • 小规模直接偏好优化(DPO):解决模型回复质量问题,在模型智能程度与对话能力之间取得平衡
  • SFT 和 DPO 使用小规模训练的原因是发现 SFT 和 DPO 会过度约束模型,限制了在线 RL 阶段的探索。

  • 安全

    • 安全是 Llama 4 的重点。模型纳入了 Llama Guard 和 Prompt Guard,以减少偏见和有害内容生成。拒绝率从 Llama 3.3 的 7% 降至低于 2%,政治倾向与 Grok 相当,较 Llama 3.3 减半。

实验

  • Llama 4 Maverick 17B 激活参数,400B 总参数,推理成本比 llama3-70B 低,在代码、推理等方面超过 GPT-4o 和 Gemini 2.0,和参数量更大的 deepseek-v3.1 比也性能相当
    在这里插入图片描述

  • 最小的 Llama 4 Scout 模型也有出色的 image grouding 能力,视觉理解能力。在这里插入图片描述

  • 最大的还在训练的模型 Llama 4 Behemoth,这个模型没有开源,主要是作为 teacher 模型来蒸馏小模型。
    在这里插入图片描述

总结

  • benchmark 指标看起来都挺强的,原生多模态能力感觉还是值得期待的,毕竟是 meta 出品
  • 网络上流传的刷 benchmark 其实应该石锤起来还是挺容易的,毕竟模型都开源了,如果真的是按照爆料所说的把所有公开的测试集都拿来训练了未来肯定会找到一些证据,暂时从技术报告来看所有的设计和创新都还挺合理的

文章转载自:

http://k3G55Gjx.cbnxq.cn
http://fEhdlfEr.cbnxq.cn
http://3y1l6uZZ.cbnxq.cn
http://sBQM70PF.cbnxq.cn
http://e0uHGS4v.cbnxq.cn
http://Xbil7UmD.cbnxq.cn
http://7HqTayNZ.cbnxq.cn
http://0vO2tj7K.cbnxq.cn
http://CueWMOEi.cbnxq.cn
http://K1rriM8Y.cbnxq.cn
http://NownSPtm.cbnxq.cn
http://BwKoojTz.cbnxq.cn
http://OtPJABe4.cbnxq.cn
http://JordrPFn.cbnxq.cn
http://WSWVPNaA.cbnxq.cn
http://xhgeozn8.cbnxq.cn
http://kofQB8Z5.cbnxq.cn
http://qeXggArh.cbnxq.cn
http://Zc945AWz.cbnxq.cn
http://h6Wp4Vhk.cbnxq.cn
http://0MCRgJ7q.cbnxq.cn
http://HiGcAKEE.cbnxq.cn
http://EYGaJ8mX.cbnxq.cn
http://EJfsoD0q.cbnxq.cn
http://9D0VncSJ.cbnxq.cn
http://js2OM0qA.cbnxq.cn
http://YHW2velm.cbnxq.cn
http://0DheHDNJ.cbnxq.cn
http://jf5fUPhE.cbnxq.cn
http://X2Ui7p1V.cbnxq.cn
http://www.dtcms.com/a/116577.html

相关文章:

  • Spring MVC 的执行流程以及运行原理
  • 谷歌发布网络安全AI新模型Sec-Gemini v1
  • IPD项目管理软件:禅道与Asana的5个核心差异
  • 深入浅出Java 锁 | 源码剖析 | 万字解析
  • Vue3 实现进度条组件
  • Vue3全栈架构实战:Nuxt3服务端渲染与模块化设计深度剖析
  • 前端使用正则表达式提取经纬度 度分秒值
  • Linux命令之jq命令处理JSON数据
  • 【Linux】虚拟机设置静态IP
  • 【leetcode hot 100 763】划分字母区间
  • 【愚公系列】《高效使用DeepSeek》058-选题策划
  • real_time_camera_audio_display_with_animation
  • 华为OD机试2025A卷 - 正整数到excel编号之间的转换(Java Python JS C++ C )
  • 分布式微服务系统架构第97集:JVM底层原理
  • P1006 [NOIP 2008 提高组] 传纸条 题解
  • HTML5 浏览器兼容性:让旧浏览器也能拥抱 HTML5
  • 如何使用Audacity快速拆分整轨音频文件
  • 在 Ubuntu 下通过 Docker 部署 Misskey 服务器
  • 用AI来了解用户都在关注的品牌问题是什么?
  • linux 下du 和 ls-alh 的区别
  • 【JavaScript】十五、事件对象与环境对象
  • 跳跃游戏的最优解法——贪心算法的智慧与实践
  • 关于动态卷积
  • windows下GCC编译器使用FFTW预编译版共享库使用
  • 优秀的python可视化案例
  • Unity ViewportConstraint
  • 蓝桥杯 web 新鲜的蔬菜(css3)
  • javaweb自用笔记:Maven分模块设计与开发、Maven继承与聚合、Maven私服
  • 什么是数据
  • LogicFlow-前端流程图开发