当前位置: 首页 > wzjs >正文

网站怎么做成二维码网上推广怎么收费

网站怎么做成二维码,网上推广怎么收费,减肥网站源码,商务平台搭建TL;DR 2025 年 4 月 5 日,Meta AI 正式发布了第四代大型语言模型 Llama 4。引入了 Mixture-of-Experts (MoE,专家混合) 架构,同时原生支持多模态输入,最小的 Llama 4 Scout 模型支持 10m 的长文本输入。 Paper name The Llama 4…

TL;DR

  • 2025 年 4 月 5 日,Meta AI 正式发布了第四代大型语言模型 Llama 4。引入了 Mixture-of-Experts (MoE,专家混合) 架构,同时原生支持多模态输入,最小的 Llama 4 Scout 模型支持 10m 的长文本输入。

Paper name
The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation

Paper Reading Note

Paper URL:

  • https://ai.meta.com/blog/llama-4-multimodal-intelligence/?utm_source=llama-home-behemoth&utm_medium=llama-referral&utm_campaign=llama-utm&utm_offering=llama-behemoth-preview&utm_product=llama

背景

  • 近两年来,大模型领域竞争激烈,OpenAI 的 GPT-4、Anthropic 的 Claude 以及谷歌的 Gemini 等闭源模型引领潮流。Meta 希望通过开源策略参与这一竞赛,以开放的方式推进 AI 技术发展
  • Llama 4 的目标是提供业界领先的 AI 能力,同时保持开放透明,让研究者和开发者能够自由使用和改进模型

简介

以下是 Llama 4 各变体的详细规格

模型活跃参数总参数专家数上下文窗口备注
Scout17B109B1610M适合单 GPU 运行,性能优于 Gemini 2.0 Flash-Lite
Maverick17B400B128未指定性能优于 GPT-4o,成本效益高
Behemoth288B~2T16未指定仍在训练中,预计超越 GPT-4.5 等模型
  • Scout:活跃参数 17 亿(17B),总参数 1090 亿(109B),16 个专家,上下文窗口达 1000 万标记(10M)。它能运行在单个 NVIDIA H100 GPU 上,适合资源有限的用户。
  • Maverick:活跃参数 17 亿,总参数 4000 亿(400B),128 个专家,性能表现优于 GPT-4o 和 Gemini 2.0 Flash,成本效益高。
  • Behemoth:活跃参数 2880 亿(288B),总参数约 2 万亿(~2T),16 个专家,目前仍在训练中,预计在数学、多语言和图像基准测试中表现卓越。

在这里插入图片描述

细节

预训练

  • 模型规模与架构

    • Llama 4 引入了 Mixture-of-Experts (MoE,专家混合) 架构,这是 Llama 系列首次采用 MoE 技术​。MoE 的核心思想是拥有多个“专家”子模型,在处理每个输入时仅激活一部分参数,从而大幅提升参数规模却不显著增加推理开销
      在这里插入图片描述
    • vision encoder 使用了升级版本的 MetaCLIP,与一个 freeze 参数的 Llama 模型同时训练,从而和 LLM 更适配
    • 部分层使用了 NoPE,即不使用 rope 作为位置编码,另外大部分层使用 RoPE 进行编码。另外提出了 iRoPE,采用了 inference time temperature scaling 来提升长文本泛化能力
  • 训练数据:

    • 使用 30 万亿标记的训练数据,涵盖 200 种语言,其中超过 100 种语言的标记数超过 10 亿,相比 Llama 3 的 15 万亿标记翻倍。
    • 多模态数据,支持文本、图片和视频数据
  • 基建:

    • 采用 FP8 精度,在 32000 个 GPU 上达到 390 TFLOPs 的性能,支持多达 48 张图像的预训练,测试时支持 8 张图像。

后训练

  • 后训练最大的难度是平衡模型的多模态输入、推理、对话等能力

  • 包括监督微调(SFT)、在线强化学习(RL)和直接偏好优化(DPO),特别针对推理、编码和数学问题进行优化。顺序是:

    • 小规模 SFT:删除了 50% 的 easy 难度数据
    • 在线强化学习(RL)
    • 小规模直接偏好优化(DPO):解决模型回复质量问题,在模型智能程度与对话能力之间取得平衡
  • SFT 和 DPO 使用小规模训练的原因是发现 SFT 和 DPO 会过度约束模型,限制了在线 RL 阶段的探索。

  • 安全

    • 安全是 Llama 4 的重点。模型纳入了 Llama Guard 和 Prompt Guard,以减少偏见和有害内容生成。拒绝率从 Llama 3.3 的 7% 降至低于 2%,政治倾向与 Grok 相当,较 Llama 3.3 减半。

实验

  • Llama 4 Maverick 17B 激活参数,400B 总参数,推理成本比 llama3-70B 低,在代码、推理等方面超过 GPT-4o 和 Gemini 2.0,和参数量更大的 deepseek-v3.1 比也性能相当
    在这里插入图片描述

  • 最小的 Llama 4 Scout 模型也有出色的 image grouding 能力,视觉理解能力。在这里插入图片描述

  • 最大的还在训练的模型 Llama 4 Behemoth,这个模型没有开源,主要是作为 teacher 模型来蒸馏小模型。
    在这里插入图片描述

总结

  • benchmark 指标看起来都挺强的,原生多模态能力感觉还是值得期待的,毕竟是 meta 出品
  • 网络上流传的刷 benchmark 其实应该石锤起来还是挺容易的,毕竟模型都开源了,如果真的是按照爆料所说的把所有公开的测试集都拿来训练了未来肯定会找到一些证据,暂时从技术报告来看所有的设计和创新都还挺合理的
http://www.dtcms.com/wzjs/222144.html

相关文章:

  • 网站建设企业最新报价免费seo网站推广在线观看
  • 泰安网约车平台有哪些台州seo快速排名
  • 上传网站需要什么软件石家庄seo网络推广
  • 牡丹区建设局网站手机百度推广怎么打广告
  • 网站解析后外贸营销型网站制作公司
  • 网站建设 模板品牌推广的步骤和技巧
  • 哈尔滨营销网站制作广东seo点击排名软件哪家好
  • 广州做包包的网站seo外包多少钱
  • 西安哪家公司网站做的好摘抄一小段新闻
  • 上海家装口碑最好的公司百度seo白皮书
  • 泰安网课seo指的是搜索引擎
  • 网站开发 项目规划 怎么写国外网站排名前十
  • 做网站的框架结构百度推广一个点击多少钱
  • 专业做二手房的网站有哪些windows7系统优化工具
  • 购物网站设计意义北京seo代理公司
  • 网络公司网站案例如何推广一个项目
  • 菏泽定制网站建设推广哈尔滨seo
  • 设计制作植物标识牌最好用的系统优化软件
  • 响应式网站开发框架最佳磁力吧ciliba磁力链
  • 政府网站建设与维护网盟推广平台
  • 大连 做网站公司seo全网营销
  • 深圳营销网站制作优化一下
  • 桂林市临桂区最新疫情seo点击器
  • 网站链轮内有死链百度搜索排名优化
  • 商务网站建设与维护试题百度词条搜索排行
  • 自己做个公司网站网络培训平台有哪些
  • 公众号怎么做微网站吗网站运营方案
  • 网站收录量下降青岛做网站推广
  • 如何选择适合的图像和照片网络优化器下载
  • 站长统计幸福宝网站统计提高工作效率总结心得