当前位置: 首页 > news >正文

主流开源LLM架构对比与突破·

先说要点总结

  • LLM 架构对比文章概述:文章对比了 llama - 3.2、Qwen3 - 4B、SmolLM3 - 3B、DeepSeek - V3、Qwen3 - 235B - A22B、Kimi - K2 等大型语言模型架构,探讨其区别与优势,虽 LLM 在结构上有相似性,但在位置嵌入、注意力机制、激活函数等方面有改进。且比较 LLM 性能关键因素因数据集、训练技术和超参数差异大且记录少而具挑战性,本文聚焦主流开源模型架构发展。英文原文链接:https://sebastianraschka.com/blog/2025/the - big - llm - architecture - comparison.html

  • DeepSeek V3/R1

    • 发布信息:DeepSeek R1 于 2025 年 1 月发布,基于 2024 年 12 月问世的 DeepSeek V3 架构构建,因随 R1 发布获广泛关注,故纳入讨论。

    • 多头潜在注意力 (MLA)

      • 背景:GQA 成为 MHA 新型替代方案,通过多查询头共享键值投影减少内存占用,降低参数数量和内存带宽使用,且不显著影响模型性能。
      • 原理:MLA 在存储键值张量到 KV 缓存前将其压缩至低维空间,推理时恢复,虽增加矩阵乘法运算,但大幅减少内存占用,查询仅在训练时压缩。
      • 选择原因:DeepSeek - V2 论文研究表明,相比 GQA,MLA 在模型性能上更优。
    • 专家混合 (MoE)

      • 原理:用多个专家层替换 Transformer 块中前馈神经网络模块,增加模型总参数。路由机制为每个词元选少数专家,MoE 模块因此为稀疏模块,在增加模型容量同时保持推理效率。
      • DeepSeek 特点:使用 “共享专家”,始终为每个词元激活,可提升整体模型性能,因常见模式无需多专家分别学习,使专家能学习更特化模式。
    • 总结:DeepSeek - V3 参数达 6710 亿,性能超越部分开源模型,因 MoE 架构推理效率高,且采用 MLA 而非 GQA,虽 MLA 实现复杂,但模型性能更好。

  • OLMo 2

    • 模型特点:由 Allen 人工智能研究所开发,因训练数据、代码透明度及详细技术报告受关注,虽未在基准测试名列前茅,但性能不俗,1 月发布时达计算效率与性能帕累托最优前沿,使用传统 MHA。
    • 归一化层的位置:从 LayerNorm 切换到 RMSNorm,将 RMSNorm 层置于注意力模块和前馈模块之后(一种后归一化变体),在残差层内部,有助于训练稳定性,但因与 QK - 范数结合,难判断其单独贡献。
    • QK - 范数 (QK - Norm) :本质是又一个 RMSNorm 层,置于 MHA 模块内,在应用 RoPE 前应用于查询和键,与后归一化协同稳定训练过程,概念可追溯到 2023 年相关论文。
    • 总结:OLMo 2 架构设计决策在于 RMSNorm 放置及添加 QK - 范数,有助于稳定训练损失,与 Llama 3 架构相似,不过 OLMo 2 之后发布使用 GQA 的 320 亿参数变体。
  • Gemma 3

    • 模型特点:谷歌模型,表现优异但受关注少,词汇量大,侧重 270 亿参数模型尺寸,平衡功能与资源消耗。
    • 滑动窗口注意力:借鉴 LongFormer 论文,减少 KV 缓存内存需求,是一种局部注意力机制,限制上下文大小,可与 MHA、GQA 结合,Gemma 3 调整了全局与局部注意力比例,滑动窗口大小也减小,消融研究表明对模型性能影响小。
    • 归一化层放置:在分组查询注意力模块前后都使用 RMSNorm,兼顾前归一化和后归一化优点,计算成本低,对实际应用影响不明显。
    • 总结:Gemma 3 是性能优秀的开源 LLM,利用滑动窗口注意力提升效率,独特放置归一化层。
    • Gemma 3n:为适应小型设备优化,采用 “逐层嵌入参数层(PLE)”,仅保留部分模型参数在 GPU 内存,按需从 CPU 或 SSD 流式传输词元 - 层特有的嵌入;使用 MatFormer 概念,将共享 LLM 架构切分成可独立使用的小模型,推理时仅运行所需部分。
  • Mistral Small 3.1:3 月发布,在多项基准测试(数学除外)上超越 Gemma 3 27B 且速度更快,推理延迟低可能因定制化分词器、缩减 KV 缓存和层数,采用标准架构,放弃早期模型使用的滑动窗口注意力,使用常规分组查询注意力,可能因能使用更优化代码节省推理计算。

  • Llama 4:采用 MoE 方法,整体架构与 DeepSeek - V3 相似,使用 GQA,而 DeepSeek - V3 采用 MLA。DeepSeek - V3 总参数量比 Llama 4 Maverick 多约 68%,活跃参数是其两倍多。Llama 4 Maverick 采用经典 MoE 设置,专家数量少但规模大,且与 DeepSeek - V3 在 MoE 层使用位置上有差异。

  • Qwen3

    • 密集模型:拥有多个稠密模型,如 0.6B 模型是当前世代较小的开源模型,表现出色,内存占用小,易本地训练,相比 Llama 3 1B,架构更深但更窄,运行速度慢。
    • MoE 模型:提供 30B - A3B 和 235B - A22B 两种 MoE 版本,MoE 变体可降低大型基础模型推理成本,发布密集和 MoE 两种版本可满足不同用户需求,密集模型适用于微调等,MoE 模型适用于大规模推理服务。
      ————————————————————————————————
      以下是文章中出现的主要技术名词及解释,结合其在文中的语境和作用整理:

名词解释:

注意力机制相关

  1. 多头注意力(Multi-Head Attention, MHA)
    传统Transformer中的注意力机制,将输入序列的“查询(Queries)”“键(Keys)”“值(Values)”分割成多个“头”(Head),并行计算注意力分数,再拼接结果。优点是能捕捉不同维度的语义信息,缺点是参数和计算成本较高。

  2. 分组查询注意力(Grouped-Query Attention, GQA)
    介于MHA和单头注意力之间的优化方案:多个查询头(Query Head)共享一组键(Key)和值(Value)投影。平衡了性能与效率,减少键值缓存的内存占用,成为近年LLM的主流选择(如Llama 3/4、Gemma 3)。

  3. 多头潜在注意力(Multi-Head Latent Attention, MLA)
    DeepSeek系列(V2/V3/R1)采用的注意力机制:在推理时压缩键(Key)和值(Value)的维度以减少KV缓存内存使用,训练时也会压缩查询(Queries)。相比GQA,在保持性能的同时更高效,且文中提到其性能优于MHA和GQA(DeepSeek-V2论文验证)。

模型架构组件

  1. 专家混合(Mixture-of-Experts, MoE)
    用多个“专家层”(每个专家是一个前馈神经网络)替代Transformer中的单个前馈层,通过“路由机制”为每个词元选择少量专家(而非全部)参与计算。优点是在增加模型总参数(提升容量)的同时,保持推理时的计算效率(仅激活部分参数)。主流模型如DeepSeek V3、Llama 4、Qwen3 MoE版均采用。

  2. 共享专家(Shared Expert)
    MoE架构中的特殊专家,为每个词元强制激活,避免路由机制可能的“误判”。DeepSeek V3保留该设计,而Qwen3 MoE版移除,推测与专家数量增加有关。

位置编码

  1. 绝对位置编码(Absolute Positional Encoding)
    早期GPT等模型使用的位置编码方式,为每个位置分配固定的嵌入向量,直接添加到词嵌入中。缺点是对长序列泛化能力差。

  2. 旋转位置嵌入(Rotary Position Embedding, RoPE)
    通过旋转矩阵对查询和键进行编码,将位置信息融入向量的相位中,能更好处理长序列,且位置编码与序列长度无关。目前LLM的主流位置编码方式(如Llama、Qwen、Gemma等)。

  3. 无位置嵌入(No Position Embedding, NoPE)
    SmolLM3采用的方案:不使用显式位置编码(如RoPE),仅依赖Transformer的因果掩码(限制词元关注未来位置)隐含位置信息。研究表明可能提升长序列泛化能力,但对大模型的适用性仍需验证。

激活函数

  1. GELU(Gaussian Error Linear Unit)
    早期LLM常用的激活函数,近似ReLU,具有平滑特性,但计算效率一般。

  2. SwiGLU(Swish-Gated Linear Unit)
    更高效的激活函数,结合Swish函数和门控机制,计算速度更快且性能更优,目前被多数LLM采用(如Llama、Qwen、DeepSeek等)。

归一化方法

  1. 层归一化(LayerNorm)
    对每个样本的特征维度进行归一化,稳定训练,但计算成本较高(需计算均值和方差)。

  2. RMSNorm(Root Mean Square Layer Normalization)
    LayerNorm的简化版,仅计算均方根(省略均值),计算更快,参数更少,广泛用于现代LLM(如Llama、Gemma、OLMo等)。

  3. 前归一化(Pre-Norm)
    归一化层置于注意力层和前馈层之前(如GPT-2、Llama),训练更稳定,无需复杂的学习率预热。

  4. 后归一化(Post-Norm)
    归一化层置于注意力层和前馈层之后(原始Transformer和OLMo 2采用的变体),需配合其他机制(如QK-范数)稳定训练,但可能提升性能。

  5. QK-范数(QK-Norm)
    在注意力机制内部,对查询(Q)和键(K)额外应用RMSNorm,减少注意力分数的波动,稳定训练。OLMo 2、Gemma 3等采用。

效率优化技术

  1. 滑动窗口注意力(Sliding Window Attention)
    Gemma 2/3采用的机制:限制每个词元仅关注其周围固定范围的上下文(如窗口大小1024),而非全局序列,大幅减少KV缓存内存和计算量,适合长序列场景。

  2. 逐层嵌入参数层(Per-Layer Embedding, PLE)
    Gemma 3n为适配小设备设计:仅将部分模型参数保留在GPU内存,词元/层特有的嵌入参数(如文本、音频嵌入)按需从CPU/SSD加载,显著节省内存。

  3. MatFormer(Matryoshka Transformer)
    Gemma 3n采用的架构:共享Transformer骨干,可切分成多个独立的小模型,推理时仅运行所需部分,适配不同设备算力。

优化器

  1. Muon优化器
    Kimi 2采用的优化器,替代传统的AdamW,首次在万亿参数模型上验证有效性,训练损失曲线更平滑,可能助力模型性能提升。

这些技术反映了LLM在效率(如GQA、MoE、滑动窗口)、性能(如MLA、QK-范数)、泛化能力(如RoPE、NoPE)等方面的迭代方向,多数改进围绕“在有限资源下提升模型能力”展开。

http://www.dtcms.com/a/292136.html

相关文章:

  • 控制器(Controller)模块的架构与工作流程 -OpenExo
  • Azure可靠性架构指南:构建云时代的高可用系统
  • Java函数指南:从Function到BiFunction的深度解析
  • 电商项目_秒杀_架构及核心
  • 【Linux】进程概念
  • 以Java程序员角度理解MCP
  • 项目复盘核心要点
  • SQL Server 查询优化
  • Vue 脚手架基础特性
  • 前端自动化埋点:页面模块级行为跟踪与问题定位系统​​的技术设计方案
  • 浏览器地址栏输入URL回车后白屏分析
  • 【Web APIs】JavaScript 节点操作 ④ ( 节点操作案例 - 下拉菜单案例 )
  • Java+Vue构建的固定资产内控管理系统,融合移动端便捷与后台管理强大功能,模块完备,提供全量源码,轻松实现资产智能管控
  • 第十二章 用Java实现JVM之结束
  • 学习pwn需要的基本汇编语言知识
  • 漫画版:细说金仓数据库
  • LangGraph基础教程
  • 理解后端开发中的API设计原则
  • 哈希算法(Hash Algorithm)
  • 2025乐彩V8影视系统技术解析:双端原生架构与双H5免签封装实战 双端原生+双H5免签封装+TV级性能优化,一套代码打通全终端生态
  • Visual Studio Code 远端云服务器开发使用指南
  • gflags使用
  • Java 大视界 -- Java 大数据在智能交通自动驾驶车辆与周边环境信息融合与决策中的应用(357)
  • 新手向:基于Python的桌面便签与待办事项管理工具
  • [ARM]MDK出现报错error: A\L3903U的解决方法
  • Gradio, Streamlit, Dash:AI应用开发的效率之选
  • C# 析构函数
  • Unity中,Panel和 Canvas的区别
  • 矩阵中QR算法分解简介和基于Eigen库使用示例
  • Qt Creator集成开发环境使用指南