主流开源LLM架构对比与突破·
先说要点总结
-
LLM 架构对比文章概述:文章对比了 llama - 3.2、Qwen3 - 4B、SmolLM3 - 3B、DeepSeek - V3、Qwen3 - 235B - A22B、Kimi - K2 等大型语言模型架构,探讨其区别与优势,虽 LLM 在结构上有相似性,但在位置嵌入、注意力机制、激活函数等方面有改进。且比较 LLM 性能关键因素因数据集、训练技术和超参数差异大且记录少而具挑战性,本文聚焦主流开源模型架构发展。英文原文链接:https://sebastianraschka.com/blog/2025/the - big - llm - architecture - comparison.html
-
DeepSeek V3/R1:
-
发布信息:DeepSeek R1 于 2025 年 1 月发布,基于 2024 年 12 月问世的 DeepSeek V3 架构构建,因随 R1 发布获广泛关注,故纳入讨论。
-
多头潜在注意力 (MLA) :
- 背景:GQA 成为 MHA 新型替代方案,通过多查询头共享键值投影减少内存占用,降低参数数量和内存带宽使用,且不显著影响模型性能。
- 原理:MLA 在存储键值张量到 KV 缓存前将其压缩至低维空间,推理时恢复,虽增加矩阵乘法运算,但大幅减少内存占用,查询仅在训练时压缩。
- 选择原因:DeepSeek - V2 论文研究表明,相比 GQA,MLA 在模型性能上更优。
-
专家混合 (MoE) :
- 原理:用多个专家层替换 Transformer 块中前馈神经网络模块,增加模型总参数。路由机制为每个词元选少数专家,MoE 模块因此为稀疏模块,在增加模型容量同时保持推理效率。
- DeepSeek 特点:使用 “共享专家”,始终为每个词元激活,可提升整体模型性能,因常见模式无需多专家分别学习,使专家能学习更特化模式。
-
总结:DeepSeek - V3 参数达 6710 亿,性能超越部分开源模型,因 MoE 架构推理效率高,且采用 MLA 而非 GQA,虽 MLA 实现复杂,但模型性能更好。
-
-
OLMo 2:
- 模型特点:由 Allen 人工智能研究所开发,因训练数据、代码透明度及详细技术报告受关注,虽未在基准测试名列前茅,但性能不俗,1 月发布时达计算效率与性能帕累托最优前沿,使用传统 MHA。
- 归一化层的位置:从 LayerNorm 切换到 RMSNorm,将 RMSNorm 层置于注意力模块和前馈模块之后(一种后归一化变体),在残差层内部,有助于训练稳定性,但因与 QK - 范数结合,难判断其单独贡献。
- QK - 范数 (QK - Norm) :本质是又一个 RMSNorm 层,置于 MHA 模块内,在应用 RoPE 前应用于查询和键,与后归一化协同稳定训练过程,概念可追溯到 2023 年相关论文。
- 总结:OLMo 2 架构设计决策在于 RMSNorm 放置及添加 QK - 范数,有助于稳定训练损失,与 Llama 3 架构相似,不过 OLMo 2 之后发布使用 GQA 的 320 亿参数变体。
-
Gemma 3:
- 模型特点:谷歌模型,表现优异但受关注少,词汇量大,侧重 270 亿参数模型尺寸,平衡功能与资源消耗。
- 滑动窗口注意力:借鉴 LongFormer 论文,减少 KV 缓存内存需求,是一种局部注意力机制,限制上下文大小,可与 MHA、GQA 结合,Gemma 3 调整了全局与局部注意力比例,滑动窗口大小也减小,消融研究表明对模型性能影响小。
- 归一化层放置:在分组查询注意力模块前后都使用 RMSNorm,兼顾前归一化和后归一化优点,计算成本低,对实际应用影响不明显。
- 总结:Gemma 3 是性能优秀的开源 LLM,利用滑动窗口注意力提升效率,独特放置归一化层。
- Gemma 3n:为适应小型设备优化,采用 “逐层嵌入参数层(PLE)”,仅保留部分模型参数在 GPU 内存,按需从 CPU 或 SSD 流式传输词元 - 层特有的嵌入;使用 MatFormer 概念,将共享 LLM 架构切分成可独立使用的小模型,推理时仅运行所需部分。
-
Mistral Small 3.1:3 月发布,在多项基准测试(数学除外)上超越 Gemma 3 27B 且速度更快,推理延迟低可能因定制化分词器、缩减 KV 缓存和层数,采用标准架构,放弃早期模型使用的滑动窗口注意力,使用常规分组查询注意力,可能因能使用更优化代码节省推理计算。
-
Llama 4:采用 MoE 方法,整体架构与 DeepSeek - V3 相似,使用 GQA,而 DeepSeek - V3 采用 MLA。DeepSeek - V3 总参数量比 Llama 4 Maverick 多约 68%,活跃参数是其两倍多。Llama 4 Maverick 采用经典 MoE 设置,专家数量少但规模大,且与 DeepSeek - V3 在 MoE 层使用位置上有差异。
-
Qwen3:
- 密集模型:拥有多个稠密模型,如 0.6B 模型是当前世代较小的开源模型,表现出色,内存占用小,易本地训练,相比 Llama 3 1B,架构更深但更窄,运行速度慢。
- MoE 模型:提供 30B - A3B 和 235B - A22B 两种 MoE 版本,MoE 变体可降低大型基础模型推理成本,发布密集和 MoE 两种版本可满足不同用户需求,密集模型适用于微调等,MoE 模型适用于大规模推理服务。
————————————————————————————————
以下是文章中出现的主要技术名词及解释,结合其在文中的语境和作用整理:
名词解释:
注意力机制相关
-
多头注意力(Multi-Head Attention, MHA)
传统Transformer中的注意力机制,将输入序列的“查询(Queries)”“键(Keys)”“值(Values)”分割成多个“头”(Head),并行计算注意力分数,再拼接结果。优点是能捕捉不同维度的语义信息,缺点是参数和计算成本较高。 -
分组查询注意力(Grouped-Query Attention, GQA)
介于MHA和单头注意力之间的优化方案:多个查询头(Query Head)共享一组键(Key)和值(Value)投影。平衡了性能与效率,减少键值缓存的内存占用,成为近年LLM的主流选择(如Llama 3/4、Gemma 3)。 -
多头潜在注意力(Multi-Head Latent Attention, MLA)
DeepSeek系列(V2/V3/R1)采用的注意力机制:在推理时压缩键(Key)和值(Value)的维度以减少KV缓存内存使用,训练时也会压缩查询(Queries)。相比GQA,在保持性能的同时更高效,且文中提到其性能优于MHA和GQA(DeepSeek-V2论文验证)。
模型架构组件
-
专家混合(Mixture-of-Experts, MoE)
用多个“专家层”(每个专家是一个前馈神经网络)替代Transformer中的单个前馈层,通过“路由机制”为每个词元选择少量专家(而非全部)参与计算。优点是在增加模型总参数(提升容量)的同时,保持推理时的计算效率(仅激活部分参数)。主流模型如DeepSeek V3、Llama 4、Qwen3 MoE版均采用。 -
共享专家(Shared Expert)
MoE架构中的特殊专家,为每个词元强制激活,避免路由机制可能的“误判”。DeepSeek V3保留该设计,而Qwen3 MoE版移除,推测与专家数量增加有关。
位置编码
-
绝对位置编码(Absolute Positional Encoding)
早期GPT等模型使用的位置编码方式,为每个位置分配固定的嵌入向量,直接添加到词嵌入中。缺点是对长序列泛化能力差。 -
旋转位置嵌入(Rotary Position Embedding, RoPE)
通过旋转矩阵对查询和键进行编码,将位置信息融入向量的相位中,能更好处理长序列,且位置编码与序列长度无关。目前LLM的主流位置编码方式(如Llama、Qwen、Gemma等)。 -
无位置嵌入(No Position Embedding, NoPE)
SmolLM3采用的方案:不使用显式位置编码(如RoPE),仅依赖Transformer的因果掩码(限制词元关注未来位置)隐含位置信息。研究表明可能提升长序列泛化能力,但对大模型的适用性仍需验证。
激活函数
-
GELU(Gaussian Error Linear Unit)
早期LLM常用的激活函数,近似ReLU,具有平滑特性,但计算效率一般。 -
SwiGLU(Swish-Gated Linear Unit)
更高效的激活函数,结合Swish函数和门控机制,计算速度更快且性能更优,目前被多数LLM采用(如Llama、Qwen、DeepSeek等)。
归一化方法
-
层归一化(LayerNorm)
对每个样本的特征维度进行归一化,稳定训练,但计算成本较高(需计算均值和方差)。 -
RMSNorm(Root Mean Square Layer Normalization)
LayerNorm的简化版,仅计算均方根(省略均值),计算更快,参数更少,广泛用于现代LLM(如Llama、Gemma、OLMo等)。 -
前归一化(Pre-Norm)
归一化层置于注意力层和前馈层之前(如GPT-2、Llama),训练更稳定,无需复杂的学习率预热。 -
后归一化(Post-Norm)
归一化层置于注意力层和前馈层之后(原始Transformer和OLMo 2采用的变体),需配合其他机制(如QK-范数)稳定训练,但可能提升性能。 -
QK-范数(QK-Norm)
在注意力机制内部,对查询(Q)和键(K)额外应用RMSNorm,减少注意力分数的波动,稳定训练。OLMo 2、Gemma 3等采用。
效率优化技术
-
滑动窗口注意力(Sliding Window Attention)
Gemma 2/3采用的机制:限制每个词元仅关注其周围固定范围的上下文(如窗口大小1024),而非全局序列,大幅减少KV缓存内存和计算量,适合长序列场景。 -
逐层嵌入参数层(Per-Layer Embedding, PLE)
Gemma 3n为适配小设备设计:仅将部分模型参数保留在GPU内存,词元/层特有的嵌入参数(如文本、音频嵌入)按需从CPU/SSD加载,显著节省内存。 -
MatFormer(Matryoshka Transformer)
Gemma 3n采用的架构:共享Transformer骨干,可切分成多个独立的小模型,推理时仅运行所需部分,适配不同设备算力。
优化器
- Muon优化器
Kimi 2采用的优化器,替代传统的AdamW,首次在万亿参数模型上验证有效性,训练损失曲线更平滑,可能助力模型性能提升。
这些技术反映了LLM在效率(如GQA、MoE、滑动窗口)、性能(如MLA、QK-范数)、泛化能力(如RoPE、NoPE)等方面的迭代方向,多数改进围绕“在有限资源下提升模型能力”展开。