当前位置: 首页 > news >正文

从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型

🔥从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型

“为什么所有大模型(LLM)都长一个样?”
因为它们都有一个共同的“基因”——Decoder-Only 架构

在前面两节中,我们学习了:

  • BERT:Encoder-Only,擅长“理解语言”
  • T5:Encoder-Decoder,统一“理解+生成”

而今天,我们要进入真正引爆 AI 浪潮的主角世界——

🚀 Decoder-Only 模型,也就是当前所有大语言模型(LLM)的“母体”。

GPT-1ChatGPT,从 LLaMAGLM,它们虽然名字不同,但都基于同一个核心架构:仅由 Decoder 堆叠而成的 Transformer

本文将带你深入理解:

  1. Decoder-Only 是什么?
  2. GPT 系列如何一步步引爆 LLM 时代?
  3. LLaMA 和 GLM 又做了哪些关键改进?

准备好了吗?我们出发!


🧬 一、什么是 Decoder-Only 架构?

在原始 Transformer 中,Decoder 本是用于“生成目标语言”的部分,它包含两个注意力机制:

  1. Masked Self-Attention:只能看到前面的 token(防止“偷看答案”)
  2. Encoder-Decoder Attention:接收 Encoder 的语义信息

上图为Decoder-Only 模型的模型架构图,Decoder-Only 模型(如 GPT)做了一个大胆的决定:

❌ 去掉 Encoder
❌ 去掉 Encoder-Decoder Attention
✅ 只保留 Masked Self-Attention,自己理解、自己生成

输入文本 → Tokenizer → Embedding → N 层 Decoder → 输出文本

这种架构天生适合 自回归生成(Autoregressive Generation)

  • 输入:“今天天气”
  • 模型预测:“好”
  • 接着输入:“今天天气好”,预测下一个词……
  • 如此循环,生成完整句子。

✅ 优势:简单、高效、可无限生成文本
❌ 缺点:无法双向理解(但大模型通过“体量”弥补了这一点)


🚀 二、GPT:Decoder-Only 的开山鼻祖

1. 模型架构:Pre-LN + Masked Self-Attention

GPT 的结构与 BERT 类似,但关键区别在于:

组件GPT 做法
位置编码使用 Transformer 原始的 Sinusoidal 编码(非可学习)
LayerNorm采用 Pre-Norm:先归一化再进注意力(更稳定)
注意力机制仅保留 Masked Self-Attention,无 Encoder 交互
MLP 层早期用卷积,后期改用全连接

🔍 Pre-Norm 是什么?
在残差连接前做 LayerNorm,能有效缓解梯度消失,适合深层网络。


2. 预训练任务:CLM(因果语言模型)

GPT 使用 CLM(Causal Language Modeling),也就是:

根据前面的词,预测下一个词

例如:

  • 输入:The cat sat on the
  • 输出:mat

这本质上是 N-gram 的神经网络升级版,完全契合人类语言生成习惯。

✅ 优势:

  • 不需要标注数据,直接用文本训练
  • 与下游生成任务(如写作、对话)完全一致

3. GPT 系列的“力大砖飞”之路

模型参数量隐藏层层数预训练数据关键突破
GPT-10.12B768125GB首提“预训练+微调”
GPT-21.5B16004840GB支持 zero-shot
GPT-3175B1228896570GBfew-shot + 涌现能力
📌 GPT-3 的三大革命:
  1. 参数爆炸:1750亿参数,首次展现“涌现能力”
  2. 上下文学习(In-context Learning):无需微调,只需给几个例子(few-shot)就能学会新任务
  3. 稀疏注意力:应对长文本,提升训练效率

💡 举例:情感分类的 few-shot prompt

判断情感:'这真是个绝佳机会' → 正向(1)
示例:'你太棒了' → 1;'太糟糕了' → 0;'好主意' → 1
问题:'这真是个绝佳机会' → ?

这种“提示即编程”的方式,直接催生了 Prompt Engineering 的兴起。


🐫 三、LLaMA:开源 LLM 的标杆

如果说 GPT 是闭源王者,那 LLaMA 就是开源世界的“平民英雄”。

Meta 从 2023 年起陆续发布 LLaMA-1/2/3,成为当前开源 LLM 的事实标准架构

1. 模型架构:GPT 的“优化版”

LLaMA 整体沿用 GPT 架构,但做了多项关键改进:

改进点说明
RoPE 位置编码旋转式位置编码,支持超长上下文(8K~32K)
RMSNorm替代 LayerNorm,训练更稳定
SwiGLU 激活函数比 ReLU/GELU 更强的非线性能力
GQA(分组查询注意力)减少 KV Cache,提升推理速度

🔍 GQA 是什么?
将多个注意力头共享 KV 向量,平衡 MQA(单KV)和 MHA(全KV)的性能与效率。


2. LLaMA 系列发展史

版本参数上下文训练数据亮点
LLaMA-17B~65B2K1T token开源,引爆社区
LLaMA-27B~70B4K2T token支持对话微调
LLaMA-38B~70B8K15T token128K词表,接近GPT-4

✅ LLaMA-3 的 128K 词表大幅提升多语言和代码能力。


🇨🇳 四、GLM:中文 LLM 的独特探索

由智谱 AI(Zhipu AI)开发的 GLM 系列,是中国最早开源的大模型之一。

1. 模型架构:Post-Norm + 简洁设计

GLM 初期尝试了一条不同于 GPT 的路径:

特点说明
Post-Norm残差连接后归一化,增强鲁棒性
单层输出头减少参数,提升稳定性
GELU 激活函数平滑非线性,优于 ReLU

⚠️ 注意:主流模型多用 Pre-Norm,但 GLM 认为 Post-Norm 更稳定。


2. 预训练任务:GLM(空白填充)

GLM 的核心创新是 GLM 预训练任务——结合 MLM 和 CLM:

  • 随机遮蔽连续一段文本
  • 模型需从上下文预测这段文本,并按顺序生成其中每个 token

例如:

  • 输入:I <MASK> because you <MASK>
  • 输出:love you 和 are a wonderful person

✅ 优势:兼顾理解与生成
❌ 劣势:训练复杂,大模型时代被 CLM 取代

📌 现状:从 ChatGLM2 起,GLM 系列也回归 CLM + GPT 架构。


3. GLM 家族发展

模型参数上下文关键能力
ChatGLM-6B6B2K首个开源中文 LLM
ChatGLM2-6B6B32K支持长文本
ChatGLM3-6B6B32K支持函数调用、代码解释器
GLM-4未开源128K英文性能对标 GPT-4
GLM-4-9B9B8K开源轻量版,支持工具调用

💡 ChatGLM3 开始支持 Agent 开发,可调用工具、执行代码,迈向 AI 自主行动。


🆚 五、三大模型架构对比

模型架构预训练任务是否开源代表能力
GPTDecoder-OnlyCLM❌ 闭源通用生成、few-shot
LLaMADecoder-OnlyCLM✅ 开源高效、可定制
GLMDecoder-OnlyGLM → CLM✅ 开源中文强、支持 Agent

🌟 六、Decoder-Only 为何能统治 LLM 时代?

尽管 BERT 和 T5 在 NLU 任务上曾领先,但 Decoder-Only 最终胜出,原因如下:

  1. 生成即王道
    大模型的核心价值是“对话”“写作”“编程”,生成能力比理解更重要。

  2. 任务统一性
    所有任务都可以转化为“输入提示 → 输出答案”,无需复杂微调。

  3. 涌现能力(Emergent Ability)
    当模型足够大时,CLM 训练的模型反而在理解任务上超越 BERT。

  4. 工程友好
    架构简单,易于分布式训练和推理优化。


📣 结语:LLM 的未来,始于 Decoder-Only

从 GPT-1 的默默无闻,到 GPT-3 的横空出世,再到 LLaMA 和 GLM 的开源繁荣,

Decoder-Only 架构 用十年时间证明了:

“简单、专注、规模” 才是通向 AGI 的最短路径。

如今,几乎所有主流 LLM(包括 Qwen、Baichuan、Yi 等)都基于这一架构。

🔁 所以,要理解大模型,你必须先读懂 GPT。

📚 参考资料:

  • 《Language Models are Few-Shot Learners》(GPT-3)
  • 《LLaMA: Open and Efficient Foundation Language Models》
  • 《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》
  • HuggingFace、Meta AI、Zhipu AI 官方文档
  • https://github.com/datawhalechina/happy-llm

文章转载自:

http://5tJKjQSy.gnkdp.cn
http://Plp7cO9M.gnkdp.cn
http://wgKQT0lS.gnkdp.cn
http://ENXkVLCq.gnkdp.cn
http://1OmWIXYZ.gnkdp.cn
http://35RIrDVk.gnkdp.cn
http://SSHSxScr.gnkdp.cn
http://RqIxpU0y.gnkdp.cn
http://wIXF3WOl.gnkdp.cn
http://LyEbbwQ8.gnkdp.cn
http://qLM87My5.gnkdp.cn
http://itcB7z8A.gnkdp.cn
http://teDQJfL9.gnkdp.cn
http://72NrUyz1.gnkdp.cn
http://WnWgDFXC.gnkdp.cn
http://bSnFOdV4.gnkdp.cn
http://LBhzyaR1.gnkdp.cn
http://nYGQl2u3.gnkdp.cn
http://DQmygs3B.gnkdp.cn
http://K4TBgJKT.gnkdp.cn
http://iOygZNm5.gnkdp.cn
http://VOqHGlY4.gnkdp.cn
http://5feFpkN6.gnkdp.cn
http://EuATts86.gnkdp.cn
http://lq3wMeHu.gnkdp.cn
http://S8yagKzN.gnkdp.cn
http://nh0LaOXj.gnkdp.cn
http://2pyr6Uba.gnkdp.cn
http://dTEiFzUD.gnkdp.cn
http://rT2eSjkS.gnkdp.cn
http://www.dtcms.com/a/366946.html

相关文章:

  • 原型链和原型
  • 嵌入式学习 51单片机(3)
  • 详细学习计划
  • 深度解读《实施“人工智能+”行动的意见》:一场由场景、数据与价值链共同定义的产业升级
  • CLIP模型
  • 深度学习篇---SENet网络结构
  • JS初入门
  • 大数据开发计划表(实际版)
  • TypeScript 增强功能大纲 (相对于 ECMAScript)
  • LLAMAFACTORY:一键优化大型语言模型微调的利器
  • DeepSeek文献太多太杂?一招制胜:学术论文检索的“核心公式”与提问艺术
  • Android AI客户端开发(语音与大模型部署)面试题大全
  • hutool的EnumUtil工具类实践【持续更新】
  • 从基础到实践:Web核心概念与Nginx入门全解析
  • 深度学习:基于自定义 ResNet 的手写数字识别实践(MNIST 数据集)
  • Day35 网络协议与数据封装
  • Vue 3 学习路线指南
  • C语言基础:内存管理
  • 大模型应用开发框架 LangChain
  • Deeplizard深度学习课程(六)—— 结合Tensorboard进行结果分析
  • 小程序:12亿用户的入口,企业数字化的先锋军
  • 【C++题解】关联容器
  • 15,FreeRTOS计数型信号量操作
  • PMP新考纲练习题10道【附答案解析】
  • 开源技术助力企业腾飞,九识智能迈入‘数据驱动’新纪元
  • Docker(①安装)
  • [Windows] PDF工具箱 PDF24 Creator 11.28.0
  • 阿里云轻量应用服务器部署-WooCommerce
  • Java全栈开发面试实战:从基础到高并发的深度解析
  • 并非银弹,而是利器:对软件开发工具的深度探讨与理性思考