当前位置：首页 > news >正文

从0到1理解大语言模型：读《大语言模型：从理论到实践（第2版）》笔记

news 2025/7/31 17:11:25

从0到1理解大语言模型：前3章精华速读

——读《大语言模型：从理论到实践（第2版）》笔记

如果你只有 30 分钟，又想快速搞懂“大语言模型到底怎么炼成的”，这篇文章就是为你准备的。
我提炼了官方 400 页巨著的前 3 章，用中文讲人话，帮你把“概念 → 结构 → 数据”一次性串起来。

第1章绪论：一句话说清大模型是什么

关键词	一句话解释
语言模型	给任何一段文本算概率的机器：越像人话，分越高。
大	参数量≥100 亿，阅读过 1 T 以上文本。
自监督	不用人工标注，直接拿下一词预测当“老师”。
三个阶段	①预训练（学语言）→ ②指令微调（学听话）→ ③强化学习（学讨好）。

经验法则：模型越大、数据越多、算力越猛，效果越“玄学式”提升。OpenAI 管这叫 Scaling Laws：损失值随参数/数据/算力指数下降。

第2章大模型骨架：Transformer 全家桶

2.1 底层积木：Transformer 结构

Embedding 把词变向量；Positional Encoding 给位置打坐标。
Self-Attention 让每个词“偷窥”上下文，距离不再是问题。
FFN 两层全连接做非线性变换；残差 + LayerNorm 保稳定。
Encoder vs Decoder 只在机器翻译用，GPT 系列只用 Decoder。

2.2 GPT 系列如何炼成

预训练：用 45 TB 网页 → 570 GB 干净文本，做“下一词预测”。
微调：把下游任务化成“填空题”，用几千～几万条标注即可。
提示（Prompting）：不给权重，只给示范，模型也能举一反三。

2.3 LLaMA 做了哪些小改进

前置 RMSNorm → 训练更稳。
SwiGLU 激活 → 比 ReLU 更丝滑。
RoPE 旋转位置编码 → 长度外推更友好。
多查询/FlashAttention/MLA → 省显存、提速度。

一句话总结：LLaMA = GPT 结构 + 工程优化 + 开源，让平民也能玩 70 B 模型。

第3章数据：为什么“Garbage in, garbage out”在大模型里被放大 100 倍

3.1 数据来源全景图

类型	占比	作用
通用网页	60 % 以上	学说话、学世界知识
书籍/百科	~5 %	长文本连贯性、事实性
GitHub/论文/专利	5–10 %	代码、科学推理
多语言	5–20 %	跨语言对齐
领域语料（金融、医疗…）	1–5 %	下游任务“外挂知识”

经验：高质量小数据 > 低质量大数据。DeepMind 的 Chinchilla 法则：参数和词元 1:20 最划算。

3.2 数据炼金术：把 1 PB 原始网页变 100 GB 真·黄金

质量过滤：
- 规则法：长度、符号比、困惑度。
- 模型法：用一个小模型给每段文本打分，砍掉低分。
去重：
- 句子级 50 字符以上重复直接剪。
- 文档级 MinHash + URL 去重，防“Ctrl+C/V”污染。
隐私脱敏：正则 + NER，把身份证、邮箱、地址全抹掉。
词元化：
- BPE/WordPiece/ULM → 解决 OOV，中文 2~3 字节拼一字。
- 字节级 BPE 保证多语言无死角。

3.3 数据影响实验

规模：LLaMA 从 1 T 加到 15 T token，常识基准再涨 5–10 分。
质量：同一量级，清洗后 vs 原始 CommonCrawl，下游任务提升 20 %。
多样性：Gopher 实验发现，C4+MassiveWeb+Books+News 的黄金配比 ≈ 1:5:3:1，单一来源越纯越差。
时效性：用 2019 年的新闻训的模型，在 2023 年测试集上掉 3–5 分。

一张图带走前 3 章核心

            第1章                第2章                第3章概念 —————> 结构 —————> 数据↑              ↑              ↑
Scaling Laws  →  Transformer   →  Chinchilla↓              ↓              ↓越大越好        越稳越快       越干净越好

彩蛋：读完就能回答的 3 个面试高频题

为什么 LLaMA 3 用 15 T token 训练，而 GPT-3 只用了 0.3 T？
→ Chinchilla 定律：参数 70 B 时，最优 token 数 ≈ 1.4 T；405 B 时，≈ 15 T。
FlashAttention 到底省了什么？
→ 省显存：把 O(N²) 的 Attention 矩阵拆块放 SRAM，算完即丢；速度反而更快（重新计算 < 访存延迟）。
数据清洗最大的坑是什么？
→ 测试集泄露。CommonCrawl 里混了 GLUE、MMLU 的题，不剔除直接“刷榜”=作弊。

查看全文

http://www.dtcms.com/a/303688.html