当前位置: 首页 > news >正文

从零开始的语言模型构建 CS336 第一课(一)

语言模型的发展历史

🏗 Early foundation models (2010年代后期)

  • 2018:ELMo(基于 LSTM 预训练 + 微调)[Peters+ 2018]
  • 2018:BERT(基于 Transformer 预训练 + 微调)[Devlin+ 2018]
  • 2019:Google T5(统一为 text-to-text)[Raffel+ 2019]

🚀 Scaling & closed (2020年代初期)

  • 2019:OpenAI GPT-2 (1.5B),流畅生成文本、出现 zero-shot [Radford+ 2019]
  • 2020:Scaling laws 提出,预测大模型表现 [Kaplan+ 2020]
  • 2020:OpenAI GPT-3 (175B),in-context learning [Brown+ 2020]
  • 2022:Google PaLM (540B),大规模但 undertrained [Chowdhery+ 2022]
  • 2022:DeepMind Chinchilla (70B),计算最优 scaling [Hoffmann+ 2022]

🌍 Open models (2020年代中期)

  • 2020/2021:EleutherAI,The Pile 数据集 + GPT-J [Gao+ 2020][Wang+ 2021]
  • 2022:Meta OPT (175B),GPT-3 复现 [Zhang+ 2022]
  • 2022:Hugging Face/BigScience BLOOM,关注数据来源 [Workshop+ 2022]
  • 2023:Meta LLaMA 系列 [Touvron+ 2023]
  • 2024:Alibaba Qwen 系列 [Qwen+ 2024]
  • 2024:DeepSeek 系列 [DeepSeek-AI+ 2024]
  • 2024:AI2 OLMo 2 [Groeneveld+ 2024][OLMo+ 2024]

🔓 Levels of openness

  • 2023:封闭模型,如 OpenAI GPT-4o [OpenAI+ 2023]
  • 2024:开放权重模型,如 DeepSeek [DeepSeek-AI+ 2024]
  • 2024:开源模型,如 OLMo(权重+数据开放)[Groeneveld+ 2024]

🌌 Today’s frontier models (2025)

  • 2025:OpenAI o3 → https://openai.com/index/openai-o3-mini/
  • 2025:Anthropic Claude Sonnet 3.7 → https://www.anthropic.com/news/claude-3-7-sonnet
  • 2025:xAI Grok 3 → https://x.ai/news/grok-3
  • 2025:Google Gemini 2.5 → https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
  • 2025:Meta LLaMA 3.3 → https://ai.meta.com/blog/meta-llama-3/
  • 2025:DeepSeek r1 → [DeepSeek-AI+ 2025]
  • 2025:Alibaba Qwen 2.5 Max → https://qwenlm.github.io/blog/qwen2.5-max/
  • 2025:Tencent Hunyuan-T1 → https://tencent.github.io/llm.hunyuan.T1/README_EN.html

效率组件

✅ 基础 (Basics)

  • 分词 (Tokenization)
  • 架构 (Architecture)
  • 损失函数 (Loss function)
  • 优化器 (Optimizer)
  • 学习率 (Learning rate)

✅ 系统 (Systems)

  • 内核 (Kernels)
  • 并行化 (Parallelism)
  • 量化 (Quantization)
  • 激活检查点 (Activation checkpointing)
  • CPU 卸载 (CPU offloading)
  • 推理 (Inference)

✅ 缩放规律 (Scaling laws)

  • 缩放序列 (Scaling sequence)
  • 模型复杂度 (Model complexity)
  • 损失度量 (Loss metric)
  • 参数化形式 (Parametric form)

✅ 数据 (Data)

  • 评估 (Evaluation)
  • 筛选 (Curation)
  • 转换 (Transformation)
  • 过滤 (Filtering)
  • 去重 (Deduplication)
  • 混合 (Mixing)

✅ 对齐 (Alignment)

  • 有监督微调 (Supervised fine-tuning)
  • 强化学习 (Reinforcement learning)
  • 偏好数据 (Preference data)
  • 合成数据 (Synthetic data)
  • 验证器 (Verifiers)

Tokenization(分词)

在这里插入图片描述
Byte-Pair Encoding(BPE)分词器 [Sennrich 等, 2015]
👉 它的核心思想就是:不断找出出现频率最高的字符对,把它们合并成一个新“词”,反复迭代,直到达到设定的词表大小。BPE 已经成为现在大部分主流大模型(比如 GPT 系列)的标配分词方案。

当然,也有一些不走分词器路线的探索:
比如 [Xue 等, 2021][Yu 等, 2023][Pagnoni 等, 2024][Deiseroth 等, 2024] 提到的 tokenizer-free 方法,直接基于字节(bytes)做处理。
这些方法很有潜力,省去了复杂的分词步骤,但目前还没能像 BPE 一样被大规模用于最前沿的大模型。

Architecture(结构)

在这里插入图片描述
Variants(变体):

  • Activation functions: ReLU, SwiGLU[Shazeer 2020]

  • Positional encodings: sinusoidal, RoPE[Su+ 2021]

  • Normalization: LayerNorm, RMSNorm[Ba+ 2016][Zhang+ 2019]

  • Placement of normalization: pre-norm versus post-norm[Xiong+ 2020]

  • MLP: dense, mixture of experts[Shazeer+ 2017]

  • Attention: full, sliding window, linear[Jiang+ 2023][Katharopoulos+ 2020]

  • Lower-dimensional attention: group-query attention (GQA), multi-head latent attention (MLA)[Ainslie+ 2023][DeepSeek-AI+ 2024]

  • State-space models: Hyena[Poli+ 2023]

Training(训练)

  • Optimizer (e.g., AdamW, Muon, SOAP)

  • Learning rate schedule (e.g., cosine, WSD)

  • Batch size (e…g, critical batch size)

  • Regularization (e.g., dropout, weight decay)

  • Hyperparameters (number of heads, hidden dimension): grid search

http://www.dtcms.com/a/273181.html

相关文章:

  • 【Python练习】036. 编写一个函数,将一个字符串中的所有字符按ASCII值排序
  • 用OpenCV标定相机内参应用示例(C++和Python)
  • Git简单命令
  • 获取印度股票数据API实战指南:NSE与BSE双市场对接
  • 华为OD 周末爬山
  • upload-labs靶场通关详解:第21关 数组绕过
  • 微服务架构下的自动化测试策略调优经验分享
  • 【基于大模型 + FAISS 的本地知识库与智能 PPT 生成系统:从架构到实现】
  • Datawhale AI 夏令营:用户洞察挑战赛 Notebook(2)
  • HVV注意事项(个人总结 非技术)
  • 【HTTP服务端】Cookie?Session?Token?
  • React 自定义Hook——页面或元素滚动到底部监听 Hook
  • Java+Vue开发的资产设备全周期管理系统,移动端+后台管理,涵盖采购至报废全程,实现高效管理、成本可控与资源优化
  • Shell脚本一键部署KubeSphere前置环境
  • 04-ES6
  • 多线程 JAVA
  • Java :Optional容器类
  • python的保险业务管理与数据分析系统
  • AI 智能体:从辅助工具到自主决策者
  • 【YOLO脚本】对模型yaml文件测试
  • ZYNQ MPSOC PL端DDR4读写--仿真(3)
  • JDK的Closure闭包详解
  • 发现和发明浅谈
  • 2025年最新Dubbo-admin 部署
  • HTML初学者第四天
  • Android 应用常见安全问题
  • JavaScript基础(三)
  • 一文讲清楚React Hooks
  • 解决问题的“测地线”:关于第一性原理与其他系统思考框架
  • RocksDB 与 ZenFS:原理、特性及在科研与工程中的应用初步探索