大模型学习大纲
从今天开始要写一本大模型的书籍了,这是大纲部分,后续对大纲再做优化,成书以后出版
大模型知识大纲
一、 基础理论与背景
引言与概述
什么是大模型?为什么是“大”?
大模型的发展历程:从统计语言模型到神经网络语言模型再到Transformer。
大模型的核心能力与局限性。
关键概念:预训练、微调、提示、涌现能力。
深度学习基础
神经网络基础(前馈网络、激活函数、损失函数、反向传播)。
词嵌入技术(Word2Vec, GloVe)。
序列建模基础:RNN, LSTM, GRU 的局限性。
核心架构:Transformer
自注意力机制:核心思想、计算过程(Q, K, V)、缩放点积注意力。
多头注意力:动机与原理。
位置编码:为什么需要?正弦波编码与相对位置编码。
前馈网络与残差连接、层归一化。
Encoder-Decoder 架构(用于翻译、摘要等)。
二、 模型架构演进
编码器架构
BERT:掩码语言建模、下一句预测。
RoBERTa, ALBERT, DeBERTa 等改进模型。
解码器架构
GPT 系列:自回归语言建模。
从 GPT 到 GPT-4:架构与规模的演进。
LLaMA 系列及其他开源模型。
编码器-解码器架构
T5:将所有NLP任务统一为“文本到文本”格式。
BART:去噪自编码器。
专家混合模型
Mixture of Experts:如何高效地扩展模型参数。
Switch Transformer, GShard。
其他创新架构
Retro:模型如何检索并使用外部知识库。
扩散模型在文本生成中的应用。
三、 训练与优化
预训练
数据收集与构建:海量、多源、多模态数据。
数据清洗与去重:重要性与方法。
训练目标:
因果语言建模。
掩码语言建模。
排列语言建模。
优化策略:AdamW、学习率调度、分布式训练。
缩放定律
Chinchilla 定律:模型参数与训练数据的最优配比。
计算最优规模。
对齐技术
指令微调:让模型学会遵循指令。
人类反馈强化学习:
RLHF 三阶段:SFT -> 奖励模型训练 -> PPO 强化学习。
DPO:直接偏好优化,RLHF 的替代方案。
四、 适应与应用
提示工程
零样本、少样本、思维链提示。
提示设计模式与最佳实践。
高效微调
全量微调的挑战。
参数高效微调:
LoRA:低秩适应。
Adapter:适配器。
Prefix-Tuning 与 P-Tuning。
智能体与应用框架
ReAct:推理与行动的结合。
Tool Former:模型学习使用工具。
LangChain / LlamaIndex:构建大模型应用的框架。
五、 推理与部署
推理优化
量化:INT8, INT4, GPTQ, AWQ。
模型剪枝与知识蒸馏。
推理框架:vLLM, TensorRT-LLM。
部署考量
硬件选择(GPU, NPU)。
服务化与API设计。
成本与延迟优化。
六、 风险、伦理与责任
社会偏见与公平性
偏见的来源与测量。
去偏见技术。
幻觉与可靠性
什么是幻觉?为何产生?
缓解策略:检索增强生成、自我验证。
安全与滥用
越狱与对抗性攻击。
内容过滤与安全对齐。
虚假信息、网络钓鱼等恶意用途。
法律与社会影响
版权与数据:训练数据的合法性。
隐私:模型记忆与数据提取。
环境影响:碳足迹。
可及性:开源 vs. 闭源。
七、 前沿与未来方向
多模态模型
CLIP:连接文本与图像。
DALL-E, Midjourney, Stable Diffusion:文生图。
GPT-4V, Gemini:大型多模态模型。
具身智能与机器人
将大模型作为机器人的“大脑”。
超级对齐
如何确保比人类更智能的AI系统与人类利益对齐。
科学发现
大模型在数学、生物学、材料学等领域的应用。
长期记忆与个性化
让模型记住并理解用户。