大语言模型基础LLM:Transformer和大模型
文章目录
-
-
- 3.1 语言模型与 Transformer 架构
-
- 3.1.1 从 N-gram 到 RNN
- 3.1.2 Transformer 架构解析
-
- 3.1.2.5 位置编码
- 3.1.3 Decoder-Only 架构
- 3.2 与大语言模型交互
-
- 3.2.1 提示工程
- 3.2.2 文本分词
-
- 3.2.2.1 为何需要分词
- 3.2.2.2 字节对编码算法解析
- 3.2.2.3 分词器对开发者的意义
- 3.2.3 调用开源大语言模型
- 3.2.4 模型的选择
-
- 3.2.4.1 模型选型的关键考量
- 3.2.4.2 闭源模型概览
- 3.2.4.3 开源模型概览
- 3.3 大语言模型的缩放法则与局限性
-
- 3.3.1 缩放法则
- 3.3.2 模型幻觉
- 3.4 本章小结
-
-
- 参考文献
-
-
3.1 语言模型与 Transformer 架构
3.1.1 从 N-gram 到 RNN
语言模型 (Language Model, LM) 是自然语言处理的核心,其根本任务是计算一个词序列(即一个句子)出现的概率。一个好的语言模型能够告诉我们什么样的句子是通顺的、自然的。在多智能体系统中,语言模型是智能体理解人类指令、生成回应的基础。本节将回顾从经典的统计方法到现代深度学习模型的演进历程,为理解后续的 Transformer 架构打下坚实的基础。
(1)统计语言模型与N-gram的思想
在深度学习兴起之前,统计方法是语言模型的主流。其核心思想是,一个句子出现的概率,等于该句子中每个词出现的条件概率的连乘。对于一个由词 w 1 , w 2 , ⋯ , w m w_1 ,w_2,⋯,w_m w
