当前位置：首页 > news >正文

大语言模型基础LLM：Transformer和大模型

news 2025/10/29 8:01:42

文章目录

- - 3.1 语言模型与 Transformer 架构
  - - 3.1.1 从 N-gram 到 RNN
    - 3.1.2 Transformer 架构解析
    - - 3.1.2.5 位置编码
    - 3.1.3 Decoder-Only 架构
  - 3.2 与大语言模型交互
  - - 3.2.1 提示工程
    - 3.2.2 文本分词
    - - 3.2.2.1 为何需要分词
      - 3.2.2.2 字节对编码算法解析
      - 3.2.2.3 分词器对开发者的意义
    - 3.2.3 调用开源大语言模型
    - 3.2.4 模型的选择
    - - 3.2.4.1 模型选型的关键考量
      - 3.2.4.2 闭源模型概览
      - 3.2.4.3 开源模型概览
  - 3.3 大语言模型的缩放法则与局限性
  - - 3.3.1 缩放法则
    - 3.3.2 模型幻觉
  - 3.4 本章小结
  - - - 参考文献

3.1 语言模型与 Transformer 架构

3.1.1 从 N-gram 到 RNN

语言模型 (Language Model, LM) 是自然语言处理的核心，其根本任务是计算一个词序列（即一个句子）出现的概率。一个好的语言模型能够告诉我们什么样的句子是通顺的、自然的。在多智能体系统中，语言模型是智能体理解人类指令、生成回应的基础。本节将回顾从经典的统计方法到现代深度学习模型的演进历程，为理解后续的 Transformer 架构打下坚实的基础。

（1）统计语言模型与N-gram的思想

在深度学习兴起之前，统计方法是语言模型的主流。其核心思想是，一个句子出现的概率，等于该句子中每个词出现的条件概率的连乘。对于一个由词 $w_1 ,w_2,⋯,w_m$

查看全文

http://www.dtcms.com/a/540588.html