当前位置：首页 > news >正文

3-大语言模型—理论基础：生成式预训练语言模型GPT(代码“活起来”)

news 2025/11/12 9:59:33

1、GPT的模型结构如图所示

2、介绍GPT自监督预训练、有监督下游任务微调及预训练语言模型

2.1、GPT 自监督预训练

2.1.1、输入编码：词向量与位置向量的融合

2.1.1.1、输入序列与词表映射

2.1.1.2、词向量矩阵与查表操作

3. 位置向量矩阵

4. 词向量与位置向量叠加

5. 最终输入向量

2.1.2、 Masked 多头注意力：禁止 “偷看” 未来信息

2.1.3、损失函数：优化预测概率

2.2 有监督下游任务微调

2.2.1、任务适配：从文本到标签的映射

2.2.2、组合损失：平衡任务与预训练知识

2.3 预训练语言模型

2.3.1、结构差异：从 “专用设计” 到 “通用基座”

2.3.2、能力边界：生成 vs 理解

3、模型验证

3.1、 GPT 模型全流程

3.2、GPT 核心逻辑突出：

4、完整实现

4.1、完整代码

4.2、实验结果

4.3、代码“活起来”

一、准备数据集：给机器人找 “课本”

二、训练词元分析器：给机器人编 “字典”

三、预处理数据集：把 “课本” 翻译成 “机器人能懂的语言”

四、训练模型：教机器人 “学规律”

五、运用模型：让机器人 “说句话试试”

总结：整个流程就像 “教小孩学说话”

1、GPT的模型结构如图所示

它是由多层Transformer组陈的单向语言模型，主要分为输入层、编码层和输出层三个部分：

2、介绍GPT自监督预训练、有监督下游任务微调及预训练语言模型

2.1、GPT 自监督预训练

GPT 预训练的核心是基于 Transformer Decoder 的因果语言建模，其计算过程可通过具体示例拆解为 “输入编码 - 注意力计算 - 损失优化” 三步骤。

2.1.1、输入编码：词向量与位置向量的融合

公式 $h^{[0]}=e_{x'} W^{e}+W^{p}$ 描述了输入编码过程，用示例说明：

假设输入序列为 “猫吃鱼”，分词后为 3 个 token：x' = [猫, 吃, 鱼]；
词向量查表：e_{猫}通过词向量矩阵 $W^e$ （假设维度为 3×5）映射为向量 $[0.2, 0.5, -0.1, 0.3, 0.8]$ ，同理 “吃”“鱼” 分别映射为 $[0.1, -0.3, 0.4, 0.6, -0.2]$ 和 $[0.7, 0.2, -0.5, 0.1, 0.3]$ ；
位置向量叠加：位置 1（猫）的向量 $W^p_1 = [0.01, 0.02, 0.03, 0.04, 0.05]$ ，位置 2（吃）为 $W^p_2 = [0.06, 0.07, 0.08, 0.09, 0.10]$ ，叠加后 $h^{[0]}$ 的第一个向量为 $[0.21, 0.52, 0.02, 0.34, 0.85]$ 。

2.1.1.1、输入序列与词表映射

假设我们有一个简单的词表，包含 3 个词：
词表 = {"猫": 0, "吃": 1, "鱼": 2}
输入文本 "猫吃鱼" 被分词为 3 个 token，对应的词表索引为：
x' = [0, 1, 2]
2.1.1.2、词向量矩阵与查表操作

词向量矩阵 $W^e$ 的作用是将离散的词索引映射为连续的向量表示。假设词向量维度为 5，则 $W^e$ 是一个 3×5 的矩阵：

查表过程：

对于 token "猫"（索引 0），其词向量为 $W^e$ 的第 0 行： $[0.2, 0.5, -0.1, 0.3, 0.8]$
同理，"吃" 的词向量为 $[0.1, -0.3, 0.4, 0.6, -0.2]$
"鱼" 的词向量为 $[0.7, 0.2, -0.5, 0.1, 0.3]$

3. 位置向量矩阵

位置向量用于表示 token 在序列中的位置信息。假设位置向量维度同样为 5，则 3 个位置的向量分别为：

4. 词向量与位置向量叠加

根据公式 $h^{[0]}=e_{x'} W^{e}+W^{p}$ ，对每个 token 的词向量和对应位置向量进行叠加：

第一个 token "猫"（位置 1）：

第二个 token "吃"（位置 2）：

第三个 token "鱼"（位置 3）：

5. 最终输入向量 $h^{[0]}$

将上述三个叠加后的向量组合，得到最终输入到 Transformer 的向量$h^{[0]}$：

$h^{[0]} = \begin{bmatrix} 0.21 & 0.52 & -0.07 & 0.34 & 0.85 \\ 0.16 & -0.23 & 0.48 & 0.69 & -0.10 \\ 0.81 & 0.32 & -0.37 & 0.24 & 0.45 \end{bmatrix}$