当前位置：首页 > news >正文

2-大语言模型—理论基础：详解Transformer架构的实现(2)

news 2025/11/14 7:45:58

1-大语言模型—理论基础：详解Transformer架构的实现(1)-CSDN博客https://blog.csdn.net/wh1236666/article/details/149443139?spm=1001.2014.3001.5502

2.3、残差连接和层归一化

2.3.1、什么是层归一化？

2.3.2、层归一化的核心特点（与其他归一化对比）

2.3.3、特此说明

2.4、编码器和解码器结构

2.4.1、编码器和解码器到底是什么？

2.4.1.1、编码器：负责 “看懂原文” 的翻译官

2.4.1.2、解码器：负责 “写出译文” 的秘书

2.4.1.3、总结：俩模块的核心作用

2.4.2、编码器（Encoder）

2.4.2.1、整体结构

2.4.2.2、运算流程

2.4.2.3、核心机制：自注意力（Self-Attention）

2.4.3、解码器（Decoder）

2.4.3.1、整体结构

2.4.3.2、运算流程

2.4.3.3、核心机制：掩码与交叉注意力

2.4.4、编码器与解码器的协作

2.4.5、完整代码

2.5、Transformer整体逻辑

2.5.1、先看 “团队架构”：编码器与解码器的核心组件

2.5.2、编码器：用 “工具包” 把原文 “嚼碎成浓缩信息”

2.5.2.1、多头自注意力：像 “读句子时同时抓多维度关系”

2.5.2.2、前馈网络：像 “基于关系提炼深层含义”

3. 残差连接 + 层归一化：像 “保持思路清晰，不混乱”

2.5.3、解码器：用 “工具包” 把 “笔记” 变成 “通顺译文”

2.5.3.1、掩码多头自注意力：像 “写句子时只看自己已经写的内容”

2.5.3.2、编码器 - 解码器注意力：像 “写译文时回头看原文笔记”

2.5.3.3、前馈网络 + 残差连接 + 层归一化：和编码器的作用一致

2.5.4、编码器与解码器的 “协作全流程”（以翻译为例）

2.5.5、总结：为什么这套组合能 “超越传统模型”？

2.6、完整代码

2.6.1、Transforemers实现代码

2.6.2、与LSTM对比实现代码

2.7、实验效果

2.7.1、Transforemers实验效果

2.7.2、与LSTM对比实验效果

前文：

1-大语言模型—理论基础：详解Transformer架构的实现(1)-CSDN博客https://blog.csdn.net/wh1236666/article/details/149443139?spm=1001.2014.3001.5502

2.3、残差连接和层归一化

2.3.1、什么是层归一化？

层归一化的核心思想是：对单个样本在某一层的所有特征（或隐藏单元）进行归一化，让这些特征的分布保持稳定（均值接近 0，方差接近 1），再通过可学习的参数进行缩放和平移，保留数据的原始特征信息。

具体计算步骤：

假设某一层的输入为向量 $x = [x_1, x_2, ..., x_d]$ （d 为特征维度），层归一化的计算过程如下：

计算均值：计算该向量所有元素的均值 $\mu = \frac{1}{d} \sum_{i=1}^d x_i$
计算方差：计算该向量所有元素的方差 $\sigma^2 = \frac{1}{d} \sum_{i=1}^d (x_i - \mu)^2$
归一化：用均值和方差对原始数据进行标准化，消除量纲差异 $\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}$ $(\epsilon$ 是一个极小值，避免分母为 0）
缩放和平移：通过可学习的参数 $\gamma$ （缩放因子）和 $\beta$（偏移因子）调整归一化后的数据，保留原始特征的表达能力 $y_i = \gamma \cdot \hat{x}_i + \beta$

2.3.2、层归一化的核心特点（与其他归一化对比）

为了更好理解层归一化，我们可以与常用的批归一化（Batch Normalization，BN） 对比：

特性	层归一化（LN）	批归一化（BN）
归一化维度	单个样本的所有特征（特征维度）	批次中所有样本的同一特征（批次维度）
依赖 “批次” 吗？	不依赖，单个样本独立计算	依赖，需基于整个批次的样本计算
适用场景	序列模型（RNN、Transformer）、小批量数据	卷积神经网络（CNN）、大批量数据

层归一化是一种针对 “单个样本特征” 的归一化技术，其核心价值在于：不依赖批次、适配序列模型、稳定训练并加速收敛。

2.3.3、特此说明

Transformer 模型中，层归一化是核心组件之一，它被用于多头注意力层和前馈网络的输入，确保了模型在处理长序列时的稳定性。

具体来说，在 Transformer 中，层归一化的应用场景和作用可以更细致地拆解：

多头注意力层的输入与输出：在多头注意力机制计算前，会先对输入的特征向量进行层归一化，确保每个头的注意力计算在稳定的数据分布上进行；而注意力层的输出也会与输入进行残差连接后，再通过层归一化处理，避免特征值因多次叠加而过大或分布失衡，保证后续前馈网络能高效学习。
前馈网络的输入：经过注意力层和残差连接、层归一化后的数据，会作为前馈网络的输入。此时的层归一化同样起到 “校准” 作用，让前馈网络（由两个线性层和激活函数组成）在处理特征时，无需适配波动剧烈的数据分布，从而更专注于学习特征间的非线性关系。

这种 “注意力层 + 层归一化 + 残差连接→前馈网络 + 层归一化 + 残差连接” 的模块化设计，是 Transformer 能处理超长序列（如长文本、长视频帧）的重要保障。如果没有层归一化，随着网络深度增加（Transformer 通常有十几到几十层），特征分布会逐渐偏移甚至 “爆炸”，导致模型难以训练或性能骤降。

2.3.4、完整代码

"""
文件名: 2.1 transformer
作者: 墨尘
日期: 2025/7/18
项目名: LLM
备注:
"""import numpy as np
import math
import torch
from sympy.abc import q
from torch import nn
from d2l import torch as d2l
import matplotlib.pyplot as plt  # 用于可视化注意力权重热图下·
import torch
import torch.nn as nn
import math
import torch.nn.functional as F# -------------------------- 2. 残差连接 + 层规范化（AddNorm） --------------------------
# 作用：Transformer中每个子层（注意力/前馈网络）的标配输出处理，解决深层网络训练难题
# 核心逻辑：通过残差连接保留原始信息，通过层规范化稳定特征分布，使模型可训练数百层
class AddNorm(nn.Module):"""残差连接后进行层规范化（Transformer子层输出的标准处理）"""def __init__(self, normalized_shape, dropout, **kwargs):"""初始化参数参数详解:normalized_shape: 层规范化的维度（通常为输入特征的最后一维，如[seq_len, feature_dim]）dropout: Dropout概率（随机丢弃部分特征，防止过拟合）"""super(AddNorm, self).__init__(** kwargs)self.dropout = nn.Dropout(dropout)  # Dropout层，仅作用于子层输出（保护原始输入）self.ln = nn.LayerNorm(normalized_shape)  # 层规范化层（对每个样本独立归一化，适合序列数据）def forward(self, X, Y):"""前向传播：先残差连接，再层规范化参数:X: 子层的原始输入张量（形状与Y必须一致，否则无法相加）Y: 子层（如注意力机制/前馈网络）的输出张量返回:经过处理的张量（形状与X/Y一致，特征分布更稳定）"""# 步骤解析：# 1. 对Y应用Dropout：随机丢弃部分特征，防止模型过度依赖子层输出# 2. 残差连接（X + dropout(Y)）：保留原始输入信息，缓解梯度消失（若Y无效，输出≈X）# 3. 层规范化：对每个样本计算均值和方差，将特征缩放到标准分布，加速训练return self.ln(self.dropout(Y) + X)def main():# 设置参数batch_size = 2  # 批次大小seq_len = 5  # 序列长度feature_dim = 16  # 特征维度（与 normalized_shape 对应）dropout = 0.1  # Dropout概率# 初始化AddNorm层add_norm = AddNorm(normalized_shape=feature_dim, dropout=dropout)# 创建模拟输入：X是子层原始输入，Y是子层输出X = torch.randn(batch_size, seq_len, feature_dim)  # 原始输入Y = torch.randn(batch_size, seq_len, feature_dim)  # 子层（如注意力/前馈网络）输出# 应用AddNorm处理output = add_norm(X, Y)# 验证形状一致性print(f"原始输入X形状: {X.shape}")print(f"子层输出Y形状: {Y.shape}")print(f"AddNorm输出形状: {output.shape}")  # 应与输入形状一致# 验证残差连接效果：输出与输入的差异应受Y影响# 计算X和output的相似度（应低于1.0，说明Y起作用）x_flat = X.flatten()output_flat = output.flatten()similarity = torch.cosine_similarity(x_flat.unsqueeze(0), output_flat.unsqueeze(0)).item()print(f"\nX与AddNorm输出的余弦相似度: {similarity:.4f}")  # 应显著小于1.0# 验证层规范化效果：输出特征的均值应接近0，方差接近1mean = output.mean().item()var = output.var().item()print(f"AddNorm输出的均值: {mean:.4f}")  # 应接近0print(f"AddNorm输出的方差: {var:.4f}")  # 应接近1# 可视化处理前后的特征分布plt.figure(figsize=(10, 4))# 原始输入X的特征分布plt.subplot(1, 2, 1)plt.hist(X.flatten().detach().numpy(), bins=20, alpha=0.7, label='原始输入X')plt.axvline(X.mean().item(), color='r', linestyle='--', label=f'均值: {X.mean().item():.2f}')plt.title('原始输入特征分布')plt.legend()# AddNorm输出的特征分布plt.subplot(1, 2, 2)plt.hist(output.flatten().detach().numpy(), bins=20, alpha=0.7, label='AddNorm输出')plt.axvline(output.mean().item(), color='r', linestyle='--', label=f'均值: {mean:.2f}')plt.title('AddNorm处理后的特征分布')plt.legend()plt.tight_layout()plt.show()if __name__ == "__main__":main()

通过直方图直观对比处理前后的特征分布，层规范化后的分布应更集中、波动更小。

2.4、编码器和解码器结构

2.4.1、编码器和解码器到底是什么？

咱们可以把编码器和解码器想象成两个人合作完成一项 “转换任务”，比如把中文翻译成英文，这样就很好理解了：

2.4.1.1、编码器：负责 “看懂原文” 的翻译官

假设你要把一句中文 “我爱吃苹果” 翻译成英文，编码器就像第一个翻译官，他的工作是彻底理解这句话的意思。

他先看到每个字：“我”“爱”“吃”“苹果”。
然后他会分析这些字的关系：“我” 是主语，“爱” 是谓语，“吃苹果” 是宾语，整个句子说的是 “主语喜欢做‘吃苹果’这件事”。
最后，他把这些信息整理成一份 “笔记”（专业上叫 “上下文向量”），里面不光有每个字的意思，还有它们之间的联系（谁和谁相关，谁修饰谁）。

这份笔记会交给解码器，相当于说：“我已经把原文吃透了，接下来看你的了！”

2.4.1.2、解码器：负责 “写出译文” 的秘书

解码器就像第二个角色，他的工作是根据编码器的 “笔记”，一句一句写出正确的英文。

他一开始不知道要写什么，先从一个 “开始信号”（比如<START>）入手。
看到 “开始信号”，再对照编码器的笔记（知道原文是 “我爱吃苹果”），先写出第一个词 “I”。
写完 “I” 之后，他会回头看看自己刚写的 “I”，再对照笔记，接着写出 “like”（因为原文是 “爱”）。
然后再根据已经写的 “I like” 和笔记，写出 “eating”（对应 “吃”）。
最后写出 “apples”（对应 “苹果”），直到写出 “结束信号”（比如<END>），整个翻译就完成了。

这里有个关键点：解码器写的时候不能 “作弊”，比如写 “I” 的时候，不能提前偷看后面要写的 “like”，只能用自己已经写过的内容，保证句子通顺（这就是 “掩码自注意力” 的作用）。

2.4.1.3、总结：俩模块的核心作用

编码器：把输入的序列（句子、语音、图像等）“嚼碎”，提取出所有关键信息和内部关系，变成一份 “浓缩的理解笔记”。
解码器：拿着这份 “笔记”，从无到有地生成目标序列，并且保证生成的内容既符合原文意思，又符合目标语言的逻辑（比如语法、顺序）。

就像两个人合作：一个负责 “读懂题意”，一个负责 “写出答案”，缺一不可～

2.4.2、编码器（Encoder）

编码器负责处理输入序列（如源语言句子），将其转换为隐藏表示（特征向量），以便解码器能够理解并生成对应的输出。

2.4.2.1、整体结构

Transformer 的编码器由 N 个相同的编码层（Encoder Layer） 堆叠而成，每个编码层包含两个子层：

多头自注意力层（Multi-Head Self-Attention）：捕获输入序列内部的依赖关系（如句子中词语之间的关联）。
前馈神经网络（Feed Forward Network）：对注意力层的输出进行非线性变换，增强模型表达能力。

每层之后还应用了残差连接（Residual Connection）和层归一化（Layer Normalization），以稳定训练和防止梯度消失。

2.4.2.2、运算流程

以单个编码层为例，其运算步骤如下：

输入：X（上一层的输出，初始为嵌入向量+位置编码）1. 自注意力子层：- 对X进行线性变换，得到查询（Q）、键（K）、值（V）三个矩阵- 计算注意力得分：Attention(Q, K, V) = softmax(Q·Kᵀ/√dₖ)·V- 多头机制：将注意力计算分为多个“头”并行处理，再拼接结果- 残差连接：X₁ = X + MultiHead(Q, K, V)- 层归一化：X₁ = LayerNorm(X₁)2. 前馈网络子层：- 线性变换+ReLU激活：FFN(X₁) = max(0, X₁·W₁ + b₁)·W₂ + b₂- 残差连接：X₂ = X₁ + FFN(X₁)- 层归一化：X₂ = LayerNorm(X₂)输出：X₂（作为下一层的输入）

2.4.2.3、核心机制：自注意力（Self-Attention）

自注意力是编码器的关键创新，允许模型关注输入序列的不同部分来生成当前位置的表示。其核心公式为： $\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

Q, K, V 分别是查询（Query）、键（Key）、值（Value）矩阵，通过输入 X 线性变换得到。
$\sqrt{d_k}$ 是缩放因子，防止点积结果过大导致梯度消失。
多头注意力将输入分割为多个头，并行计算注意力，捕获不同子空间的信息。

2.4.3、解码器（Decoder）

解码器根据编码器的输出和已生成的部分输出，逐步生成目标序列（如翻译后的句子）。

2.4.3.1、整体结构

Transformer 的解码器同样由N 个相同的解码层（Decoder Layer）堆叠而成，但每个解码层包含三个子层：

掩码多头自注意力层（Masked Multi-Head Self-Attention）：与编码器类似，但使用掩码（Mask）防止看到未来位置的信息（确保生成时只依赖已生成的内容）。
编码器 - 解码器注意力层（Encoder-Decoder Attention）：关注编码器输出的相关部分，建立输入与输出的关联。
前馈神经网络（Feed Forward Network）：与编码器相同，增强模型表达能力。

每层之后同样应用残差连接和层归一化。

2.4.3.2、运算流程

以单个解码层为例，其运算步骤如下：

输入：Y（上一层的输出，初始为目标序列的嵌入向量+位置编码）Encoder Output（编码器的最终输出）1. 掩码自注意力子层：- 对Y进行线性变换，得到Q、K、V矩阵- 应用掩码：在注意力得分计算中，将未来位置的得分设为负无穷（softmax后为0）- 计算注意力：Attention(Q, K, V) = softmax(Q·Kᵀ/√dₖ)·V- 残差连接：Y₁ = Y + MaskedMultiHead(Y)- 层归一化：Y₁ = LayerNorm(Y₁)2. 编码器-解码器注意力子层：- 解码器的Q来自Y₁，K和V来自编码器输出- 计算注意力：Attention(Q, K, V) = softmax(Q·Kᵀ/√dₖ)·V- 残差连接：Y₂ = Y₁ + MultiHead(Y₁, Encoder Output, Encoder Output)- 层归一化：Y₂ = LayerNorm(Y₂)3. 前馈网络子层：- 与编码器相同：FFN(Y₂) = max(0, Y₂·W₁ + b₁)·W₂ + b₂- 残差连接：Y₃ = Y₂ + FFN(Y₂)- 层归一化：Y₃ = LayerNorm(Y₃)输出：Y₃（作为下一层的输入）

2.4.3.3、核心机制：掩码与交叉注意力

掩码（Mask）：确保解码器在生成第 t 个位置的输出时，只关注 1 到 $t-1$ 位置的输入，避免信息泄露。
编码器 - 解码器注意力：解码器通过查询（Q）关注编码器输出的不同部分，建立源序列与目标序列的对齐关系（如机器翻译中词语的对应关系）。

2.4.4、编码器与解码器的协作

在完整的 Transformer 模型中，编码器和解码器的协作流程如下：

编码阶段：
- 输入序列经过词嵌入和位置编码后，进入编码器
- 编码器逐层处理，生成最终的编码表示（上下文向量）
解码阶段（自回归生成）：
- 解码器从起始标记（如<START>）开始，每次生成一个词
- 当前已生成的序列作为解码器的输入，结合编码器输出，预测下一个词
- 重复此过程，直到生成结束标记（如<END>）或达到最大长度

2.4.5、完整代码

后面一次给出包含实验结果

2.5、Transformer整体逻辑

要理解 Transformer 中编码器与解码器的完整协作逻辑，我们可以用一个具体场景贯穿始终：把中文 “小明在公园给小红送了一本他昨天买的书” 翻译成英文。这个过程中，编码器和解码器就像两个精密配合的 “翻译团队”，各自带着一套 “工具包”（组件），分工协作完成从 “理解原文” 到 “生成译文” 的全流程。

2.5.1、先看 “团队架构”：编码器与解码器的核心组件

不管是编码器还是解码器，都遵循 “多层堆叠” 的设计（原论文中各堆了 6 层），每一层类似一个 “处理单元”。但因为两者任务不同（编码器 “理解输入”，解码器 “生成输出”），“工具包” 略有差异：

模块	编码器每层包含	解码器每层包含	核心目标
注意力机制	多头自注意力（Self-Attention）	1. 掩码多头自注意力（Masked Self-Attention） 2. 编码器 - 解码器注意力（Encoder-Decoder Attention）	捕捉 “关系”（输入内部 / 生成序列内部 / 输入与生成的关系）
特征加工	前馈网络（Feed-Forward Network）	前馈网络（Feed-Forward Network）	深化单个位置的特征（从关系中提炼抽象含义）
稳定机制	残差连接（Add）+ 层归一化（LayerNorm）	残差连接（Add）+ 层归一化（LayerNorm）	保证多层堆叠时训练稳定，信息传递不 “跑偏”

2.5.2、编码器：用 “工具包” 把原文 “嚼碎成浓缩信息”

编码器的任务是把输入的中文句子 “嚼碎”，提炼出所有关键信息（谁、做了什么、关系如何），最终输出一个 “浓缩的理解向量”（称为 “编码器输出” 或 “上下文向量”）。它的 “工具包” 是这样工作的：

2.5.2.1、多头自注意力：像 “读句子时同时抓多维度关系”

面对 “小明在公园给小红送了一本他昨天买的书”，编码器需要同时理清：

主体与对象：“小明”→“小红”（动作 “送” 的双方）；
动作与对象：“送”→“书”（送的是书）；
指代关系：“他”→“小明”（避免混淆）；
修饰关系：“他昨天买的”→“书”（书的来源）。

多头自注意力就是干这个的：

每个 “头” 是一个独立的 “关系探测器”：有的头专注抓 “谁对谁做了什么”，有的头抓 “指代关系”，有的头抓 “修饰关系”；
最后把所有头的结果拼接起来，得到一个 “全方位的关系图谱”—— 每个词的表示都融入了和其他词的关联信息（比如 “书” 的表示里不仅有 “书” 本身，还有 “小明买的”“送给小红” 这些信息）。

2.5.2.2、前馈网络：像 “基于关系提炼深层含义”

光有表面关系还不够，需要进一步提炼抽象信息。比如：

从 “小明送小红书”→ 隐含 “小明和小红可能有关系”；
从 “昨天买的书”→ 隐含 “书是新的 / 特意准备的”。

前馈网络就是做这个的：它是一个简单的两层神经网络（线性变换 + ReLU 激活 + 线性变换），对每个词的表示单独 “深加工”—— 基于多头注意力得到的关系，把具体的词转化为更抽象的 “语义特征”（类似人从具体事件中总结潜台词）。

3. 残差连接 + 层归一化：像 “保持思路清晰，不混乱”

编码器是 6 层堆叠的（类似 “一层一层深入理解”），但多层处理容易出两个问题：

信息 “越传越歪”：比如第一层的输出突然变大，第二层就很难处理（类似传话游戏传歪了）；
深层 “学不动”：底层的参数因为梯度太小，学不到有效信息（类似推长链条，前端用力后端没感觉）。

残差连接（把每层的输入直接加到输出上）解决 “学不动” 问题 —— 让信息和梯度能直接 “穿层而过”；
层归一化（把输出标准化，让均值为 0、方差为 1）解决 “传歪” 问题 —— 让每层的输入保持稳定范围，方便下一层处理。

经过 6 层这样的处理，编码器最终输出一个 “上下文向量”（本质是一串向量，每个位置对应输入句的一个词，但都融入了全局信息），相当于给解码器递了一份 “超详细的原文理解笔记”。

2.5.3、解码器：用 “工具包” 把 “笔记” 变成 “通顺译文”

解码器的任务是拿着编码器的 “笔记”，从无到有生成英文译文（“Xiaoming gave Xiaohong a book he bought yesterday in the park”）。它的 “工具包” 更复杂 —— 因为它不仅要理解原文，还要保证生成的英文 “通顺”（符合语法）、“对得上原文”（不跑偏）。

2.5.3.1、掩码多头自注意力：像 “写句子时只看自己已经写的内容”

解码器生成英文时，是 “逐词推进” 的（先写 “Xiaoming”，再写 “gave”，再写 “Xiaohong”……）。如果写 “gave” 时偷看了后面的 “Xiaohong”，就可能写出不符合语法的句子（比如先写 “gave” 再补主语，这在英文里是错的）。

掩码多头自注意力就是防止 “偷看” 的：

它和编码器的 “多头自注意力” 原理类似（抓词之间的关系），但多了一个 “掩码”（类似给未来的词盖了块布）—— 计算当前词和其他词的关系时，只允许关注 “已经写过的词”（比如写 “gave” 时，只能看 “Xiaoming”，不能看 “Xiaohong”“a book” 等还没写的词）。
这样生成的序列才能符合语言顺序（比如英文必须 “主语→谓语→宾语”）。