当前位置：首页 > news >正文

Transformer结构完全解读：从Attention到LLM

news 2025/11/16 5:14:38

Transformer 基础架构

Transformer 的核心在于自注意力机制（Self-Attention），它能够捕捉序列中任意位置的关系。输入序列通过嵌入层转换为向量后，加入位置编码（Positional Encoding）以保留顺序信息。编码器和解码器均由多层相同结构堆叠而成，每层包含多头注意力（Multi-Head Attention）和前馈神经网络（FFN）。

自注意力计算通过查询（Query）、键（Key）、值（Value）矩阵实现： [ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V ] 其中 (d_k) 为键向量的维度，缩放因子用于防止梯度消失。

多头注意力机制

多头注意力将输入分成多组，每组独立计算注意力后拼接结果，增强模型捕捉不同子空间信息的能力： [ \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h)W^O ] 每个注意力头的计算为： [ \text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V) ] 参数矩阵 (W_i^Q, W_i^K, W_i^V) 和输出投影矩阵 (W^O) 为可学习参数。

位置编码与残差连接

位置编码通过正弦和余弦函数生成，为模型提供序列位置信息： [ PE_{(pos, 2i)} = \sin(pos/10000^{2i/d_{\text{model}}}) ] [ PE_{(pos, 2i+1)} = \cos(pos/10000^{2i/d_{\text{model}}}) ] 残差连接和层归一化（LayerNorm）缓解梯度消失问题： [ \text{LayerNorm}(x + \text{Sublayer}(x)) ]

解码器的核心改进

解码器通过掩码多头注意力（Masked Multi-Head Attention）防止未来信息泄露。编码器-解码器注意力层将编码器输出作为Key和Value，解码器自注意力输出作为Query。输出层通过线性变换和softmax生成概率分布。

从Transformer到LLM的演进

大型语言模型（LLM）基于Transformer架构扩展：

模型缩放：增加层数（如GPT-3的96层）和隐藏层维度（达12288）。
训练数据：使用万亿级token的语料库，涵盖多语言和多领域文本。
优化技术：混合精度训练、梯度裁剪、学习率调度（如余弦退火）。
稀疏注意力：如Longformer的局部+全局注意力，处理长序列。

关键技术优化

Flash Attention：通过分块计算和IO优化，降低内存占用并加速训练。
Rotary Position Embedding (RoPE)：旋转位置编码增强远程依赖性，应用于LLaMA等模型。
激活函数：从ReLU转向GeLU/Swish，平衡梯度流动和非线性能力。

代码示例（PyTorch风格伪代码）：

class TransformerBlock(nn.Module):def __init__(self, d_model, nhead):super().__init__()self.attn = MultiHeadAttention(d_model, nhead)self.ffn = FFN(d_model)self.norm1 = nn.LayerNorm(d_model)self.norm2 = nn.LayerNorm(d_model)def forward(self, x):x = self.norm1(x + self.attn(x))x = self.norm2(x + self.ffn(x))return x

查看全文

http://www.dtcms.com/a/613304.html