当前位置：首页 > news >正文

Transformer模型原理概述

news 2025/11/7 12:19:38

Transformer 是一种基于自注意力机制（Self-Attention）的深度学习模型，最初由 Google 在 2017 年的论文《Attention Is All You Need》中提出，主要用于自然语言处理任务，如今已广泛应用于计算机视觉、语音识别等多个领域，是现代大语言模型（如GPT、BERT等）的核心架构。

一、模型架构

Transformer 采用经典的编码器-解码器（Encoder-Decoder）架构，由多个编码器层和多个解码器层堆叠而成（通常为 6 层），每层包含特定的子模块。

1.编码器（Encoder）

处理输入序列（如句子），生成包含序列语义的中间表示。每个编码器层包含两个子层：

多头自注意力机制（Multi-Head Self-Attention）：捕捉序列内部不同位置的依赖关系。
前馈神经网络（Feed Forward Neural Network）：对注意力输出进行非线性变换。

每层后均使用残差连接（Residual Connection）和层归一化（Layer Normalization）稳定训练。

2.解码器（Decoder）

基于编码器的输出生成目标序列（如翻译结果）。每个解码器层包含三个子层：

掩码多头自注意力机制（Masked Multi-Head Self-Attention）：确保解码时不依赖未来位置的信息。
编码器-解码器注意力机制（Encoder-Decoder Attention）：建立输入与输出序列的关联。
前馈神经网络：与编码器中的结构相同。

二、自注意力机制（Self-Attention）

自注意力机制是 Transformer 的核心，它允许模型在处理序列时关注不同位置的信息，计算元素间的关联权重。

1. 注意力计算的数学表达：

对于输入序列中的每个元素，注意力机制通过三个矩阵（可训练参数）生成三个向量：

查询向量（Query, Q）：用于计算当前元素与其他元素的关联。
键向量（Key, K）：作为被查询的 “索引”。
值向量（Value, V）：包含元素的实际信息。

注意力分数的计算过程：

对每个位置 i，计算其与所有位置 j 的注意力分数，softmax函数将分数归一化为权重，加权求和得到输出。
$Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$
其中， $d_k$ 是Key的维度， $dk\sqrt{d_k}$ 称作缩放因子，用于防止梯度消失。

2. 多头注意力（Multi-Head Attention）：

将注意力机制拆分为多个 “头”（Head）并行计算，每个头关注不同子空间的信息，最后拼接结果：
$MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^O$
其中，每个头的计算独立， $W^O$ 为输出投影矩阵。多头机制让模型能从不同角度捕捉序列关系。

三、前馈神经网络（Feed-Forward Network, FFN）

每个编码/解码层中的前馈网络由两个线性变换组成，中间使用 ReLU 激活函数
$FFN(x)=max(0,xW_1+b_1)W_2+b_2$
作用：对注意力机制的输出进行非线性变换，增强模型的拟合能力，将注意力捕捉到的特征映射到更高维的语义空间。

四、残差连接与层归一化

每个子层（注意力、前馈网络）后应用残差连接（Residual Connection）和层归一化（Layer Normalization），缓解梯度消失问题。

1. 残差连接（Residual Connection）

作用：解决深层网络中的梯度消失/爆炸问题，帮助模型训练更深的网络结构。
机制：将某一层的输入直接与该层的输出相加
$O u tp u t = I n p u t + L a yer (I n p u t)$

2. 层归一化（Layer Normalization）

作用：稳定网络训练，加速收敛，减少对初始化和学习率的敏感度。
机制：对单个样本的所有特征维度进行归一化（与批归一化不同，不依赖批次统计量）
$Output=γ⋅X−μσ2+ε+βOutput=\gamma \cdot \frac{X-\mu}{\sqrt{\sigma^2+\varepsilon}}+\beta$
其中， $μ\mu$ 是均值， $σ2\sigma^2$ 是方差， $α\alpha$ 和 $β\beta$ 是可学习的缩放和偏移参数， $ε\varepsilon$ 是防止除零的小常数。

五、位置编码（Positional Encoding）

由于 Transformer 本身不具备处理序列顺序的能力（自注意力是全局计算），需通过位置编码为序列添加位置信息。

常用方法：使用正弦和余弦函数生成位置编码向量，公式如下：
$PE(pos,2i)=sin(pos100002idmodel)PE(pos,2i)=sin(\frac{pos}{10000^{\frac{2i}{d_{model}}}})$
$PE(pos,2i+1)=cos(pos100002idmodel)PE(pos,2i+1)=cos(\frac{pos}{10000^{\frac{2i}{d_{model}}}})$
其中，pos为位置，i为维度， $d_{model}$ 为模型维度。
作用：将位置信息融入输入向量，使模型能区分序列中不同位置的语义。