当前位置：首页 > news >正文

Transformer Decoder 详解

news 2025/7/4 4:22:29

Transformer Decoder 详解

1. 模型结构图解

Transformer Decoder 由 N 个相同的层堆叠而成，每个层包含以下组件（与 Encoder 不同，Decoder 包含两种注意力机制）：

Input (Shifted Output)
│
├─> Masked Multi-Head Self-Attention → Add & LayerNorm → Encoder-Decoder Attention → Add & LayerNorm → Feed Forward → Add & LayerNorm
│        │                                  │                              │
│        └───────────────────────┘          └───────────────┘              └───────────────┘
│                  残差连接                               残差连接                       残差连接
│
└─> Output (与输入维度相同)

在这里插入图片描述

2. 核心公式与原理

(1) 带掩码的自注意力（Masked Self-Attention）

输入矩阵：Decoder 输入 $X_{\text{dec}} \in \mathbb{R}^{m \times d_{\text{model}}}$ （m 是目标序列长度）
注意力掩码：防止当前位置关注未来信息（训练时用于自回归生成）
$\text{Mask}_{ij} = \begin{cases} 0 & \text{if } i \geq j \\ -\infty & \text{if } i < j \end{cases}$
掩码注意力计算：
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d_k}} + \text{Mask}\right) V$