当前位置：首页 > news >正文

深度学习中的 Seq2Seq 模型与注意力机制

news 2025/7/11 16:20:40

Seq2Seq（Sequence-to-Sequence）是一种端到端的编码器-解码器架构，专为处理变长输入/输出序列的任务设计（如机器翻译、文本摘要）。其核心思想是将输入序列编码为固定维度的上下文向量（Context Vector），再通过解码器生成目标序列。

输入：可变长度序列（如 X 1 ,X 2 ,…,X n ）
输出：可变长度序列（如 Y 1 ,Y 2 ,…,Y n ）
核心机制：

Cell 可以用 RNN，GRU，LSTM 等结果。相当于将 RNN 模型中 $s_0$ 变为Encoder

1、编解码器作用

编码器的作用：将不定长输入序列 $x1,…,xTx_{1},\ldots,x_{T}$ 编码为固定长度的状态向量 $C$ 。
解码器的作用：输出 $y_{t}$ 的条件概率基于以下两个因素：
- 先前生成的输出序列 $y1,…,yt−1y_{1},\ldots,y_{t-1}$
- 编码器输出的状态向量 $C$
目标函数：
$argmax⁡P(y1,…,yT′∣x1,…,xT)\operatorname{argmax} P\left(y_{1},\ldots,y_{T^{\prime}}\mid x_{1},\ldots,x_{T}\right)$
即在给定输入序列的条件下，最大化输出序列的概率。

2、根据最大似然估计，最大化输出序列的概率

概率分解：
$P(y1,…,yT′∣x1,…,xT)=∏t′=1T′P(yt′∣y1,…,yt′−1,C)P\left(y_{1},\ldots,y_{T^{\prime}}\mid x_{1},\ldots,x_{T}\right) = \prod_{t^{\prime}=1}^{T^{\prime}} P\left(y_{t^{\prime}} \mid y_{1},\ldots,y_{t^{\prime}-1}, C \right)$
核心问题：直接计算概率连乘 $P(y1∣C)×P(y2∣y1,C)×P(y3∣y2,y1,C)×⋯P(y^1 \mid C) \times P(y^2 \mid y^1, C) \times P(y^3 \mid y^2, y^1, C) \times \cdots$ 会导致结果趋近于零（数值下溢），不利于计算存储。

3、解决方案：对数概率转化

对概率公式取对数：
$log⁡P(y1,…,yT′∣x1,…,xT)=∑t′=1T′log⁡P(yt′∣y1,…,yt′−1,C)\log P\left(y_{1},\ldots,y_{T^{\prime}}\mid x_{1},\ldots,x_{T}\right) = \sum_{t^{\prime}=1}^{T^{\prime}} \log P\left(y_{t^{\prime}} \mid y_{1},\ldots,y_{t^{\prime}-1}, C \right)$
转化意义：
- 概率连乘 → 对数概率求和
  $log⁡P(y1∣C)+log⁡P(y2∣y1,C)+log⁡P(y3∣y2,y1,C)+⋯\log P(y^1 \mid C) + \log P(y^2 \mid y^1, C) + \log P(y^3 \mid y^2, y^1, C) + \cdots$
- 优化目标等价于：
  通过 Softmax 输出概率最大化，最小化输出序列的负对数损失（Negative Log-Likelihood Loss）。
机器翻译案例示意图

当输入序列较长时（如 >30 词），单个上下文向量 $C\mathbf{C}$ 难以有效压缩全部信息，导致解码质量显著下降（尤其丢失序列开头信息）。对于更长的句子，Seq2Seq 就显得力不从心了。下图是通常 BLEU 的分数随这句子的长度变化，可以看到句子非常长的时候，分数就很低。

BLEU分数变化图

建立 Encoder 的隐层状态输出到 Decoder 对于输出 y 所需要的上下文信息

其目的是增加编码器信息输入到解码器中相同时刻的联系

注意力机制结构示意图

关键设定：

1. 上下文向量 $c_{t'}$ 的计算
$ct′=∑t=1Tαt′thtc_{t'} = \sum_{t=1}^{T} \alpha_{t'}^t h_t$

参数说明：
- $αt′t\alpha_{t'}^t$ ：权重系数（通过训练学习得到）
- $h_t$ ：Encoder 第 $t$ 时刻的隐层状态输出
工作示例（上图蓝色Decoder cell 示意图）：
$α41h1+α42h2+α43h3+α44h4=c4\alpha_4^1 h_1 + \alpha_4^2 h_2 + \alpha_4^3 h_3 + \alpha_4^4 h_4 = c_4$

2. 权重系数 $αt′t\alpha_{t'}^t$ 的生成

Softmax 归一化：
$αt′t=exp⁡(et′t)∑k=1Texp⁡(et′k),t=1,2,…,T\alpha_{t'}^t = \frac{\exp(e_{t'}^t)}{\sum_{k=1}^{T} \exp(e_{t'}^k)}, \quad t=1,2,\ldots,T$
能量得分 $e_{t'}^t$ 的计算：
$et′t=g(st′−1,ht)=v⊤tanh⁡(Wsst′−1+Whht)e_{t'}^t = g(s_{t'-1}, h_t) = v^{\top} \tanh \left( W_s s_{t'-1} + W_h h_t \right)$
- 输入来源：
  - $s_{t'-1}$ ：Decoder 在 $t^{'} - 1$ 时刻的隐层状态
  - $h_t$ ：Encoder 在 $t$ 时刻的隐层状态
- 可学习参数：
  - $v$ ：权重向量
  - $W_s, W_h$ ：权重矩阵