当前位置：首页 > news >正文

第三章、GRU（门控循环网络，Gated Recurrent Unit）

news 2025/8/15 9:01:35

0 前言

在前面我们已经介绍了RNN和LSTM两种循环神经网络，LSTM能及大程度上减少梯度爆炸和梯度消失，但是它的设计结构复杂计算代价高，经过多种尝试及对比提出了新的简化方法GRU。

1 GRU简化了什么

相比LSTM，GRU在以下两点上做了简化：

将状态和输出合并，实际上就是恢复到RNN的输入和输出了。
将门控从3个减少到两个（即复位门和更新门）

1.1 复位门

在这里插入图片描述通过上面的图，可以很清晰的看到门控值 $gr=σ(wr[ht−1,xt]+br)g_r=\sigma(w_r[h_{t-1},x_t]+b_r)$ 。
并且，该门控值作用于 $h_{t-1}$ 。即对过去的输出做一些筛选变成 $gr⋅ht−1g_r\cdot h_{t-1}$ 。
最后再将过滤好的 $gr⋅ht−1g_r\cdot h_{t-1}$ 与输入 $x_t$ 结合通过 $t anh$ 激活函数，获取一个在-1到1之间的中间值 $h~t=tanh(wh[gr⋅ht−1,xt]+bh)\widetilde{h}_t=tanh(w_h[g_r\cdot h_{t-1},x_t]+b_h)$ 。

为什么称其为复位门呢？因为在计算候选隐藏状态时对历史信息的选择性“重置”作用,制前一时刻隐藏状态（历史信息）有多少需要被忽略或“清零”，以便模型能更灵活地捕捉短期依赖关系。

1.2 更新门

在这里插入图片描述根据上图可知，新的门控值依然是根据 $h_{t-1},x_t$ 而来的， $gz=σ(wz[ht−1,xt]+bz)g_z=\sigma(w_z[h_{t-1},x_t]+b_z)$ 。
该门控值拆成了两个，一个是 $g_z$ ，另一个是 $1-g_z$ 。
其中 $g_z$ 是用来控制复位门的输出 $h~t\widetilde{h}_t$ 的，即 $gz⋅h~tg_z\cdot \widetilde{h}_t$ 。
而 $1-g_z$ 是用来控制 $h_{t-1}$ 的，即 $(1−gz)⋅ht−1(1-g_z)\cdot h_{t-1}$ 。
最后组合形成输出 $ht=gz⋅h~t+(1−gz)⋅ht−1h_t=g_z\cdot \widetilde{h}_t+(1-g_z)\cdot h_{t-1}$