当前位置：首页 > news >正文

各类神经网络学习：（七）GRU 门控循环单元（上集），详细结构说明

news 2025/9/24 5:52:43

上一篇	下一篇
LSTM（下集）	GRU（下集）

GRU（门控循环单元）

它其实是 $RNN$ 和 $L STM$ 的折中版，有关 $RNN$ 和 $L STM$ 请参考往期博客。

实际应用要比 $L STM$ 少，往往作为一个小部件使用。

和 $L STM$ 的区别？
- 这两种模型其实不相上下，重点还是在于调整层数以及超参数。
- $GR U$ 的参数较少，因此其训练速度更快；也因此相比于 $L STM$ ， $GR U$ 能降低过拟合风险。
- 如果有足够的训练数据，表达能力更强的 $L STM$ 或许效果更佳。
为什么能缓解梯度消失和梯度爆炸？

和 $L STM$ 一样，请参考往期博客。

在这里插入图片描述

其内部包含三个网络层（其中两个门单元）：更新门、重置门、隐层状态输出层。

两个极端情况，一是直接舍弃过去的隐层状态信息，只接受当下的输入信息；另一种是完全接受过去的隐层状态信息，并舍弃当下的输入信息。

公式： $\Large r_t=\sigma(W_{xr}·x_t+W_{hr}·h_{t-1}+b_r)=\sigma(W_{r}·[x_t,h_{t-1}]+b_r)$ 。

$\large \sigma$ 函数使 $\large r_t$ 的元素处于 $0\sim1$ ，使其对 $\large h_{t-1}$ 具有舍弃功能， $1$ 表示 “完全接受”， $0$ 表示 “完全忽略” （对当前时刻没有用的历史信息就给它舍弃掉）。

公式： $\Large z_t=\sigma(W_{xz}·x_t+W_{hz}·h_{t-1}+b_z)=\sigma(W_{z}·[x_t,h_{t-1}]+b_z)$ 。

公式：
$\Large \tilde{h}_t=tanh(W_{xh}·x_t+W_{hh}·(r_t⊙h_{t-1})+b_h)\\ \Large h_t = (1-z_t)⊙h_{t-1}+z_t⊙\tilde{h}_t$
这里的 $⊙$ 表示：向量或矩阵的对应元素相乘。

这里的 $\large \tilde{h}_t$ 可以理解成：是在对历史信息进行部分舍弃之后，再结合当前信息学习到的新知识（有冗余项，相当于候选的隐层状态信息输出）。

而 $\large h_t$ 是在 $\large \tilde{h}_t$ 的基础上，进一步对历史信息进行筛选，看看是不是还有一些有用的信息。

【补充】：其实这里的 $1-z_t)$ 和 $z_t$ 是可以交换的，固定好之后让模型自动学习即可。

$\large r_t$ 和 $\large z_t$ 虽然在表达式上相差无几，不过在模型参数的不断学习中，两者的功能会自动区分开。

$\large r_t$ 的作用实质上是在更新 $\large h_t$ 的时候，舍弃多少 $\large h_{t-1}$ 的信息（用来捕获短期依赖信息）； $\large z_t$ 的作用实质上是在更新 $\large h_t$ 的时候，吸收多少 $\large h_{t-1}$ 的信息（用来捕获长期依赖信息）。
隐层的尺寸一般来说都是 $128 \times 1$ 、 $256 \times 1$ 这些常规的尺寸。