当前位置：首页 > news >正文

门控循环单元（GRU, Gated Recurrent Unit）

news 2025/8/21 11:28:52

1. 简介

门控循环单元（GRU, Gated Recurrent Unit）是 循环神经网络（RNN） 的一种改进结构，由 Cho 等人在 2014 年提出。它和 LSTM 一样，旨在解决 RNN 的梯度消失和梯度爆炸问题，同时能够建模长距离依赖信息。
与 LSTM 相比，GRU 结构更简洁，参数更少，计算效率更高。

2. GRU 的核心思想

GRU 通过 重置门（Reset Gate） 和 更新门（Update Gate） 来控制信息流动：

重置门 $r_t$ ：决定前一时刻的隐藏状态 $h_{t-1}$ 有多少被遗忘。
更新门 $z_t$ ：决定保留多少旧信息，以及引入多少新信息。
候选隐藏状态 $\tilde{h}_t$ ：结合输入信息和历史信息生成候选记忆。
最终隐藏状态 $h_t$ ：通过更新门在旧状态 $h_{t-1}$ 与新候选 $\tilde{h}_t$ 之间进行平衡。

3. GRU 的数学公式

GRU 的计算过程如下：

更新门

$z_t = \sigma(W_z x_t + U_z h_{t-1} + b_z)$

重置门

$r_t = \sigma(W_r x_t + U_r h_{t-1} + b_r)$

候选隐藏状态

$\tilde{h}_t = \tanh(W_h x_t + U_h (r_t \odot h_{t-1}) + b_h)$

最终隐藏状态

$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$

其中：

$x_t$ ：当前输入向量
$h_{t-1}$ ：上一时刻隐藏状态
$\sigma(\cdot)$ ：Sigmoid 函数
$\tanh(\cdot)$ ：双曲正切函数
$\odot$ ：逐元素相乘

4. GRU 的结构特点

✅ 结构比 LSTM 简单（没有单独的记忆单元 $C_t$）。
✅ 参数更少，训练更快，适合大规模序列数据。
✅ 性能在很多任务上与 LSTM 接近甚至更优。
❌ 缺乏单独的记忆单元，理论上记忆能力可能稍弱于 LSTM。

5. GRU 的应用场景

自然语言处理（NLP）：机器翻译、文本生成、语音识别。
时间序列预测：金融市场预测、天气预测、流量预测。
序列建模：视频分析、对话系统、音乐生成。

6. Python 实现示例（PyTorch）

import torch
import torch.nn as nn# 定义一个简单的 GRU 网络
class GRUNet(nn.Module):def __init__(self, input_size, hidden_size, num_layers, output_size):super(GRUNet, self).__init__()self.gru = nn.GRU(input_size, hidden_size, num_layers, batch_first=True)self.fc = nn.Linear(hidden_size, output_size)def forward(self, x):out, _ = self.gru(x)  # out: [batch, seq_len, hidden_size]out = self.fc(out[:, -1, :])  # 取最后一个时间步return out# 示例
model = GRUNet(input_size=10, hidden_size=32, num_layers=2, output_size=1)
x = torch.randn(16, 50, 10)  # [batch_size, seq_len, input_size]
y = model(x)
print(y.shape)  # torch.Size([16, 1])