当前位置：首页 > news >正文

循环神经网络（RNN, Recurrent Neural Network）

news 2025/8/21 9:55:14

1. RNN 的基本概念

循环神经网络（Recurrent Neural Network, RNN）是一类 用于处理序列数据 的神经网络。与传统的前馈神经网络（如 MLP、CNN）不同，RNN 在网络结构中引入了 时间上的循环，能够记忆历史信息并用于当前的预测。
典型应用包括：

自然语言处理（语言建模、机器翻译、情感分析）
时间序列预测（股价预测、天气预报）
语音识别

RNN 的核心思想是：在处理序列第 $t$ 步数据时，模型会考虑前一时刻 $t-1$ 的隐藏状态，从而引入记忆能力。

2. RNN 的数学原理与公式推导

2.1 基本结构

在 RNN 中，每个时间步的隐藏状态 $h_t$ 由当前输入 $x_t$ 和前一时刻隐藏状态 $h_{t-1}$ 共同决定。其计算公式为：

$h_t = f \left( W_h h_{t-1} + W_x x_t + b_h \right)$

其中：

$x_t \in \mathbb{R}^d$ ：第 $t$ 个时间步的输入向量
$h_t \in \mathbb{R}^m$ ：第 $t$ 个时间步的隐藏状态
$W_h \in \mathbb{R}^{m \times m}$ ：隐藏层权重矩阵
$W_x \in \mathbb{R}^{m \times d}$ ：输入权重矩阵
$b_h \in \mathbb{R}^m$ ：偏置项
$f(\cdot)$ ：激活函数（常用 $\tanh$ 或 ReLU）

输出层通常为：

$y_t = g \left( W_y h_t + b_y \right)$

其中 $g(\cdot)$ 一般为 softmax 或 sigmoid，用于分类或预测。

2.2 序列展开（Unrolling）

RNN 在时间维度上可以展开为一个链式结构：

$x_1 \rightarrow h_1 \rightarrow y_1 \\ x_2 \rightarrow h_2 \rightarrow y_2 \\ \cdots \\ x_T \rightarrow h_T \rightarrow y_T$

这样，RNN 就可以对序列进行逐步建模。

2.3 损失函数

对于一个序列长度为 $T$ 的样本，RNN 的损失通常为所有时间步的损失和：

$\mathcal{L} = \sum_{t=1}^T \ell(y_t, \hat{y}_t)$

其中 $\ell(\cdot)$ 为交叉熵或均方误差。

3. RNN 的优缺点

✅ 优点

能够处理任意长度的序列数据。
参数共享：不同时间步使用相同的权重，降低参数数量。
在语音、NLP、时间序列预测等任务中表现良好。

❌ 缺点

梯度消失 / 梯度爆炸：长序列训练时，梯度可能随时间步衰减或爆炸。
并行计算困难：序列依赖关系导致训练速度较慢。
长期依赖问题：对远距离的序列信息捕捉能力不足（需 LSTM/GRU 改进）。

4. RNN 的应用场景

自然语言处理：机器翻译、语音识别、文本生成。
金融预测：股价走势建模。
信号处理：传感器数据分析、语音识别。

5. Python 实现（PyTorch）

import torch
import torch.nn as nn# 定义一个简单的RNN模型
class RNNModel(nn.Module):def __init__(self, input_size, hidden_size, output_size, num_layers=1):super(RNNModel, self).__init__()self.rnn = nn.RNN(input_size, hidden_size, num_layers, batch_first=True)self.fc = nn.Linear(hidden_size, output_size)def forward(self, x):out, h = self.rnn(x)  # out: (batch, seq_len, hidden_size)out = self.fc(out[:, -1, :])  # 只取最后时间步return out# 示例输入
batch_size, seq_len, input_size = 16, 10, 8
hidden_size, output_size = 32, 2
x = torch.randn(batch_size, seq_len, input_size)# 模型
model = RNNModel(input_size, hidden_size, output_size)
y_pred = model(x)print("输入 shape:", x.shape)
print("输出 shape:", y_pred.shape)