当前位置: 首页 > news >正文

pytorch nn.RNN demo

之前已经讲过关于RNNCell的实现了.

这里用LLM写了一个简单的nn.RNN demo:

import torch
import torch.nn as nn# 设置随机种子以便结果可复现
torch.manual_seed(42)# 定义模型参数
input_size = 4      # 输入特征维度
hidden_size = 8     # 隐藏层维度
num_layers = 2      # RNN 层数(修改为2层)
seq_len = 10        # 序列长度
batch_size = 3      # 批量大小# 创建2层RNN模型
model = nn.RNN(input_size=input_size,hidden_size=hidden_size,num_layers=num_layers,batch_first=False  # 输入输出格式: [seq_len, batch_size, feature_size]
)# 生成随机输入数据 [seq_len, batch_size, input_size]
x = torch.randn(seq_len, batch_size, input_size)
print(f"输入 x 的形状: {x.shape}  # [seq_len, batch_size, input_size]")# 初始化隐藏状态 (可选)
h0 = torch.zeros(num_layers, batch_size, hidden_size)
print(f"初始隐藏状态 h0 的形状: {h0.shape}  # [num_layers, batch_size, hidden_size]")# 前向传播
output, h_n = model(x, h0)
# output: 所有时间步的最后一层隐藏状态
# h_n: 所有层的最后一个时间步的隐藏状态print(f"\n输出结果:")
print(f"output (所有时间步的最后一层隐藏状态) 的形状: {output.shape}  # [seq_len, batch_size, hidden_size]")
print(f"h_n (所有层的最后时间步隐藏状态) 的形状: {h_n.shape}  # [num_layers, batch_size, hidden_size]")# 验证 h_n 与 output 的关系(修正后的逻辑)
print(f"\n验证 h_n 与 output 的关系:")
# 最后一层的最后状态应等于 output 的最后时间步
assert torch.allclose(h_n[-1], output[-1]), "最后一层的最后状态应等于output的最后时间步"
print(" 最后一层的最后状态与 output 的最后时间步相等")# 打印第一层和第二层的最后隐藏状态
print(f"\n第一层的最后隐藏状态:")
print(h_n[0, 0, :5])  # 打印第一个样本的前5个元素
print(f"\n第二层的最后隐藏状态:")
print(h_n[1, 0, :5])  # 打印第一个样本的前5个元素

可以看到,nn.RNN默认会输出两个张量:一个是最后一个时间步的所有层,一个是最后一层的所有时间步。它是不会输出“所有时间步的所有层”的。

最后再给出与RNNCell部分类似的,一个完整的训练+测试的demo:

import torch
import torch.nn as nn
import torch.optim as optim# 配置
input_size = 4
hidden_size = 16
seq_len = 6
batch_size = 8
num_classes = 2
epochs = 30# 模型定义
class RNNClassifier(nn.Module):def __init__(self, input_size, hidden_size, num_classes):super().__init__()self.rnn = nn.RNN(input_size, hidden_size, batch_first=False)self.fc = nn.Linear(hidden_size, num_classes)def forward(self, x):# x: [seq_len, batch_size, input_size]output, h_n = self.rnn(x)  # h_n: [num_layers=1, batch_size, hidden_size]out = self.fc(h_n.squeeze(0))  # 使用最后一层的隐藏状态return out# 数据生成逻辑不变
def generate_batch(batch_size, seq_len, input_size):x = torch.randn(seq_len, batch_size, input_size)last_step = x[-1]labels = (last_step[:, 0] > 0).long()return x, labels# 初始化模型与训练配置
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = RNNClassifier(input_size, hidden_size, num_classes).to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)# 训练
for epoch in range(epochs):model.train()x_batch, y_batch = generate_batch(batch_size, seq_len, input_size)x_batch, y_batch = x_batch.to(device), y_batch.to(device)logits = model(x_batch)loss = criterion(logits, y_batch)optimizer.zero_grad()loss.backward()optimizer.step()if (epoch + 1) % 5 == 0 or epoch == 0:pred = logits.argmax(dim=1)acc = (pred == y_batch).float().mean().item()print(f"[Epoch {epoch+1}] Loss: {loss.item():.4f}, Acc: {acc:.2f}")# 测试
model.eval()
with torch.no_grad():x_test, y_test = generate_batch(1, seq_len, input_size)x_test, y_test = x_test.to(device), y_test.to(device)pred = model(x_test).argmax(dim=1)print("\nTest sample:")print("Target label:", y_test.item())print("Predicted   :", pred.item())
http://www.dtcms.com/a/191839.html

相关文章:

  • 软件设计师考试《综合知识》设计模式之——工厂模式与抽象工厂模式考点分析
  • 【HTML】个人博客页面
  • 【美团】后端一面复盘|项目驱动 + 手撕 + JVM + 数据库全面覆盖
  • QT 使用QPdfWriter和QPainter绘制PDF文件
  • Parsec解决PnP连接失败的问题
  • 11 web 自动化之 DDT 数据驱动详解
  • Swagger go中文版本手册
  • 【HCIA】策略路由
  • 搭建Hadoop集群standalone
  • STM32 SD卡拔插后FatFs挂载失败可能原因
  • 短视频二创App功能深度解析:短剧创作与推广的智能化革命
  • 开源模型应用落地-模型上下文协议(MCP)-Resources-资源的使用逻辑
  • Python中plotext 库详细使用(命令行界面中直接绘制各种图形)
  • 前馈神经网络回归(ANN Regression)从原理到实战
  • 从单线程到多线程:项目实战web Worker线程使用总结
  • 联合建模组织学和分子标记用于癌症分类|文献速递-深度学习医疗AI最新文献
  • 2025 后端自学UNIAPP【项目实战:旅游项目】5、个人中心页面:微信登录,同意授权,获取用户信息
  • 大模型智能体与 React Flow:构建智能化可视化交互系统的技术范式
  • Node.js 安装 + React Flow 快速入门:环境安装与项目搭建
  • #跟着若城学鸿蒙# 鸿蒙-卡证识别
  • 【搭建Node-RED + MQTT Broker实现AI大模型交互】
  • 游戏引擎学习第283天:“让‘Standing-on’成为一个更严谨的概念
  • 算法分析:蛮力法
  • 【PX4飞控】在 Matlab Simulink 中使用 Mavlink 协议与 PX4 飞行器进行交互
  • Java应用OOM排查:面试通关“三部曲”心法
  • 使用LoRA微调Qwen2.5-VL-7B-Instruct完成电气主接线图识别
  • EasyExcel集成使用总结与完整示例
  • 毕设设计 | 管理系统图例
  • 从 Excel 到 Data.olllo:数据分析师的提效之路
  • 海康立体相机3DMVS软件使用不同工作模式介绍