当前位置: 首页 > news >正文

零基础-动手学深度学习-8.7. 通过时间反向传播

这一章我觉得放在这里确实是有点后面了,像鱼书这种只讲了MLP的都早早把这章过完了,backward可以说是一直在反复讲反复提的东西,究竟是干什么的我们就来看看吧。

 8.7.1. 循环神经网络的梯度分析

 

8.7.2. 通过时间反向传播的细节

 梯度截短 = 反传后、更新前,把梯度向量长度“一刀切”到阈值以内:

# 1. 计算梯度
loss.backward()# 2. 把全部梯度拼成一个向量并求范数
grad_norm = torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=θ)# 3. 优化器更新(此时梯度已被裁剪)
optimizer.step()

http://www.dtcms.com/a/318484.html

相关文章:

  • Spring_事务
  • 国产3D大型装配设计新突破①:图纸打开设计双加速 | 中望3D 2026
  • C语言的数组与字符串练习题2
  • 如何快速翻译PPT中的文字(或简繁体转换)
  • 【51单片机2个独立按键2个独立数码管静态显示内容自定】2022-10-22
  • Perforce P4 Plan - DevOps实时规划工具
  • 指挥中心自动化的演变
  • 无人机遥控器波特率技术解析
  • 前端开发_怎么禁止用户复制内容
  • 计算机网络:如何判断B或者C类IP地址是否划分了子网
  • 设备 AI 知识库如何提升管理效率?实测分享
  • 【STM32U385RG 测评】基于VSCode的STM32开发环境搭建
  • 认识河豚毒素!剧毒神经毒素详解!
  • 向量数据库基础夯实:相关概念的详细介绍
  • 淘宝/天猫商品详情API详解(tb.item_get)
  • 一文读懂:什么是CLIP
  • 分布式存储 Ceph 的演进经验 · SOSP 2019
  • 【Web安全】csrf、ssrf和xxe的区别
  • GPT-OSS-20B vs Qwen3-14B 全面对比测试
  • 【大模型系列】gpt-oss系列模型初探
  • ACL 2025 Oral|Evaluation Agent:面向视觉生成模型的高效可提示的评估框架
  • 服务器重启后mysql5.7启动失败问题
  • MySql_忘记了root密码怎么办
  • win服务器系统10060问题解决
  • Kali Linux虚拟机安装和中文配置详细教程(2025版)
  • Sklearn 机器学习 数据聚类 DBSCAN聚类算法的异常点
  • MicrochipSam9x60 PIO寄存器操作流程
  • TypeScript 元组类型精简知识点
  • 网络拨测和业务拨测是什么意思
  • 【Create my OS】8 文件系统