当前位置: 首页 > news >正文

RNN模型数学推导过程(笔记)

一、定义

  1. 时间步: RNN按顺序处理输入序列。每个序列元素在特定的时间步(t 被输入网络。

  2. 隐藏状态: 这是RNN的“记忆”或“状态”所在。它是一个向量(h_t),总结了从序列开始(t=0)到当前时间步 t 所处理过的所有信息。h_t 被传递给下一个时间步 t+1,用于计算 h_{t+1}

  3. 输入: 在时间步 t,网络接收该时间步的输入向量 x_t

  4. 输出: 在时间步 t,网络可以产生一个输出向量 y_t(例如,预测下一个词、分类当前情绪等)。y_t 通常基于当前的隐藏状态 h_t 计算得出。

二、数学推导过程

        标准的RNN单元在每个时间步 t 执行以下计算:

  • 计算新的隐藏状态 h_t

  • 计算当前输出 y_t

  • 参数共享

        RNN的一个关键特征是参数共享

  • 权重矩阵 W_{hh}W_{xh}W_{hy}

  • 偏置向量 b_hb_y

        在所有时间步 t 上都是相同的。这意味着无论序列有多长,网络都使用同一套参数来处理序列中的每一个元素。这极大地减少了需要学习的参数数量,使模型能够泛化到不同长度的序列,也体现了“循环”的本质:相同的计算单元在每个时间步重复使用。

1、处理整个序列:展开计算图

        为了更清晰地理解信息流动和便于实现(尤其是反向传播),我们通常将RNN在时间维度上“展开”。

2、反向传播:BPTT(沿时间反向传播)

3、推导过程

三、核心挑战:梯度消失/爆炸问题

BPTT揭示了标准RNN的一个致命弱点:

1、梯度消失

2、梯度爆炸

四、为什么标准RNN难以学习长期依赖?

        正是因为梯度消失问题,标准RNN的隐藏状态 h_t 主要受最近几个时间步的输入影响。当序列很长时,网络几乎“忘记”了序列开头的信息。这严重限制了RNN处理长序列的能力

五、总结:标准RNN的数学原理

http://www.dtcms.com/a/298735.html

相关文章:

  • 散列表(哈希表)
  • SQL基础⑮ | 触发器
  • 亚德诺半导体AD8539ARZ-REEL7 超低功耗轨到轨运算放大器,自动归零技术,专为可穿戴设备设计!
  • Python 程序设计讲义(20):选择结构程序设计——双分支结构的简化表示(三元运算符)
  • 【linux】Haproxy七层代理
  • 电子基石:硬件工程师的器件手册 (八) - 栅极驱动IC:功率器件的神经中枢
  • 【自动化运维神器Ansible】Ansible常用模块之Copy模块详解
  • 程序代码篇---卡尔曼滤波与PID的组合应用
  • 2.Linux 网络配置
  • 【PyTorch】图像多分类项目部署
  • python基础:request模块简介与安装、基本使用,如何发送get请求响应数据,response属性与请求头
  • centOS7 yum安装新版本的cmake,cmake3以上怎么安装,一篇文章说明白
  • Java并发编程第十篇(ThreadPoolExecutor线程池组件分析)
  • 无印 v1.6 视频解析去水印工具,支持多个平台
  • Android悬浮窗导致其它应用黑屏问题解决办法
  • RocketMQ 5.3.0 ARM64 架构安装部署指南
  • J2EE模式---数据访问对象模式
  • C语言案例《猜拳游戏》
  • VSCode 报错 Error: listen EACCES: permission denied 0.0.0.0:2288
  • Java 笔记 interface
  • C#入门实战:数字计算与条件判断
  • Web攻防-业务逻辑篇密码找回重定向目标响应包检验流程跳过回显泄露验证枚举
  • 【PyTorch】图像多分类项目
  • 一些常见的网络攻击方式
  • CY5-OVA科研方向,星戈瑞荧光
  • Pytest tmp_path 实战指南:测试中的临时目录管理
  • C语言————原码 补码 反码 (日渐清晰版)
  • MinIO 安装指南 - Linux ARM64
  • Linux网络管理与IP配置实验指南
  • MySQL 中的“双路排序”与“单路排序”:原理、判别与实战调优