当前位置: 首页 > news >正文

深度学习GRU模型原理

一、介绍

门控循环单元(Gated Recurrent Unit, GRU) 是一种改进的循环神经网络(RNN),专为解决传统RNN的长期依赖问题(梯度消失/爆炸)而设计。其核心是通过门控机制动态控制信息的流动。与LSTM相比:

  1. 引入更新门重置门,替代LSTM的复杂三门结构
  2. 参数更少,计算效率更高,但性能与LSTM相当

二、公式详解 

1.更新门

用于控制历史信息保留和新信息吸收程度,将前一刻隐藏状态ht-1和当前输入xt拼接,然后乘以更新门权重Wz,加上偏置值,最后把这些放到sigmoid函数中。

当Zt靠近1的时候,就保留历史状态;靠近0的时候就采用新状态(候选隐藏状态)。

2.重置门

重置门决定丢弃多少历史数据。

  • 关键作用
    • 若rt​≈1,保留完整历史信息用于生成h~t
    • 若rt​≈0,候选状态h~th~t​将忽略ht−1​,仅依赖当前输入xt

3.候选隐藏状态 

生成潜在的新状态,结合重置门过滤后的历史信息。

  • rt​⊙ht−1​:重置门对历史信息的选择性过滤
  • tanh⁡tanh:将输出压缩到[−1,1][−1,1],增强非线性表达能力

rt⊙ht−1的整体含义是:通过重置门rt对上一个隐藏状态ht−1进行调节,选择性地遗忘或保留部分信息。具体来说,如果rt中的某个元素接近0,对应的ht−1中的信息会被抑制;如果接近1,则保留该部分信息。

4.最终隐藏状态 

混合旧状态与候选状态,完成信息更新

  • zt​决定了新旧状态的加权平均比例
  • 若zt=0.2zt​=0.2,则保留80%旧状态,添加20%新候选状态

三、与LSTM对比

 

http://www.dtcms.com/a/63983.html

相关文章:

  • 【Academy】服务器端模板注入 ------ Server-side template injection
  • k8s面经
  • Elasticsearch-07-Elasticsearch Java API Client-Elasticsearch 8.0 的高阶api
  • Jmeter 测试一个网站的并发量
  • PHP 在 if 判断时由于运算符优先级导致 false 的问题
  • 【具身相关】legged_gym, isaacgym、rsl_rl关系梳理
  • Qt表格美化笔记
  • 华为OD机试-求字符串中所有整数的最小和-逻辑分析(Java 2023 B卷 100分)
  • AGI大模型(2):GPT:Generative Pre-trained Transformer
  • 【Godot4.3】RenderingServer总结
  • 安装 MongoDB 的步骤(Windows / macOS / Linux)
  • 联合中存储平方差
  • FPGA 实现 OV5640 摄像头视频图像显示
  • 【spring】springAOP
  • navicat16 升级到 navicat17 之后原来的连接找不到了 mac用户
  • 侯捷 C++ 课程学习笔记:进阶语法之lambda表达式(二)
  • 利用8个参数定义一个汽轮机,然后根据这8个参数生成汽轮机性能试验时的测点清单-pycharm-源代码(适用所有类型汽轮机)
  • 【搜索页】- 功能流程
  • OpenHarmony-SELinux配置
  • 【git】 Could not read from remote repository.
  • 【Linux】线程池、单例模式、死锁
  • Python爬虫:从人民网提取视频链接的完整指南
  • 练习-纪律问题(幂运算)
  • react__jsx语法
  • Angular由一个bug说起之十四:SCSS @import 警告与解决⽅案
  • 【Godot4.0】EasyClock时钟组件
  • 自动同步多服务器下SQL脚本2.0
  • Python:函数式编程
  • 达梦数据库中插入导出图片的方法与应用
  • uniapp+微信小程序+最简单局部下拉刷新实现