当前位置: 首页 > news >正文

深度学习GRU模型原理

一、介绍

门控循环单元(Gated Recurrent Unit, GRU) 是一种改进的循环神经网络(RNN),专为解决传统RNN的长期依赖问题(梯度消失/爆炸)而设计。其核心是通过门控机制动态控制信息的流动。与LSTM相比:

  1. 引入更新门重置门,替代LSTM的复杂三门结构
  2. 参数更少,计算效率更高,但性能与LSTM相当

二、公式详解 

1.更新门

用于控制历史信息保留和新信息吸收程度,将前一刻隐藏状态ht-1和当前输入xt拼接,然后乘以更新门权重Wz,加上偏置值,最后把这些放到sigmoid函数中。

当Zt靠近1的时候,就保留历史状态;靠近0的时候就采用新状态(候选隐藏状态)。

2.重置门

重置门决定丢弃多少历史数据。

  • 关键作用
    • 若rt​≈1,保留完整历史信息用于生成h~t
    • 若rt​≈0,候选状态h~th~t​将忽略ht−1​,仅依赖当前输入xt

3.候选隐藏状态 

生成潜在的新状态,结合重置门过滤后的历史信息。

  • rt​⊙ht−1​:重置门对历史信息的选择性过滤
  • tanh⁡tanh:将输出压缩到[−1,1][−1,1],增强非线性表达能力

rt⊙ht−1的整体含义是:通过重置门rt对上一个隐藏状态ht−1进行调节,选择性地遗忘或保留部分信息。具体来说,如果rt中的某个元素接近0,对应的ht−1中的信息会被抑制;如果接近1,则保留该部分信息。

4.最终隐藏状态 

混合旧状态与候选状态,完成信息更新

  • zt​决定了新旧状态的加权平均比例
  • 若zt=0.2zt​=0.2,则保留80%旧状态,添加20%新候选状态

三、与LSTM对比

 

相关文章:

  • 【Academy】服务器端模板注入 ------ Server-side template injection
  • k8s面经
  • Elasticsearch-07-Elasticsearch Java API Client-Elasticsearch 8.0 的高阶api
  • Jmeter 测试一个网站的并发量
  • PHP 在 if 判断时由于运算符优先级导致 false 的问题
  • 【具身相关】legged_gym, isaacgym、rsl_rl关系梳理
  • Qt表格美化笔记
  • 华为OD机试-求字符串中所有整数的最小和-逻辑分析(Java 2023 B卷 100分)
  • AGI大模型(2):GPT:Generative Pre-trained Transformer
  • 【Godot4.3】RenderingServer总结
  • 安装 MongoDB 的步骤(Windows / macOS / Linux)
  • 联合中存储平方差
  • FPGA 实现 OV5640 摄像头视频图像显示
  • 【spring】springAOP
  • navicat16 升级到 navicat17 之后原来的连接找不到了 mac用户
  • 侯捷 C++ 课程学习笔记:进阶语法之lambda表达式(二)
  • 利用8个参数定义一个汽轮机,然后根据这8个参数生成汽轮机性能试验时的测点清单-pycharm-源代码(适用所有类型汽轮机)
  • 【搜索页】- 功能流程
  • OpenHarmony-SELinux配置
  • 【git】 Could not read from remote repository.
  • 习近平:坚定信心推动高质量发展高效能治理,奋力谱写中原大地推进中国式现代化新篇章
  • A股高开高走:宠物经济走强,超3800股收涨,两市成交超1.1万亿元
  • 住建部:截至去年底常住人口城镇化率达到67%
  • 新质观察|低空货运是城市发展低空经济的第一引擎
  • 半数以上中国人都缺这几种营养,吃什么能补回来?
  • 铜川耀州窑遗址内违法矿场存在多年,省市区文物部门多次处罚叫停仍在生产