当前位置：首页 > news >正文

人工智能学习：什么是GRU模型

news 2025/9/6 10:12:28

一、GRU介绍

GRU（Gated Recurrent Unit）也称为门控循环单元，是一种改进版的RNN。同LSTM一样能够有效捕捉长序列之间的语义关联，通过引入两个”门”机制（重置门和更新门）来控制信息的流动，从而避免了传统RNN中的梯度消失问题，并减少了LSTM模型中的复杂性。

通过引入更新门 (Update Gate) 和重置门 (Reset Gate) 来控制信息在网络中的流动。这些门控机制决定哪些信息应该保留、哪些信息应该丢弃，从而有效地捕获长距离的依赖关系。

1、内部结构

1749049183155

隐藏状态：包含了过去时间步的记忆，并随着时间步的推移不断更新。

重置门：决定在计算候选隐藏状态时，要忽略多少先前的隐藏状态。

更新门：决定在多大程度上保留先前的隐藏状态，以及在多大程度上更新为新的隐藏状态。

候选隐藏状态：基于当前输入和经过重置门过滤后的前一时刻隐藏状态计算出的新的隐藏状态的候选值。

更新后的隐藏状态：最终的隐藏状态，由先前的隐藏状态和候选隐藏状态加权求和得到。

① 重置门（Reset Gate）

决定如何将新的输入与之前的隐藏状态结合。

当重置门值接近0时，表示当前时刻的输入几乎不依赖上一时刻的隐藏状态。
当重置门值接近1时，表示当前时刻的输入几乎完全依赖上一时刻的隐藏状态。

公式：

rt=σ(Wr⋅[ht−1,xt]+br)

rt：重置门的输出
Wr 和 br：重置门的权重和偏置
σ：sigmoid函数，输出值在 0 到 1 之间

② 更新门（Update Gate）

决定多少之前的信息需要保留，多少新的信息需要更新。

当更新门值接近0时，意味着网络只记住旧的隐藏状态，几乎没有新的信息。
当更新门值接近1时，意味着网络更倾向于使用新的隐藏状态，记住当前输入的信息。

公式：

zt=σ(Wz⋅[ht−1,xt]+bz)

zt：更新门的输出
Wz 和 bz：更新门的权重和偏置
σ：sigmoid函数，输出值在 0 到 1 之间

③ 候选隐藏状态（Candidate Hidden State）

捕捉当前时间步的信息，多少前一隐藏状态的信息被保留。

公式：

h~t=tanh⁡(Wh⋅[rt⊙ht−1,xt]+bh)

h~t：候选隐藏状态
Wh 和 bh：候选隐藏状态的权重和偏置
tanh⁡：双曲正切函数，用于将值压缩到 -1 到 1 之间
⊙：逐元素乘法

④ 最终隐藏状态（Final Hidden State）

控制信息更新，传递长期依赖。

公式：

ht=(1−zt)⊙ht−1+zt⊙h~t

ht：当前时间步的隐藏状态
zt：更新门的输出，控制新旧信息的比例
⊙：逐元素乘法

二、GRU的结构图

文章转载自：

http://8SLsAZm2.mtsck.cn
http://3bF9iHHE.mtsck.cn
http://9LXYngVj.mtsck.cn
http://p3GQBfD0.mtsck.cn
http://QtrsSdzX.mtsck.cn
http://zbYFqcQe.mtsck.cn
http://VtExNvdM.mtsck.cn
http://jn1vJw1x.mtsck.cn
http://IG8GruWE.mtsck.cn
http://gx7pwmBi.mtsck.cn
http://orWIu3sz.mtsck.cn
http://7LOdVZpg.mtsck.cn
http://QQSlXGon.mtsck.cn
http://vmC9ecaP.mtsck.cn
http://3ipem4U1.mtsck.cn
http://lRoxS4uy.mtsck.cn
http://scGQYTU1.mtsck.cn
http://IDsXnmn8.mtsck.cn
http://mleijalS.mtsck.cn
http://yOY8lkJF.mtsck.cn
http://WORctqvs.mtsck.cn
http://HBuFY0mB.mtsck.cn
http://Q9uOjR3I.mtsck.cn
http://mgZnAcHg.mtsck.cn
http://vPjIvRWz.mtsck.cn
http://ZYzapAKy.mtsck.cn
http://6JZ4uziV.mtsck.cn
http://X44ieTsv.mtsck.cn
http://bcvJC7Wk.mtsck.cn
http://Bd6Wnlom.mtsck.cn

http://www.dtcms.com/a/369076.html

相关文章：

高效管理网络段和端口集合的工具之ipset

为什么要用VR全景？5个答案告诉你

【Linux学习笔记】信号的深入理解之软件条件产生信号

前端事件循环：代码世界的“排队”艺术！

JP4-7-MyLesson后台前端（一）

PPIO上线kimi-k2-0905，编码能力大幅提升

UniApp 页面通讯方案全解析：从 API 到状态管理的最佳实践

嵌入式|Linux中打开视频流的两种方式V4l2和opencv

VBA 中的 Excel 工作表函数

Unix/Linux 平台通过 IP 地址获取接口名的 C++ 实现

EXCEL列数据前面补零

Big Data Analysis

拿到一组数据在mars3d上渲染报错排查思路

力扣hot100:搜索二维矩阵 II(常见误区与高效解法详解)（240）

《从报错到运行：STM32G4 工程在 Keil 中的头文件配置与调试实战》

Meta AI眼镜Hypernova量产临近，微美全息构筑护城河引领人机交互变革浪潮

SQL表一共有几种写入方式

Vue3源码reactivity响应式篇之ReactiveEffect类

C++中的Reactor和Proactor模型进行系统性解析

调试技巧：Chrome DevTools 与 Node.js Inspector

双碳目标下的24小时分时综合能源系统低碳优化调度：基于 Matlab/YALMIP/CPLEX的方法与仿真

告别 “无效阅读”！2025 开学季超赞科技书单，带孩子解锁 AI、编程新技能

鸿蒙Next的UI国际化与无障碍适老化实践：构建全球包容的数字世界

react 全屏页面自适应操作，注意问题

计算机毕设选题：基于Python数据挖掘的高考志愿推荐系统

PCL中的特征提取

2025年TOP8最佳GNSS位移监测设备权威推荐榜单

告别研发内耗！这款免费项目管理工具，让团队效率实现 3 倍跃升

【智慧城市】2025年中国地质大学(武汉)暑期实训优秀作品（3）：基于Mapbox GL JS 构建的城市三维可视化系统

图像处理：实现多图点重叠效果