当前位置: 首页 > news >正文

第三章、GRU(门控循环网络,Gated Recurrent Unit)

0 前言

在前面我们已经介绍了RNN和LSTM两种循环神经网络,LSTM能及大程度上减少梯度爆炸和梯度消失,但是它的设计结构复杂计算代价高,经过多种尝试及对比提出了新的简化方法GRU。

1 GRU简化了什么

相比LSTM,GRU在以下两点上做了简化:

  • 将状态和输出合并,实际上就是恢复到RNN的输入和输出了。
  • 将门控从3个减少到两个(即复位门和更新门)

1.1 复位门

在这里插入图片描述通过上面的图,可以很清晰的看到门控值gr=σ(wr[ht−1,xt]+br)g_r=\sigma(w_r[h_{t-1},x_t]+b_r)gr=σ(wr[ht1,xt]+br)
并且,该门控值作用于ht−1h_{t-1}ht1。即对过去的输出做一些筛选变成gr⋅ht−1g_r\cdot h_{t-1}grht1
最后再将过滤好的gr⋅ht−1g_r\cdot h_{t-1}grht1与输入xtx_txt结合通过tanhtanhtanh激活函数,获取一个在-1到1之间的中间值h~t=tanh(wh[gr⋅ht−1,xt]+bh)\widetilde{h}_t=tanh(w_h[g_r\cdot h_{t-1},x_t]+b_h)ht=tanh(wh[grht1,xt]+bh)

为什么称其为复位门呢?因为在计算候选隐藏状态时对历史信息的选择性“重置”作用,制前一时刻隐藏状态(历史信息)有多少需要被忽略或“清零”,以便模型能更灵活地捕捉短期依赖关系。

1.2 更新门

在这里插入图片描述根据上图可知,新的门控值依然是根据ht−1,xth_{t-1},x_tht1,xt而来的,gz=σ(wz[ht−1,xt]+bz)g_z=\sigma(w_z[h_{t-1},x_t]+b_z)gz=σ(wz[ht1,xt]+bz)
该门控值拆成了两个,一个是gzg_zgz,另一个是1−gz1-g_z1gz
其中gzg_zgz是用来控制复位门的输出h~t\widetilde{h}_tht的,即gz⋅h~tg_z\cdot \widetilde{h}_tgzht
1−gz1-g_z1gz是用来控制ht−1h_{t-1}ht1的,即(1−gz)⋅ht−1(1-g_z)\cdot h_{t-1}(1gz)ht1
最后组合形成输出ht=gz⋅h~t+(1−gz)⋅ht−1h_t=g_z\cdot \widetilde{h}_t+(1-g_z)\cdot h_{t-1}ht=gzht+(1gz)ht1

http://www.dtcms.com/a/331409.html

相关文章:

  • redis中分布式锁的应用
  • 【js】让项目支持倾听和朗读AI技术
  • RTC时钟倒计时数码管同步显示实现(STC8)
  • AI模型选型:租快艇还是造航母?
  • 协作同步问题的深度分析与解决方案:结合表单汇总与AI技术提升运维效能
  • Git报错:Unlink of file ‘src/global/env.ts‘ failed. Should I try again? (y/n) y
  • AI对话框海量消息渲染优化:告别卡顿与跳动
  • 5.从零开始写LINUX内核--从实模式到保护模式的过渡实现
  • 嵌入式LINUX——————网络2
  • 晶台光耦在工业控制领域的应用
  • 集成koa2+ts+typeorm记录
  • 14 ABP Framework 文档管理
  • java开发,匹配指定内容设置不同字体颜色
  • 嵌入式C/C++面试大全
  • 传统自然语言处理任务入口
  • css预编译器实现星空背景图
  • XJar 加密 jar 包
  • Vscode的wsl环境开发ESP32S3的一些问题总结
  • 《贵州棒球百科》体育赛事排名·棒球1号位
  • 建造者模式C++
  • 串口通信中,实现串口接收函数时,避免数据丢失或被覆盖的方法
  • 20250814在荣品RD-RK3588开发板的Android13下解决卡迪的LCD屏在开机的时候brightness最暗【背光的pwm信号的极性反了】
  • 机器学习核心概念与实践笔记
  • 安卓设备通过USB,连接继电器,再通过继电器开关闸机
  • 前端包管理工具
  • 【FreeRTOS】任务管理:创建与删除任务,任务优先级与阻塞
  • 计算机网络---传输控制协议Transmission Control Protocol(TCP)
  • Redis的 ​​散列(Hash)​​ 和 ​​列表(List)​​ 数据结构操作详解
  • 力扣-64.最小路径和
  • 【AI推理部署教程】使用 vLLM 运行智谱 GLM-4.5V 视觉语言模型推理服务