当前位置: 首页 > news >正文

LSTM论文解读

LSTM 的 “记忆逻辑”

可以把它想象成一个带 “门卫” 和 “仓库” 的记忆系统

  • 输入门是 “仓库管理员”,决定哪些新货物(新信息)能放进仓库(细胞状态);

  • 细胞状态是 “仓库”,用来长期存放关键货物(长期记忆);

  • 输出门是 “提货员”,决定仓库里的哪些货物能被取出去用(输出记忆);

  • 整个存储单元通过这种 “门控 + 循环记忆” 的机制,解决了传统循环网络 “记不住长时信息” 的问题。

输入门

输入

来自当前时间步的输入 x_t(如文本序列中的当前词向量、时间序列的当前观测值)。
来自上一时间步的隐藏状态 h_t-1上一时刻 LSTM 的输出,包含历史信息)。

输出

输入门通过Sigmoid 激活函数生成一个 0 到 1 之间的向量 i_t,公式为:

这个向量的作用是控制 “新信息” 进入细胞状态的比例:0 表示完全不让新信息进入,1 表示完全让新信息进入。

输出门:

输入

同样来自当前时间步的输入x_t
同样来自上一时间步的隐藏状态 h_t-1
输出
输出门通过Sigmoid 激活函数生成一个 0 到 1 之间的向量 o_t,公式为:

这个向量的作用是控制 “细胞状态中的记忆” 输出到隐藏状态的比例:0 表示完全不让记忆输出,1 表示完全让记忆输出。

可以看到,输入门和输出门都用 了“当前输入 x_t + 上一隐藏状态 h_t-1” 作为输入,是因为 LSTM 需要同时参考 “历史记忆” 和 “当前信息” 来做决策

  • 输入门要决定 “当前新信息是否值得存入长期记忆”,必须结合 “历史记忆h_t-1 里包含的细胞状态信息)” 和 “当前输入(\(x_t\) 的新内容)”。
  • 输出门要决定 “当前记忆是否值得输出”,也必须结合 “历史记忆的上下文h_t-1” 和 “当前任务的需求x_t 的当前目标)”。
  • 权重和偏置不同,是为了让输入门专注于 “存信息” 的决策输出门专注于 “取信息” 的决策

权重和偏置不同,是为了让输入门专注于 “存信息” 的决策、输出门专注于 “取信息” 的决策

遗忘门

输入:

当前时间步的输入 x_t

.上一时间步的隐藏状态 h_t-1

输出

通过Sigmoid 激活函数生成一个 0 到 1 之间的向量 f_t,公式为:

遗忘门的核心作用是控制 “历史细胞状态 \(C_{t-1}\) 中有多少信息需要被遗忘”:
输出 f_t 中,

接近 1 的元素表示 “对应位置的历史记忆要保留”;

接近 0 的元素表示 “对应位置的历史记忆要遗忘”。

它与上一细胞状态 C_t-1 做逐元素相乘f_t \odot C_t-1,实现 “选择性遗忘历史记忆” 的效果。

简单来说,遗忘门是 LSTM 的 “记忆清理工”—— 它决定了历史记忆中哪些是冗余的、需要丢弃的,从而让细胞状态能高效存储真正有价值的长期信息。

细胞状态

阶段 1:细胞状态的更新

输入

上一时间步的细胞状态C_{t-1}(历史记忆)。

输入门的输出 i_t(控制新信息的权重)。

候选细胞状态\tilde{C}_t

生成方式:由当前输入 x_t 和上一隐藏状态 h_t-1 经Tanh 激活函数计算得到,公式为:

Tanh 的输出范围是\([-1, 1]\),可以理解为对 “新信息” 的压缩与归一化,让新信息的幅度更可控。

候选细胞状态是当前时间步 “潜在的新记忆”,它的作用是为细胞状态 C_t 提供 “待存入的新信息”。

运算和输出

细胞状态的更新公式为:

阶段2:细胞状态的输出

输入:

新的细胞状态 C_t(当前更新后的记忆)
输出门的输出 o_t(控制记忆输出的权重)

输出

隐藏状态的生成公式为:

即 “输出门过滤后的细胞状态(经 Tanh 缩放)”,这个 h_t 会作为当前时间步的输出,同时传递到下一时间步作为输入。

信息流动的完整逻辑

这样设计的核心目的是让 LSTM 能在 “长期记忆的存储” 和 “短期输出的决策” 之间找到平衡,既不会因为只关注当前而忘记历史,也不会因为执着于历史而忽略当前任务

补充

一、Sigmoid 激活函数

在 LSTM 中,Sigmoid 被用于 “门控”(输入门、输出门、遗忘门),因为它的输出在 0 到 1 之间,天然适合表示 “开关的强度”:
输出接近 1 时,表示 “门完全打开”(允许信息通过);
输出接近 0 时,表示 “门完全关闭”(阻止信息通过)。

二、Tanh 激活函数

在 LSTM 中,Tanh 主要用于 “信息的压缩与归一化”:

简单来说,Sigmoid 是 LSTM 的 “决策者”(决定哪些信息该存、该取),而 Tanh 是 “整理者”(把新信息或记忆整理成适合存储 / 输出的形式)。这种分工让 LSTM 既能精准控制信息的流动,又能高效管理长期记忆的存储。

http://www.dtcms.com/a/606757.html

相关文章:

  • 基于Python+Django+双协同过滤豆瓣电影推荐系统 协同过滤推荐算法 爬虫 大数据毕业设计(源码+文档)✅
  • 建设一个商城式网站可以吗网站列表效果
  • Telegram营销工具技术指南:构建高效社群运营体系
  • Python3 列表详解
  • 太极指令集架构(TCIS)v1.1与主流指令集比较研究报告
  • 自己怎么创网站做网站需要人在看吗
  • Java语言编译器 | 深入理解Java编译器的工作原理及优化方法
  • 【算法】主流算法
  • 深圳商城软件开发如何做好网站内容优化
  • 建设网站前的市场分析怎么写西安营销网站建设
  • 南充网站建设服务汕头网站排名推广
  • SpringMVC执行流程源码分析之二
  • 网站查询备案网站群建设调研报告
  • TreeSet的排序方式
  • FILE的本质
  • 5.5、Python-字符串去重
  • (论文速读)基于拉曼光谱深度学习的改进拉曼半定量分析成像去噪方法
  • 自然的算法:从生物进化到智能优化 —— 遗传算法的诗意与硬核“
  • wp企业网站模板网站模块建设方案
  • 使用腾讯云建设网站教程黄页网站建设
  • 基于微信小程序的民宿预定系统
  • 网站建设域名空间网站建设项目签约仪式举行
  • 做网站应该用什么数据库做五金有哪些网站推广
  • 积分法对IMU(陀螺仪加速度计) LSB(Least Significant Bit)验证
  • 爱网站最新发布址做淘宝网站怎么弄
  • 物理信道、信号、映射的介绍
  • 个人站长做网站需要多少钱wordpress转换为html
  • 如何处理自动化测试中的动态元素?
  • soular实战教程系列(1) - 安装与配置
  • JS宏连接数据库:使用Connections创建的对象