当前位置：首页 > news >正文

LSTM论文解读

news 2025/11/14 11:27:53

LSTM 的 “记忆逻辑”

可以把它想象成一个带 “门卫” 和 “仓库” 的记忆系统：

输入门是 “仓库管理员”，决定哪些新货物（新信息）能放进仓库（细胞状态）；
细胞状态是 “仓库”，用来长期存放关键货物（长期记忆）；
输出门是 “提货员”，决定仓库里的哪些货物能被取出去用（输出记忆）；
整个存储单元通过这种 “门控 + 循环记忆” 的机制，解决了传统循环网络 “记不住长时信息” 的问题。

输入门

输入

来自当前时间步的输入 x_t（如文本序列中的当前词向量、时间序列的当前观测值）。
来自上一时间步的隐藏状态 h_t-1上一时刻 LSTM 的输出，包含历史信息）。

输出

输入门通过Sigmoid 激活函数生成一个 0 到 1 之间的向量 i_t，公式为：

这个向量的作用是控制 “新信息” 进入细胞状态的比例：0 表示完全不让新信息进入，1 表示完全让新信息进入。

输出门：

输入

同样来自当前时间步的输入x_t
同样来自上一时间步的隐藏状态 h_t-1
输出
输出门通过Sigmoid 激活函数生成一个 0 到 1 之间的向量 o_t，公式为：

这个向量的作用是控制 “细胞状态中的记忆” 输出到隐藏状态的比例：0 表示完全不让记忆输出，1 表示完全让记忆输出。

可以看到，输入门和输出门都用了“当前输入 x_t + 上一隐藏状态 h_t-1” 作为输入，是因为 LSTM 需要同时参考 “历史记忆” 和 “当前信息” 来做决策：

输入门要决定 “当前新信息是否值得存入长期记忆”，必须结合 “历史记忆h_t-1 里包含的细胞状态信息）” 和 “当前输入（$x_t$ 的新内容）”。
输出门要决定 “当前记忆是否值得输出”，也必须结合 “历史记忆的上下文h_t-1” 和 “当前任务的需求x_t 的当前目标）”。
权重和偏置不同，是为了让输入门专注于 “存信息” 的决策、输出门专注于 “取信息” 的决策

权重和偏置不同，是为了让输入门专注于 “存信息” 的决策、输出门专注于 “取信息” 的决策

遗忘门

输入：

当前时间步的输入 x_t

.上一时间步的隐藏状态 h_t-1

输出

通过Sigmoid 激活函数生成一个 0 到 1 之间的向量 f_t，公式为：

遗忘门的核心作用是控制 “历史细胞状态 $C_{t-1}$ 中有多少信息需要被遗忘”：
输出 f_t 中，

接近 1 的元素表示 “对应位置的历史记忆要保留”；

接近 0 的元素表示 “对应位置的历史记忆要遗忘”。

它与上一细胞状态 C_t-1 做逐元素相乘 $f_t \odot C_t-1$ ，实现 “选择性遗忘历史记忆” 的效果。

简单来说，遗忘门是 LSTM 的 “记忆清理工”—— 它决定了历史记忆中哪些是冗余的、需要丢弃的，从而让细胞状态能高效存储真正有价值的长期信息。

细胞状态

阶段 1：细胞状态的更新

输入

上一时间步的细胞状态 $C_{t-1}$ （历史记忆）。

输入门的输出 $i_t$ （控制新信息的权重）。

候选细胞状态 $\tilde{C}_t$

生成方式：由当前输入 x_t 和上一隐藏状态 h_t-1 经Tanh 激活函数计算得到，公式为：

Tanh 的输出范围是$[-1, 1]$，可以理解为对 “新信息” 的压缩与归一化，让新信息的幅度更可控。

候选细胞状态是当前时间步 “潜在的新记忆”，它的作用是为细胞状态 C_t 提供 “待存入的新信息”。