当前位置：首页 > news >正文

LSTM：长短期记忆网络的原理、演进与应用

news 2025/9/24 11:14:13

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1 概述：什么是LSTM？

长短期记忆网络（Long Short-Term Memory，LSTM）是一种特殊的循环神经网络（RNN），由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年提出。它被设计用来解决传统 RNN 在处理长序列数据时遇到的梯度消失和梯度爆炸问题。LSTM 通过引入“门控机制”和“细胞状态”来有效地捕捉时间序列中的长期依赖关系，使其在语音识别、自然语言处理、时间序列预测等领域表现出色。

LSTM 的核心思想是引入一个细胞状态（Cell State），并通过三个门控结构（输入门、遗忘门、输出门）来调节信息的流动。这些门控结构允许 LSTM 选择性地记住或忘记信息，从而更好地捕捉长期依赖关系。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.BRLESC计算机：美国弹道研究实验室的科学计算先驱
19.磁带记录仪：从磁带到数字的数据存储之旅
18.振荡器：从基础原理到大模型计算的时钟心脏
17.SuperGLUE：自然语言理解的挑战与进步
16.奇异值：数据科学的数学基石与应用核心
15.GLUE：自然语言理解评估的黄金基准
14.MMLU：衡量大语言模型多任务理解能力的黄金基准
13.低秩矩阵：揭示高维数据中的简约之美
12.低秩分解技术：从理论到应用的全方位解读
11.DROP：挑战机器离散推理能力的阅读 comprehension 基准
10.Frank-Wolfe算法：深入解析与前沿应用
9.SQuAD：机器阅读理解领域的里程碑数据集
8.图灵完备性：计算理论的基石与无限可能
7.CrowS-Pairs：衡量掩码语言模型中社会偏见的挑战数据集
6.Pairwise排序损失：让机器学会排序的艺术
5.Winogender：衡量NLP模型性别偏见的基准数据集
4.Dropout：深度学习中的随机丢弃正则化技术
3.TruthfulQA：衡量语言模型真实性的基准
2.残差：从统计学到深度学习的核心概念
1.集值优化问题：理论、应用与前沿进展

2 LSTM 的基本原理

2.1 传统RNN的局限性

传统的RNN通过其循环结构处理序列数据，但它们在处理长序列时容易出现梯度消失或梯度爆炸的问题。这是因为在误差反向传播过程中，梯度会随着时间步的增加而指数级地缩小或放大，导致模型难以学习长期依赖关系。

2.2 LSTM的解决方案

LSTM 通过引入细胞状态（Cell State） 和门控机制（Gating Mechanism） 来解决传统RNN的局限性。细胞状态充当“记忆单元”，在整个序列处理过程中传递信息，而门控机制则调节信息流入和流出细胞状态。

LSTM 单元的主要组成部分包括：

遗忘门（Forget Gate）：决定哪些信息应该从细胞状态中丢弃。它通过一个 Sigmoid 函数来输出一个0到1之间的值，0表示“完全遗忘”，1表示“完全保留”。
输入门（Input Gate）：决定哪些新信息应该被存储到细胞状态中。它包含一个 Sigmoid 函数和一个 Tanh 函数，Sigmoid 函数决定哪些值需要更新，Tanh 函数生成新的候选值。
细胞状态（Cell State）：是LSTM的“记忆”，在整个序列处理过程中传递信息。它通过遗忘门和输入门的输出进行更新。
输出门（Output Gate）：决定基于当前细胞状态的输出。它通过一个 Sigmoid 函数决定哪些部分应该输出，然后与经过 Tanh 函数处理的细胞状态相乘，得到最终的输出。

下图直观展示了LSTM单元的结构：

graph LRA[输入 xₜ] --> B[遗忘门<br>sigmoid]A --> C[输入门<br>sigmoid]A --> D[输出门<br>sigmoid]A --> E[候选状态<br>tanh]F[先前隐藏状态 hₜ₋₁] --> BF --> CF --> DF --> EG[先前细胞状态 cₜ₋₁] --> BB --> H[计算新细胞状态 cₜ]C --> HE --> HH --> I[新细胞状态 cₜ]I --> DD --> J[输出 hₜ]

3 原始论文及其作者

LSTM 的原始论文由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年发表，标题为 《Long Short-Term Memory》，发表在《Neural Computation》期刊上。

原始论文出处：
- 标题: Long Short-Term Memory
- 作者: Sepp Hochreiter and Jürgen Schmidhuber
- 期刊: Neural Computation
- 年份: 1997
- 卷期: 9(8): 1735–1780
- DOI: https://doi.org/10.1162/neco.1997.9.8.1735
- 可访问地址: http://www.bioinf.jku.at/publications/older/2604.pdf

这篇论文首次提出了 LSTM 的概念，并详细介绍了其结构和训练方法。Hochreiter 和 Schmidhuber 的工作被认为是深度学习领域的里程碑之一，为后续的序列建模研究奠定了坚实的基础 📚。

4 LSTM 的演进与变体

4.1 门控循环单元（GRU）

门控循环单元（Gated Recurrent Unit，GRU）是 LSTM 的一种简化变体，由 Kyunghyun Cho 等人于 2014 年提出。GRU 将遗忘门和输入门合并为一个“更新门”，并减少了细胞状态的数量，从而降低了计算复杂度，但在许多任务上仍能达到与 LSTM 相当的性能。