Class50 LSTM
Class50 LSTM
LSTM
LSTM是1997年提出的一种特殊RNN结构,通过门控机制来控制信息的保存和遗忘,从而解决长距离依赖问题。
LSTM的结构
遗忘门
决定遗忘多少过去的信息
输入门
决定接收多少新信息
同时生成候选信息
输出门
决定最终输出多少信息
候选记忆单元
记忆单元
隐藏状态
隐藏状态 ℎ𝑡是在时间步𝑡时,神经网络的“对外输出”
起两个作用:
传递到下一时刻,作为记忆的一部分
输出给外部任务(比如分类、预测下一个词)
在LSTM中,除了隐藏状态,还额外引入了 记忆单元𝑐𝑡,两者配合使用:
候选记忆单元 VS 记忆单元
我们可以把候选记忆单元看作是“新输入的草稿”,而记忆单元是“正式的笔记本”
候选记忆单元
来自当前输入和历史状态的“潜在记忆”,是原材料
记忆单元
最终的存储结果,由旧记忆𝑐𝑡−1和筛选后的候选记忆组合而成
LSTM VS GRU
GRU将遗忘门和输入门合并成一个更新门,结构更简单,参数更少
LSTM参数更多,表达能力更强,但训练速度较慢
实际应用中,两者效果接近