Class45循环神经网络RNN

RNN
传统的神经网络(如全连接网络、卷积网络)处理输入是固定大小的向量,而序列数据(如文本、语音、时间序列)长度可变,且前后元素之间存在依赖关系。
RNN的核心思想:对序列数据进行建模,通过隐藏状态把序列的历史信息“记住”,用于当前时刻的预测。
潜变量自回归模型中,使用潜变量ht总结过去信息。

循环神经网络


RNN的核心公式:



例子:

困惑度
公式:



梯度裁剪
梯度裁剪是一种控制梯度大小的方法,主要用于训练深度神经网络时,防止梯度爆炸
迭代中计算T这个时间步上的梯度,在反向传播过程中产生长度O(T)的矩阵乘法链,导致数值不稳定

RNN的应用

总结
