【深度学习基础】Temporal Fusion Transformer
Temporal Fusion Transformer
-
- 1.GRU 门残差网络
- 2.VSN 变量选择网络
- 3. 静态协变量编码器
- 4. 时间融合编码器
- 5. 整体结构
- 6. 参考资料
1.GRU 门残差网络
-
输入:主输入,可选的上下文向量c
-
不走残差:分线性特征处理
走残差:线性处理
最后Add到一起:线性和非线性结合到一起 -
控制数据流动
确定非线性和线性对模型特征贡献?
作用:一方面,它可以进行静态上下文变量和动态变量的融合,另一方面,通过门控进行了特征选择操作,门控体现在GLU(门控线性单元)中,用了sigmoid控制信息的通过程度,具有良好的适应性,能够自动选择有效信息,自适应地调整网络复杂性。
-
从下向上看:全连接(Dense) → ELU(指数线性激活函数(比relu好点,有利于模型收敛)) → 全连接(Dense) → 门控线性单元(Gate)(Gated Linear Units (GLUs)) → Layernorm
-
门控线性单元(Gate)(Gated Linear Units (GLUs)):
σ是sigmod,相当于权