激活函数学习笔记
- Sigmoid:梯度消失、指数计算复杂运行慢、输出不是以0为中心,梯度平滑便于求导
- tanh:以0为中心,其他与sigmoid相似
- ReLu:transformer常用,解决了梯度消失问题、计算复杂度低,存在神经元死亡问题和梯度不连续问题
- LeakyReLu:解决了ReLu神经元死亡的问题
- GLu:门控线性单元,两个线性变换,其中一个经过sigmoid输出,通过哈达玛积控制另一个线性变化,具有信息选择能力
- GeLu:高斯误差线性单元,x*P(X>=x),使用高斯分布的累计函数进行dropout
- Swish:x*σ(βx),使用sigmoid进行dropout,β等于1时是SiLu,极大时区域ReLu,等于0是x,梯度连续平滑,非单调性增强了学习能力
- SiLu:β等于1时的Swish
- SwiGLu:将GLu的σ函数替换为Swish函数,优势在于平滑梯度、门控特性、梯度稳定性和可学习参数