当前位置：首页 > news >正文

深度学习_神经网络激活函数

news 2025/11/14 11:30:34

🚀 激活函数全解析：从基础到高阶

🧩 一、激活函数的核心作用回顾

激活函数的作用是：

引入非线性 → 使神经网络能拟合复杂映射
控制梯度传播 → 避免梯度爆炸或消失
影响训练速度、收敛性与性能

⚙️ 二、基础激活函数

1️⃣ Sigmoid 激活函数

定义公式

$σ(x)=11+e−x\sigma(x) = \frac{1}{1 + e^{-x}}$
输出范围： $(0, 1)$

导数公式

$σ′(x)=σ(x)⋅(1−σ(x))\sigma'(x) = \sigma(x) \cdot (1 - \sigma(x))$
最大导数值出现在 $x = 0$ ，此时：
$σ′(0)=0.25\sigma'(0) = 0.25$

特点与理解

将输入"压缩"到 $(0, 1)$ ，像是概率映射器
中间区域（约 $\sim 2$ ）变化最显著，两侧快速进入饱和区

优缺点

优点	缺点
平滑可导，输出连续	容易梯度消失（导数 $≤0.25\le 0.25$ ）
输出有界，便于概率建模	输出非零均值 $(> 0)$ ，会造成梯度偏移
常用于输出层（二分类）	不适合深层网络（梯度衰减严重）

应用场景

二分类输出层（如 logistic 回归、二分类神经网络）
中间层中几乎被 ReLU 完全替代

2️⃣ Softmax 激活函数

定义公式

对于一个向量 $z=[z1,z2,…,zk]\mathbf{z} = [z_1, z_2, \ldots, z_k]$ ，第 $i$ 个分量的 Softmax 输出为：
$Softmax(zi)=ezi∑j=1kezj\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{k} e^{z_j}}$

特征与性质

将实数向量映射为一个概率分布（所有分量相加 $= 1$ ）
强调最大值，使得模型学会"选择"
对数稳定版本（避免数值溢出）：
$Softmax(zi)=ezi−max⁡(z)∑jezj−max⁡(z)\text{Softmax}(z_i) = \frac{e^{z_i - \max(\mathbf{z})}}{\sum_j e^{z_j - \max(\mathbf{z})}}$

优缺点

优点	缺点
输出概率分布，便于多分类	对大值敏感，可能过度"确定"
可与交叉熵自然结合	容易数值溢出（需 $log⁡-sum-exp⁡\log\text{-sum}\text{-}\exp$ 稳定化）

应用场景

多分类输出层
NLP 模型的 注意力机制中的 $weights\text{attention weights}$

3️⃣ ReLU（Rectified Linear Unit）

定义公式

$ReLU(x)=max⁡(0,x)\text{ReLU}(x) = \max(0, x)$
导数：
$ReLU′(x)={1,x>00,x≤0\text{ReLU}'(x) = \begin{cases} 1, & x > 0 \\ 0, & x \leq 0 \end{cases}$

特点

保留正值，抑制负值
计算简单，只有比较和赋值操作
稀疏激活（很多神经元输出 $0$ ）

优缺点

优点	缺点
计算高效，收敛快	负区间梯度为 $0$ ，易导致"神经元死亡"
缓解梯度消失问题	不可导点在 $0$ （但影响可忽略）
保持非线性	输出非零均值（有偏移）

应用场景

几乎所有深度网络（CNN、MLP、Transformer）
特别是卷积层后的默认选择

4️⃣ Leaky ReLU（带泄露的 ReLU）

为了解决 ReLU "死亡"问题，提出了 Leaky ReLU。

定义公式

$LeakyReLU(x)={x,x>0αx,x≤0\text{LeakyReLU}(x) = \begin{cases} x, & x > 0 \\ \alpha x, & x \leq 0 \end{cases}$
其中 $α\alpha$ 通常取 $0.01$ 或一个小的正值。

导数

$LeakyReLU′(x)={1,x>0α,x≤0\text{LeakyReLU}'(x) = \begin{cases} 1, & x > 0 \\ \alpha, & x \leq 0 \end{cases}$

特点与优缺点

优点	缺点
避免神经元死亡（负梯度不会为 $0$ ）	$α\alpha$ 需调参
简单高效，梯度连续	若 $α\alpha$ 太大，会破坏稀疏性

应用场景

深层 CNN
对训练稳定性要求高的场景
GANs（生成对抗网络）中广泛使用

⚙️ 三、高阶激活函数

1️⃣ GELU（Gaussian Error Linear Unit）

GELU 激活函数通过将输入 $x$ 乘以标准正态分布的累积分布函数 $Φ(x)\Phi(x)$ 来实现"概率门控"。

定义公式

$GELU(x)=x⋅Φ(x)\text{GELU}(x) = x \cdot \Phi(x)$

其中 $Φ(x)\Phi(x)$ 是标准正态分布的累积分布函数（CDF）：
$Φ(x)=12[1+erf(x2)]\Phi(x) = \frac{1}{2}\left[1 + \text{erf}\left(\frac{x}{\sqrt{2}}\right)\right]$

📘 近似形式（方便计算）：
$GELU(x)≈0.5x[1+tanh⁡(2π(x+0.044715x3))]\text{GELU}(x) \approx 0.5x \left[1 + \tanh\left(\sqrt{\frac{2}{\pi}} (x + 0.044715x^3)\right)\right]$

直观理解

ReLU 是简单地将负数"砍掉"；GELU 则是按概率"软裁剪"：

当 $x$ 越大， $Φ(x)\Phi(x)$ 越接近 $1$ （输出接近 $x$ ）
当 $x$ 越小， $Φ(x)\Phi(x)$ 越接近 $0$ （输出接近 $0$ ）

因此，它提供了一个平滑的、概率驱动的非线性变换。

公式曲线对比

函数	特征	是否平滑	是否非线性
$ReLU\text{ReLU}$	$max⁡(0,x)\max(0, x)$	否（拐点不光滑）	是
$GELU\text{GELU}$	$\cdot \Phi(x)$	✅ 是	✅ 是

📈 $GELU\text{GELU}$ 比 $ReLU\text{ReLU}$ 平滑得多，因此在反向传播时梯度不会突变。

优缺点

优点	缺点
平滑可导，梯度传播更稳定	计算量比 $ReLU\text{ReLU}$ 大（涉及 $tanh⁡\tanh$ / $erf\text{erf}$ ）
对小输入保留部分信息（不完全"砍掉"）	理论分析复杂
在 BERT、Transformer 中显著提升效果

典型应用场景

BERT / GPT / Transformer 系列 默认使用 $GELU\text{GELU}$
Vision Transformer (ViT)
任何希望提升模型平滑性与表达能力的深层网络

2️⃣ Swish 激活函数

Swish 是一种"自门控"激活函数，由 Google 提出，并在 $EfficientNet\text{EfficientNet}$ 中得到广泛应用。

定义公式

$Swish(x)=x⋅σ(βx)\text{Swish}(x) = x \cdot \sigma(\beta x)$

其中 $σ(x)\sigma(x)$ 是 Sigmoid 函数：
$σ(x)=11+e−x\sigma(x) = \frac{1}{1 + e^{-x}}$

若 $β=1\beta = 1$ ，则简写为：
$Swish(x)=x⋅σ(x)\text{Swish}(x) = x \cdot \sigma(x)$

直观理解

$Swish\text{Swish}$ 的行为也是由自身输入 $x$ 决定的：

小输入会被抑制（因为 $σ(x)\sigma(x)$ 小于 $0.5$ ）
大输入接近线性输出（因为 $σ(x)→1\sigma(x) \to 1$ ）
中间区域平滑过渡

特点与优势

特性	描述
平滑且非单调	比 $ReLU\text{ReLU}$ 更柔和，对小负值也保留部分信息
自适应门控机制	输出由自身决定，具有轻微"记忆"特征
可微分	反向传播时梯度连续稳定

优缺点

优点	缺点
连续可导，梯度稳定	计算量大于 $ReLU\text{ReLU}$
对负值保留部分激活	理论解释相对复杂
实验性能强于 $ReLU\text{ReLU}$ （如 $EfficientNet\text{EfficientNet}$ ）

应用场景

$EfficientNet\text{EfficientNet}$ 、 $MobileNetV3\text{MobileNetV3}$
Transformer 变体
深层或轻量网络中需要平滑激活的场景

🔬 四、GELU vs Swish 对比总结

特性	$GELU\text{GELU}$	$Swish\text{Swish}$
定义	$\cdot \Phi(x)$	$\cdot \sigma(x)$
平滑性	✅ 高	✅ 高
计算复杂度	较高 ( $erf/tanh⁡\text{erf}/\tanh$ )	中等 ( $sigmoid\text{sigmoid}$ )
理论基础	源于概率论（正态分布）	经验发现
单调性	非单调	非单调
应用	Transformer、BERT	EfficientNet、MobileNetV3
性能	稍优于 $Swish\text{Swish}$	稍低但计算更快

📊 五、激活函数对比总结表

激活函数	公式	输出范围	导数范围	优点	缺点	常用场景
Sigmoid	$1/(1+e^{-x})$	$(0, 1)$	$(0, 0.25]$	平滑，概率输出	梯度消失	二分类输出层
Softmax	$ezi/∑ezje^{z_i} / \sum e^{z_j}$	$\sum=1$	—	概率分布	数值不稳定	多分类输出层
ReLU	$max⁡(0,x)\max(0,x)$	$[0,∞)[0,\infty)$	${0,1\}$	高效不饱和	死亡神经元	主流 $CNN\text{CNN}$ 激活
Leaky ReLU	$x(x>0),αx(x≤0)x\ (x>0), \alpha x\ (x\leq 0)$	$(−∞,∞)(-\infty,\infty)$	${α,1}\{\alpha,1\}$	防死区	需调 $α\alpha$	GAN、CNN
Swish	$\cdot \sigma(x)$	$(−∞,∞)(-\infty,\infty)$	—	平滑梯度稳定	慢	$EfficientNet\text{EfficientNet}$
GELU	$\cdot \Phi(x)$	$(−∞,∞)(-\infty,\infty)$	—	平滑表现最优	复杂	$Transformer\text{Transformer}$