当前位置: 首页 > news >正文

深度学习(十二):多种激活函数

在深度学习模型中,激活函数(Activation Function)扮演着至关重要的角色。它决定了神经网络的非线性建模能力。若无激活函数,深层神经网络仅能退化为线性变换的堆叠,即使网络再深,最终也只能表示线性映射,无法有效地拟合复杂的非线性问题。因此,激活函数不仅是神经网络区别于传统线性模型的关键,而且直接影响训练的收敛速度、梯度传播情况以及模型的最终性能。

常见激活函数

Sigmoid 函数

定义

在这里插入图片描述

特点

  • 输出范围在 (0,1),可看作概率。
  • 在 0 附近较为敏感,两端趋于饱和。

优点

  • 直观,输出值稳定在区间内。
  • 适合二分类任务的最后一层。

缺点

  • 容易出现梯度消失问题,大的正负输入梯度接近 0。
  • 非零均值,可能导致训练收敛慢。

应用:早期神经网络(如BP网络)、逻辑回归输出层。

Tanh 函数

定义

在这里插入图片描述

特点

  • 输出范围 (-1,1),零均值。

优点

  • 相比 Sigmoid,数据分布更居中,收敛更快。
  • 对负输入也有激活效果。

缺点

  • 同样存在梯度消失问题。
  • 饱和区会使参数更新停滞。

应用:RNN 等循环神经网络中常用。

ReLU 函数

定义

在这里插入图片描述

特点

  • 简单高效,非线性显著。

优点

  • 计算简单,加速训练收敛。
  • 避免梯度消失(正区间梯度恒为1)。

缺点

  • “神经元死亡”问题:若长期输入为负,梯度为 0,权重无法更新。
  • 输出非零均值。

应用:CNN、MLP 中最常用的激活函数。

Leaky ReLU

定义

在这里插入图片描述

其中 α 是一个小常数(如0.01)。

优点

  • 缓解了 ReLU 神经元死亡问题。
  • 保留了负区间的微弱梯度。

缺点

  • 超参数 α 需要手动设定。

应用:目标检测、图像分类等深度 CNN 模型。

Parametric ReLU (PReLU)

定义:与 Leaky ReLU 类似,但 α\alphaα 作为可学习参数。

优点

  • 自适应地调整负区间斜率。
  • 在某些图像识别任务中能提升精度。

缺点

  • 增加了参数量,可能过拟合。

Exponential Linear Unit (ELU)

定义

在这里插入图片描述

优点

  • 输出均值更接近零。
  • 负区间平滑,有助于梯度流动。

缺点

  • 计算比 ReLU 更复杂。
  • α 超参数需调节。

Swish

定义

在这里插入图片描述

特点:由 Google 提出,兼具平滑性与非线性。

优点

  • 无硬拐点,梯度流动更稳定。
  • 在深层模型中往往优于 ReLU。

缺点

  • 计算开销稍大。

应用:BERT、EfficientNet 等大型模型。

Gaussian Error Linear Unit (GELU)

定义

在这里插入图片描述

其中 Φ(x) 是标准正态分布的累积分布函数。

特点

  • 与 Swish 类似,但来源于概率建模。
  • 近似形式为:

在这里插入图片描述

优点

  • 在 Transformer 等模型中效果优异。
  • 平滑且自带概率特性。

缺点

  • 计算比 ReLU 复杂。

应用:GPT、BERT、Vision Transformer 等现代大模型。

Softmax

定义

在这里插入图片描述

特点

  • 将向量映射为概率分布。

优点

  • 多分类任务输出必不可少。
  • 与交叉熵损失结合自然。

缺点

  • 容易数值溢出,需要做数值稳定处理。
  • 不适合作为隐藏层激活。

激活函数比较

函数输出范围是否零均值梯度消失主要问题典型应用
Sigmoid(0,1)饱和、梯度消失二分类输出层
Tanh(-1,1)饱和RNN
ReLU[0,∞)神经元死亡CNN/MLP
Leaky ReLU(-∞,∞)较少超参数改进 CNN
PReLU(-∞,∞)较少过拟合风险图像识别
ELU(-α,∞)近似是较少计算复杂深层网络
Swish(-∞,∞)近似是计算复杂NLP/CNN
GELU(-∞,∞)近似是计算复杂Transformer
Softmax(0,1)-数值稳定性分类输出层

总结

激活函数是深度学习网络的“非线性引擎”。从 Sigmoid 到 ReLU,再到 Swish 与 GELU,激活函数的演化体现了深度学习对梯度消失、收敛速度和表达能力的持续优化。当前主流模型多采用 ReLU 及其改进型,而在自然语言处理和计算机视觉的前沿任务中,Swish 与 GELU 已逐渐成为标配。

http://www.dtcms.com/a/406744.html

相关文章:

  • 在线骑行|基于SpringBoot+Vue的在线骑行网站设计与实现(源码+数据库+文档)
  • 《MyBatis进阶记:当字段名开始“叛逆“》
  • 如何筛选并下载高质量Landsat影像:
  • html网站列表怎么做茶叶网站建设目的
  • 让数据触手可及采用Chat2DB+cpolar重构数据库操作体验
  • 仿造别人的网站侵权吗建e全景效果图
  • 优选算法的寻踪契合:字符串专题
  • 光伏运维可视化大屏,解锁管理新方式
  • 环境变量管理于美国服务器多环境部署的实施标准
  • 自己做的网站放在服务器哪里怎么建自己的手机网站吗
  • Efficient Motion-Aware Video MLLM论文阅读
  • 信息化网站建设引言施工企业年终总结及明年工作计划
  • spring项目编译时出现警告需要发行版本9
  • PMP-项目管理-PMBOK第六版_中文版:项目管理标准
  • C语言:自定义类型——联合体和枚举
  • 一文讲清数据指标怎么搭建
  • markdown基础语法及效果演示
  • EC19111304触摸三档定时开关芯片 电容式触控延时开关IC方案SOP-8
  • VideoChat-Flash论文阅读
  • 网站建设功能定位怎么写宜春做网站哪里好
  • 免费建设淘客网站上海网站建设多少费用
  • 数字孪生实施路径揭秘:从数据采集到业务赋能
  • 单片机--usart总线
  • Ansible详解(二)playbook剧本详解
  • 消消乐(双指针)
  • 兰州网站建设推荐q479185700顶上北京营销型网站建站公司
  • KingBaseES V9R1C10数据库安装体验
  • 自动化接口框架搭建分享-pytest第二部分
  • 禹城网站制作贵阳建设职业技术学院招聘信息网站
  • 语义三角论对人工智能自然语言处理深层语义分析的影响与启示