当前位置: 首页 > news >正文

深度学习中的激活函数全解析:该选哪一个?

激活函数的作用

激活函数为神经网络引入非线性,使模型能够拟合复杂数据模式。没有激活函数,神经网络仅能表达线性变换,无法处理图像、自然语言等高维非线性数据。

常用激活函数及特点

Sigmoid

  • 数学形式:$f(x) = \frac{1}{1 + e^{-x}}$
  • 输出范围:(0, 1),适合二分类输出层
  • 缺点:梯度消失问题显著,非零中心输出可能导致收敛变慢

Tanh

  • 数学形式:$f(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$
  • 输出范围:(-1, 1),零中心特性缓解了Sigmoid的部分问题
  • 仍存在梯度消失,但比Sigmoid更优

ReLU

  • 数学形式:$f(x) = \max(0, x)$
  • 计算高效,缓解梯度消失(正区间梯度为1)
  • 缺点:神经元死亡问题(负区间梯度为0)

Leaky ReLU

  • 数学形式:$f(x) = \max(\alpha x, x)$(通常$\alpha=0.01$)
  • 解决ReLU的神经元死亡问题,负区间保留微小梯度

Swish

  • 数学形式:$f(x) = x \cdot \sigma(\beta x)$($\sigma$为Sigmoid)
  • 自门控特性,实验显示优于ReLU
  • 计算代价略高

选择建议

隐藏层推荐

  • 优先尝试ReLU及其变种(Leaky ReLU、Swish),尤其深层网络
  • 简单场景ReLU足够,复杂任务可测试Swish或GELU

输出层推荐

  • 二分类:Sigmoid
  • 多分类:Softmax
  • 回归任务:线性激活(无激活函数)

注意事项

  • 避免Sigmoid/Tanh用于深层网络隐藏层
  • 监控神经元死亡率,高时切换至Leaky ReLU
  • 批量归一化(BatchNorm)可缓解部分激活函数缺陷

前沿进展

  • GELU(高斯误差线性单元):结合随机正则化思想,用于Transformer
  • Mish:$f(x) = x \cdot \tanh(\ln(1+e^x))$,平滑且无饱和区,部分CV任务表现优异

实际选择需结合任务架构实验验证,通常ReLU家族作为基线,Swish/GELU在调优阶段尝试。

http://www.dtcms.com/a/613333.html

相关文章:

  • MySQL复盘总结
  • 对于多方安全计算的中止安全的理解
  • 西游记路线图:12-39,大唐到乌鸡国,幕后boss标注
  • 【学习笔记】DiffFNO: Diffusion Fourier Neural Operator
  • 电磁场中的旋度Curl与散度div
  • KCF 算法在ROS 2 操作系统里面(详解)
  • 《Dev-C++分辨率低-解决办法》
  • Dubbo异步调用实战指南:提升微服务并发性能
  • 【Linux】冯诺依曼体系结构与操作系统概述
  • 简单企业网站模板php做的网站预览
  • 2025年数维杯数学建模挑战赛(秋季赛)【ABCD题】论文首发+百种模型组合+代码分享
  • OpenHarmony内核开发实战手册:编译构建、HCK框架与性能优化
  • 自建开发工具IDE(五)数据库预览——东方仙盟炼气期
  • MATLAB 实现多能源系统(MES)多目标优化
  • 构建企业级机器学习平台:基于Ray和DeepSpeed的半导体AI实践
  • 卡索(CASO)汽车调查:终端体验,是汽车品牌隐形的胜负关键
  • C语言编译器安卓版 | 高效便捷的手机编程环境
  • 子集合判断(map)
  • 潍坊做外贸网站网页源代码在线查看
  • 【Liunx】进程间关系与守护进程
  • el-upload 上传管理与自定义优化实践
  • 开发中的英语积累 P13:Segment、Inclusive、Exclusive、Movement、Arbitrarily、Generic
  • node语法特性详解
  • 2025-11-15 学习记录--Python-LSTM模型定义(PyTorch)
  • PLB-TV 4K+H.265 编码,无广告超流畅
  • Transformer结构完全解读:从Attention到LLM
  • 【ZeroRange WebRTC】REMB(Receiver Estimated Maximum Bitrate)技术深度分析
  • sharding-jdbc 绑定表
  • 郑州网站制作wordpress 密码失败
  • Dify-Token 应用实现