当前位置: 首页 > news >正文

激活函数学习

激活函数有什么作用?

ReLu激活函数怎么实现增强非线性的?

ReLu = max(0,x)

:其核心机制源于其独特的分段线性设计及网络层面的组合效应。打破输入的线性对称性。

(负数来源,初始化权重,前一层神经元的输出值,偏置项,负数一般代表背景或噪音)

ReLu激活函数相对其他激活函数有什么优势,为什么它会的用的比较多?

常见激活函数:

激活函数公式适用场景优点缺点
Sigmoid输出可解释为概率,适合二分类输出层

输出可解释为概率

连续可导梯度平滑

梯度消失严重;

非零中心输出,导致后续梯度更新效率低

指数运算量大

Tanh

(双曲正切)

RNN/LSTM 隐藏层(处理正负信号平衡的时序数据)

零中心输出,梯度更新更高效

存在梯度消失问题,

指数运算成本高

ReLU     max(0,x)  主流选择(中间层/隐藏层)计算高效,缓解梯度消失,稀疏激活 神经元死亡
Leaky ReLUx>=0 ? x : α*x(α=0.01)担心神经元死亡时的ReLU替代品缓解神经元死亡负区间斜率需预设
ReLU6 min(max(0, x), 6)​主要针对移动端部署、模型量化及数值稳定性问题显著降低激活值的动态范围。抑制极端大值,避免梯度幅值剧烈波动。提升移动端推理效率1.表达能力受限2.梯度饱和问题,当输入x > 6时,梯度为0。3.阈值6可能还需要调整,以更适合数据分布。
GELU替代 ReLU 追求更高精度的各种任务。自然语言处理 (NLP)​​ 领域的模型(如Transformer)平滑性好,更符合自然规律计算相对复杂,速度最慢。

​Swish​

x * sigmoid(x)

平滑,在深度模型中性能常优于ReLU

计算稍慢

图像分类网络(如MobileNet)

​如何选择?—— 实用建议:​

  1. 1.

    ​默认首选​​:从 ​​ReLU​​ 开始,它是绝大多数情况的可靠选择。

  2. 2.

    ​遇到问题​​:如果怀疑网络受“神经元死亡”影响,换用 ​​Leaky ReLU​​ 或 ​​PReLU​​。

  3. 3.

    ​追求极致性能​​:在计算机视觉任务中,可以尝试 ​​Swish​​;在自然语言处理任务中,直接使用 ​​GELU​​。

  4. 4.

    ​输出层​​:根据任务选择——二分类用 ​​Sigmoid​​,多分类用 ​​Softmax​​,回归问题用​​线性激活​​(无激活函数)。

http://www.dtcms.com/a/355887.html

相关文章:

  • FIO的使用教程
  • 数据结构---链表操作技巧
  • 关于PCB面试问题
  • 01.<<基础入门:了解网络的基本概念>>
  • 大模型微调示例三之Llama-Factory_Lora
  • 机器学习和高性能计算中常用的几种浮点数精度
  • 拼团商城源码分享拼团余额提现网站定制开发源码二开
  • 二叉树高度-递归方式
  • 大模型应用开发与大模型开发有什么区别?
  • c语言动态数组扩容
  • [数据结构] 复杂度和包装类和泛型
  • 虚函数指针和虚函数表的创建时机和存放位置
  • AI记忆革命:从七秒遗忘到终身学习
  • 线程池的执行原理
  • set_property CLOCK_DEDICATED_ROUTE BACKBONE/FALSE对时钟进行约束
  • 强化学习之GRPO
  • 硬件IIC使用问题汇总
  • 错误模块路径: C:\Windows\Microsoft.NET\Framework64\v4.0.30319\clr.dll
  • IMIX数据全链路解析
  • 探索淀粉深加工的无限可能:2026 济南展览会前瞻
  • KeyHydra 2.008 安装教程 3ds Max 2020-2024 详细步骤图解(附安装包下载)
  • 【JavaScript】递归的问题以及优化方法
  • week5-[一维数组]去重
  • (笔记)Android窗口管理系统分析
  • 向量方法证明正余弦定理的数学理论体系
  • 如何保证数据的安全性和隐私性?
  • Spring Boot + KingbaseES 连接池实战
  • TypeScript:枚举类型
  • Milvus向量数据库是什么?
  • Active Directory Basics