当前位置: 首页 > news >正文

深度学习查漏补缺:3.从 Sigmoid 到 GELU

1. Sigmoid
  • 定义f(x) = \frac{1}{1 + e^{-x}}
  • 范围: (0, 1)
  • 特性:
    • 非线性函数,将输入映射到 (0, 1) 区间,常用于二分类问题的输出层。
    • 导数平滑,但在 x 很大或很小时,梯度趋近于 0,导致“梯度消失”问题。
  • 优点: 输出具有概率解释。
  • 缺点: 不以零为中心,梯度消失问题限制了其在深层网络中的应用。

2. ReLU (Rectified Linear Unit)
  • 定义: f(x)=max⁡(0,x)
  • 范围: [0, ∞)
  • 特性:
    • 线性(分段),计算简单,收敛速度快。
    • 当 x<0 时,输出为 0,导数为 0,可能导致“神经元死亡”问题。
  • 优点: 缓解梯度消失,提升训练效率。
  • 缺点: 输出非零中心,可能导致偏置偏移;负值区域无梯度。

3. Leaky ReLU
  • 定义: f(x) = \max(\alpha x, x),其中 α 是一个小的正数(如 0.01)
  • 范围: (-∞, ∞)
  • 特性:
    • ReLU 的改进版,负值区域有微小斜率,避免“神经元死亡”。
  • 优点: 保留 ReLU 的优点,同时对负输入有响应。
  • 缺点: α 需要手动调参,效果依赖具体任务。

4. Tanh (双曲正切)
  • 定义f(x) = \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}
  • 范围: (-1, 1)
  • 特性:
    • 非线性,以零为中心,输出对称。
    • 类似 Sigmoid,但在两端饱和时梯度消失。
  • 优点: 零中心化输出有助于梯度更新。
  • 缺点: 依然存在梯度消失问题。

5. Swish
  • 定义f(x) = x \cdot \text{sigmoid}(\beta x)
  • 范围: 大约 (-∞, ∞),具体取决于 β
  • 特性:
    • 非线性,结合了 ReLU 和 Sigmoid 的特性。
    • 平滑且非单调,负值区域有微小输出。
  • 优点: 在某些任务中优于 ReLU,提升模型性能。
  • 缺点: 计算复杂度稍高,β 需要调优。

6. GELU (Gaussian Error Linear Unit)
  • 定义: f(x) = x \cdot \Phi(x),其中 Φ(x) 是标准正态分布的累积分布函数 (CDF)。近似形式为 f(x) \approx 0.5 \cdot x \cdot (1 + \tanh(\sqrt{\frac{2}{\pi}} \cdot (x + 0.044715 \cdot x^3)))
  • 范围: 大约 (-∞, ∞),但负值区域输出较小。
  • 特性:
    • 非线性,结合了 ReLU 的线性特性和概率加权思想。
    • 负值区域输出非零但被平滑压缩,类似于高斯分布的加权效果。
    • 平滑且连续,导数存在且变化平缓。
  • 优点:
    • 在 Transformer 等模型中表现优异(如 BERT),比 ReLU 和 Swish 在某些任务中更具优势。
    • 避免了 ReLU 的“神经元死亡”,负值区域仍有微弱响应。
  • 缺点: 计算复杂度较高,因涉及 tanh⁡或 erf 函数。

相关文章:

  • 【LeetCode Solutions】LeetCode 101 ~ 105 题解
  • 加载MiniLM-L12-v2模型及知识库,调用Deepseek进行问答
  • 全面解析 Spring AOP 切入点表达式
  • 【导航定位】GNSS数据说明-RTCM
  • RabbitMQ高级特性--TTL和死信队列
  • socket演示程序3(udp)
  • 《符号之纱与血肉之躯:具身智能范式的哲学重构与AI发展新图景》
  • 透过TCP/IP看HTTP
  • 深度学习篇---模型GPU训练
  • 监控平台——SkyWalking部署
  • Spring AOP中为所有类型通知传递参数的完整示例,包含详细注释和参数传递方式
  • 【数据结构】哈夫曼树
  • 74. Linux设备树详解
  • 基于springboot课程学习与互动平台(源码+lw+部署文档+讲解),源码可白嫖!
  • SQL注入点判断数据库类型
  • 从“制造”到“智造”:生产线自动检测的技术变革与实践
  • 【力扣hot100题】(017)矩阵置零
  • 火山引擎智能数据洞察 ChatBI 适配 DeepSeek-R1 及 DeepSeek-V3
  • 【商城实战(75)】数据分析指标体系搭建:从0到1的技术指南
  • 基于Halcon仿VM流程列表的执行效果
  • 经典广告推广词/seo培训学什么
  • 泊头网站建设服务/优化网站关键词的技巧
  • wordpress 多网站吗/百度网盘提取码入口
  • 做企业网站一般要多少钱/搜索引擎 磁力吧
  • 如何自己做跨境电商/长沙seo代理
  • 唐山网站建设托管/上海知名网站制作公司