当前位置：首页 > news >正文

【漫话机器学习系列】224.双曲正切激活函数（Hyperbolic Tangent Activation Function）

news 2025/10/30 9:04:28

双曲正切激活函数（tanh）详解：更优于 Sigmoid 的选择？

在构建神经网络时，激活函数是非常关键的一环。本文将带大家深入了解一种常见但常被忽视的激活函数：双曲正切函数（Hyperbolic Tangent Function，简称 tanh）。通过图解和数学表达，我们来剖析它的性质及在实际中的应用。

一、什么是双曲正切函数（tanh）？

双曲正切函数（tanh） 是一种 S 形的激活函数，其数学表达形式为：

$\phi(z) = \tanh(z) = \frac{\sinh(z)}{\cosh(z)} = \frac{e^z - e^{-z}}{e^z + e^{-z}}$

它是通过双曲正弦（sinh）与双曲余弦（cosh）的比值得到的函数，图像如下所示：

二、tanh 与 sigmoid 有什么区别？

虽然 tanh 和 sigmoid 都是 S 型函数，但它们的输出范围不同：

函数	输出范围	是否中心化	常见问题
sigmoid	(0, 1)	否	梯度消失问题严重
tanh	(-1, 1)	是	梯度问题缓解

为什么 tanh 更推荐？

从图中我们可以看出，tanh 函数的输出是以 0 为中心的对称区间 [-1, 1]，相比 sigmoid 更接近“0 中心化”。这意味着，在使用 tanh 激活函数时，神经元的输出会更容易让下一层网络保持平衡的输入分布，从而加快收敛速度。

而 sigmoid 的输出全为正（0 到 1），可能导致后续层输出出现偏移，从而增加训练难度。

三、tanh 的图像分析

从图像中可以观察到：

当输入 z → −∞ 时，输出趋近于 -1；
当输入 z → +∞ 时，输出趋近于 +1；
在 z = 0 时，输出正好为 0；
整体是光滑、连续且可导的函数，适合用于反向传播计算。

四、tanh 的导数

tanh 函数的导数形式非常简单：

$\frac{d}{dz}\tanh(z) = 1 - \tanh^2(z)$

这是它相较于 sigmoid 的另一大优势，便于梯度的传播计算。

五、在深度学习中的应用场景

虽然 ReLU 类函数现在是主流，但 tanh 依然有其重要应用：

用于处理有负值输入的数据；
适用于较浅层网络，或需要输出在 [-1, 1] 区间的模型；
在 LSTM 等循环神经网络中依然广泛使用（如门控机制中就大量采用 tanh）。

六、总结

特性	tanh
输出范围	(-1, 1)
是否0中心化	是
是否可导	是
梯度问题	相较 sigmoid 更缓和
应用领域	循环神经网络（LSTM）、二分类模型等

小结：

tanh 是一个简单却非常强大的激活函数，虽然近年来被 ReLU 抢去了风头，但它仍在很多模型中扮演着关键角色。选择激活函数时，没有“放之四海皆准”的标准，重要的是根据你的问题和数据类型合理选择。

查看全文

http://www.dtcms.com/a/157301.html

Maven进阶

Myweb项目——面试题总结

腾讯云物联网平台

ASP.NET Core自动事务ActionFilter

数据预处理之特征选择（Feature Selection）

深入探究 MySQL 架构：从查询到硬件

100个节点的部署，整合Docker、Kubernetes和Jenkins的详细设计

安全生产知识竞赛宣传口号160句

OpenCV --- 图像预处理（七）

科学养生，拥抱健康生活

RD电子实验记录本选用贴士A-B-C

探秘卷积神经网络：深度学习的图像识别利器

OpenCV第6课图像处理之几何变换（缩放）

33.状态压缩动态规划

当JIT遇见K8s

Go 1.24 中的弱指针包 weak 使用介绍

顶点着色器和片元着色器染色+表面体着色器染色

《企业级 Java EE 架构设计精深实践》内容详解

监听退出事件

系统架构设计（三）：质量属性

扩展和自定义 asammdf 库：满足特定需求的解决方案

如何创建一个C#项目(基于VS2022版)

前端面试 HTML篇

从像素到驾驶决策：Python与OpenCV赋能自动驾驶图像识别

PotPlayer，强大的高清视频播放器

MySQL 联合查询教程

STM32的开发环境介绍

C++如何设计线程池（thread pool）来提高线程的复用率，减少线程创建和销毁的开销

Vue3的内置组件 -实现过渡动画 TransitionGroup

实现从一个微信小程序跳转到另一个微信小程序