当前位置: 首页 > news >正文

ML:Sigmoid 饱和函数

Sigmoid函数是一种常用的激活函数,尤其在神经网络中。它的数学表达式是:

[ \sigma(x) = \frac{1}{1 + e^{-x}} ]

Sigmoid函数的图形呈现出一种S形曲线,这种曲线具有以下几个重要特性:

输出范围:Sigmoid函数的输出范围是 (0, 1),这使得它非常适合用于概率估计。

平滑性:Sigmoid函数是连续且可微的,这对于梯度下降等优化算法非常重要。

饱和性:Sigmoid函数在输入值非常大或非常小时会趋向于饱和,即输出值会接近于0或1。这种现象被称为饱和。

饱和的概念来源于Sigmoid函数的定义和性质。当输入值 ( x ) 很大时, ( e^{-x} ) 会趋向于0,导致 ( \sigma(x) ) 接近于1;当输入值 ( x ) 很小时, ( e^{-x} ) 会趋向于无穷大,导致 ( \sigma(x) ) 接近于0。在这些极端情况下,函数的输出变化非常小,即进入了饱和状态。

饱和线性(saturated linear)概念通常指的是在这些饱和区域内,Sigmoid函数的梯度(导数)非常小。这对于神经网络的训练可能会带来一些问题,因为梯度下降算法依赖于梯度信息来更新权重。如果梯度非常小,权重更新会非常缓慢,导致训练过程变得低效。

Sigmoid函数的导数是:

[ \sigma’(x) = \sigma(x) (1 - \sigma(x)) ]

当 ( \sigma(x) ) 接近于0或1时,导数 ( \sigma’(x) ) 也会非常小,这进一步解释了饱和现象。

为了克服饱和问题,现代神经网络中常使用其他激活函数,例如ReLU(Rectified Linear Unit),它在大多数情况下不会饱和,从而加速训练过程。

https://binds.cs.umass.edu/papers/1992_Siegelmann_COLT.pdf
The use of aigmoidal functions —as opposed to hard thresholds— ia what distinguishes this area from older work that dealt only with finite automata. Indeed, it has long been known, at least since the classical papers by McCulloch and Pitts ([12], [9]), how to implement logic gates by threshold networks, and therefore how to simulate finite automata by such nets. For us, however, nets are essentially analog computational devices, in accordance with models currently used in neural net practice.
这一篇是开创性的使用了S激活函数的无限可能,来摆脱了对无限神经元的需求。
Also related is the work reported in [7], [4], and [5], some of which deals with cellular automata. There one asumes an unbounded number of neurons, as opposed to a finite number fixed in advance. This potential infinity is analogous to the potentially infinite tape in a Turing Machine; in our work, the activation value themselves are used instead to encode unbounded information, much as is done with the standard computational model of register machines.

《1992_Siegelmann_COLT.pdf》是由 Hava T. Siegelmann 和 Eduardo D. Sontag 在 1992 年发表的一篇论文,标题为《On the Computational Power of Neural Networks》。这篇论文在计算理论和神经网络领域具有重要意义。以下是一些关键点:

计算能力:论文探讨了神经网络的计算能力,特别是它们在计算复杂性方面的表现。作者证明了某些类型的神经网络可以模拟任意的图灵机,从而具有图灵完备性。这意味着这些神经网络能够执行任何可以由计算机程序完成的计算任务。

递归函数:论文还讨论了神经网络与递归函数之间的关系,展示了神经网络在计算递归函数方面的能力。

理论基础:这篇论文为神经网络的理论基础提供了重要的贡献,帮助研究人员理解神经网络的潜力和局限性。

影响力:由于这篇论文提出的理论具有深远的影响,它在计算理论和人工智能领域被广泛引用和讨论。

总的来说,这篇论文确实非常重要,因为它为神经网络的计算能力提供了理论证明,并且在计算理论和人工智能领域产生了深远的影响。如果你对神经网络的理论基础和计算能力感兴趣,这篇论文是一个重要的参考文献。

相关文章:

  • C++第1讲:基础语法;通讯录管理系统
  • ROS云课三分钟-差动移动机器人巡逻报告如何撰写-评分良好
  • python:获取某路径下所有图片的名称
  • 拉普拉斯变换
  • COMSOL 与人工智能融合的多物理场应用:28个案例的思路、方法与工具概述
  • 【C++ 多态】—— 礼器九鼎,釉下乾坤,多态中的 “风水寻龙诀“
  • Springboot JPA 集成ShardingSphere
  • 复活之我会二分
  • Python 上下文管理器(Context Manager)详解
  • 小行星轨道预测是怎么做的?从天文观测到 AI 模型的完整路径
  • linux下编译Websocketpp,适用x86和armv8
  • Three.js 系列专题 6:后处理与特效
  • XELA机器人多种“形态和玩法”的Uskin磁性阵列式三轴触觉传感器,你使用过了吗?
  • 【区块链安全 | 第三十四篇】合约审计之重入漏洞
  • 39常用控件_QWidget的geometry属性
  • OpenCV 图形API(18)用于执行两个矩阵(或数组)的逐元素减法操作函数sub()
  • 机器学习——ROC曲线、PR曲线
  • 剖析AI与5G:是夸大其词,还是时代变革的引擎?-优雅草卓伊凡
  • Hook javascipt 获取的时间 -- xyctf 2025 ez_puzzle wp
  • Vue3 Composition API 深度开发指南
  • 怎么做网站优化推广/html网页制作模板代码
  • 郴州网站优化公司/无锡seo公司哪家好
  • 佛山市手机网站建设公司/云南seo简单整站优化
  • 网站建设对网络营销的影响/360关键词排名百度
  • 成华区微信网站建/企业网站管理
  • jsp网站开发 开题依据/兰州seo推广