ML:Sigmoid 饱和函数
Sigmoid函数是一种常用的激活函数,尤其在神经网络中。它的数学表达式是:
[ \sigma(x) = \frac{1}{1 + e^{-x}} ]
Sigmoid函数的图形呈现出一种S形曲线,这种曲线具有以下几个重要特性:
输出范围:Sigmoid函数的输出范围是 (0, 1),这使得它非常适合用于概率估计。
平滑性:Sigmoid函数是连续且可微的,这对于梯度下降等优化算法非常重要。
饱和性:Sigmoid函数在输入值非常大或非常小时会趋向于饱和,即输出值会接近于0或1。这种现象被称为饱和。
饱和的概念来源于Sigmoid函数的定义和性质。当输入值 ( x ) 很大时, ( e^{-x} ) 会趋向于0,导致 ( \sigma(x) ) 接近于1;当输入值 ( x ) 很小时, ( e^{-x} ) 会趋向于无穷大,导致 ( \sigma(x) ) 接近于0。在这些极端情况下,函数的输出变化非常小,即进入了饱和状态。
饱和线性(saturated linear)概念通常指的是在这些饱和区域内,Sigmoid函数的梯度(导数)非常小。这对于神经网络的训练可能会带来一些问题,因为梯度下降算法依赖于梯度信息来更新权重。如果梯度非常小,权重更新会非常缓慢,导致训练过程变得低效。
Sigmoid函数的导数是:
[ \sigma’(x) = \sigma(x) (1 - \sigma(x)) ]
当 ( \sigma(x) ) 接近于0或1时,导数 ( \sigma’(x) ) 也会非常小,这进一步解释了饱和现象。
为了克服饱和问题,现代神经网络中常使用其他激活函数,例如ReLU(Rectified Linear Unit),它在大多数情况下不会饱和,从而加速训练过程。
https://binds.cs.umass.edu/papers/1992_Siegelmann_COLT.pdf
The use of aigmoidal functions —as opposed to hard thresholds— ia what distinguishes this area from older work that dealt only with finite automata. Indeed, it has long been known, at least since the classical papers by McCulloch and Pitts ([12], [9]), how to implement logic gates by threshold networks, and therefore how to simulate finite automata by such nets. For us, however, nets are essentially analog computational devices, in accordance with models currently used in neural net practice.
这一篇是开创性的使用了S激活函数的无限可能,来摆脱了对无限神经元的需求。
Also related is the work reported in [7], [4], and [5], some of which deals with cellular automata. There one asumes an unbounded number of neurons, as opposed to a finite number fixed in advance. This potential infinity is analogous to the potentially infinite tape in a Turing Machine; in our work, the activation value themselves are used instead to encode unbounded information, much as is done with the standard computational model of register machines.
《1992_Siegelmann_COLT.pdf》是由 Hava T. Siegelmann 和 Eduardo D. Sontag 在 1992 年发表的一篇论文,标题为《On the Computational Power of Neural Networks》。这篇论文在计算理论和神经网络领域具有重要意义。以下是一些关键点:
计算能力:论文探讨了神经网络的计算能力,特别是它们在计算复杂性方面的表现。作者证明了某些类型的神经网络可以模拟任意的图灵机,从而具有图灵完备性。这意味着这些神经网络能够执行任何可以由计算机程序完成的计算任务。
递归函数:论文还讨论了神经网络与递归函数之间的关系,展示了神经网络在计算递归函数方面的能力。
理论基础:这篇论文为神经网络的理论基础提供了重要的贡献,帮助研究人员理解神经网络的潜力和局限性。
影响力:由于这篇论文提出的理论具有深远的影响,它在计算理论和人工智能领域被广泛引用和讨论。
总的来说,这篇论文确实非常重要,因为它为神经网络的计算能力提供了理论证明,并且在计算理论和人工智能领域产生了深远的影响。如果你对神经网络的理论基础和计算能力感兴趣,这篇论文是一个重要的参考文献。