当前位置: 首页 > news >正文

Sigmoid函数导数推导详解

Sigmoid函数导数推导详解

  • 在逻辑回归中,Sigmoid函数的导数推导是一个关键步骤,它使得梯度下降算法能够高效地计算。

1. Sigmoid函数定义

首先回顾Sigmoid函数的定义:

g ( z ) = 1 1 + e − z g(z) = \frac{1}{1 + e^{-z}} g(z)=1+ez1

2. 导数推导过程

  1. 从Sigmoid函数出发:
    g ( z ) = 1 1 + e − z g(z) = \frac{1}{1 + e^{-z}} g(z)=1+ez1

  2. u = 1 + e − z u = 1 + e^{-z} u=1+ez,则 g ( z ) = u − 1 g(z) = u^{-1} g(z)=u1

  3. 使用链式法则:
    d g d z = d g d u ⋅ d u d z = − u − 2 ⋅ ( − e − z ) = e − z ( 1 + e − z ) 2 \frac{dg}{dz} = \frac{dg}{du} \cdot \frac{du}{dz} = -u^{-2} \cdot (-e^{-z}) = \frac{e^{-z}}{(1 + e^{-z})^2} dzdg=dudgdzdu=u2(ez)=(1+ez)2ez

  4. 现在,我们将其表示为 g ( z ) g(z) g(z)的函数:
    e − z 1 + e − z = 1 − 1 1 + e − z = 1 − g ( z ) \frac{e^{-z}}{1 + e^{-z}} = 1 - \frac{1}{1 + e^{-z}} = 1 - g(z) 1+ezez=11+ez1=1g(z)

  5. 因此:
    g ′ ( z ) = 1 1 + e − z ⋅ e − z 1 + e − z = g ( z ) ⋅ ( 1 − g ( z ) ) g'(z) = \frac{1}{1 + e^{-z}} \cdot \frac{e^{-z}}{1 + e^{-z}} = g(z) \cdot (1 - g(z)) g(z)=1+ez11+ezez=g(z)(1g(z))

3. 代码实现

import numpy as np
import matplotlib.pyplot as pltdef sigmoid(z):return 1 / (1 + np.exp(-z))def sigmoid_derivative(z):return sigmoid(z) * (1 - sigmoid(z))z = np.linspace(-10, 10, 100)
plt.figure(figsize=(10, 6))
plt.plot(z, sigmoid(z), label="Sigmoid function")
plt.plot(z, sigmoid_derivative(z), label="Sigmoid derivative")
plt.xlabel("z")
plt.ylabel("g(z)")
plt.title("Sigmoid Function and its Derivative")
plt.legend()
plt.grid(True)
plt.show()

在这里插入图片描述

4. 导数性质分析

  1. 最大值:当 g ( z ) = 0.5 g(z) = 0.5 g(z)=0.5时,导数达到最大值 0.25 0.25 0.25
  2. 对称性:导数在 z = 0 z=0 z=0时最大,随着 ∣ z ∣ |z| z增大而迅速减小
  3. 非负性:导数始终非负,因为 0 < g ( z ) < 1 0 < g(z) < 1 0<g(z)<1

5. 导数形式的重要型

  • 在逻辑回归的梯度下降中,需要计算损失函数对参数的导数。由于损失函数中包含Sigmoid函数,这个导数形式使得计算变得非常简洁:

∂ ∂ θ j J ( θ ) = 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} θjJ(θ)=m1i=1m(hθ(x(i))y(i))xj(i)

  • 其中 h θ ( x ) = g ( θ T x ) h_\theta(x) = g(\theta^T x) hθ(x)=g(θTx)。如果没有这个简洁的导数形式,梯度计算会复杂得多。

  • 推导损失函数对 θ j \theta_j θj的偏导数:
    ∂ ∂ θ j J ( θ ) = − 1 m ∑ i = 1 m ( y i 1 h θ ( x i ) − ( 1 − y i ) 1 1 − h θ ( x i ) ) ∂ ∂ θ j h θ ( x i ) = − 1 m ∑ i = 1 m ( y i 1 g ( θ T x i ) − ( 1 − y i ) 1 1 − g ( θ T x i ) ) g ( θ T x i ) ( 1 − g ( θ T x i ) ) x i j = − 1 m ∑ i = 1 m ( y i ( 1 − g ( θ T x i ) ) − ( 1 − y i ) g ( θ T x i ) ) x i j = 1 m ∑ i = 1 m ( h θ ( x i ) − y i ) x i j \begin{align*} \frac{\partial}{\partial \theta_j} J(\theta) &= -\frac{1}{m}\sum_{i=1}^m \left(y_i \frac{1}{h_\theta(x_i)} - (1-y_i)\frac{1}{1-h_\theta(x_i)}\right) \frac{\partial}{\partial \theta_j} h_\theta(x_i) \\ &= -\frac{1}{m}\sum_{i=1}^m \left(y_i \frac{1}{g(\theta^T x_i)} - (1-y_i)\frac{1}{1-g(\theta^T x_i)}\right) g(\theta^T x_i)(1-g(\theta^T x_i)) x_i^j \\ &= -\frac{1}{m}\sum_{i=1}^m \left(y_i(1-g(\theta^T x_i)) - (1-y_i)g(\theta^T x_i)\right) x_i^j \\ &= \frac{1}{m}\sum_{i=1}^m (h_\theta(x_i) - y_i) x_i^j \end{align*} θjJ(θ)=m1i=1m(yihθ(xi)1(1yi)1hθ(xi)1)θjhθ(xi)=m1i=1m(yig(θTxi)1(1yi)1g(θTxi)1)g(θTxi)(1g(θTxi))xij=m1i=1m(yi(1g(θTxi))(1yi)g(θTxi))xij=m1i=1m(hθ(xi)yi)xij

相关文章:

  • 拆解 browser-use 项目——深入理解 Agent 层
  • CUDA从入门到放弃
  • 小结:ipsec-ike
  • 使用 MCP(模型上下文协议)和 Claude 在 Node.js 中构建聊天应用程序
  • Learning vtkjs之DepthTest
  • 21.2Linux中的LCD驱动实验(驱动)_csdn
  • [操作系统] 线程互斥
  • 大模型 Function Call
  • Unity SpriteEditor(精灵图片编辑器)
  • 24.Linux中RTC的驱动实验_csdn
  • 1.67g 雨晨 22635.5305 Windows 11 企业版 23H2 极速增强版
  • 边缘计算革命:大模型轻量化部署全栈实战指南
  • 机器人--底盘
  • 链表系列一>合并 k 个升序链表
  • Sublime Text4 4192 安装和一键激活
  • 基于Redis实现-附近商铺查询
  • 在项目中如何对Map List等对象序列化及反序列化
  • 第二章 OpenCV篇-图像阈值的综合操作-Python
  • 【瑞萨RA4L1-SENSOR套件测评】LCD 实时显示 ADC 水位高度
  • vue中$set原理
  • 安徽两位新任地级市政府党组书记亮相
  • “非思”的思想——探索失语者的思想史
  • 美国第一季度经济环比萎缩0.3%,特朗普:怪拜登,与关税无关
  • 停电催生商机,中国品牌 “照亮” 西班牙
  • 光明日报社论:用你我的匠心,托举起繁盛的中国
  • 学有质量、查有力度、改有成效,广大党员干部落实中央八项规定精神