当前位置: 首页 > news >正文

神经网络之链式法则的推导

🧠 一、直观理解

设有复合函数:

y=f(g(x)) y = f(g(x)) y=f(g(x))

我们想知道当 xxx 发生微小变化时,yyy 是如何变化的。

  • x→x+Δxx \to x + \Delta xxx+Δx 会引起
  • u=g(x)→g(x+Δx)u = g(x) \to g(x + \Delta x)u=g(x)g(x+Δx),再导致
  • y=f(u)→f(g(x+Δx))y = f(u) \to f(g(x + \Delta x))y=f(u)f(g(x+Δx))

所以:

Δy=f(g(x+Δx))−f(g(x))≈f′(g(x))⋅Δu \Delta y = f(g(x + \Delta x)) - f(g(x)) \approx f'(g(x)) \cdot \Delta u Δy=f(g(x+Δx))f(g(x))f(g(x))Δu

其中:

Δu=g(x+Δx)−g(x)≈g′(x)⋅Δx \Delta u = g(x + \Delta x) - g(x) \approx g'(x) \cdot \Delta x Δu=g(x+Δx)g(x)g(x)Δx

代入上面得到:

Δy≈f′(g(x))⋅g′(x)⋅Δx \Delta y \approx f'(g(x)) \cdot g'(x) \cdot \Delta x Δyf(g(x))g(x)Δx

两边同时除以 Δx\Delta xΔx,并取极限:

lim⁡Δx→0ΔyΔx=f′(g(x))⋅g′(x) \lim_{\Delta x \to 0} \frac{\Delta y}{\Delta x} = f'(g(x)) \cdot g'(x) Δx0limΔxΔy=f(g(x))g(x)

这就得到了链式法则的结论。


📐 二、从导数定义严格推导

我们回到导数的定义:

设:

F(x)=f(g(x)) F(x) = f(g(x)) F(x)=f(g(x))

那么导数定义为:

F′(x)=lim⁡h→0f(g(x+h))−f(g(x))h F'(x) = \lim_{h \to 0} \frac{f(g(x + h)) - f(g(x))}{h} F(x)=h0limhf(g(x+h))f(g(x))

这里我们做一个技巧性的处理:

Δu=g(x+h)−g(x) \Delta u = g(x + h) - g(x) Δu=g(x+h)g(x)

如果 gggxxx 点可导,那么 Δu→0\Delta u \to 0Δu0h→0h \to 0h0

于是分式可以写成两部分:

f(g(x+h))−f(g(x))h=f(g(x+h))−f(g(x))g(x+h)−g(x)⋅g(x+h)−g(x)h \frac{f(g(x + h)) - f(g(x))}{h} = \frac{f(g(x + h)) - f(g(x))}{g(x + h) - g(x)} \cdot \frac{g(x + h) - g(x)}{h} hf(g(x+h))f(g(x))=g(x+h)g(x)f(g(x+h))f(g(x))hg(x+h)g(x)

也就是:

F′(x)=lim⁡h→0[f(g(x+h))−f(g(x))g(x+h)−g(x)⋅g(x+h)−g(x)h] F'(x) = \lim_{h \to 0} \left[ \frac{f(g(x + h)) - f(g(x))}{g(x + h) - g(x)} \cdot \frac{g(x + h) - g(x)}{h} \right] F(x)=h0lim[g(x+h)g(x)f(g(x+h))f(g(x))hg(x+h)g(x)]

这两个极限分别是:

  • 第一个是 f′(g(x))f'\big(g(x)\big)f(g(x))
  • 第二个是 g′(x)g'(x)g(x)

所以:

F′(x)=f′(g(x))⋅g′(x) F'(x) = f'(g(x)) \cdot g'(x) F(x)=f(g(x))g(x)

✅ 这就是链式法则从导数定义的严谨推导


✍️ 三、微分符号直观记法(非正式)

有时候用微分记号可以更快速地理解链式法则,虽然它不严谨,但很直观:

设:

  • u=g(x)u = g(x)u=g(x)
  • y=f(u)y = f(u)y=f(u)

那么:

dydx=dydu⋅dudx \frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx} dxdy=dudydxdu

这就像“dy”与“du”互相抵消一样,帮助我们记住和理解链式法则。


✅ 总结

链式法则的核心思想是:

复合函数的导数 = 外层函数对“内层变量”的导数 × 内层函数对“x”的导数。

推导方式包括:

方法特点
直观法易懂,便于形成直觉
极限定义法严谨,数学证明
微分记法快速记忆和应用,但不够严谨
http://www.dtcms.com/a/482099.html

相关文章:

  • 打印室预约系统|基于java和小程序的打印室预约系统设计与实现(源码+数据库+文档)
  • 东莞市网站建设制作设计平台wordpress顶部导航栏怎么创建
  • 理解 Git 命令 `git reset --hard origin/pre`:版本回退的“利刃”与使用禁忌
  • Git 10 ,使用 SSH 提升 Git 操作速度的实践指南( Git 拉取推送响应慢 )
  • 【C++】使用MSBuild命令行编译ACE、TAO、DDS
  • 郑州市建设投资集团公司网站网站开发私活
  • ⽹络原理-HTTP/HTTPS
  • 58同城哈尔滨网站建设宁波网络公司网站建s
  • windows系统实操Flutter鸿蒙环境搭建
  • Epimedin-B 通过靶向 MCOLN1/TRPML1 通道阻断自噬流
  • HUD-汽车图标内容
  • 使用Vela编译器开发Ethos-U NPU流程导引
  • 西城区网站建设推广seo网站技术团队
  • 泛型学习——看透通配符?与PECS 法则
  • 跨平台音频IO处理库libsoundio实践
  • 详解云原生!!
  • 网站跟客户端推广怎么做 上软件免费下载
  • JVM - 内存泄露与内存溢出
  • iOS 26 性能测试实战,性能评估、帧率、资源瓶颈 + 多工具辅助测试
  • elasticsearch数据迁移
  • 可以横跨时间轴,分类显示的事件
  • 2.0 轴承的分类与套筒、甩油环作用
  • mvc 网站 只列出目录wordpress速度慢2018
  • 电子商务网站建设一体化教案代运营公司网站
  • 深度学习与大模型技术实战:从算法原理到应用部署
  • YOLO v3:目标检测领域的经典革新与实战指南
  • MATLAB基于GWO(灰狼优化算法)优化LSTM神经网络的分类模型实现。主要功能是通过智能算法自动寻找LSTM的最佳超参数,构建分类模型并对数据进行分类预测
  • 网站的制医院网站建设台账
  • 用python操作mysql之pymysql库基本操作
  • 数据结构 05 栈和队列