神经网络之链式法则的推导
🧠 一、直观理解
设有复合函数:
y=f(g(x)) y = f(g(x)) y=f(g(x))
我们想知道当 xxx 发生微小变化时,yyy 是如何变化的。
- x→x+Δxx \to x + \Delta xx→x+Δx 会引起
- u=g(x)→g(x+Δx)u = g(x) \to g(x + \Delta x)u=g(x)→g(x+Δx),再导致
- y=f(u)→f(g(x+Δx))y = f(u) \to f(g(x + \Delta x))y=f(u)→f(g(x+Δx))
所以:
Δy=f(g(x+Δx))−f(g(x))≈f′(g(x))⋅Δu \Delta y = f(g(x + \Delta x)) - f(g(x)) \approx f'(g(x)) \cdot \Delta u Δy=f(g(x+Δx))−f(g(x))≈f′(g(x))⋅Δu
其中:
Δu=g(x+Δx)−g(x)≈g′(x)⋅Δx \Delta u = g(x + \Delta x) - g(x) \approx g'(x) \cdot \Delta x Δu=g(x+Δx)−g(x)≈g′(x)⋅Δx
代入上面得到:
Δy≈f′(g(x))⋅g′(x)⋅Δx \Delta y \approx f'(g(x)) \cdot g'(x) \cdot \Delta x Δy≈f′(g(x))⋅g′(x)⋅Δx
两边同时除以 Δx\Delta xΔx,并取极限:
limΔx→0ΔyΔx=f′(g(x))⋅g′(x) \lim_{\Delta x \to 0} \frac{\Delta y}{\Delta x} = f'(g(x)) \cdot g'(x) Δx→0limΔxΔy=f′(g(x))⋅g′(x)
这就得到了链式法则的结论。
📐 二、从导数定义严格推导
我们回到导数的定义:
设:
F(x)=f(g(x)) F(x) = f(g(x)) F(x)=f(g(x))
那么导数定义为:
F′(x)=limh→0f(g(x+h))−f(g(x))h F'(x) = \lim_{h \to 0} \frac{f(g(x + h)) - f(g(x))}{h} F′(x)=h→0limhf(g(x+h))−f(g(x))
这里我们做一个技巧性的处理:
设
Δu=g(x+h)−g(x) \Delta u = g(x + h) - g(x) Δu=g(x+h)−g(x)
如果 ggg 在 xxx 点可导,那么 Δu→0\Delta u \to 0Δu→0 当 h→0h \to 0h→0。
于是分式可以写成两部分:
f(g(x+h))−f(g(x))h=f(g(x+h))−f(g(x))g(x+h)−g(x)⋅g(x+h)−g(x)h \frac{f(g(x + h)) - f(g(x))}{h} = \frac{f(g(x + h)) - f(g(x))}{g(x + h) - g(x)} \cdot \frac{g(x + h) - g(x)}{h} hf(g(x+h))−f(g(x))=g(x+h)−g(x)f(g(x+h))−f(g(x))⋅hg(x+h)−g(x)
也就是:
F′(x)=limh→0[f(g(x+h))−f(g(x))g(x+h)−g(x)⋅g(x+h)−g(x)h] F'(x) = \lim_{h \to 0} \left[ \frac{f(g(x + h)) - f(g(x))}{g(x + h) - g(x)} \cdot \frac{g(x + h) - g(x)}{h} \right] F′(x)=h→0lim[g(x+h)−g(x)f(g(x+h))−f(g(x))⋅hg(x+h)−g(x)]
这两个极限分别是:
- 第一个是 f′(g(x))f'\big(g(x)\big)f′(g(x))
- 第二个是 g′(x)g'(x)g′(x)
所以:
F′(x)=f′(g(x))⋅g′(x) F'(x) = f'(g(x)) \cdot g'(x) F′(x)=f′(g(x))⋅g′(x)
✅ 这就是链式法则从导数定义的严谨推导。
✍️ 三、微分符号直观记法(非正式)
有时候用微分记号可以更快速地理解链式法则,虽然它不严谨,但很直观:
设:
- u=g(x)u = g(x)u=g(x)
- y=f(u)y = f(u)y=f(u)
那么:
dydx=dydu⋅dudx \frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx} dxdy=dudy⋅dxdu
这就像“dy”与“du”互相抵消一样,帮助我们记住和理解链式法则。
✅ 总结
链式法则的核心思想是:
复合函数的导数 = 外层函数对“内层变量”的导数 × 内层函数对“x”的导数。
推导方式包括:
方法 | 特点 |
---|---|
直观法 | 易懂,便于形成直觉 |
极限定义法 | 严谨,数学证明 |
微分记法 | 快速记忆和应用,但不够严谨 |