L2范数与权重衰退
权重衰退
- 定义损失函数 $ \ell(\mathbf{w}, b) $ 来衡量模型的预测值与真实值的差距
使用L2范数作为硬性限制
- 通过限制参数值的选择范围来控制模型容量
min ℓ ( w , b ) s u b j e c t t o ∥ w ∥ 2 ≤ θ \min \ell(\mathbf{w}, b) \quad \\ subject \ to \|\mathbf{w}\|^2 \leq \theta minℓ(w,b)subject to∥w∥2≤θ
- 通常不限制偏移 b(限不限制都差不多)
- 小的 θ \theta θ 意味着更强的正则项
使用均方范数作为柔性限制
-
对于约束 w ∥ 2 ≤ θ \mathbf{w}\|^2 \leq \theta w∥2≤θ ,它限制了解的候选集合(即只选择范数小于某个值的 )。这个问题难以直接通过传统求导法解决,我们引入 λ \lambda λ 作为惩罚项参数,将约束条件放松,变为惩罚大于 θ \theta θ 的 w ∥ 2 \mathbf{w}\|^2 w∥2 。则拉格朗日函数为
L ( w , b , λ ) = ℓ ( w , b ) + λ 2 ( ∥ w ∥ 2 − θ ) \mathcal{L}(\mathbf{w}, b, \lambda) = \ell(\mathbf{w}, b) + \frac{\lambda}{2}(\|\mathbf{w}\|^2 - \theta) L(w,b,λ)=ℓ(w,b)+2λ(∥w∥2−θ)
通常在不考虑 (\theta) 的情况下,直接写为:
min ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell(\mathbf{w}, b) + \frac{\lambda}{2} \|\mathbf{w}\|^2 minℓ(w,b)+2λ∥w∥2
通过优化有正则化项的目标函数,我们是试图在最小化损失函数的同时,让 $ |\mathbf{w}|^2$ 尽量小,达到同样的效果。 -
即对每个 θ \theta θ ,都可以找到 λ \lambda λ 使得之前的目标函数等价于下面
min ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2 minℓ(w,b)+2λ∥w∥2
其中超参数 λ \lambda λ 控制了正则项的重要程度,- λ = 0 \lambda=0 λ=0 :无作用
- λ → ∞ , w → 0 \lambda \rightarrow \infty, \mathbf{w} \rightarrow \mathbf{0} λ→∞,w→0
参数更新法则
- 计算梯度
▽ w t = ∂ ∂ w ( ℓ ( w , b ) + λ 2 ∥ w ∥ 2 ) = ∂ ℓ ( w , b ) ∂ w + λ w \begin{aligned} \bigtriangledown _{w_t} &= \frac{\partial}{\partial \mathbf{w}}\left(\ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2\right)\\ &=\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w} \end{aligned} ▽wt=∂w∂(ℓ(w,b)+2λ∥w∥2)=∂w∂ℓ(w,b)+λw
- 时间 t 更新参数
w t + 1 = w t − η ▽ w t = w t − η ⋅ ( ∂ ℓ ( w , b ) ∂ w + λ w ) = ( 1 − η λ ) w t − η ∂ ℓ ( w t , b t ) ∂ w t \begin{aligned} \mathbf{w}_{t+1}&= w_t - \eta \bigtriangledown _{w_t} \\ &= w_t - \eta \cdot (\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w}) \\ &=(1-\eta \lambda) \mathbf{w}_t-\eta \frac{\partial \ell\left(\mathbf{w}_t, b_t\right)}{\partial \mathbf{w}_t} \end{aligned} wt+1=wt−η▽wt=wt−η⋅(∂w∂ℓ(w,b)+λw)=(1−ηλ)wt−η∂wt∂ℓ(wt,bt)
- 通常 η λ < 1 \eta \lambda<1 ηλ<1 ,则 ( 1 − η λ ) < 1 (1-\eta \lambda) < 1 (1−ηλ)<1 ,在更新参数梯度的时候, w t w_t wt 会首先乘以一个小于1的数, 在深度学习中通常叫做权重衰退。