当前位置：首页 > news >正文

L2范数与权重衰退

news 2025/10/16 9:07:21

权重衰退

定义损失函数 $ \ell(\mathbf{w}, b) $ 来衡量模型的预测值与真实值的差距

使用L2范数作为硬性限制

通过限制参数值的选择范围来控制模型容量

$\min \ell(\mathbf{w}, b) \quad \\ subject \ to \|\mathbf{w}\|^2 \leq \theta$

通常不限制偏移 b（限不限制都差不多）
小的 $\theta$ 意味着更强的正则项

使用均方范数作为柔性限制

对于约束 $\mathbf{w}\|^2 \leq \theta$ ，它限制了解的候选集合（即只选择范数小于某个值的）。这个问题难以直接通过传统求导法解决,我们引入 $\lambda$ 作为惩罚项参数，将约束条件放松，变为惩罚大于 $\theta$ 的 $\mathbf{w}\|^2$ 。则拉格朗日函数为
$\mathcal{L}(\mathbf{w}, b, \lambda) = \ell(\mathbf{w}, b) + \frac{\lambda}{2}(\|\mathbf{w}\|^2 - \theta)$
通常在不考虑 (\theta) 的情况下，直接写为：
$\min \ell(\mathbf{w}, b) + \frac{\lambda}{2} \|\mathbf{w}\|^2$
通过优化有正则化项的目标函数，我们是试图在最小化损失函数的同时，让 $ |\mathbf{w}|^2$ 尽量小，达到同样的效果。
即对每个 $\theta$ ，都可以找到 $\lambda$ 使得之前的目标函数等价于下面
$\min \ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2$
其中超参数 $\lambda$ 控制了正则项的重要程度，
1. $\lambda=0$ ：无作用
2. $\lambda \rightarrow \infty, \mathbf{w} \rightarrow \mathbf{0}$

参数更新法则

计算梯度

$\begin{aligned} \bigtriangledown _{w_t} &= \frac{\partial}{\partial \mathbf{w}}\left(\ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2\right)\\ &=\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w} \end{aligned}$

时间 t 更新参数

$\begin{aligned} \mathbf{w}_{t+1}&= w_t - \eta \bigtriangledown _{w_t} \\ &= w_t - \eta \cdot (\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w}) \\ &=(1-\eta \lambda) \mathbf{w}_t-\eta \frac{\partial \ell\left(\mathbf{w}_t, b_t\right)}{\partial \mathbf{w}_t} \end{aligned}$