当前位置: 首页 > news >正文

L2范数与权重衰退

权重衰退

  • 定义损失函数 $ \ell(\mathbf{w}, b) $ 来衡量模型的预测值与真实值的差距

使用L2范数作为硬性限制

  • 通过限制参数值的选择范围来控制模型容量

min ⁡ ℓ ( w , b ) s u b j e c t   t o ∥ w ∥ 2 ≤ θ \min \ell(\mathbf{w}, b) \quad \\ subject \ to \|\mathbf{w}\|^2 \leq \theta min(w,b)subject tow2θ

  • 通常不限制偏移 b(限不限制都差不多)
  • 小的 θ \theta θ 意味着更强的正则项

使用均方范数作为柔性限制

  • 对于约束 w ∥ 2 ≤ θ \mathbf{w}\|^2 \leq \theta w2θ ,它限制了解的候选集合(即只选择范数小于某个值的 )。这个问题难以直接通过传统求导法解决,我们引入 λ \lambda λ 作为惩罚项参数,将约束条件放松,变为惩罚大于 θ \theta θ w ∥ 2 \mathbf{w}\|^2 w2 。则拉格朗日函数为
    L ( w , b , λ ) = ℓ ( w , b ) + λ 2 ( ∥ w ∥ 2 − θ ) \mathcal{L}(\mathbf{w}, b, \lambda) = \ell(\mathbf{w}, b) + \frac{\lambda}{2}(\|\mathbf{w}\|^2 - \theta) L(w,b,λ)=(w,b)+2λ(w2θ)
    通常在不考虑 (\theta) 的情况下,直接写为:
    min ⁡ ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell(\mathbf{w}, b) + \frac{\lambda}{2} \|\mathbf{w}\|^2 min(w,b)+2λw2
    通过优化有正则化项的目标函数,我们是试图在最小化损失函数的同时,让 $ |\mathbf{w}|^2$ 尽量小,达到同样的效果。

  • 即对每个 θ \theta θ ,都可以找到 λ \lambda λ 使得之前的目标函数等价于下面
    min ⁡ ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2 min(w,b)+2λw2
    其中超参数 λ \lambda λ 控制了正则项的重要程度,

    1. λ = 0 \lambda=0 λ=0 :无作用
    2. λ → ∞ , w → 0 \lambda \rightarrow \infty, \mathbf{w} \rightarrow \mathbf{0} λ,w0

参数更新法则

  • 计算梯度

▽ w t = ∂ ∂ w ( ℓ ( w , b ) + λ 2 ∥ w ∥ 2 ) = ∂ ℓ ( w , b ) ∂ w + λ w \begin{aligned} \bigtriangledown _{w_t} &= \frac{\partial}{\partial \mathbf{w}}\left(\ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2\right)\\ &=\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w} \end{aligned} wt=w((w,b)+2λw2)=w(w,b)+λw

  • 时间 t 更新参数

w t + 1 = w t − η ▽ w t = w t − η ⋅ ( ∂ ℓ ( w , b ) ∂ w + λ w ) = ( 1 − η λ ) w t − η ∂ ℓ ( w t , b t ) ∂ w t \begin{aligned} \mathbf{w}_{t+1}&= w_t - \eta \bigtriangledown _{w_t} \\ &= w_t - \eta \cdot (\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w}) \\ &=(1-\eta \lambda) \mathbf{w}_t-\eta \frac{\partial \ell\left(\mathbf{w}_t, b_t\right)}{\partial \mathbf{w}_t} \end{aligned} wt+1=wtηwt=wtη(w(w,b)+λw)=(1ηλ)wtηwt(wt,bt)

  • 通常 η λ < 1 \eta \lambda<1 ηλ<1 ,则 ( 1 − η λ ) < 1 (1-\eta \lambda) < 1 (1ηλ)<1 ,在更新参数梯度的时候, w t w_t wt 会首先乘以一个小于1的数, 在深度学习中通常叫做权重衰退。

相关文章:

  • 烟花爆竹储存作业安全要求
  • nodejs构建项目
  • 前端开发中的问题排查与定位:HTML、CSS、JavaScript(报错的解决方式)
  • 高效的内容搜索工具推荐
  • 【工程开发】LLMC准确高效的LLM压缩工具(一)
  • MIPI协议介绍
  • (四十七)Dart 中的 `identical` 函数与 `const` 关键字
  • GM DC Monitor v2.0 数据中心监控预警平台-CMDB使用教程(第十篇)
  • 【图像处理基石】什么是通透感?
  • cropperjs 2.0裁剪图片后转base64提示“Tainted canvases may not be exported”跨域问题的解决办法。
  • 0x03.Redis 通常应用于哪些场景?
  • 【从0到1搞懂大模型】transformer先导:seq2seq、注意力机制、残差网络等(6)
  • C++ 数据结构之图:从理论到实践
  • React(1)基础入门
  • 【模拟电路】PIN光电二极管和APD雪崩光电二极管
  • I/O进程5
  • fio的资料
  • 基于FPGA的一维时间序列idct变换verilog实现,包含testbench和matlab辅助验证程序
  • L1 第6次课 for循环
  • Python学生信息查询
  • 云速网站建设公司/关键词优化公司电话
  • 可以免费做推广的网站/近期时政热点新闻20条
  • 其它区便宜营销型网站建设/发布软文的平台有哪些
  • 长春企业网站制作优化/如何开一个自己的网站
  • windows server 2012 wordpress/seo是指什么意思
  • 静态网站漏洞/百度下载官方下载安装