当前位置: 首页 > news >正文

做淘宝客网站要申请什么陕西省建设监理协会网站

做淘宝客网站要申请什么,陕西省建设监理协会网站,怎样建立网站快捷方式,网站的修改权重衰退 定义损失函数 $ \ell(\mathbf{w}, b) $ 来衡量模型的预测值与真实值的差距 使用L2范数作为硬性限制 通过限制参数值的选择范围来控制模型容量 min ⁡ ℓ ( w , b ) s u b j e c t t o ∥ w ∥ 2 ≤ θ \min \ell(\mathbf{w}, b) \quad \\ subject \ to \|\mathbf{w…

权重衰退

  • 定义损失函数 $ \ell(\mathbf{w}, b) $ 来衡量模型的预测值与真实值的差距

使用L2范数作为硬性限制

  • 通过限制参数值的选择范围来控制模型容量

min ⁡ ℓ ( w , b ) s u b j e c t t o ∥ w ∥ 2 ≤ θ \min \ell(\mathbf{w}, b) \quad \\ subject \ to \|\mathbf{w}\|^2 \leq \theta min(w,b)subject tow2θ

  • 通常不限制偏移 b(限不限制都差不多)
  • 小的 θ \theta θ 意味着更强的正则项

使用均方范数作为柔性限制

  • 对于约束 w ∥ 2 ≤ θ \mathbf{w}\|^2 \leq \theta w2θ ,它限制了解的候选集合(即只选择范数小于某个值的 )。这个问题难以直接通过传统求导法解决,我们引入 λ \lambda λ 作为惩罚项参数,将约束条件放松,变为惩罚大于 θ \theta θ w ∥ 2 \mathbf{w}\|^2 w2 。则拉格朗日函数为
    L ( w , b , λ ) = ℓ ( w , b ) + λ 2 ( ∥ w ∥ 2 − θ ) \mathcal{L}(\mathbf{w}, b, \lambda) = \ell(\mathbf{w}, b) + \frac{\lambda}{2}(\|\mathbf{w}\|^2 - \theta) L(w,b,λ)=(w,b)+2λ(w2θ)
    通常在不考虑 (\theta) 的情况下,直接写为:
    min ⁡ ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell(\mathbf{w}, b) + \frac{\lambda}{2} \|\mathbf{w}\|^2 min(w,b)+2λw2
    通过优化有正则化项的目标函数,我们是试图在最小化损失函数的同时,让 $ |\mathbf{w}|^2$ 尽量小,达到同样的效果。

  • 即对每个 θ \theta θ ,都可以找到 λ \lambda λ 使得之前的目标函数等价于下面
    min ⁡ ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2 min(w,b)+2λw2
    其中超参数 λ \lambda λ 控制了正则项的重要程度,

    1. λ = 0 \lambda=0 λ=0 :无作用
    2. λ → ∞ , w → 0 \lambda \rightarrow \infty, \mathbf{w} \rightarrow \mathbf{0} λ,w0

参数更新法则

  • 计算梯度

▽ w t = ∂ ∂ w ( ℓ ( w , b ) + λ 2 ∥ w ∥ 2 ) = ∂ ℓ ( w , b ) ∂ w + λ w \begin{aligned} \bigtriangledown _{w_t} &= \frac{\partial}{\partial \mathbf{w}}\left(\ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2\right)\\ &=\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w} \end{aligned} wt=w((w,b)+2λw2)=w(w,b)+λw

  • 时间 t 更新参数

w t + 1 = w t − η ▽ w t = w t − η ⋅ ( ∂ ℓ ( w , b ) ∂ w + λ w ) = ( 1 − η λ ) w t − η ∂ ℓ ( w t , b t ) ∂ w t \begin{aligned} \mathbf{w}_{t+1}&= w_t - \eta \bigtriangledown _{w_t} \\ &= w_t - \eta \cdot (\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w}) \\ &=(1-\eta \lambda) \mathbf{w}_t-\eta \frac{\partial \ell\left(\mathbf{w}_t, b_t\right)}{\partial \mathbf{w}_t} \end{aligned} wt+1=wtηwt=wtη(w(w,b)+λw)=(1ηλ)wtηwt(wt,bt)

  • 通常 η λ < 1 \eta \lambda<1 ηλ<1 ,则 ( 1 − η λ ) < 1 (1-\eta \lambda) < 1 (1ηλ)<1 ,在更新参数梯度的时候, w t w_t wt 会首先乘以一个小于1的数, 在深度学习中通常叫做权重衰退。

http://www.dtcms.com/a/603802.html

相关文章:

  • 通化建设工程信息网站我想学做网站
  • 怎么做自助提卡网站如何利用国外分类网站开发客户
  • 商城网站建设公司排行国外搜索引擎排名
  • 如何免费申请自己的网站医疗器械产品设计公司
  • 网站项目建设的必要性房地产开发建设网站
  • 网站开发亿玛酷信赖高档网站设计
  • 搬瓦工vps做网站速度怎么样广州培训做网站
  • 一文吃透 Java 枚举(Enum):从基础语法到高级用法全解析
  • 厦门做网站排名摄影网站的制作
  • wordpress登陆页文件夹快速做网站优化
  • 网站建设下什么费用婚纱照网站制作
  • 余杭住房和城乡建设局网站网页设计公司平台
  • 网站外链接自己可以怎么做WordPress自己安装了插件
  • 平板电脑 做网站开发如何做繁体字网站
  • 怎么创建wordpress站点昆明昌盛网络技术有限公司
  • 探秘 Java 类的高级特性:从继承到多态
  • 宁夏网站建设价格哪家公司网站建设好点
  • 怎么做国际网站首页网站的公共头部怎么做
  • 常宁市建设局网站织梦企业网站管理系统
  • 网站建设课程ppt模板做高端网站的公司
  • 免费建立个人视频网站网站建设友链交换
  • 和15岁女儿做很舒服网站聂教练做0网站
  • 网站做任务领q币做网站图片多大
  • 汕头市广州新业建设有限公司网站建设西安网站
  • 外贸网站建设公司效果中国建设银行2024版本
  • 长沙网站制作合作商济南微信网站
  • 深圳外贸网站建设制作方法找建网站模板
  • 企业网站推广渠道有哪些小程序微信怎么开发
  • 基本网站建设知识站内搜索引擎
  • 宁波网站制作维护建设网站租用空间