当前位置: 首页 > wzjs >正文

建网站找兴田德润网上商城网站建设规划

建网站找兴田德润,网上商城网站建设规划,佛山平面设计,自己做微信团购小程序权重衰退 定义损失函数 $ \ell(\mathbf{w}, b) $ 来衡量模型的预测值与真实值的差距 使用L2范数作为硬性限制 通过限制参数值的选择范围来控制模型容量 min ⁡ ℓ ( w , b ) s u b j e c t t o ∥ w ∥ 2 ≤ θ \min \ell(\mathbf{w}, b) \quad \\ subject \ to \|\mathbf{w…

权重衰退

  • 定义损失函数 $ \ell(\mathbf{w}, b) $ 来衡量模型的预测值与真实值的差距

使用L2范数作为硬性限制

  • 通过限制参数值的选择范围来控制模型容量

min ⁡ ℓ ( w , b ) s u b j e c t t o ∥ w ∥ 2 ≤ θ \min \ell(\mathbf{w}, b) \quad \\ subject \ to \|\mathbf{w}\|^2 \leq \theta min(w,b)subject tow2θ

  • 通常不限制偏移 b(限不限制都差不多)
  • 小的 θ \theta θ 意味着更强的正则项

使用均方范数作为柔性限制

  • 对于约束 w ∥ 2 ≤ θ \mathbf{w}\|^2 \leq \theta w2θ ,它限制了解的候选集合(即只选择范数小于某个值的 )。这个问题难以直接通过传统求导法解决,我们引入 λ \lambda λ 作为惩罚项参数,将约束条件放松,变为惩罚大于 θ \theta θ w ∥ 2 \mathbf{w}\|^2 w2 。则拉格朗日函数为
    L ( w , b , λ ) = ℓ ( w , b ) + λ 2 ( ∥ w ∥ 2 − θ ) \mathcal{L}(\mathbf{w}, b, \lambda) = \ell(\mathbf{w}, b) + \frac{\lambda}{2}(\|\mathbf{w}\|^2 - \theta) L(w,b,λ)=(w,b)+2λ(w2θ)
    通常在不考虑 (\theta) 的情况下,直接写为:
    min ⁡ ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell(\mathbf{w}, b) + \frac{\lambda}{2} \|\mathbf{w}\|^2 min(w,b)+2λw2
    通过优化有正则化项的目标函数,我们是试图在最小化损失函数的同时,让 $ |\mathbf{w}|^2$ 尽量小,达到同样的效果。

  • 即对每个 θ \theta θ ,都可以找到 λ \lambda λ 使得之前的目标函数等价于下面
    min ⁡ ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2 min(w,b)+2λw2
    其中超参数 λ \lambda λ 控制了正则项的重要程度,

    1. λ = 0 \lambda=0 λ=0 :无作用
    2. λ → ∞ , w → 0 \lambda \rightarrow \infty, \mathbf{w} \rightarrow \mathbf{0} λ,w0

参数更新法则

  • 计算梯度

▽ w t = ∂ ∂ w ( ℓ ( w , b ) + λ 2 ∥ w ∥ 2 ) = ∂ ℓ ( w , b ) ∂ w + λ w \begin{aligned} \bigtriangledown _{w_t} &= \frac{\partial}{\partial \mathbf{w}}\left(\ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2\right)\\ &=\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w} \end{aligned} wt=w((w,b)+2λw2)=w(w,b)+λw

  • 时间 t 更新参数

w t + 1 = w t − η ▽ w t = w t − η ⋅ ( ∂ ℓ ( w , b ) ∂ w + λ w ) = ( 1 − η λ ) w t − η ∂ ℓ ( w t , b t ) ∂ w t \begin{aligned} \mathbf{w}_{t+1}&= w_t - \eta \bigtriangledown _{w_t} \\ &= w_t - \eta \cdot (\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w}) \\ &=(1-\eta \lambda) \mathbf{w}_t-\eta \frac{\partial \ell\left(\mathbf{w}_t, b_t\right)}{\partial \mathbf{w}_t} \end{aligned} wt+1=wtηwt=wtη(w(w,b)+λw)=(1ηλ)wtηwt(wt,bt)

  • 通常 η λ < 1 \eta \lambda<1 ηλ<1 ,则 ( 1 − η λ ) < 1 (1-\eta \lambda) < 1 (1ηλ)<1 ,在更新参数梯度的时候, w t w_t wt 会首先乘以一个小于1的数, 在深度学习中通常叫做权重衰退。


文章转载自:

http://2GZAMwWv.wdLyt.cn
http://fwCTACCz.wdLyt.cn
http://QqbXylXA.wdLyt.cn
http://6d7dXMlz.wdLyt.cn
http://Mn5U42V4.wdLyt.cn
http://iSYe7dZE.wdLyt.cn
http://OiT9jJPD.wdLyt.cn
http://XhmBnURs.wdLyt.cn
http://VysqMMZZ.wdLyt.cn
http://Cu0hjpl4.wdLyt.cn
http://N29U63VK.wdLyt.cn
http://40QyPSmq.wdLyt.cn
http://zVpgEldJ.wdLyt.cn
http://SnxCqpu5.wdLyt.cn
http://r0dmrwET.wdLyt.cn
http://1fSx3daK.wdLyt.cn
http://69o1yUMg.wdLyt.cn
http://ULR8a6gO.wdLyt.cn
http://ctn2mGGg.wdLyt.cn
http://rQaTCqO9.wdLyt.cn
http://plGghKXO.wdLyt.cn
http://ZlPP1eBw.wdLyt.cn
http://w8tMuW2h.wdLyt.cn
http://A3Gr9vYK.wdLyt.cn
http://gm2tXNxC.wdLyt.cn
http://WDMvegEA.wdLyt.cn
http://nwuXsh7w.wdLyt.cn
http://iHgq9x8A.wdLyt.cn
http://6oBc9YMz.wdLyt.cn
http://nu1NdFs0.wdLyt.cn
http://www.dtcms.com/wzjs/647945.html

相关文章:

  • 燕郊建设局网站国外做兼职网站设计
  • 国外有哪些网站做推广的比较好网站设计公司哪家好如何选择呀
  • 南宁营销型网站建设公司哪家好生鲜网站建设背景
  • 建瓯网站制作如何做企业产品推广
  • 小江网站建设公司统一门户网站建设规范
  • 谷歌收录网站网站自己怎么做直播
  • 珠海网站艰涩和合肥网站建设渠道
  • 临沂网站建设兼职优秀的网站建设解决方案
  • 做网站界面尺寸是多少答辩ppt模板下载免费完整版
  • 好看大方的企业网站源码.net石家庄新闻最新
  • 做网站的说3年3年包括什么如何把网站上传到网上
  • aspcms中引文 网站修改配置wordpress博客分类
  • 如何建设一个收费的影视图文网站广西响应式网站哪家好
  • 个人电影网站建设wordpress评论ajax加载
  • 网站下载系统网站建设优化公司招聘
  • 宁波自主建站模板做网站的价格贵吗
  • 网站的软件怎么申请公司
  • 时尚大气网站设计中国建设人才招聘官网
  • wordpress部署文件网络推广的优化方法
  • 成都网站建设 公司企业网站制作公司有哪些
  • 网站网络优化服务器济南做网站xywlcn
  • 微网站技术广告公司记账管理软件
  • 大连手机自适应网站制作费用企业运营管理案例分析
  • wordpress会员系统大型网站seo
  • 南华大学城市建设学院网站wordpress 淘宝客 主题
  • 推广型网站建设公司专门做外贸网站
  • 怎么分析网站用什么技术做的专门做产品定制的网站
  • 精品网站建设费用 要上磐石网络seo关键词
  • 地方门户网站推广哪些经营范围是包含网站开发的
  • 哪个网站可以做c 的项目中山网站建设文化价格