当前位置: 首页 > wzjs >正文

免费浏览网站的软件wordpress批量修改引用网址

免费浏览网站的软件,wordpress批量修改引用网址,做网站很火的APP,河北企业自助建站权重衰退 定义损失函数 $ \ell(\mathbf{w}, b) $ 来衡量模型的预测值与真实值的差距 使用L2范数作为硬性限制 通过限制参数值的选择范围来控制模型容量 min ⁡ ℓ ( w , b ) s u b j e c t t o ∥ w ∥ 2 ≤ θ \min \ell(\mathbf{w}, b) \quad \\ subject \ to \|\mathbf{w…

权重衰退

  • 定义损失函数 $ \ell(\mathbf{w}, b) $ 来衡量模型的预测值与真实值的差距

使用L2范数作为硬性限制

  • 通过限制参数值的选择范围来控制模型容量

min ⁡ ℓ ( w , b ) s u b j e c t t o ∥ w ∥ 2 ≤ θ \min \ell(\mathbf{w}, b) \quad \\ subject \ to \|\mathbf{w}\|^2 \leq \theta min(w,b)subject tow2θ

  • 通常不限制偏移 b(限不限制都差不多)
  • 小的 θ \theta θ 意味着更强的正则项

使用均方范数作为柔性限制

  • 对于约束 w ∥ 2 ≤ θ \mathbf{w}\|^2 \leq \theta w2θ ,它限制了解的候选集合(即只选择范数小于某个值的 )。这个问题难以直接通过传统求导法解决,我们引入 λ \lambda λ 作为惩罚项参数,将约束条件放松,变为惩罚大于 θ \theta θ w ∥ 2 \mathbf{w}\|^2 w2 。则拉格朗日函数为
    L ( w , b , λ ) = ℓ ( w , b ) + λ 2 ( ∥ w ∥ 2 − θ ) \mathcal{L}(\mathbf{w}, b, \lambda) = \ell(\mathbf{w}, b) + \frac{\lambda}{2}(\|\mathbf{w}\|^2 - \theta) L(w,b,λ)=(w,b)+2λ(w2θ)
    通常在不考虑 (\theta) 的情况下,直接写为:
    min ⁡ ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell(\mathbf{w}, b) + \frac{\lambda}{2} \|\mathbf{w}\|^2 min(w,b)+2λw2
    通过优化有正则化项的目标函数,我们是试图在最小化损失函数的同时,让 $ |\mathbf{w}|^2$ 尽量小,达到同样的效果。

  • 即对每个 θ \theta θ ,都可以找到 λ \lambda λ 使得之前的目标函数等价于下面
    min ⁡ ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2 min(w,b)+2λw2
    其中超参数 λ \lambda λ 控制了正则项的重要程度,

    1. λ = 0 \lambda=0 λ=0 :无作用
    2. λ → ∞ , w → 0 \lambda \rightarrow \infty, \mathbf{w} \rightarrow \mathbf{0} λ,w0

参数更新法则

  • 计算梯度

▽ w t = ∂ ∂ w ( ℓ ( w , b ) + λ 2 ∥ w ∥ 2 ) = ∂ ℓ ( w , b ) ∂ w + λ w \begin{aligned} \bigtriangledown _{w_t} &= \frac{\partial}{\partial \mathbf{w}}\left(\ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2\right)\\ &=\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w} \end{aligned} wt=w((w,b)+2λw2)=w(w,b)+λw

  • 时间 t 更新参数

w t + 1 = w t − η ▽ w t = w t − η ⋅ ( ∂ ℓ ( w , b ) ∂ w + λ w ) = ( 1 − η λ ) w t − η ∂ ℓ ( w t , b t ) ∂ w t \begin{aligned} \mathbf{w}_{t+1}&= w_t - \eta \bigtriangledown _{w_t} \\ &= w_t - \eta \cdot (\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w}) \\ &=(1-\eta \lambda) \mathbf{w}_t-\eta \frac{\partial \ell\left(\mathbf{w}_t, b_t\right)}{\partial \mathbf{w}_t} \end{aligned} wt+1=wtηwt=wtη(w(w,b)+λw)=(1ηλ)wtηwt(wt,bt)

  • 通常 η λ < 1 \eta \lambda<1 ηλ<1 ,则 ( 1 − η λ ) < 1 (1-\eta \lambda) < 1 (1ηλ)<1 ,在更新参数梯度的时候, w t w_t wt 会首先乘以一个小于1的数, 在深度学习中通常叫做权重衰退。


文章转载自:

http://vxoErW3U.wqmyh.cn
http://uzHTYU6c.wqmyh.cn
http://7tKoqedw.wqmyh.cn
http://MFQcMGIa.wqmyh.cn
http://8gI0lHDQ.wqmyh.cn
http://BPYDHco0.wqmyh.cn
http://0WR2vmwF.wqmyh.cn
http://HhMd4H4g.wqmyh.cn
http://SRfkXMhZ.wqmyh.cn
http://PlXGDj6t.wqmyh.cn
http://WBjpQ3y4.wqmyh.cn
http://ZZmsKgBs.wqmyh.cn
http://hhvTONiV.wqmyh.cn
http://j7D7SCT0.wqmyh.cn
http://vaEiB1zM.wqmyh.cn
http://HcDOAERf.wqmyh.cn
http://tKfJQFor.wqmyh.cn
http://rTXTIf5r.wqmyh.cn
http://qV9PO9uB.wqmyh.cn
http://eCpjpQcN.wqmyh.cn
http://hTVvmKBr.wqmyh.cn
http://KrlgwtHZ.wqmyh.cn
http://Nblo3nAU.wqmyh.cn
http://EEhD6m2x.wqmyh.cn
http://FRj6KFBh.wqmyh.cn
http://5iX5fMRk.wqmyh.cn
http://QeOcG2R8.wqmyh.cn
http://Rq5lNvB3.wqmyh.cn
http://HEiOjMGD.wqmyh.cn
http://tEpDOjNe.wqmyh.cn
http://www.dtcms.com/wzjs/769634.html

相关文章:

  • 推广型的网站怎么做wordpress seo h1标签
  • 深圳市宝安区建设工程交易中心seo排名优化代理
  • 滨海新区商城网站建设领优惠券的网站是怎么做的
  • 密云区社区建设网站沧州工商联网站建设
  • 效果图网站源码关于网站建设分类
  • 企业推广是什么意思网站seo推广招聘
  • 淄博高端网站建设乐达wordpress页面的添加
  • 做企业门户网站要准备哪些内容网站建设服务器环境配置
  • 北京建网站公司哪家便宜赤峰建设淘宝网站
  • 象山专业网站建设旅游网站开发的目的和意义
  • 做网站版权所有怎么写免费校园网站建设
  • cms仿站网站被百度惩罚
  • 网站的建设可以起到什么作用是什么意思o2o网站开发相关技术
  • 做中文网站的公司做兼职哪个网站比较好
  • 教育机构网站是wordpress首页优化缩略图
  • 深圳龙华建网站公司vr看房制作软件
  • 网站备案 法人代表宁波北仑做公司网站
  • 镇江企业网站设计开发价格如何用服务器做网站
  • c 与oracle做网站导购wordpress主题
  • 山西省住房和建设厅网站做网站猫要做端口映射吗
  • 国外优秀网站模板百度123123网址大全
  • dw 做网站图片之间的链接网站文章页要不要做内链
  • 焦作做微信网站多少钱vs怎么添加做网站
  • 营销型企业网站报价启东市住房和城乡建设局网站
  • 什么网站做的产品海报比较多中小企业品牌网站建设
  • 旅社网站怎么建立链接提交入口
  • 设计一个网站的首页步骤有没有专门做翻译的网站
  • 如何创建网站挣钱学做网站多长时间
  • 龙华网站建设哪家好王烨森
  • 济宁哪家网站建设公司正规wordpress批量删除