当前位置: 首页 > wzjs >正文

咨询公司招聘天津百度搜索排名优化

咨询公司招聘,天津百度搜索排名优化,一站式的手机网站制作,2016wordpress淘宝客程序权重衰退 定义损失函数 $ \ell(\mathbf{w}, b) $ 来衡量模型的预测值与真实值的差距 使用L2范数作为硬性限制 通过限制参数值的选择范围来控制模型容量 min ⁡ ℓ ( w , b ) s u b j e c t t o ∥ w ∥ 2 ≤ θ \min \ell(\mathbf{w}, b) \quad \\ subject \ to \|\mathbf{w…

权重衰退

  • 定义损失函数 $ \ell(\mathbf{w}, b) $ 来衡量模型的预测值与真实值的差距

使用L2范数作为硬性限制

  • 通过限制参数值的选择范围来控制模型容量

min ⁡ ℓ ( w , b ) s u b j e c t t o ∥ w ∥ 2 ≤ θ \min \ell(\mathbf{w}, b) \quad \\ subject \ to \|\mathbf{w}\|^2 \leq \theta min(w,b)subject tow2θ

  • 通常不限制偏移 b(限不限制都差不多)
  • 小的 θ \theta θ 意味着更强的正则项

使用均方范数作为柔性限制

  • 对于约束 w ∥ 2 ≤ θ \mathbf{w}\|^2 \leq \theta w2θ ,它限制了解的候选集合(即只选择范数小于某个值的 )。这个问题难以直接通过传统求导法解决,我们引入 λ \lambda λ 作为惩罚项参数,将约束条件放松,变为惩罚大于 θ \theta θ w ∥ 2 \mathbf{w}\|^2 w2 。则拉格朗日函数为
    L ( w , b , λ ) = ℓ ( w , b ) + λ 2 ( ∥ w ∥ 2 − θ ) \mathcal{L}(\mathbf{w}, b, \lambda) = \ell(\mathbf{w}, b) + \frac{\lambda}{2}(\|\mathbf{w}\|^2 - \theta) L(w,b,λ)=(w,b)+2λ(w2θ)
    通常在不考虑 (\theta) 的情况下,直接写为:
    min ⁡ ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell(\mathbf{w}, b) + \frac{\lambda}{2} \|\mathbf{w}\|^2 min(w,b)+2λw2
    通过优化有正则化项的目标函数,我们是试图在最小化损失函数的同时,让 $ |\mathbf{w}|^2$ 尽量小,达到同样的效果。

  • 即对每个 θ \theta θ ,都可以找到 λ \lambda λ 使得之前的目标函数等价于下面
    min ⁡ ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2 min(w,b)+2λw2
    其中超参数 λ \lambda λ 控制了正则项的重要程度,

    1. λ = 0 \lambda=0 λ=0 :无作用
    2. λ → ∞ , w → 0 \lambda \rightarrow \infty, \mathbf{w} \rightarrow \mathbf{0} λ,w0

参数更新法则

  • 计算梯度

▽ w t = ∂ ∂ w ( ℓ ( w , b ) + λ 2 ∥ w ∥ 2 ) = ∂ ℓ ( w , b ) ∂ w + λ w \begin{aligned} \bigtriangledown _{w_t} &= \frac{\partial}{\partial \mathbf{w}}\left(\ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^2\right)\\ &=\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w} \end{aligned} wt=w((w,b)+2λw2)=w(w,b)+λw

  • 时间 t 更新参数

w t + 1 = w t − η ▽ w t = w t − η ⋅ ( ∂ ℓ ( w , b ) ∂ w + λ w ) = ( 1 − η λ ) w t − η ∂ ℓ ( w t , b t ) ∂ w t \begin{aligned} \mathbf{w}_{t+1}&= w_t - \eta \bigtriangledown _{w_t} \\ &= w_t - \eta \cdot (\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w}) \\ &=(1-\eta \lambda) \mathbf{w}_t-\eta \frac{\partial \ell\left(\mathbf{w}_t, b_t\right)}{\partial \mathbf{w}_t} \end{aligned} wt+1=wtηwt=wtη(w(w,b)+λw)=(1ηλ)wtηwt(wt,bt)

  • 通常 η λ < 1 \eta \lambda<1 ηλ<1 ,则 ( 1 − η λ ) < 1 (1-\eta \lambda) < 1 (1ηλ)<1 ,在更新参数梯度的时候, w t w_t wt 会首先乘以一个小于1的数, 在深度学习中通常叫做权重衰退。

http://www.dtcms.com/wzjs/511177.html

相关文章:

  • 旅行网站建设火狐搜索引擎
  • 建设工程安全A证在哪个网站可查网络营销策划怎么写
  • ps做网站要多大长沙关键词自然排名
  • 网站开发结构有怎样做市场营销策划
  • 临沂网站建设哪家更好舟山百度seo
  • 邯郸怎么做网站阿里巴巴怎么优化关键词排名
  • 网站开发研究前景百度网址大全首页链接
  • 做网站会什么软件seo网站管理招聘
  • 自建vps和买机场哪个好seo网站外链工具
  • 番禺做网站平台企业查询软件
  • 个人摄影网站模板大连seo
  • 天元建设集团有限公司标志源文件北京整站线上推广优化
  • 吉安哪家网站建设公司好什么平台可以发广告引流
  • 大学生兼职网站开发市场推广计划方案模板
  • 人工智能技术应用百度小程序对网站seo
  • 卡通动画网页界面设计东莞关键字排名优化
  • php美食网站开发的意义百度广告投诉电话客服24小时
  • 网站频道运营怎么做四平网络推广
  • wordpress旅游类网站模板seo的搜索排名影响因素有哪些
  • 厦门的一个做设计的网站类聚seo
  • 涟水县建设局网站百度搜索引擎排行榜
  • 邯郸医疗网站建设seo网站诊断分析报告
  • 织梦做网站主页容易吗口碑营销案例简短
  • 环境保护网站模板今日头条极速版官网
  • 抓取网站源码怎么做镜像合肥优化推广公司
  • 做网站对外贸有什么用电商seo引流
  • 找网站建设企业百度知道客服电话
  • 网站建设费用选择网络专业腾讯与中国联通
  • 做网站的哪里有中国电信视频app下载
  • 做的好的新闻网站网店交易平台