当前位置: 首页 > wzjs >正文

做网站销售的网站制作公司权威乐云践新专家

做网站销售的,网站制作公司权威乐云践新专家,做水暖的网站,wordpress静态路由总结反向传播算法。 来源于https://udlbook.github.io/udlbook/,我不明白初始不从 x 0 \boldsymbol{x}_0 x0​开始,而是从 z 0 \boldsymbol{z}_0 z0​开始,不知道怎么想的。 考虑一个深度神经网络 g [ x i , ϕ ] g[\boldsymbol{x}_i, \bold…

总结反向传播算法。

来源于https://udlbook.github.io/udlbook/,我不明白初始不从 x 0 \boldsymbol{x}_0 x0开始,而是从 z 0 \boldsymbol{z}_0 z0开始,不知道怎么想的。


考虑一个深度神经网络 g [ x i , ϕ ] g[\boldsymbol{x}_i, \boldsymbol{\phi}] g[xi,ϕ],它接受输入 x i \boldsymbol{x}_i xi,具有 N N N个隐藏层和 ReLU 激活函数,并且有单独的损失项 L i = l o s s [ g [ x i , ϕ ] , y i ] L_i = {\rm loss}[g[\boldsymbol{x}_i, \boldsymbol{\phi}], \boldsymbol{y}_i] Li=loss[g[xi,ϕ],yi]。反向传播的目标是计算关于偏差 b ι \boldsymbol{b}_\iota bι和权重 W ι \boldsymbol{W}_\iota Wι的导数 ∂ L i ∂ b ι \frac{\partial L_i}{\partial \boldsymbol{b}_\iota} bιLi ∂ L i ∂ W ι \frac{\partial L_i}{\partial \boldsymbol{W}_\iota} WιLi

前向传递: 计算并存储以下量:

z 0 = b 0 + W 0 x i x ι = f [ z ι − 1 ] ι ∈ { 1 , 2 , … , M } z ι = b ι + W ι x ι . ι ∈ { 1 , 2 , … , M } \begin{aligned} \boldsymbol{z}_0 &= \boldsymbol{b}_0 + \boldsymbol{W}_0 \boldsymbol{x}_i \\ \boldsymbol{x}_\iota &=f[\boldsymbol{z}_{\iota-1}] & \iota \in \{1, 2, \ldots, M\} \\ \boldsymbol{z}_\iota &= \boldsymbol{b}_\iota + \boldsymbol{W}_\iota \boldsymbol{x}_\iota. & \iota \in \{1, 2, \ldots, M\} \end{aligned} z0xιzι=b0+W0xi=f[zι1]=bι+Wιxι.ι{1,2,,M}ι{1,2,,M}

反向传递: 从损失函数 L i L_i Li关于网络输出 z M \boldsymbol{z}_M zM的导数 ∂ L i ∂ z M \frac{\partial L_i}{\partial \boldsymbol{z}_M} zMLi开始,并在网络中反向工作:

∂ L i ∂ b ι = ∂ L i ∂ z ι ι ∈ { M , M − 1 , … , 1 } ∂ L i ∂ W ι = ∂ L i ∂ z ι x ι T ι ∈ { M , M − 1 , … , 1 } ∂ L i ∂ z ι − 1 = I [ z ι − 1 > 0 ] ⊙ ( W ι T ∂ L i ∂ z ι ) , ι ∈ { M , M − 1 , … , 1 } \begin{aligned} \frac{\partial L_i}{\partial \boldsymbol{b}_\iota} &= \frac{\partial L_i}{\partial \boldsymbol{z}_\iota} & \iota \in \{M, M-1, \ldots, 1\} \\ \frac{\partial L_i}{\partial \boldsymbol{W}_\iota} &= \frac{\partial L_i}{\partial \boldsymbol{z}_\iota} \boldsymbol{x}_\iota^{\mathsf T} & \iota \in \{M, M-1, \ldots, 1\} \\ \frac{\partial L_i}{\partial \boldsymbol{z}_{\iota-1}} &= \mathbb{I}[\boldsymbol{z}_{\iota-1} > 0] \odot \left( \boldsymbol{W}_\iota^{\mathsf T} \frac{\partial L_i}{\partial \boldsymbol{z}_\iota} \right), & \iota \in \{M, M-1, \ldots, 1\} \end{aligned} bιLiWιLizι1Li=zιLi=zιLixιT=I[zι1>0](WιTzιLi),ι{M,M1,,1}ι{M,M1,,1}ι{M,M1,,1}

其中 ⊙ \odot 表示逐点乘法,而 I [ z ι − 1 > 0 ] \mathbb{I}[\boldsymbol{z}_{\iota-1} > 0] I[zι1>0]是一个向量,其中在 z ι − 1 \boldsymbol{z}_{\iota-1} zι1大于零的位置包含一,在其他位置包含零。

最后,计算关于第一组偏差和权重的导数:

∂ L i ∂ b 0 = ∂ L i ∂ z 0 ∂ L i ∂ W 0 = ∂ L i ∂ z 0 x i T . \begin{aligned} \frac{\partial L_i}{\partial \boldsymbol{b}_0} &= \frac{\partial L_i}{\partial \boldsymbol{z}_0} \\ \frac{\partial L_i}{\partial \boldsymbol{W}_0} &= \frac{\partial L_i}{\partial \boldsymbol{z}_0} \boldsymbol{x}_i^{\mathsf T}. \end{aligned} b0LiW0Li=z0Li=z0LixiT.

为批次中的每个训练样本计算这些导数,并将它们相加以获取用于 SGD 更新的梯度。

请注意,反向传播算法非常高效;前向和反向传递中最耗计算的步骤是矩阵乘法(分别由 W \boldsymbol{W} W W T \boldsymbol{W}^{\mathsf T} WT进行),这只需要加法和乘法。然而,它不是内存高效的;前向传递中的中间值必须全部存储,这可能会限制可以训练的模型的大小。

http://www.dtcms.com/wzjs/822195.html

相关文章:

  • 网站建设要花在哪些项目上网站策划书
  • 做网站虚拟主机和云服务器吗北京网站优化平台
  • dw做的网站怎么放到服务器上游戏开发工具
  • 合肥做网站123cms韩国唯美网站设计
  • 门户网站建设计入什么科目北京网站优化页面
  • 网站建设导航图图库wordpress后台文章排序
  • 青岛做网站哪家做的好商场设计方案ppt
  • 利川市网站建设江苏常州建设银行网站
  • 武义县网站建设公司网络营销策划与推广
  • 公司网站内容更新怎么做重庆城乡建设部网站首页
  • 做网站网站的推广是不是犯罪的模板网站免费建站
  • 百度新网站提交入口qq中心官方网站
  • wordpress老网站重装法视觉灵动 wordpress
  • 中国十大设计素材网站陕西建设厅官网证件查询网
  • 视频网站做板块栏目wordpress 商城 app
  • 茶叶网站建设费用明细创新的网站建设公司
  • 产品网站别人是如何做优化的服务类网站建设服务公司
  • 清远公司网站建设怎样做网站设计要交税吗
  • 中国seo关键词优化工具求职seo服务
  • 天津国际工程建设监理公司网站网站建设包含内容
  • 广州好的做网站公司要屏蔽一个网站要怎么做
  • 公司网站建设空间办公网新闻上传网站开发
  • 网站建设中最重要的是什么chrome不安全的网站设置
  • 怎么建立视频网站工业app开发平台
  • 内蒙古网站建设费用wordpress 3.1
  • 杭州平台网站建设静态网页是什么意思
  • 下载黑龙江建设网官网网站成年学校培训班
  • 一家做运动鞋的网站js wordpress 菜单管理系统
  • 一台服务做两个网站河南建设信息网一体化
  • 灰色的网站长沙 外贸网站建设