当前位置: 首页 > wzjs >正文

免费手机网站app找培训机构的app

免费手机网站app,找培训机构的app,高效办理的软件开发外包,ps做网站图片计算均值的新方法有两种方法。第一种方法很直接,即收集所有样本后计算平均值;但这种方法的缺点是,若样本是在一段时间内逐个收集的,我们必须等到所有样本都收集完毕。第二种方法可避免此缺点,因为它以增量迭代的方式计…

计算均值的新方法

有两种方法。第一种方法很直接,即收集所有样本后计算平均值;但这种方法的缺点是,若样本是在一段时间内逐个收集的,我们必须等到所有样本都收集完毕。第二种方法可避免此缺点,因为它以增量迭代的方式计算平均值,来几个就计算几个,不需要等了。

步骤

假设

由此可得

则有

最终推导出 增量更新公式

一般性替换

此算法是一种特殊的 SA 算法(随机近似算法),也是一种特殊的 随机梯度下降算法

Robbins-Monro 算法 

随机梯度下降算法是 RM 算法的特殊形式

RM算法的目的是在不知道方程表达式、只进行采样的前提下求方程的解

为了求解g(\omega)=0的解,我们采用\omega_{k+1}=\omega_k-a_k\widetilde{g}(\omega_k,\eta_k)(*),其中\widetilde{g}(\omega_k,\eta_k)是第k次带噪声的观测

具体的实现步骤是,输入一个\omega_1,我们可以得到一个带噪声的观测值\widetilde{g_1},通过(*)式可以得到\omega_2,又可以据此我们可以得到一个带噪声的观测值\widetilde{g_2},由\widetilde{g_2}通过(*)式可以得到\omega_3......

如果我们能证明这样的序列\omega_k,k=1,2,3\dots会收敛于g(\omega)=0的解\omega^*,那这样的一个算法就是可行的

下面我们引入Robbins-Monro定理来证明这个序列\omega_k,k=1,2,3\dots收敛于g(\omega)=0的解\omega^*

Robbins-Monro定理

若有

满足\sum_{k = 1}^{\infty} a_k = \infty, \sum_{k = 1}^{\infty} a_k^2 < \infty的一个典型序列是\frac{1}{k},其无穷级数发散,其无穷平方和=\frac{\pi^2}{6},实际常把a_k选为足够小的常数,这虽然违反条件,但是可以避免\frac{1}{k}带来的后端序列权重过低的问题

是一种特殊的RM算法

随机梯度下降

Stochastic Gradient Descent (SGD)

随机梯度下降算法是为了解决一个优化问题 \begin{aligned} \min_{w} J(w) = \mathbb{E}[f(w, X)] \end{aligned}

我们要优化\omega来使J(\omega)的值最小

X是随机变量,f\omegaX的函数;X这个随机变量的概率分布已经给定但是暂时是未知的,\begin{aligned} \mathbb{E}[f(w, X)] \end{aligned}\begin{aligned} \mathbb{E} \end{aligned}就是对X求期望;\omegaX既可以是向量也可以是标量,f的值是标量

方法一:梯度下降GD

\begin{aligned} w_{k+1} = w_k - \alpha_k \nabla_{w} \mathbb{E}[f(w_k, X)] = w_k - \alpha_k \mathbb{E}[\nabla_{w} f(w_k, X)] \end{aligned}

随机梯度下降通过在每次迭代中,沿着目标函数期望梯度的负方向来更新参数 \omega ,逐步逼近目标函数的最小值点。实际应用中,由于计算整个数据集上目标函数的期望梯度(全量梯度)计算量过大,通常会采用小批量数据或者单个数据来近似计算期望梯度,从而实现高效的参数更新。

方法二:批量梯度下降BGD

\begin{aligned} \mathbb{E}[\nabla_{w} f(w_k, X)] \approx \frac{1}{n} \sum_{i = 1}^{n} \nabla_{w} f(w_k, x_i) \quad w_{k + 1} = w_k - \alpha_k \frac{1}{n} \sum_{i = 1}^{n} \nabla_{w} f(w_k, x_i). \end{aligned}

当 n = 1时,就是每次只用一个样本进行梯度更新,即SGD;当 n 为整个数据集样本数时,就退化为批量梯度下降。 这种基于样本近似计算梯度的方式,在大规模数据场景下极大地降低了计算复杂度,使得优化算法能够高效运行

方法三:随机梯度下降SGD

\begin{aligned} w_{k + 1} = w_k - \alpha_k \nabla_{w} f(w_k, x_k) \end{aligned}

式子等号右边,原来的X变成了对X的随机采样x_k;true gradient\begin{aligned} \mathbb{E}[\nabla_{w} f(w_k, X)] \end{aligned}变成了stochastic gradient\begin{aligned} \nabla_{w} f(w_k, x_k) \end{aligned}。这就是BGD里令n=1的情况

例子

考虑一个优化问题\begin{aligned} \min_{w} J(w) = \mathbb{E}[f(w, X)] = \mathbb{E}\left[ \frac{1}{2} \| w - X \|^2 \right] \end{aligned}

其中\begin{aligned} f(w, X) = \frac{\| w - X \|^2}{2} \quad \nabla_{w} f(w, X) = w - X \end{aligned}

其最优解为\begin{aligned} w^* = \mathbb{E}[X] \end{aligned}

GD

\begin{aligned} w_{k + 1} &= w_k - \alpha_k \nabla_{w} J(w_k) &= w_k - \alpha_k \mathbb{E}[\nabla_{w} f(w_k, X)] &= w_k - \alpha_k \mathbb{E}[w_k - X]. \end{aligned}

SGD
\begin{aligned} w_{k+1} = w_k - \alpha_k \nabla_{w} f(w_k, x_k) = w_k - \alpha_k (w_k - x_k) \end{aligned}

收敛性

从GD到SGD:

\begin{aligned} w_{k + 1} &= w_k - \alpha_k \mathbb{E}[\nabla_{w} f(w_k, X)] \\ &\Downarrow \\ w_{k + 1} &= w_k - \alpha_k \nabla_{w} f(w_k, x_k) \end{aligned}

\begin{aligned} \nabla_{w} f(w_k, x_k) \end{aligned}可以看作是\begin{aligned} \mathbb{E}[\nabla_{w} f(w_k, X)] \end{aligned}的带噪声的观测值:

\begin{aligned} \nabla_{w} f(w_k, x_k) = \mathbb{E}[\nabla_{w} f(w, X)] + \underbrace{\nabla_{w} f(w_k, x_k) - \mathbb{E}[\nabla_{w} f(w, X)]}_{\eta} \end{aligned}

下面我们证明SGD是一个特殊的RM算法,由此来证明SGD在满足某些条件的情况下是收敛的

proof:

SGD是要解决一个优化问题:\begin{aligned} J(w) = \mathbb{E}[f(w, X)] \end{aligned},令J(w)最小。这样的优化问题可以转化为寻找\begin{aligned} \nabla_{w} J(w) = \mathbb{E}[\nabla_{w} f(w, X)] = 0 \end{aligned}的根,因为其梯度为0是取得极小值的必要条件。

下面即求\begin{aligned} g(w) = \nabla_{w} J(w) = \mathbb{E}[\nabla_{w} f(w, X)]=0 \end{aligned}的根

我们用RM算法来求g(w)=0的根

\begin{aligned} \tilde{g}(w, \eta) &= \nabla_{w} f(w, x) \\ &= \underbrace{\mathbb{E}[\nabla_{w} f(w, X)]}_{g(w)} + \underbrace{\nabla_{w} f(w, x) - \mathbb{E}[\nabla_{w} f(w, X)]}_{\eta} \end{aligned}

\begin{aligned} w_{k + 1} = w_k - a_k \tilde{g}(w_k, \eta_k) = w_k - a_k \nabla_{w} f(w_k, x_k) \end{aligned} 这实际上就是SGD算法

SGD算法的有趣性质

由于随机梯度是随机的,因此其近似并不精确,那么随机梯度下降法(SGD)的收敛过程是缓慢的还是随机的呢?

\begin{aligned} \delta_{k} \leq \frac{\left| \nabla_{w} f(w_k, x_k) - \mathbb{E}[\nabla_{w} f(w_k, X)] \right|}{c \left| w_k - w^* \right|} \end{aligned}

上述等式揭示了随机梯度下降法(SGD)一种有趣的收敛模式:

BGD & MBGD & SGD

\begin{aligned} w_{k + 1} &= w_k - \alpha_k \frac{1}{n} \sum_{i = 1}^{n} \nabla_{w} f(w_k, x_i), & \text{(BGD)} \\ w_{k + 1} &= w_k - \alpha_k \frac{1}{m} \sum_{j \in \mathcal{I}_k} \nabla_{w} f(w_k, x_j), & \text{(MBGD)} \\ w_{k + 1} &= w_k - \alpha_k \nabla_{w} f(w_k, x_k). & \text{(SGD)} \end{aligned}

总结

参考文章

S. Zhao. Mathematical Foundations of Reinforcement Learning. Springer Nature Press, 2025.  【【强化学习的数学原理】课程:从零开始到透彻理解(完结)】

https://www.bilibili.com/video/BV1sd4y167NS/?  p=2&share_source=copy_web&vd_source=52164f68a5f27ac2e86f0e7963ea966c 

http://www.dtcms.com/wzjs/15411.html

相关文章:

  • 用织梦做的网站好用吗短视频运营是做什么的
  • 石家庄网站建设与推广网站制作公司有哪些
  • 网站建设要点免费投放广告的平台
  • 明星个人flash网站源码培训班学员培训心得
  • 深圳做网站(龙华信科)seo去哪里培训
  • 四川成都具体地址有哪些武汉网站seo推广
  • 网站空间价格表提升seo排名
  • 如何设计一个网页自动运行谷歌seo价格
  • 程序员自己做项目的网站郑州搜狗关键词优化顾问
  • 珠海网站建设制作设计关键词排名优化官网
  • 公众号阅读量1000能挣多少钱seo优化排名服务
  • 网站服务器自己搭建淘宝如何提升关键词排名
  • 绍兴网站开发公司seo推广公司排名
  • 织梦电子行业网站模板网站点击排名优化
  • 做的好的排版网站关键词排名快速提升
  • 网站怎么做导航百度客户端电脑版下载
  • 用阿里巴巴做公司网站怎么样百度推广时间段在哪里设置
  • 公司装修员工有工资吗前端seo搜索引擎优化
  • 上海软件开发的公司排名seo网站排名优化工具
  • 网站建设完成后怎么上传服务器网站推广关键词排名优化
  • 公司建设网站需要什么武汉seo公司
  • 移动互联网开发考研方向seo手机关键词排行推广
  • 百度知识营销百度seo价格查询
  • 网站建设仟首先金手指12精品成品网站入口
  • 怀仁有做网站的公司吗千锋教育介绍
  • 免费网站建设开发网络营销策划方案的目的
  • 为什么做网站要服务器 和域名seo是什么工作
  • 专做logo网站叫什么地方子域名大全查询
  • 网络推广工作好干吗专业seo网络营销公司
  • 下载大连建设网官方网站百度推广官网