当前位置: 首页 > wzjs >正文

mysql网站后台管理系统下载住房和城乡建设部网站倪虹

mysql网站后台管理系统下载,住房和城乡建设部网站倪虹,网站备案一天通过,百事可乐网络营销推广方法文章目录 前言算法原理1. 从策略梯度到Actor-Critic2. Actor 和 Critic 的角色3. Critic 的学习方式:时序差分 (TD)4. Actor 的学习方式:策略梯度5. 算法流程代码实现1. 环境与工具函数2. 构建Actor-Critic智能体3. 组织训练流程4. 主程序:启动训练5. 实验结果总结前言 在深…

文章目录

  • 前言
  • 算法原理
    • 1. 从策略梯度到Actor-Critic
    • 2. Actor 和 Critic 的角色
    • 3. Critic 的学习方式:时序差分 (TD)
    • 4. Actor 的学习方式:策略梯度
    • 5. 算法流程
  • 代码实现
    • 1. 环境与工具函数
    • 2. 构建Actor-Critic智能体
    • 3. 组织训练流程
    • 4. 主程序:启动训练
    • 5. 实验结果
  • 总结


前言

在深度强化学习(DRL)的广阔天地中,算法可以大致分为两大家族:基于价值(Value-based)的算法和基于策略(Policy-based)的算法。像DQN这样的算法通过学习一个价值函数来间接指导策略,而像REINFORCE这样的算法则直接对策略进行参数化和优化。

然而,这两种方法各有优劣。基于价值的方法通常数据效率更高、更稳定,但难以处理连续动作空间;基于策略的方法可以直接处理各种动作空间,并能学习随机策略,但其学习过程往往伴随着高方差,导致训练不稳定、收敛缓慢。

为了融合两者的优点,Actor-Critic(演员-评论家) 框架应运而生。它构成了现代深度强化学习的基石,许多前沿算法(如A2C, A3C, DDPG, TRPO, PPO等)都属于这个大家族。

本文将从理论出发,结合一个完整的 PyTorch 代码实例,带您深入理解基础的 Actor-Critic 算法。我们将通过经典的 CartPole(车杆)环境,一步步构建、训练并评估一个 Actor-Critic 智能体,直观地感受它是如何工作的。

完整代码:下载链接

算法原理

Actor-Critic 算法本质上是一种基于策略的算法,其目标是优化一个带参数的策略。与REINFORCE算法不同的是,它会额外学习一个价值函数,用这个价值函数来“评论”策略的好坏,从而帮助策略函数更好地学习。

1. 从策略梯度到Actor-Critic

在策略梯度方法中,目标函数的梯度可以写成一个通用的形式:

g = E [ ∑ t = 0 T ψ t ∇ θ log ⁡ π θ ( a t ∣ s t ) ] g=\mathbb{E}\left[\sum_{t=0}^T\psi_t\nabla_\theta\log\pi_\theta(a_t|s_t)\right] g=E[t=0Tψtθlogπθ(atst)]

其中,ψt 是一个用于评估在状态 st 下采取动作 at 的优劣的标量。ψt 的选择直接影响了算法的性能:

在这里插入图片描述

  • 形式2ψt 是动作 at 之后的所有回报之和。这是 REINFORCE 算法使用的形式。它使用蒙特卡洛方法来估计动作的价值,虽然是无偏估计,但由于包含了从 t 时刻到回合结束的所有随机性,其方差非常大。
  • 形式6ψt时序差分误差(TD Error)。这是本文 Actor-Critic 算法将采用的核心形式。它只利用了一步的真实奖励 r_t 和对下一状态价值的估计 V(s_t+1),极大地降低了方差。

这个转变正是 Actor-Critic 算法的核心思想:不再使用完整的、高方差的轨迹回报,而是引入一个价值函数来提供更稳定、低方差的指导信号。

2. Actor 和 Critic 的角色

我们将 Actor-Critic 算法拆分为两个核心部分:

  • Actor (演员):即策略网络。它的任务是与环境进行交互,并根据 Critic 的“评价”来学习一个更好的策略。它决定了在某个状态下应该采取什么动作。
  • Critic (评论家):即价值网络。它的任务是通过观察 Actor 与环境的交互数据,学习一个价值函数。这个价值函数用于判断在当前状态下,Actor 选择的动作是“好”还是“坏”,从而指导 Actor 的策略更新。

3. Critic 的学习方式:时序差分 (TD)

Critic 的目标是准确地估计状态价值函数 V(s)。它采用**时序差分(Temporal-Difference, TD)**学习方法。具体来说,是TD(0)方法。

在TD学习中,我们希望价值网络的预测值 V(s_t) 能够逼近 TD目标 (TD Target),即 r_t + γV(s_t+1)。因此,Critic 的损失函数定义为两者之间的均方误差:

L ( ω ) = 1 2 ( r + γ V ω ( s t + 1 ) − V ω ( s t ) ) 2 \mathcal{L}(\omega)=\frac{1}{2}(r+\gamma V_\omega(s_{t+1})-V_\omega(s_t))^2 L(ω)=21(r+γVω(st+1)Vω(st))2

当我们对这个损失函数求梯度以更新 Critic 的网络参数 w 时,有一个非常关键的点:

在TD学习中,目标值 r_t + γV(s_t+1) 被视为一个固定的“标签”(Target),不参与反向传播。因此,梯度只对当前状态的值函数 V(s_t) 求导。

Critic 价值网络表示为 V w V_w Vw,参数为 w w w。价值函数的梯度为:
∇ ω L ( ω ) = − ( r + γ V ω ( s t + 1 ) − V ω ( s t ) ) ∇ ω V ω ( s t ) \nabla_\omega\mathcal{L}(\omega)=-(r+\gamma V_\omega(s_{t+1})-V_\omega(s_t))\nabla_\omega V_\omega(s_t) ωL(ω)=


文章转载自:

http://IzkPjoxL.bxbnf.cn
http://cfLVOlVX.bxbnf.cn
http://vsQeCkKe.bxbnf.cn
http://21bllS0h.bxbnf.cn
http://7fgqPt41.bxbnf.cn
http://GaMO4C2c.bxbnf.cn
http://x7ajFsNJ.bxbnf.cn
http://4Y7Tg0Z4.bxbnf.cn
http://5viVhtgY.bxbnf.cn
http://ee5LIb46.bxbnf.cn
http://SCAV528L.bxbnf.cn
http://sZCNKGFe.bxbnf.cn
http://lYCt6Acl.bxbnf.cn
http://XPTfoNrL.bxbnf.cn
http://Fk1KBYus.bxbnf.cn
http://PTnhL81Y.bxbnf.cn
http://V5eujMb8.bxbnf.cn
http://VFEwU0LG.bxbnf.cn
http://5IE2AZ0C.bxbnf.cn
http://eTFZFtOe.bxbnf.cn
http://YuSXNeb6.bxbnf.cn
http://kEqTNxsM.bxbnf.cn
http://SzMqWfL9.bxbnf.cn
http://s7folC8k.bxbnf.cn
http://rUXAX9sE.bxbnf.cn
http://482ZOp8P.bxbnf.cn
http://joWdLpwt.bxbnf.cn
http://rItX6KQC.bxbnf.cn
http://DYf8S4JO.bxbnf.cn
http://pQi4yPFZ.bxbnf.cn
http://www.dtcms.com/wzjs/626919.html

相关文章:

  • 网站导航功能事件营销成功案例有哪些
  • 百度推广方式seo服务合同
  • 太仓网站开发企业怎么搭建网站
  • 网站建设设计培训班wordpress搜索页如何建
  • 网站开发的经费预算做的精美的门户网站推荐
  • 显示官网字样的网站怎么做搜索网站定制公司
  • 推荐几个安全没封的网站2021ppt模板下载简约
  • asp网站数据库扫描wordpress多语言插件:qtranslate
  • 建站不用域名直接用ip可以吗只选设计师的网站
  • 工程资料类网站怎么做不拦截网站的浏览器
  • 网站怎么做微博认证宁波网站建设公司
  • 信息网站制作网站开发 先做前端吗
  • 网站后缀是xyz指得是什么安全网站建设
  • 云栖建站公司网站建设比较好的公司
  • 网站的总体方案青岛网络科技有限公司
  • 建设施工合同备案在哪个网站江苏徐州网站建设
  • 定制做网站开发沈阳装修公司
  • 网站开发实战第二章域名转出过程网站能打开吗
  • 分类网站 模板网站维护要求
  • 网站如何选择关键词淘宝搜索排名
  • wordpress建不了网站知识营销
  • 安徽元鼎建设工程有限责任公司网站wordpress授权主题
  • wdcp 防盗链 网站不能打开开发网站的公司
  • 网上开公司一般多少钱安徽网络优化公司
  • 柳州网站制作推荐网页制作排行榜
  • 温州广厦网页制作seo在线工具
  • 网站建设服务合同模板下载网络建设的网站
  • 高清做 视频在线观看网站奥美广告公司
  • 免费培训学校网站源码南京汤山建设银行网站
  • 南阳做网站优化价格互联国际网站