当前位置: 首页 > wzjs >正文

郑州网站优化seo游戏推广是什么工作

郑州网站优化seo,游戏推广是什么工作,建筑设计说明万能模板,东莞app软件开发解决方案目录0 专栏介绍1 演员-评论家架构1.1 Critic网络优化1.2 Actor网络优化2 深度确定性策略梯度算法0 专栏介绍 本专栏以贝尔曼最优方程等数学原理为根基,结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景,深入探讨如何…

目录

  • 0 专栏介绍
  • 1 演员-评论家架构
    • 1.1 Critic网络优化
    • 1.2 Actor网络优化
  • 2 深度确定性策略梯度算法

0 专栏介绍

本专栏以贝尔曼最优方程等数学原理为根基,结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景,深入探讨如何将DRL与路径规划、动态避障等任务结合,包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节,旨在帮助读者掌握深度强化学习技术在机器人运动规划中的实战应用

🚀详情:《运动规划实战精讲:深度强化学习篇》


1 演员-评论家架构

在强化学习的探索之路上,智能体始终面临一个核心挑战:如何在动态变化的环境中,通过与状态的交互,找到一组能最大化长期累积奖励的动作序列。早期的强化学习方法要么专注于“值函数”——通过估计状态或状态-动作的长期价值(如基于价值的强化学习DQN算法(附Pytorch实现)中的Q网络)来间接指导动作选择;要么聚焦于“策略”——直接学习状态到动作的映射(如策略梯度方法)。但这些方法各有局限:值函数方法难以处理连续动作空间(因为需要遍历所有可能动作求最大值),而纯策略梯度方法则因仅依赖采样回报的方差较大,训练稳定性不足。于是,​​演员-评论家(Actor-Critic, AC)框架​​应运而生,它像一位“导演”与“评论家”的组合——其中Actor网络负责表征策略,Critic网络负责评判策略的优劣,两者相互配合,共同提升智能体的决策能力

在这里插入图片描述

要理解Actor-Critic架构的运作逻辑,首先需要明确:

  • Actor网络表征策略,通常用神经网络表示为πθ(a∣s)\pi_\theta(a|s)πθ(as)(随机策略,输出动作概率分布)或 μθ(s)\mu_\theta(s)μθ(s)(确定性策略,直接输出动作),其参数θ\thetaθ决定了智能体在不同状态下倾向于选择哪些动作;
  • Critic网络表征策略优劣,通常用神经网络表示为Vϕ(s)V_\phi(s)Vϕ(s)(状态值函数,估计状态sss的长期价值)或Qϕ(s,a)Q_\phi(s,a)Qϕ(s,a)(状态-动作值函数,估计状态 sss 下执行动作 aaa 的长期价值),其参数 ϕ\phiϕ 量化了当前策略下这个状态/动作的回报;

Actor通过与环境交互积累经验,Critic则基于这些经验更新对价值的估计,反过来为Actor的策略优化提供方向。

1.1 Critic网络优化

Critic网络的关键作用在于解决如何评估当前策略的好坏。在强化学习中,策略的优劣最终由长期累积奖励衡量,但直接计算这一期望需要遍历所有可能的未来状态转移,这在现实中不可行。因此,Critic网络需要借助贝尔曼期望方程进行递归地策略评估,具体可以参考经典强化学习 | 策略评估与贝尔曼期望方程详细推导。以状态值函数为例,其贝尔曼方程为:
Vϕ(s)=Ea∼πθ(⋯),s′∼P(⋅s,a)[r(s,a)+γVϕ(s′)]V_\phi(s) = \mathbb{E}_{a \sim \pi_\theta(\cdots), s' \sim P(\cdot s,a)} \left[ r(s,a) + \gamma V_\phi(s') \right] Vϕ(s)=Eaπθ(),sP(s,a)[r(s,a)+γVϕ(s)]

其中 r(s,a)r(s,a)r(s,a) 是状态 sss 下执行动作 aaa 的即时奖励,P(⋅∣s,a)P(\cdot|s,a)P(s,a) 是环境转移概率,γ\gammaγ是折扣因子。这一方程表明,状态 sss 的价值等于当前奖励加上未来所有可能状态价值的折扣期望。Critic的目标是通过优化网络参数 ϕ\phiϕ使 Vϕ(s)V_\phi(s)Vϕ(s) 尽可能接近这一理论值。所以Critic的损失函数通常被定义为预测值与目标值的均方误差:
Lcritic=E{(s,a,r,s′)}∼D[(y−Vϕ(s))2]\mathcal{L}_\text{critic} = \mathbb{E}_{\{(s,a,r,s')\} \sim \mathcal{D}} \left[ \left( y - V_\phi(s) \right)^2 \right] Lcritic=E{(s,a,r,s)}D[(yVϕ(s))2]

其中 D\mathcal{D}D 是经验回放池。通过最小化这个损失,Critic逐渐学会为每个状态赋予合理的价值评分。

1.2 Actor网络优化

Actor网络的优化依赖于策略梯度定理,其核心思想是:策略的改进方向应使智能体更倾向于选择能带来更高长期奖励的动作,详细推导参考:深度强化学习 | 详细推导随机/确定性策略梯度定理。对于随机策略 πθ(a∣s)\pi_\theta(a|s)πθ(as),其策略梯度满足
∇θVπθ(s)∝E[Qπθ(s,a)∇θln⁡πθ(a∣s)]\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) \propto \mathbb{E} \left[ Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \nabla _{\boldsymbol{\theta }}\ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right) \right] θVπθ(s)E[Qπθ(s,a)θlnπθ(as)]
其中状态随机变量s∼Dπθ\boldsymbol{s}\sim D^{\pi _{\boldsymbol{\theta }}}sDπθ,动作随机变量a∼πθ(a∣s)\boldsymbol{a}\sim \pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right)aπθ(as)DπθD^{\pi _{\boldsymbol{\theta }}}Dπθ是由πθ\pi _{\boldsymbol{\theta }}πθ定义的归一化折扣状态分布。这一梯度的意义在于:如果某个动作 ata_tat 在状态 sts_tst 下的 Qπ(st,at)Q^\pi(s_t,a_t)Qπ(st,at) 较大(即Critic认为该动作能带来更高的长期奖励),且策略πθ\pi_\thetaπθata_tat 的选择概率较低(即 ∇θlog⁡πθ(at,st)\nabla_\theta \log \pi_\theta(a_t, s_t)θlogπθ(at,st) 为负),则策略 πθ\pi_\thetaπθ 应调整参数 θ\thetaθ,增加在 sts_tst 下选择 ata_tat 的概率(对随机策略)或直接增大该动作的输出(对确定性策略)。

对于随机策略梯度算法,可以令损失函数为

J(θ)=−E[Qπθ(s,a)ln⁡πθ(s,a)]J\left( \boldsymbol{\theta } \right) =-\mathbb{E} \left[ Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) \right]J(θ)=E[Qπθ(s,a)lnπθ(s,a)]

进行反向传播;对于确定性策略梯度算法,可以令损失函数为

J(θ)=−E[Qμθ(s,μθ(s))]J\left( \boldsymbol{\theta } \right) =-\mathbb{E} \left[ Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \right) \right] J(θ)=E[Qμθ(s,μθ(s))]

进行反向传播

2 深度确定性策略梯度算法

深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)可视为用演员-评论家框架对DQN和确定性梯度模型进行结合,弥补了DQN无法应用于连续动作空间的缺陷。事实上,DQN通过

π∗=argmax⁡a∈AQπ(s,a)\pi ^*=\mathrm{arg}\max _{a\in A}Q^{\pi}\left( s,a \right) π=argaAmaxQπ(s,a)

从最优价值获得最优的确定性策略,而传统的argmax⁡\mathrm{arg}\maxargmax操作只适合于离散空间,DDPG算法正是通过Actor网络对argmax⁡\mathrm{arg}\maxargmax操作建模,整体架构如图所示

在这里插入图片描述

值得注意的是,DDPG中的Actor网络对确定性策略而非随机策略建模,体现DPG的功能;Critic网络对动作-价值函数而非价值函数建模,体现DQN的功能。同时DDPG中沿用DQN的经验回放池及目标网络结构,属于离线策略方法。核心算法流程如下所示

在这里插入图片描述


🔥 更多精彩专栏

  • 《ROS从入门到精通》
  • 《Pytorch深度学习实战》
  • 《机器学习强基计划》
  • 《运动规划实战精讲》

👇源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系👇

文章转载自:

http://HaGJvI67.btrfm.cn
http://G8oU1u3v.btrfm.cn
http://NHyV8jg6.btrfm.cn
http://3DXrGNTX.btrfm.cn
http://mQOrF1Ag.btrfm.cn
http://NcDRKjj9.btrfm.cn
http://7yPB06yB.btrfm.cn
http://1YrT6UsD.btrfm.cn
http://icUPvc9R.btrfm.cn
http://HRw730em.btrfm.cn
http://oY01qEuY.btrfm.cn
http://jHhwjO6r.btrfm.cn
http://Dip5UxFC.btrfm.cn
http://bxC5nLGa.btrfm.cn
http://MM0htyMv.btrfm.cn
http://McHVVSz2.btrfm.cn
http://HiQ8t88n.btrfm.cn
http://K0VwzuTb.btrfm.cn
http://W6DaziBn.btrfm.cn
http://iTW7fgN6.btrfm.cn
http://r9Wajhbm.btrfm.cn
http://IVJieze0.btrfm.cn
http://PshQYviA.btrfm.cn
http://LVPFe4H1.btrfm.cn
http://eW1rh5VX.btrfm.cn
http://k5RGYI3U.btrfm.cn
http://k6TaPzKP.btrfm.cn
http://cG17rDxW.btrfm.cn
http://ByJvXnVv.btrfm.cn
http://g7Z5OJKh.btrfm.cn
http://www.dtcms.com/wzjs/693314.html

相关文章:

  • 平台式网站模板如何推销网站
  • 网站中怎么做下载链接wordpress免费汉化
  • 西宁专业网站建设做电影网站违法么
  • 信用中国 网站 支持建设网页设计模板图片简单
  • 网站开发响应式qq空间网页版登录入口
  • dreawever如何做本地网站网店网站建设规划方案
  • 做网站开创和中企动力哪家强深圳全网推广服务
  • 建站优化推广wordpress做商品筛选
  • 天津seo网站推广贵阳网站建设kuhugz
  • 建设网站上申请劳务资质网站建设系统平台
  • 米托网站建设任丘网站建设
  • 西安企业自助建站系统国内顶尖设计椅子图片
  • 一站式做网站企业数字化展厅建设方案
  • 做公司网站要去哪里找人做做视频网站需要流媒体吗
  • 坪山网站建设特色asp爆网站绝对路径
  • wordpress表单主题排名优化上首页怎么做
  • 那个网站做调查问卷能赚钱想建设一个网站
  • 5g对网站建设的影响昆明网络推广哪里有
  • 广西建网站哪家好房屋平面设计图制作软件
  • 温州建设银行官方网站做网站找不到客户
  • 做网站建设的电话销售北大青鸟软件开发培训学费多少
  • 电商网站开发的主流技术货代一般都去哪个网站找客户
  • 学做网站设计需要多少钱网站建设哪个公司做得好些
  • 住房城乡住房和城乡建设部网站首页企业网站广告图片轮播代码
  • 简单网站开发韩雪冬模板网站
  • 做幼儿手工网站企业方案项目策划书怎么写
  • php网站开发难吗寺庙网站素材
  • 唯品会网站建设目标邯郸企业做网站报价
  • 广东省54个市seo联盟怎么赚钱
  • 网站360全景图怎么做线上线下一体化营销