当前位置: 首页 > wzjs >正文

不同网站建设特点名片seo什么意思

不同网站建设特点,名片seo什么意思,湖北网址大全,哪个工业园区信息化网站做的好目录 0 专栏介绍1 基于策略优化的强化学习2 随机性策略梯度定理推导3 确定性策略梯度定理推导 0 专栏介绍 本专栏以贝尔曼最优方程等数学原理为根基,结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景,深入探讨如何将…

目录

  • 0 专栏介绍
  • 1 基于策略优化的强化学习
  • 2 随机性策略梯度定理推导
  • 3 确定性策略梯度定理推导

0 专栏介绍

本专栏以贝尔曼最优方程等数学原理为根基,结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景,深入探讨如何将DRL与路径规划、动态避障等任务结合,包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节,旨在帮助读者掌握深度强化学习技术在机器人运动规划中的实战应用

🚀详情:《运动规划实战精讲:深度强化学习篇》


1 基于策略优化的强化学习

之前章节介绍的基于价值的强化学习具有以下缺陷:

  • 难以处理连续动作。基于价值的强化学习要求有限动作空间,否则需要额外补丁;
  • 无法生成随机策略。基于价值的强化学习本质上通过 π ∗ = a r g max ⁡ a ∈ A Q π ( s , a ) \pi ^*=\mathrm{arg}\max _{a\in A}Q^{\pi}\left( s,a \right) π=argmaxaAQπ(s,a)从最优价值获得最优的确定性策略,而某些场合却需要随机策略;
  • 鲁棒性不足。强化学习获得的最优价值函数数值可能不稳定,某状态下两个动作间的价值差距可能处在较大,意味着微小的噪声可能导致最优策略的完全改变;

基于策略的强化学习(policy-based)框架中,智能体不再从价值函数间接获得策略,而是直接对策略 π ( a ∣ s ) \pi \left( a|s \right) π(as)这一条件概率分布建模(离散动作常用Softmax函数,连续动作常用高斯概率分布),改善了value-based强化学习模型的不足。

为了便于神经网络反向传播,需要计算策略的梯度。将策略参数化为 π θ ( a ∣ s ) \pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right) πθ(as),定义优化目标为累计回报

θ ∗ = a r g max ⁡ θ J ( θ ) = a r g max ⁡ θ V π θ ( s ) \boldsymbol{\theta }^*=\mathrm{arg}\max _{\boldsymbol{\theta }}J\left( \boldsymbol{\theta } \right) =\mathrm{arg}\max _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( s \right) θ=argθmaxJ(θ)=argθmaxVπθ(s)

即给定初始状态 s \boldsymbol{s} s,需要调整 θ \boldsymbol{\theta } θ使策略 π θ \pi _{\boldsymbol{\theta }} πθ作用于 s \boldsymbol{s} s使其带来的回报最大。关于 θ \boldsymbol{\theta } θ的优化方式为策略梯度定理

2 随机性策略梯度定理推导

定理1:策略梯度满足
∇ θ V π θ ( s ) ∝ E [ Q π θ ( s , a ) ∇ θ ln ⁡ π θ ( a ∣ s ) ] \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) \propto \mathbb{E} \left[ Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \nabla _{\boldsymbol{\theta }}\ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right) \right] θVπθ(s)E[Qπθ(s,a)θlnπθ(as)]
其中状态随机变量 s ∼ D π θ \boldsymbol{s}\sim D^{\pi _{\boldsymbol{\theta }}} sDπθ,动作随机变量 a ∼ π θ ( a ∣ s ) \boldsymbol{a}\sim \pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right) aπθ(as) D π θ D^{\pi _{\boldsymbol{\theta }}} Dπθ是由 π θ \pi _{\boldsymbol{\theta }} πθ定义的归一化折扣状态分布。

证明: 根据全概率公式有

V π θ ( s ) = ∑ a ∈ A π θ ( s , a ) Q π θ ( s , a ) V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\sum_{\boldsymbol{a}\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)} Vπθ(s)=aAπθ(s,a)Qπθ(s,a)

代入 Q π θ ( s , a ) = ∑ s ′ ∈ S P s → s ′ a ( R s → s ′ a + γ V π θ ( s ′ ) ) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) =\sum\nolimits_{\boldsymbol{s}'\in S}^{}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\left( R_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}+\gamma V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right) \right)} Qπθ(s,a)=sSPssa(Rssa+γVπθ(s))后两边同时求梯度

∇ θ V π θ ( s ) = ∑ a ∈ A ( ∇ θ π θ ( s , a ) Q π θ ( s , a ) + π θ ( s , a ) ∇ θ Q π θ ( s , a ) ) = ∑ a ∈ A ∇ θ π θ ( s , a ) Q π θ ( s , a ) + γ ∑ a ∈ A π θ ( s , a ) ∑ s ′ ∈ S P s → s ′ a ∇ θ V π θ ( s ′ ) \begin{aligned}\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) &=\sum_{\boldsymbol{a}\in A}{\left( \nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) +\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) \nabla _{\boldsymbol{\theta }}Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \right)}\\&=\sum_{\boldsymbol{a}\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)}+\gamma \sum_{\boldsymbol{a}\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) \sum_{\boldsymbol{s}'\in S}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right)}}\end{aligned} θVπθ(s)=aA(θπθ(s,a)Qπθ(s,a)+πθ(s,a)θQπθ(s,a))=aAθπθ(s,a)Qπθ(s,a)+γaAπθ(s,a)sSPssaθVπθ(s)

这里导出了由 ∇ θ V π θ ( s ) \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( s \right) θVπθ(s)到下一个状态 ∇ θ V π θ ( s ′ ) \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( s' \right) θVπθ(s)的递推公式

∇ θ V π θ ( s ) = ∑ a ∈ A ∇ θ π θ ( s , a ) Q π θ ( s , a ) ⏟ ① + γ ∑ a ∈ A π θ ( s , a ) ∑ s ′ ∈ S P s → s ′ a ∑ a ′ ∈ A ∇ θ π θ ( s ′ , a ′ ) Q π θ ( s ′ , a ′ ) ⏟ ② + γ 2 ∑ a ∈ A π θ ( s , a ) ∑ s ′ ∈ S P s → s ′ a ∑ a ′ ∈ A π θ ( s ′ , a ′ ) ∑ s ′ ′ ∈ S P s ′ → s ′ ′ a ′ ( ⋯ ) \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\underset{①}{\underbrace{{ \sum_{\boldsymbol{a}\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)}}}}+\underset{②}{\underbrace{{\gamma \sum_{\boldsymbol{a}\in A}{\begin{array}{c} \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right)\\\end{array}}\sum_{\boldsymbol{s}'\in S}{\begin{array}{c} P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\\\end{array}}\sum_{\boldsymbol{a}'\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a}' \right)}}}}\\+\gamma ^2\sum_{\boldsymbol{a}\in A}{\begin{array}{c} \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right)\\\end{array}}\sum_{\boldsymbol{s}'\in S}{\begin{array}{c} P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\\\end{array}}\sum_{\boldsymbol{a}'\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) \sum_{\boldsymbol{s}''\in S}{P_{\boldsymbol{s}'\rightarrow \boldsymbol{s}''}^{\boldsymbol{a}'}\left( \cdots \right)}} θVπθ(s)= aAθπθ(s,a)Qπθ(s,a)+ γaAπθ(s,a)sSPssaaAθπθ(s,a)Qπθ(s,a)+γ2aAπθ(s,a)sSPssaaAπθ(s,a)s′′SPss′′a()

定义在策略 π \pi π作用下从初始状态 s \boldsymbol{s} s t t t步转移到 s ′ \boldsymbol{s}' s的状态转移概率为

P r ( s → s ′ , t , π ) Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',t,\pi \right) Pr(ss,t,π)

考察①式可得

① = ∑ s ′ ∈ S P r ( s → s ′ , 0 , π θ ) ∑ a ∈ A ∇ θ π θ ( s , a ) Q π θ ( s , a ) ① =\sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',0,\pi _{\boldsymbol{\theta }} \right)}\sum_{\boldsymbol{a}\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)} =sSPr(ss,0,πθ)aAθπθ(s,a)Qπθ(s,a)

考察②式可得

② = γ ∑ s ′ ∈ S P r ( s → s ′ , 1 , π θ ) ∑ a ′ ∈ A ∇ θ π θ ( s ′ , a ′ ) Q π θ ( s ′ , a ′ ) ② =\gamma \sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',1,\pi _{\boldsymbol{\theta }} \right)}\sum_{\boldsymbol{a}'\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a}' \right)} =γsSPr(ss,1,πθ)aAθπθ(s,a)Qπθ(s,a)

按规律递推可得

∇ θ V π θ ( s ) = ∑ t γ t ∑ s ′ ∈ S P r ( s → s ′ , t , π θ ) ∑ a ′ ∈ A ∇ θ π θ ( s ′ , a ′ ) Q π θ ( s ′ , a ′ ) \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\sum_t{\gamma ^t\sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',t,\pi _{\boldsymbol{\theta }} \right)}}\sum_{\boldsymbol{a}'\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a}' \right)} θVπθ(s)=tγtsSPr(ss,t,πθ)aAθπθ(s,a)Qπθ(s,a)

设由策略 π \pi π诱导的折扣状态分布(discounted state distribution)

d π ( s ) = ∑ t γ t P r ( s 0 → s , t , π ) d^{\pi}\left( \boldsymbol{s} \right) =\sum_t{\gamma ^tPr\left( \boldsymbol{s}_0\rightarrow \boldsymbol{s},t,\pi \right)} dπ(s)=tγtPr(s0s,t,π)

考虑到

∑ s d π ( s ) = ∑ t γ t ∑ s P r ( s 0 → s , t , π ) = ∑ t γ t = 1 1 − γ \sum_{\boldsymbol{s}}{d^{\pi}\left( \boldsymbol{s} \right)}=\sum_t{\gamma ^t\sum_{\boldsymbol{s}}{Pr\left( \boldsymbol{s}_0\rightarrow \boldsymbol{s},t,\pi \right)}}=\sum_t{\gamma ^t}=\frac{1}{1-\gamma} sdπ(s)=tγtsPr(s0s,t,π)=tγt=1γ1

所以 d π ( s ) d^{\pi}\left( \boldsymbol{s} \right) dπ(s)并不是一个概率分布,需要补偿系数 ( 1 − γ ) \left( 1-\gamma \right) (1γ)得到归一化折扣分布

D π ( s ) = ( 1 − γ ) d π ( s ) D^{\pi}\left( \boldsymbol{s} \right) =\left( 1-\gamma \right) d^{\pi}\left( \boldsymbol{s} \right) Dπ(s)=(1γ)dπ(s)

从而

∇ θ V π θ ( s ) = 1 1 − γ E s D π θ [ ∑ a ′ ∈ A π θ ( s , a ′ ) ∇ θ ln ⁡ π θ ( s , a ′ ) Q π θ ( s , a ′ ) ] ∝ E s D π θ , a π θ [ Q π θ ( s , a ) ∇ θ ln ⁡ π θ ( s , a ) ] \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\frac{1}{1-\gamma}\mathbb{E} _{\begin{array}{c} \boldsymbol{s}~D^{\pi _{\boldsymbol{\theta }}}\\\end{array}}\left[ \sum_{\boldsymbol{a}'\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a}' \right) \nabla _{\boldsymbol{\theta }}\ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a}' \right)} \right] \\\propto \mathbb{E} _{\begin{array}{c} \boldsymbol{s}~D^{\pi _{\boldsymbol{\theta }}}\\\end{array}, \boldsymbol{a}~\pi _{\boldsymbol{\theta }}}\left[ Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \nabla _{\boldsymbol{\theta }}\ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) \right] θVπθ(s)=1γ1Es Dπθ[aAπθ(s,a)θlnπθ(s,a)Qπθ(s,a)]Es Dπθ,a πθ[Qπθ(s,a)θlnπθ(s,a)]

证毕

在这里插入图片描述

3 确定性策略梯度定理推导

**定理2:**策略梯度满足
∇ θ V μ θ ( s ) ∝ E [ ∇ θ μ θ ( s ) ∇ a Q μ θ ( s , a ) ∣ a = μ θ ( s ) ] \nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) \propto \mathbb{E} \left[ \nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{} \right] θVμθ(s)E[θμθ(s)aQμθ(s,a)a=μθ(s)]
其中状态随机变量 s ∼ D μ θ \boldsymbol{s}\sim D^{\mu _{\boldsymbol{\theta }}} sDμθ,动作 a = μ θ ( s ) \boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) a=μθ(s) D μ θ D^{\mu _{\boldsymbol{\theta }}} Dμθ是由 μ θ \mu _{\boldsymbol{\theta }} μθ定义的归一化折扣状态分布。

证明: 与随机策略梯度定理证明不同,确定性策略导致价值函数和动作-价值函数的等价性

V μ θ ( s ) = Q μ θ ( s , a ) ∣ a = μ θ ( s ) = r ( s , μ θ ( s ) ) + γ ∑ s ′ ∈ S P s → s ′ μ θ ( s ) V μ θ ( s ′ ) V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{}=r\left( \boldsymbol{s},\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \right) +\gamma \sum_{\boldsymbol{s}'\in S}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right) Vμθ(s)=Qμθ(s,a)a=μθ(s)=r(s,μθ(s))+γsSPssμθ(s)Vμθ(s)

其中 r ( s , μ θ ( s ) ) = ∑ s ′ ∈ S P s → s ′ μ θ ( s ) R s → s ′ μ θ ( s ) r\left( \boldsymbol{s},\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \right) =\sum\nolimits_{\boldsymbol{s}'\in S}^{}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}R_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}} r(s,μθ(s))=sSPssμθ(s)Rssμθ(s)是单步奖赏函数。根据复合函数链式求导法则

∇ θ V μ θ ( s ) = ∇ a Q μ θ ( s , a ) ∣ a = μ θ ( s ) ∇ θ μ θ ( s ) + γ ∑ s ′ ∈ S P s → s ′ μ θ ( s ) ∇ θ V μ θ ( s ′ ) \nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) +\gamma \sum_{\boldsymbol{s}'\in S}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}\nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right)} θVμθ(s)=aQμθ(s,a)a=μθ(s)θμθ(s)+γsSPssμθ(s)θVμθ(s)

接着按照随机策略梯度定理证明过程中的递推展开可得

∇ θ V μ θ ( s ) = ∑ t γ t ∑ s ′ ∈ S P r ( s → s ′ , t , μ θ ) ∇ a Q μ θ ( s ′ , a ) ∣ a = μ θ ( s ′ ) ∇ θ μ θ ( s ′ ) \nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\sum_t{\gamma ^t\sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',t,\mu _{\boldsymbol{\theta }} \right)}}\nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right) θVμθ(s)=tγtsSPr(ss,t,μθ)aQμθ(s,a)a=μθ(s)θμθ(s)

引入归一化折扣分布可得

∇ θ V μ θ ( s ) = 1 1 − γ ∑ s ′ ∈ S D μ θ ( s ′ ) ∇ a Q μ θ ( s ′ , a ) ∣ a = μ θ ( s ′ ) ∇ θ μ θ ( s ′ ) ∝ E s D μ θ [ ∇ a Q μ θ ( s , a ) ∣ a = μ θ ( s ) ∇ θ μ θ ( s ) ] \nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\frac{1}{1-\gamma}\sum_{\boldsymbol{s}'\in S}{D^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right) \nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right)}\\\propto \mathbb{E} _{\boldsymbol{s}~D^{\mu _{\boldsymbol{\theta }}}}\left[ \nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \right] θVμθ(s)=1γ1sSDμθ(s)aQμθ(s,a)a=μθ(s)θμθ(s)Es Dμθ[aQμθ(s,a)a=μθ(s)θμθ(s)]

证毕。


🔥 更多精彩专栏

  • 《ROS从入门到精通》
  • 《Pytorch深度学习实战》
  • 《机器学习强基计划》
  • 《运动规划实战精讲》

👇源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系👇
http://www.dtcms.com/wzjs/128460.html

相关文章:

  • 做网站加盟市场调研报告800字
  • 黑龙江交通系统网站建设免费网站推广2023
  • 现货黄金什么网站可以做直播网络推广外包要多少钱
  • 国家网站集约化建设试点方案百度公司推广电话
  • 武汉 酒店 网站制作优化设计六年级上册语文答案
  • 做网站的原型文件下载长沙百度地图
  • 黑龙江生产建设兵团知识网站今日关注
  • 赣州网站建设jxgzg3北京学电脑的培训机构
  • 建设部网站在哪里看受理上海最新疫情
  • 南京手机网站制作公司网络推广网上营销
  • 苏州园区已经烂掉了seo文章推广
  • 深圳团购网站设计价格潮州seo
  • 网站编辑合适内向的人做吗万江专业网站快速排名
  • 云服务器怎么用seo技巧是什么意思
  • 相册管理网站模板下载失败不能搜的超级恶心的关键词
  • 网站制作后台怎么做网站排名优化查询
  • 网站系统建设申请报告外链图片
  • 做网站 嵌入支付属性词 关键词 核心词
  • 官网seo怎么做seo知识总结
  • 做外贸现在一般都通过哪些网站seo关键词找29火星软件
  • 打开一个网站搜索页面跳转jsseo对网店推广的作用
  • 定制网站建设公司自建站怎么推广
  • 建设党史网站的意义网站建设开发价格
  • 开发网站的可行性seo 页面
  • 济南网站建设培训班360优化大师历史版本
  • 在线免费logo设计网站手机怎么创建自己的网站平台
  • flash个人网站模板购买seo关键词排名优化官网
  • 哪个门户网站做推广好sem竞价代运营
  • 海外网站建设推广站长工具免费
  • 搜索引擎优化有哪些东莞seo建站优化哪里好