当前位置: 首页 > news >正文

深度强化学习 | 详细推导随机/确定性策略梯度定理

目录

  • 0 专栏介绍
  • 1 基于策略优化的强化学习
  • 2 随机性策略梯度定理推导
  • 3 确定性策略梯度定理推导

0 专栏介绍

本专栏以贝尔曼最优方程等数学原理为根基,结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景,深入探讨如何将DRL与路径规划、动态避障等任务结合,包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节,旨在帮助读者掌握深度强化学习技术在机器人运动规划中的实战应用

🚀详情:《运动规划实战精讲:深度强化学习篇》


1 基于策略优化的强化学习

之前章节介绍的基于价值的强化学习具有以下缺陷:

  • 难以处理连续动作。基于价值的强化学习要求有限动作空间,否则需要额外补丁;
  • 无法生成随机策略。基于价值的强化学习本质上通过 π ∗ = a r g max ⁡ a ∈ A Q π ( s , a ) \pi ^*=\mathrm{arg}\max _{a\in A}Q^{\pi}\left( s,a \right) π=argmaxaAQπ(s,a)从最优价值获得最优的确定性策略,而某些场合却需要随机策略;
  • 鲁棒性不足。强化学习获得的最优价值函数数值可能不稳定,某状态下两个动作间的价值差距可能处在较大,意味着微小的噪声可能导致最优策略的完全改变;

基于策略的强化学习(policy-based)框架中,智能体不再从价值函数间接获得策略,而是直接对策略 π ( a ∣ s ) \pi \left( a|s \right) π(as)这一条件概率分布建模(离散动作常用Softmax函数,连续动作常用高斯概率分布),改善了value-based强化学习模型的不足。

为了便于神经网络反向传播,需要计算策略的梯度。将策略参数化为 π θ ( a ∣ s ) \pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right) πθ(as),定义优化目标为累计回报

θ ∗ = a r g max ⁡ θ J ( θ ) = a r g max ⁡ θ V π θ ( s ) \boldsymbol{\theta }^*=\mathrm{arg}\max _{\boldsymbol{\theta }}J\left( \boldsymbol{\theta } \right) =\mathrm{arg}\max _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( s \right) θ=argθmaxJ(θ)=argθmaxVπθ(s)

即给定初始状态 s \boldsymbol{s} s,需要调整 θ \boldsymbol{\theta } θ使策略 π θ \pi _{\boldsymbol{\theta }} πθ作用于 s \boldsymbol{s} s使其带来的回报最大。关于 θ \boldsymbol{\theta } θ的优化方式为策略梯度定理

2 随机性策略梯度定理推导

定理1:策略梯度满足
∇ θ V π θ ( s ) ∝ E [ Q π θ ( s , a ) ∇ θ ln ⁡ π θ ( a ∣ s ) ] \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) \propto \mathbb{E} \left[ Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \nabla _{\boldsymbol{\theta }}\ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right) \right] θVπθ(s)E[Qπθ(s,a)θlnπθ(as)]
其中状态随机变量 s ∼ D π θ \boldsymbol{s}\sim D^{\pi _{\boldsymbol{\theta }}} sDπθ,动作随机变量 a ∼ π θ ( a ∣ s ) \boldsymbol{a}\sim \pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right) aπθ(as) D π θ D^{\pi _{\boldsymbol{\theta }}} Dπθ是由 π θ \pi _{\boldsymbol{\theta }} πθ定义的归一化折扣状态分布。

证明: 根据全概率公式有

V π θ ( s ) = ∑ a ∈ A π θ ( s , a ) Q π θ ( s , a ) V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\sum_{\boldsymbol{a}\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)} Vπθ(s)=aAπθ(s,a)Qπθ(s,a)

代入 Q π θ ( s , a ) = ∑ s ′ ∈ S P s → s ′ a ( R s → s ′ a + γ V π θ ( s ′ ) ) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) =\sum\nolimits_{\boldsymbol{s}'\in S}^{}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\left( R_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}+\gamma V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right) \right)} Qπθ(s,a)=sSPssa(Rssa+γVπθ(s))后两边同时求梯度

∇ θ V π θ ( s ) = ∑ a ∈ A ( ∇ θ π θ ( s , a ) Q π θ ( s , a ) + π θ ( s , a ) ∇ θ Q π θ ( s , a ) ) = ∑ a ∈ A ∇ θ π θ ( s , a ) Q π θ ( s , a ) + γ ∑ a ∈ A π θ ( s , a ) ∑ s ′ ∈ S P s → s ′ a ∇ θ V π θ ( s ′ ) \begin{aligned}\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) &=\sum_{\boldsymbol{a}\in A}{\left( \nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) +\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) \nabla _{\boldsymbol{\theta }}Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \right)}\\&=\sum_{\boldsymbol{a}\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)}+\gamma \sum_{\boldsymbol{a}\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) \sum_{\boldsymbol{s}'\in S}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right)}}\end{aligned} θVπθ(s)=aA(θπθ(s,a)Qπθ(s,a)+πθ(s,a)θQπθ(s,a))=aAθπθ(s,a)Qπθ(s,a)+γaAπθ(s,a)sSPssaθVπθ(s)

这里导出了由 ∇ θ V π θ ( s ) \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( s \right) θVπθ(s)到下一个状态 ∇ θ V π θ ( s ′ ) \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( s' \right) θVπθ(s)的递推公式

∇ θ V π θ ( s ) = ∑ a ∈ A ∇ θ π θ ( s , a ) Q π θ ( s , a ) ⏟ ① + γ ∑ a ∈ A π θ ( s , a ) ∑ s ′ ∈ S P s → s ′ a ∑ a ′ ∈ A ∇ θ π θ ( s ′ , a ′ ) Q π θ ( s ′ , a ′ ) ⏟ ② + γ 2 ∑ a ∈ A π θ ( s , a ) ∑ s ′ ∈ S P s → s ′ a ∑ a ′ ∈ A π θ ( s ′ , a ′ ) ∑ s ′ ′ ∈ S P s ′ → s ′ ′ a ′ ( ⋯ ) \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\underset{①}{\underbrace{{ \sum_{\boldsymbol{a}\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)}}}}+\underset{②}{\underbrace{{\gamma \sum_{\boldsymbol{a}\in A}{\begin{array}{c} \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right)\\\end{array}}\sum_{\boldsymbol{s}'\in S}{\begin{array}{c} P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\\\end{array}}\sum_{\boldsymbol{a}'\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a}' \right)}}}}\\+\gamma ^2\sum_{\boldsymbol{a}\in A}{\begin{array}{c} \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right)\\\end{array}}\sum_{\boldsymbol{s}'\in S}{\begin{array}{c} P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\\\end{array}}\sum_{\boldsymbol{a}'\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) \sum_{\boldsymbol{s}''\in S}{P_{\boldsymbol{s}'\rightarrow \boldsymbol{s}''}^{\boldsymbol{a}'}\left( \cdots \right)}} θVπθ(s)= aAθπθ(s,a)Qπθ(s,a)+ γaAπθ(s,a)sSPssaaAθπθ(s,a)Qπθ(s,a)+γ2aAπθ(s,a)sSPssaaAπθ(s,a)s′′SPss′′a()

定义在策略 π \pi π作用下从初始状态 s \boldsymbol{s} s t t t步转移到 s ′ \boldsymbol{s}' s的状态转移概率为

P r ( s → s ′ , t , π ) Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',t,\pi \right) Pr(ss,t,π)

考察①式可得

① = ∑ s ′ ∈ S P r ( s → s ′ , 0 , π θ ) ∑ a ∈ A ∇ θ π θ ( s , a ) Q π θ ( s , a ) ① =\sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',0,\pi _{\boldsymbol{\theta }} \right)}\sum_{\boldsymbol{a}\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)} =sSPr(ss,0,πθ)aAθπθ(s,a)Qπθ(s,a)

考察②式可得

② = γ ∑ s ′ ∈ S P r ( s → s ′ , 1 , π θ ) ∑ a ′ ∈ A ∇ θ π θ ( s ′ , a ′ ) Q π θ ( s ′ , a ′ ) ② =\gamma \sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',1,\pi _{\boldsymbol{\theta }} \right)}\sum_{\boldsymbol{a}'\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a}' \right)} =γsSPr(ss,1,πθ)aAθπθ(s,a)Qπθ(s,a)

按规律递推可得

∇ θ V π θ ( s ) = ∑ t γ t ∑ s ′ ∈ S P r ( s → s ′ , t , π θ ) ∑ a ′ ∈ A ∇ θ π θ ( s ′ , a ′ ) Q π θ ( s ′ , a ′ ) \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\sum_t{\gamma ^t\sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',t,\pi _{\boldsymbol{\theta }} \right)}}\sum_{\boldsymbol{a}'\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a}' \right)} θVπθ(s)=tγtsSPr(ss,t,πθ)aAθπθ(s,a)Qπθ(s,a)

设由策略 π \pi π诱导的折扣状态分布(discounted state distribution)

d π ( s ) = ∑ t γ t P r ( s 0 → s , t , π ) d^{\pi}\left( \boldsymbol{s} \right) =\sum_t{\gamma ^tPr\left( \boldsymbol{s}_0\rightarrow \boldsymbol{s},t,\pi \right)} dπ(s)=tγtPr(s0s,t,π)

考虑到

∑ s d π ( s ) = ∑ t γ t ∑ s P r ( s 0 → s , t , π ) = ∑ t γ t = 1 1 − γ \sum_{\boldsymbol{s}}{d^{\pi}\left( \boldsymbol{s} \right)}=\sum_t{\gamma ^t\sum_{\boldsymbol{s}}{Pr\left( \boldsymbol{s}_0\rightarrow \boldsymbol{s},t,\pi \right)}}=\sum_t{\gamma ^t}=\frac{1}{1-\gamma} sdπ(s)=tγtsPr(s0s,t,π)=tγt=1γ1

所以 d π ( s ) d^{\pi}\left( \boldsymbol{s} \right) dπ(s)并不是一个概率分布,需要补偿系数 ( 1 − γ ) \left( 1-\gamma \right) (1γ)得到归一化折扣分布

D π ( s ) = ( 1 − γ ) d π ( s ) D^{\pi}\left( \boldsymbol{s} \right) =\left( 1-\gamma \right) d^{\pi}\left( \boldsymbol{s} \right) Dπ(s)=(1γ)dπ(s)

从而

∇ θ V π θ ( s ) = 1 1 − γ E s D π θ [ ∑ a ′ ∈ A π θ ( s , a ′ ) ∇ θ ln ⁡ π θ ( s , a ′ ) Q π θ ( s , a ′ ) ] ∝ E s D π θ , a π θ [ Q π θ ( s , a ) ∇ θ ln ⁡ π θ ( s , a ) ] \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\frac{1}{1-\gamma}\mathbb{E} _{\begin{array}{c} \boldsymbol{s}~D^{\pi _{\boldsymbol{\theta }}}\\\end{array}}\left[ \sum_{\boldsymbol{a}'\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a}' \right) \nabla _{\boldsymbol{\theta }}\ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a}' \right)} \right] \\\propto \mathbb{E} _{\begin{array}{c} \boldsymbol{s}~D^{\pi _{\boldsymbol{\theta }}}\\\end{array}, \boldsymbol{a}~\pi _{\boldsymbol{\theta }}}\left[ Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \nabla _{\boldsymbol{\theta }}\ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) \right] θVπθ(s)=1γ1Es Dπθ[aAπθ(s,a)θlnπθ(s,a)Qπθ(s,a)]Es Dπθ,a πθ[Qπθ(s,a)θlnπθ(s,a)]

证毕

在这里插入图片描述

3 确定性策略梯度定理推导

**定理2:**策略梯度满足
∇ θ V μ θ ( s ) ∝ E [ ∇ θ μ θ ( s ) ∇ a Q μ θ ( s , a ) ∣ a = μ θ ( s ) ] \nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) \propto \mathbb{E} \left[ \nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{} \right] θVμθ(s)E[θμθ(s)aQμθ(s,a)a=μθ(s)]
其中状态随机变量 s ∼ D μ θ \boldsymbol{s}\sim D^{\mu _{\boldsymbol{\theta }}} sDμθ,动作 a = μ θ ( s ) \boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) a=μθ(s) D μ θ D^{\mu _{\boldsymbol{\theta }}} Dμθ是由 μ θ \mu _{\boldsymbol{\theta }} μθ定义的归一化折扣状态分布。

证明: 与随机策略梯度定理证明不同,确定性策略导致价值函数和动作-价值函数的等价性

V μ θ ( s ) = Q μ θ ( s , a ) ∣ a = μ θ ( s ) = r ( s , μ θ ( s ) ) + γ ∑ s ′ ∈ S P s → s ′ μ θ ( s ) V μ θ ( s ′ ) V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{}=r\left( \boldsymbol{s},\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \right) +\gamma \sum_{\boldsymbol{s}'\in S}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right) Vμθ(s)=Qμθ(s,a)a=μθ(s)=r(s,μθ(s))+γsSPssμθ(s)Vμθ(s)

其中 r ( s , μ θ ( s ) ) = ∑ s ′ ∈ S P s → s ′ μ θ ( s ) R s → s ′ μ θ ( s ) r\left( \boldsymbol{s},\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \right) =\sum\nolimits_{\boldsymbol{s}'\in S}^{}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}R_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}} r(s,μθ(s))=sSPssμθ(s)Rssμθ(s)是单步奖赏函数。根据复合函数链式求导法则

∇ θ V μ θ ( s ) = ∇ a Q μ θ ( s , a ) ∣ a = μ θ ( s ) ∇ θ μ θ ( s ) + γ ∑ s ′ ∈ S P s → s ′ μ θ ( s ) ∇ θ V μ θ ( s ′ ) \nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) +\gamma \sum_{\boldsymbol{s}'\in S}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}\nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right)} θVμθ(s)=aQμθ(s,a)a=μθ(s)θμθ(s)+γsSPssμθ(s)θVμθ(s)

接着按照随机策略梯度定理证明过程中的递推展开可得

∇ θ V μ θ ( s ) = ∑ t γ t ∑ s ′ ∈ S P r ( s → s ′ , t , μ θ ) ∇ a Q μ θ ( s ′ , a ) ∣ a = μ θ ( s ′ ) ∇ θ μ θ ( s ′ ) \nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\sum_t{\gamma ^t\sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',t,\mu _{\boldsymbol{\theta }} \right)}}\nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right) θVμθ(s)=tγtsSPr(ss,t,μθ)aQμθ(s,a)a=μθ(s)θμθ(s)

引入归一化折扣分布可得

∇ θ V μ θ ( s ) = 1 1 − γ ∑ s ′ ∈ S D μ θ ( s ′ ) ∇ a Q μ θ ( s ′ , a ) ∣ a = μ θ ( s ′ ) ∇ θ μ θ ( s ′ ) ∝ E s D μ θ [ ∇ a Q μ θ ( s , a ) ∣ a = μ θ ( s ) ∇ θ μ θ ( s ) ] \nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\frac{1}{1-\gamma}\sum_{\boldsymbol{s}'\in S}{D^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right) \nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right)}\\\propto \mathbb{E} _{\boldsymbol{s}~D^{\mu _{\boldsymbol{\theta }}}}\left[ \nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \right] θVμθ(s)=1γ1sSDμθ(s)aQμθ(s,a)a=μθ(s)θμθ(s)Es Dμθ[aQμθ(s,a)a=μθ(s)θμθ(s)]

证毕。


🔥 更多精彩专栏

  • 《ROS从入门到精通》
  • 《Pytorch深度学习实战》
  • 《机器学习强基计划》
  • 《运动规划实战精讲》

👇源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系👇

相关文章:

  • `dispatch_source_t` 计时器 vs `NSTimer`:核心差异一览
  • React 18 渲染机制优化:解决浏览器卡顿的三种方案
  • 应用无法获取用户真实ip问题排查
  • 前端面试宝典---事件循环面试题
  • 现代数据工程实践:基于Dagster的ETL架构设计与实现
  • 【全开源】码小象租车系统源码+uniapp前端+开发文档接口
  • python数据结构和算法(5)
  • P1216 [IOI 1994] 数字三角形 Number Triangles
  • 7.Vue的compute计算属性
  • 【VBA】把目录及子目录下所有doc/docx转换为pdf格式
  • synchronized 学习序章
  • 第三章支线五 ·组件之城 · 构建与复用的魔法工坊
  • 鹰盾加密虚拟机保护技术的深度解析:从指令级虚拟化到动态对抗系统
  • 【一文理解】下采样与上采样区别
  • 代码随想录算法训练营第60期第六十四天打卡
  • 什么是数据转换?数据转换有哪些方式?
  • C++ 智能指针实现原理
  • 香橙派3B学习笔记9:Linux基础gcc/g++编译__C/C++中动态链接库(.so)的编译与使用
  • Mybatisplus3.5.6,用String处理数据库列为JSONB字段
  • 【CF】Day80——Codeforces Round 872 (Div. 2) C⭐D (思维 + 模拟 | 树 + 思维 + 组合数学 + 分数取模)
  • 快递物流网站建设开发具备哪些功能/想学销售去哪培训
  • 商业摄影网站源码/网络运营seo是什么
  • 济南集团网站建设流程/网站优化推广平台
  • 网站站内优化怎么做/seo做得比较好的公司
  • 网站备案怎么备案/今日国际军事新闻最新消息
  • 专业的营销型网站培训中心/关于进一步优化