Benchmarking Potential Based Rewards for Learning Humanoid Locomotion
Benchmarking Potential Based Rewards for Learning Humanoid Locomotion
- 研究动机
- 解决方案
- 技术路线
- 奖励塑形
- 基于势能的塑造
- 人形机器人行走案例研究
- 系统概述
- 基线奖励
- 塑形奖励
- 实验结果
Benchmarking Potential Based Rewards for Learning Humanoid Locomotion
研究动机
- 选择的奖励函数能够产生所需的最优控制器,它也可能导致收敛速度慢和局部最小值。这些挑战通常通过奖励塑形来解决:添加额外的奖励项以提供一个关于轨迹与最优策略“接近程度”的信息信号。然而,在这种情况下,“接近”的定义往往不够直观。实际上,大量时间都花在调整这些塑形奖励上,以找到收敛性和对期望行为的接近程度之间的可接受权衡。此外,整个训练过程对超参数和奖励权重非常敏感,这使得特定奖励项对收敛策略的影响变得模糊,也使得它们难以精确调整。
- 基于势的奖励塑造函数(PBRS),理论上不会影响最终策略。这一理论特性非常吸引人,因为PBRS有可能将奖励设计的挑战与奖励塑造分离,使工程师能够使用基于任务的简单奖励来表达预期行为,并利用PBRS来促进收敛,但这些研究通常局限于网格世界或低维系统。
解决方案
展示了在3D环境中使用深度强化学习在人形双足机器人上跑步的实证案例研究,并系统地比较了标准奖励塑造和 PBRS。与许多先前的研究不同,发现PBRS的主要优势并不在于更快的收敛性。然而,PBRS 在鲁棒性方面比标准的奖励塑造要强得多,使得调整奖励塑造函数变得更加容易。
技术路线
奖励塑形
学习价值函数尤其具有挑战性,当长期最优性与短期奖励信号差异很大时,例如对于稀疏的任务导向奖励。在这种情况下,通常需要指定一个接近1的折扣因子,以强调长期结果的重要性。这更具挑战性,因为智能体需要应对一个更模糊的信用分配问题。奖励塑形的核心主题之一是提供一个更直接反映当前动作对最终结果影响的奖励信号。这通常通过制定密集奖励来实现,使得在整个轨迹中都有信息性的奖励信号可用。
将这些塑形奖励记作 R ( s k , a k , s k + 1 ) R(s_k,a_k,s_{k+1}) R(sk,ak,sk+1),相应的总奖励记作 r ^ \hat{r} r^,相应的MDP记作 M s h a p e d \mathcal{M}_{shaped} Mshaped
r ^ ( s k , a k , s k + 1 ) = r ( s k , a k , s k + 1 ) + R ( s k , a k , s k + 1 ) \hat{r}(s_k,a_k,s_{k+1})=r(s_k,a_k,s_{k+1})+R(s_k,a_k,s_{k+1}) r^(sk,ak,sk+1)=r(sk,ak,sk+1)+R(sk,ak,sk+1)
M s h a p e d = ( S , A , T , r ^ , γ ) \mathcal{M}_{shaped}=(\mathcal{S},\mathcal{A},\mathcal{T},\hat{r},\gamma) Mshaped=(S,A,T,r^,γ)
当奖励设计得当,可以大大帮助收敛。然而,需要注意的是,添加塑造项会从根本上改变MDP,并可能对期望的行为产生意想不到的影响。注意到,在大多数机器人领域的RL研究中,奖励项通常限制为可以计算为 r ( a ) r(a) r(a)、 r ( s ) r(s) r(s)或 R ( s ) R(s) R(s)的形式。稍微滥用一下符号,将 R ( s ) R(s) R(s)称为直接奖励塑形(DRS)。
基于势能的塑造
考虑一个修改后的MDP, M p o t e n t i a l = ( S , A , T , r ~ , γ ) \mathcal{M}_{potential}=(\mathcal{S},\mathcal{A},\mathcal{T},\widetilde{r},\gamma) Mpotential=(S,A,T,r ,γ),定义为
P ( s k , s k + 1 ) = γ Φ ( s k + 1 ) − Φ ( s k ) P(s_k,s_{k+1})=\gamma \Phi(s_{k+1})-\Phi(s_k) P(sk,sk+1)=γΦ(sk+1)−Φ(sk)
r ~ ( s k , a k , s k + 1 ) = r ( s k , a k , s k + 1 ) + P ( s k , s k + 1 ) \widetilde{r}(s_k,a_k,s_{k+1})=r(s_k,a_k,s_{k+1})+P(s_k,s_{k+1}) r (sk,ak,sk+1)=r(sk,ak,sk+1)+P(sk,sk+1)
其中 Φ \Phi Φ是一个标量实值函数, P P P是基于势能的奖励,基于势能的奖励关注的是通过动力学传递的奖励的变化,而不是它们的瞬时值,如图所示。
请注意,任何DRS项 R ( s ) R(s) R(s)都可以轻易用作PBRS的潜在函数,在后续部分,专注于使用 Φ ( s ) = R ( s ) \Phi(s)=R(s) Φ(s)=R(s)进行比较。有文献证明,即使对于任意势能函数,原始MDP M \mathcal{M} M的最优策略对于基于势能塑形的奖励来说是不变的。此外,优势函数和策略梯度也不受 P ( s k , s k + 1 P(s_k,s_{k+1} P(sk,sk+1添加到原始奖励组合的影响。也就是说,一个在塑形MDP M s h a p e d \mathcal{M}_{shaped} Mshaped上训练的智能体收敛的策略也是原始MDP M \mathcal{M} M的最优策略。
人形机器人行走案例研究
为证明测试基于势能的奖励在连续、高维度机器人控制中的有效性,使用MIT类人机器人进行测试。从一组基本的基线奖励开始,然后测试一组常用的目标奖励项以及将同一组塑形奖励重新表述为PBRS奖励项。(仅考虑腿部10自由度)
系统概述
观测值如表所示,并添加均匀采样噪声。相位 ϕ \phi ϕ是一个简单的时钟,以每秒一次的恒定速度增加。
基线奖励
对于一般的移动,定义了一组基线奖励,如表所示。线性速度和角速度跟踪,是唯一的任务相关奖励;其他项都是通用的正则化项,以鼓励平滑性、效率,避免违反关节限制。
对于基线奖励, Δ t \Delta t Δt为控制器时间步长, σ = 0.5 \sigma=0.5 σ=0.5为缩放参数, β τ = 0.8 \beta_\tau=0.8 βτ=0.8和 β q = 0.9 \beta_q=0.9 βq=0.9为软约束,以避免达到关节和执行器的物理约束, τ m a x \tau_{max} τmax和 q m a x q_{max} qmax为系统的扭矩和关节限制。
塑形奖励
选择在类人行走文献中常用作为成本的三种塑造奖励:姿态、高度和关节正则化,它们的奖励项定义在上表中。一个名义上的期望高度 z d e s z_{des} zdes=0.6米是手动选择的高度目标, g ^ x \hat{g}_x g^x和 g ^ y \hat{g}_y g^y为机器人坐标系中重力向量的分量, q i j q_i^j qij是腿 j j j上的第 i t h i^{th} ith个关节类型。下标表示特定的关节, q a q_a qa、 q p q_p qp和 q y q_y qy分别代表滚转、俯仰和偏航关节,上标指的是关节所属的(左/右)腿。奖励 R j o i n t R_{joint} Rjoint用于对偏航关节实施正则化并鼓励腿部滚转和俯仰关节之间的对称性。
将这些“直接”的塑造奖励简单地转换为基于势能的形式
P s ( s k , s k + 1 ) = γ R s ( s k + 1 ) − R s ( s k ) P_s(s_k,s_{k+1})=\gamma R_s(s_{k+1})-R_s(s_k) Ps(sk,sk+1)=γRs(sk+1)−Rs(sk)
其中 γ \gamma γ为折扣因子, R s R_s Rs表示塑形奖励。
实验结果
请阅读原文。