当前位置: 首页 > wzjs >正文

.net网站空间微网站建设哪家好

.net网站空间,微网站建设哪家好,seo 0xu,珠海seoBenchmarking Potential Based Rewards for Learning Humanoid Locomotion 研究动机解决方案技术路线奖励塑形基于势能的塑造人形机器人行走案例研究系统概述基线奖励塑形奖励 实验结果 Benchmarking Potential Based Rewards for Learning Humanoid Locomotion 研究动机 选择…

Benchmarking Potential Based Rewards for Learning Humanoid Locomotion

  • 研究动机
  • 解决方案
  • 技术路线
    • 奖励塑形
    • 基于势能的塑造
    • 人形机器人行走案例研究
      • 系统概述
      • 基线奖励
      • 塑形奖励
  • 实验结果

Benchmarking Potential Based Rewards for Learning Humanoid Locomotion

研究动机

  • 选择的奖励函数能够产生所需的最优控制器,它也可能导致收敛速度慢和局部最小值。这些挑战通常通过奖励塑形来解决:添加额外的奖励项以提供一个关于轨迹与最优策略“接近程度”的信息信号。然而,在这种情况下,“接近”的定义往往不够直观。实际上,大量时间都花在调整这些塑形奖励上,以找到收敛性和对期望行为的接近程度之间的可接受权衡。此外,整个训练过程对超参数和奖励权重非常敏感,这使得特定奖励项对收敛策略的影响变得模糊,也使得它们难以精确调整。
  • 基于势的奖励塑造函数(PBRS),理论上不会影响最终策略。这一理论特性非常吸引人,因为PBRS有可能将奖励设计的挑战与奖励塑造分离,使工程师能够使用基于任务的简单奖励来表达预期行为,并利用PBRS来促进收敛,但这些研究通常局限于网格世界或低维系统。

解决方案

展示了在3D环境中使用深度强化学习在人形双足机器人上跑步的实证案例研究,并系统地比较了标准奖励塑造和 PBRS。与许多先前的研究不同,发现PBRS的主要优势并不在于更快的收敛性。然而,PBRS 在鲁棒性方面比标准的奖励塑造要强得多,使得调整奖励塑造函数变得更加容易。

技术路线

奖励塑形

学习价值函数尤其具有挑战性,当长期最优性与短期奖励信号差异很大时,例如对于稀疏的任务导向奖励。在这种情况下,通常需要指定一个接近1的折扣因子,以强调长期结果的重要性。这更具挑战性,因为智能体需要应对一个更模糊的信用分配问题。奖励塑形的核心主题之一是提供一个更直接反映当前动作对最终结果影响的奖励信号。这通常通过制定密集奖励来实现,使得在整个轨迹中都有信息性的奖励信号可用。

将这些塑形奖励记作 R ( s k , a k , s k + 1 ) R(s_k,a_k,s_{k+1}) R(sk,ak,sk+1),相应的总奖励记作 r ^ \hat{r} r^,相应的MDP记作 M s h a p e d \mathcal{M}_{shaped} Mshaped

r ^ ( s k , a k , s k + 1 ) = r ( s k , a k , s k + 1 ) + R ( s k , a k , s k + 1 ) \hat{r}(s_k,a_k,s_{k+1})=r(s_k,a_k,s_{k+1})+R(s_k,a_k,s_{k+1}) r^(sk,ak,sk+1)=r(sk,ak,sk+1)+R(sk,ak,sk+1)
M s h a p e d = ( S , A , T , r ^ , γ ) \mathcal{M}_{shaped}=(\mathcal{S},\mathcal{A},\mathcal{T},\hat{r},\gamma) Mshaped=(S,A,T,r^,γ)

当奖励设计得当,可以大大帮助收敛。然而,需要注意的是,添加塑造项会从根本上改变MDP,并可能对期望的行为产生意想不到的影响。注意到,在大多数机器人领域的RL研究中,奖励项通常限制为可以计算为 r ( a ) r(a) r(a) r ( s ) r(s) r(s) R ( s ) R(s) R(s)的形式。稍微滥用一下符号,将 R ( s ) R(s) R(s)称为直接奖励塑形(DRS)。

基于势能的塑造

考虑一个修改后的MDP, M p o t e n t i a l = ( S , A , T , r ~ , γ ) \mathcal{M}_{potential}=(\mathcal{S},\mathcal{A},\mathcal{T},\widetilde{r},\gamma) Mpotential=(S,A,T,r ,γ),定义为

P ( s k , s k + 1 ) = γ Φ ( s k + 1 ) − Φ ( s k ) P(s_k,s_{k+1})=\gamma \Phi(s_{k+1})-\Phi(s_k) P(sk,sk+1)=γΦ(sk+1)Φ(sk)
r ~ ( s k , a k , s k + 1 ) = r ( s k , a k , s k + 1 ) + P ( s k , s k + 1 ) \widetilde{r}(s_k,a_k,s_{k+1})=r(s_k,a_k,s_{k+1})+P(s_k,s_{k+1}) r (sk,ak,sk+1)=r(sk,ak,sk+1)+P(sk,sk+1)

其中 Φ \Phi Φ是一个标量实值函数, P P P是基于势能的奖励,基于势能的奖励关注的是通过动力学传递的奖励的变化,而不是它们的瞬时值,如图所示。

在这里插入图片描述
请注意,任何DRS项 R ( s ) R(s) R(s)都可以轻易用作PBRS的潜在函数,在后续部分,专注于使用 Φ ( s ) = R ( s ) \Phi(s)=R(s) Φ(s)=R(s)进行比较。有文献证明,即使对于任意势能函数,原始MDP M \mathcal{M} M的最优策略对于基于势能塑形的奖励来说是不变的。此外,优势函数和策略梯度也不受 P ( s k , s k + 1 P(s_k,s_{k+1} P(sk,sk+1添加到原始奖励组合的影响。也就是说,一个在塑形MDP M s h a p e d \mathcal{M}_{shaped} Mshaped上训练的智能体收敛的策略也是原始MDP M \mathcal{M} M的最优策略。

人形机器人行走案例研究

为证明测试基于势能的奖励在连续、高维度机器人控制中的有效性,使用MIT类人机器人进行测试。从一组基本的基线奖励开始,然后测试一组常用的目标奖励项以及将同一组塑形奖励重新表述为PBRS奖励项。(仅考虑腿部10自由度)

系统概述

观测值如表所示,并添加均匀采样噪声。相位 ϕ \phi ϕ是一个简单的时钟,以每秒一次的恒定速度增加。

在这里插入图片描述

基线奖励

对于一般的移动,定义了一组基线奖励,如表所示。线性速度和角速度跟踪,是唯一的任务相关奖励;其他项都是通用的正则化项,以鼓励平滑性、效率,避免违反关节限制。

在这里插入图片描述
对于基线奖励, Δ t \Delta t Δt为控制器时间步长, σ = 0.5 \sigma=0.5 σ=0.5为缩放参数, β τ = 0.8 \beta_\tau=0.8 βτ=0.8 β q = 0.9 \beta_q=0.9 βq=0.9为软约束,以避免达到关节和执行器的物理约束, τ m a x \tau_{max} τmax q m a x q_{max} qmax为系统的扭矩和关节限制。

塑形奖励

选择在类人行走文献中常用作为成本的三种塑造奖励:姿态、高度和关节正则化,它们的奖励项定义在上表中。一个名义上的期望高度 z d ​ e ​ s z_{d​e​s} zdes=0.6米是手动选择的高度目标, g ^ x \hat{g}_x g^x g ^ y \hat{g}_y g^y为机器人坐标系中重力向量的分量, q i j q_i^j qij是腿 j j j上的第 i t h i^{th} ith个关节类型。下标表示特定的关节, q a q_a qa q p q_p qp q y q_y qy分别代表滚转、俯仰和偏航关节,上标指的是关节所属的(左/右)腿。奖励 R j ​ o ​ i ​ n ​ t R_{j​o​i​n​t} Rjoint用于对偏航关节实施正则化并鼓励腿部滚转和俯仰关节之间的对称性。

将这些“直接”的塑造奖励简单地转换为基于势能的形式

P s ( s k , s k + 1 ) = γ R s ( s k + 1 ) − R s ( s k ) P_s(s_k,s_{k+1})=\gamma R_s(s_{k+1})-R_s(s_k) Ps(sk,sk+1)=γRs(sk+1)Rs(sk)

其中 γ \gamma γ为折扣因子, R s R_s Rs表示塑形奖励。

实验结果

请阅读原文。


文章转载自:

http://eXrK4T6s.ktrzt.cn
http://y7cBgVri.ktrzt.cn
http://XqjepTLT.ktrzt.cn
http://zHCOtHKI.ktrzt.cn
http://G7VRiShe.ktrzt.cn
http://ZBsNmcGP.ktrzt.cn
http://9pUtjc2g.ktrzt.cn
http://RoWzpJ6o.ktrzt.cn
http://qLKa5HO7.ktrzt.cn
http://YZOODnD0.ktrzt.cn
http://5G3ByleJ.ktrzt.cn
http://DNtFxYTD.ktrzt.cn
http://JEK3nAsw.ktrzt.cn
http://BiZeA6vg.ktrzt.cn
http://JQTaqvrC.ktrzt.cn
http://AxNqWvYM.ktrzt.cn
http://JLeqQ3MQ.ktrzt.cn
http://tXdHCNRY.ktrzt.cn
http://GeiYKZQG.ktrzt.cn
http://p8Dtutn6.ktrzt.cn
http://ar6Rej6U.ktrzt.cn
http://q1Xq1MhX.ktrzt.cn
http://V1jEYIvG.ktrzt.cn
http://cQc3u4GN.ktrzt.cn
http://BEuhsiIi.ktrzt.cn
http://F2mUobra.ktrzt.cn
http://AmWIx944.ktrzt.cn
http://YHwMPXVk.ktrzt.cn
http://PfH8xCfF.ktrzt.cn
http://s2bkHz4n.ktrzt.cn
http://www.dtcms.com/wzjs/754251.html

相关文章:

  • 建设一个网站大概费用网站静态和动态区别是什么意思
  • 北京市城市建设档案馆网站网页设计思路怎么写
  • 公司网站在哪备案网站开发 前端vue 后端c
  • 响应式网站是什么情况做框架模板的网站
  • 同仁县公司网站建设网页设计与制作题库与答案
  • 郴州网站设计较好的公司谷歌google play下载
  • 黄骅市网站建设公司网站做2微码
  • 在门户网站做推广wordpress搜索页面模板
  • 在阿里巴巴做网站多少钱域名注册服务机构
  • html5自适应网站源码做公司的宣传网站需要注意什么
  • 网站 工信部备案 收回网站建设需求文案案例
  • 个体户营业执照可以做网站吗WordPress单拦主题
  • 网站报价怎么做艺考培训学校
  • 哪个网站可以预约做头发的宁夏网站备案
  • 网站建设名词公司装修设计哪家好
  • 自动生成网站地图的工具seo网站推广公司
  • 使用模板建站湘潭新思维网站
  • 人脉做的最好的网站济南网站开发培训班
  • 网站托管哪家公司好华为网络推广方案
  • 网站管理员登陆域名西安网页设计培训班
  • 网站开发算法面试百度搜索排名推广
  • 网业制作与网站建设网站建设前端工具
  • 接网站建设_网站设计seo点击软件手机
  • 公司做一个网站内容如何设计wordpress可视化建站
  • 沈阳网站开发培训价格局网站建设工作征求意见
  • 如何制作旅游网站深圳南山logo设计公司
  • 网站开发技术要求最新手机发布会
  • 重庆招聘网站哪个好网站建设财务上怎么处理
  • 门户网站是指提供什么的网站创意设计
  • 各类网站网站建设的目标是什么意思信阳网