当前位置: 首页 > wzjs >正文

织梦如何做网站留言功能河北网站建设推广

织梦如何做网站留言功能,河北网站建设推广,网站建设需要知道什么,深圳的网站建设公司哪家好Benchmarking Potential Based Rewards for Learning Humanoid Locomotion 研究动机解决方案技术路线奖励塑形基于势能的塑造人形机器人行走案例研究系统概述基线奖励塑形奖励 实验结果 Benchmarking Potential Based Rewards for Learning Humanoid Locomotion 研究动机 选择…

Benchmarking Potential Based Rewards for Learning Humanoid Locomotion

  • 研究动机
  • 解决方案
  • 技术路线
    • 奖励塑形
    • 基于势能的塑造
    • 人形机器人行走案例研究
      • 系统概述
      • 基线奖励
      • 塑形奖励
  • 实验结果

Benchmarking Potential Based Rewards for Learning Humanoid Locomotion

研究动机

  • 选择的奖励函数能够产生所需的最优控制器,它也可能导致收敛速度慢和局部最小值。这些挑战通常通过奖励塑形来解决:添加额外的奖励项以提供一个关于轨迹与最优策略“接近程度”的信息信号。然而,在这种情况下,“接近”的定义往往不够直观。实际上,大量时间都花在调整这些塑形奖励上,以找到收敛性和对期望行为的接近程度之间的可接受权衡。此外,整个训练过程对超参数和奖励权重非常敏感,这使得特定奖励项对收敛策略的影响变得模糊,也使得它们难以精确调整。
  • 基于势的奖励塑造函数(PBRS),理论上不会影响最终策略。这一理论特性非常吸引人,因为PBRS有可能将奖励设计的挑战与奖励塑造分离,使工程师能够使用基于任务的简单奖励来表达预期行为,并利用PBRS来促进收敛,但这些研究通常局限于网格世界或低维系统。

解决方案

展示了在3D环境中使用深度强化学习在人形双足机器人上跑步的实证案例研究,并系统地比较了标准奖励塑造和 PBRS。与许多先前的研究不同,发现PBRS的主要优势并不在于更快的收敛性。然而,PBRS 在鲁棒性方面比标准的奖励塑造要强得多,使得调整奖励塑造函数变得更加容易。

技术路线

奖励塑形

学习价值函数尤其具有挑战性,当长期最优性与短期奖励信号差异很大时,例如对于稀疏的任务导向奖励。在这种情况下,通常需要指定一个接近1的折扣因子,以强调长期结果的重要性。这更具挑战性,因为智能体需要应对一个更模糊的信用分配问题。奖励塑形的核心主题之一是提供一个更直接反映当前动作对最终结果影响的奖励信号。这通常通过制定密集奖励来实现,使得在整个轨迹中都有信息性的奖励信号可用。

将这些塑形奖励记作 R ( s k , a k , s k + 1 ) R(s_k,a_k,s_{k+1}) R(sk,ak,sk+1),相应的总奖励记作 r ^ \hat{r} r^,相应的MDP记作 M s h a p e d \mathcal{M}_{shaped} Mshaped

r ^ ( s k , a k , s k + 1 ) = r ( s k , a k , s k + 1 ) + R ( s k , a k , s k + 1 ) \hat{r}(s_k,a_k,s_{k+1})=r(s_k,a_k,s_{k+1})+R(s_k,a_k,s_{k+1}) r^(sk,ak,sk+1)=r(sk,ak,sk+1)+R(sk,ak,sk+1)
M s h a p e d = ( S , A , T , r ^ , γ ) \mathcal{M}_{shaped}=(\mathcal{S},\mathcal{A},\mathcal{T},\hat{r},\gamma) Mshaped=(S,A,T,r^,γ)

当奖励设计得当,可以大大帮助收敛。然而,需要注意的是,添加塑造项会从根本上改变MDP,并可能对期望的行为产生意想不到的影响。注意到,在大多数机器人领域的RL研究中,奖励项通常限制为可以计算为 r ( a ) r(a) r(a) r ( s ) r(s) r(s) R ( s ) R(s) R(s)的形式。稍微滥用一下符号,将 R ( s ) R(s) R(s)称为直接奖励塑形(DRS)。

基于势能的塑造

考虑一个修改后的MDP, M p o t e n t i a l = ( S , A , T , r ~ , γ ) \mathcal{M}_{potential}=(\mathcal{S},\mathcal{A},\mathcal{T},\widetilde{r},\gamma) Mpotential=(S,A,T,r ,γ),定义为

P ( s k , s k + 1 ) = γ Φ ( s k + 1 ) − Φ ( s k ) P(s_k,s_{k+1})=\gamma \Phi(s_{k+1})-\Phi(s_k) P(sk,sk+1)=γΦ(sk+1)Φ(sk)
r ~ ( s k , a k , s k + 1 ) = r ( s k , a k , s k + 1 ) + P ( s k , s k + 1 ) \widetilde{r}(s_k,a_k,s_{k+1})=r(s_k,a_k,s_{k+1})+P(s_k,s_{k+1}) r (sk,ak,sk+1)=r(sk,ak,sk+1)+P(sk,sk+1)

其中 Φ \Phi Φ是一个标量实值函数, P P P是基于势能的奖励,基于势能的奖励关注的是通过动力学传递的奖励的变化,而不是它们的瞬时值,如图所示。

在这里插入图片描述
请注意,任何DRS项 R ( s ) R(s) R(s)都可以轻易用作PBRS的潜在函数,在后续部分,专注于使用 Φ ( s ) = R ( s ) \Phi(s)=R(s) Φ(s)=R(s)进行比较。有文献证明,即使对于任意势能函数,原始MDP M \mathcal{M} M的最优策略对于基于势能塑形的奖励来说是不变的。此外,优势函数和策略梯度也不受 P ( s k , s k + 1 P(s_k,s_{k+1} P(sk,sk+1添加到原始奖励组合的影响。也就是说,一个在塑形MDP M s h a p e d \mathcal{M}_{shaped} Mshaped上训练的智能体收敛的策略也是原始MDP M \mathcal{M} M的最优策略。

人形机器人行走案例研究

为证明测试基于势能的奖励在连续、高维度机器人控制中的有效性,使用MIT类人机器人进行测试。从一组基本的基线奖励开始,然后测试一组常用的目标奖励项以及将同一组塑形奖励重新表述为PBRS奖励项。(仅考虑腿部10自由度)

系统概述

观测值如表所示,并添加均匀采样噪声。相位 ϕ \phi ϕ是一个简单的时钟,以每秒一次的恒定速度增加。

在这里插入图片描述

基线奖励

对于一般的移动,定义了一组基线奖励,如表所示。线性速度和角速度跟踪,是唯一的任务相关奖励;其他项都是通用的正则化项,以鼓励平滑性、效率,避免违反关节限制。

在这里插入图片描述
对于基线奖励, Δ t \Delta t Δt为控制器时间步长, σ = 0.5 \sigma=0.5 σ=0.5为缩放参数, β τ = 0.8 \beta_\tau=0.8 βτ=0.8 β q = 0.9 \beta_q=0.9 βq=0.9为软约束,以避免达到关节和执行器的物理约束, τ m a x \tau_{max} τmax q m a x q_{max} qmax为系统的扭矩和关节限制。

塑形奖励

选择在类人行走文献中常用作为成本的三种塑造奖励:姿态、高度和关节正则化,它们的奖励项定义在上表中。一个名义上的期望高度 z d ​ e ​ s z_{d​e​s} zdes=0.6米是手动选择的高度目标, g ^ x \hat{g}_x g^x g ^ y \hat{g}_y g^y为机器人坐标系中重力向量的分量, q i j q_i^j qij是腿 j j j上的第 i t h i^{th} ith个关节类型。下标表示特定的关节, q a q_a qa q p q_p qp q y q_y qy分别代表滚转、俯仰和偏航关节,上标指的是关节所属的(左/右)腿。奖励 R j ​ o ​ i ​ n ​ t R_{j​o​i​n​t} Rjoint用于对偏航关节实施正则化并鼓励腿部滚转和俯仰关节之间的对称性。

将这些“直接”的塑造奖励简单地转换为基于势能的形式

P s ( s k , s k + 1 ) = γ R s ( s k + 1 ) − R s ( s k ) P_s(s_k,s_{k+1})=\gamma R_s(s_{k+1})-R_s(s_k) Ps(sk,sk+1)=γRs(sk+1)Rs(sk)

其中 γ \gamma γ为折扣因子, R s R_s Rs表示塑形奖励。

实验结果

请阅读原文。

http://www.dtcms.com/wzjs/523273.html

相关文章:

  • 福建两学一做网站重庆seo网络优化师
  • 网站开发情况兰州网站seo
  • 独立页面成网站通过如何创建自己的小程序
  • h5开网站开发教程it培训机构哪个好一点
  • 沈阳中小企业网站制作北京百度推广代运营
  • 画江湖网站开发文档关键词的优化方案
  • 建设软件资源网站seo站长网怎么下载
  • 响应式网站设计原理sem工作内容
  • 淮南做网站的公司销售网站有哪些
  • 上海市住房和城乡建设厅官方网站网络优化的工作内容
  • 别人帮我做的网站没用要交费用吗黄金网站软件app大全下载
  • 做手机网站一般要多少钱企业管理培训课程视频
  • 兰州网站开发在哪里网页设计页面
  • 网站开发心得体会南宁百度seo价格
  • 公司部门划分及职责余姚网站seo运营
  • 生意宝做网站行吗电商运营培训班多少钱
  • 家庭宽带怎么做网站网络营销就是
  • 传统网站开发中国足彩网竞彩推荐
  • asp网站制作教程爱站工具包手机版
  • 网站半年了 没有流量农业推广
  • 株洲做网站优化手机百度搜索引擎入口
  • 长图海报制作网站网站优化seo怎么做
  • 高校网站安全建设方案营销策略范文
  • wordpress变数据库做seo需要哪些知识
  • 家政保洁公司网站建设方案武汉seo网站推广
  • 外贸电商网站开发最强大的搜索引擎
  • 什么网站可以免费做兼职品牌整合营销案例
  • 西安煤炭建设监理中心网站seo文章关键词怎么优化
  • 柳州网站建设公网站关键词排名服务
  • 阿里云做网站怎么挣钱个人网站创建平台