当前位置: 首页 > wzjs >正文

企业信用网站建设凡科网站建设总结

企业信用网站建设,凡科网站建设总结,做网站用盗版PS,如何做平台推广Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies 研究动机解决方案技术路线背景知识Lipschitz约束策略 实验结果 Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies 研究动机 由于仿真中使用的简化动力学和驱动模型…

Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies

  • 研究动机
  • 解决方案
  • 技术路线
    • 背景知识
    • Lipschitz约束策略
  • 实验结果

Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies

研究动机

  • 由于仿真中使用的简化动力学和驱动模型,所得到的模型往往接近理想化,这意味着电机可以在任何状态下产生所需的扭矩。因此,基于RL的策略在仿真中训练时,容易发展出类似于开环控制(bang-bang 控制)的抖动行为,导致连续时间步之间的动作差异显著,产生实际执行器无法产生的极高输出扭矩,这些行为往往无法转移到真实机器人上。因此,强制执行平滑行为对于成功的仿真到现实世界的转移至关重要。
  • 训练过程中引入平滑性奖励是一种有效的方法,促使产生更平滑的行为。在机器人运动中,通常惩罚关节速度、关节加速度和能量消耗,或通过应用低通滤波器来平滑策略行为。然而,平滑性奖励需要仔细调整权重以平衡平滑行为与任务完成之间的关系,而低通滤波器往往会抑制或限制探索,导致在为新机器人训练控制器时需要额外的努力。

解决方案

引入Lipschitz-Constrained Policies(LCP),一种通用且可微的方法,用于鼓励RL策略发展平滑的行为。LCP通过可微的梯度惩罚在策略的输出动作与输入观察之间施加Lipschitz约束。LCP只需几行代码即可实现,并且可以轻松集成到现有的RL框架中。

技术路线

背景知识

Lipschitz连续性是一种限制函数变化速度的性质。该性质可用于描述函数平滑性,如图所示。

在这里插入图片描述
Lipschitz连续性。给定两个度量空间 ( X , d X ) (X,d_X) (X,dX) ( Y , d Y ) (Y,d_Y) (Y,dY),其中 d X d_X dX表示集合 X X X上的度量, d Y d_Y dY是集合 Y Y Y上的度量。如果函数 f : X → Y f:X\rightarrow Y f:XY满足存在一个实常数 K K K,使得对于 X X X中的所有 x 1 x_1 x1 x 2 x_2 x2,都有

d Y ( f ( x 1 ) , f ( x 2 ) ) ≤ K d X ( x 1 , x 2 ) d_Y(f(x_1),f(x_2))\le K d_X(x_1,x_2) dY(f(x1),f(x2))KdX(x1,x2)

任何这样的 K K K被称为函数 f f f的Lipschitz常数。因此,如果一个函数的梯度是有界的:

∣ ∣ ▽ x f ( x ) ∣ ∣ ≤ K ||\bigtriangledown _xf(x)||\le K ∣∣xf(x)∣∣K

那么这个函数 f f f是Lipschitz连续的。

Lipschitz约束策略

Lipschitz约束策略是一种通过在训练过程中引入Lipschitz约束来训练产生平滑行为的策略方法。

平滑奖励可以减轻抖动行为,但奖励函数设计复杂,需要调整大量的超参数。此外,这些平滑度奖励是不可微的,因为它们是作为基础环境的一部分来实施的。通常需要通过采样方法,如策略梯度进行优化。而这项工作提出一种基于Lipschitz连续性的简单且可微的平滑度目标,用于策略优化。

m a x π J ( π ) \underset{\pi}{max}J(\pi) πmaxJ(π)
s . t . m a x s , a [ ∣ ∣ ▽ s l o g π ( a ∣ s ) ∣ ∣ 2 ] ≤ K 2 s.t. \quad\underset{s,a}{max}[||\bigtriangledown_s log\pi (a|s)||^2]\le K^2 s.t.s,amax[∣∣slogπ(as)2]K2

其中 K K K为常数, J ( π ) J(\pi) J(π)为RL目标。由于计算所有状态下的最大梯度准则并不容易,因此用对策略推理过程中收集的样本的期望值来近似这一约束条件

m a x π J ( π ) \underset{\pi}{max} J(\pi) πmaxJ(π)
s . t . E s , a ∼ D [ ∣ ∣ ▽ s l o g π ( a ∣ s ) ∣ ∣ 2 ] ≤ K 2 s.t.\quad \mathbb{E}_{s,a\sim\mathcal{D}}[||\bigtriangledown_s log\pi(a|s)||^2]\le K^2 s.t.Es,aD[∣∣slogπ(as)2]K2

其中 D \mathcal{D} D是由策略收集的状态-动作对 ( s t , a t ) (s_t,a_t) (st,at)组成的数据集。而后,使用拉格朗日乘数 λ \lambda λ将约束重新形式化为惩罚项。

m i n λ ≥ 0 m a x π J ( π ) − λ ( E s , a ∼ D [ ∣ ∣ ▽ s l o g π ( a ∣ s ) ∣ ∣ 2 ] − K 2 ) \underset{\lambda \ge 0}{min}\underset{\pi}{max}J(\pi)-\lambda(\mathbb{E}_{s,a\sim\mathcal{D}}[||\bigtriangledown_s log\pi(a|s)||^2]- K^2) λ0minπmaxJ(π)λ(Es,aD[∣∣slogπ(as)2]K2)

为简化目标函数,将 λ g p \lambda_{gp} λgp设置为手动指定的系数,由于 K K K是一个常数,因此可推出一个简单的策略可变梯度惩罚。

m a x π J ( π ) − λ g p E s , a ∼ D [ ∣ ∣ ▽ s l o g π ( a ∣ s ) ∣ ∣ 2 ] \underset{\pi}{max}J(\pi)-\lambda_{gp}\mathbb{E}_{s,a\sim\mathcal{D}}[||\bigtriangledown_s log\pi(a|s)||^2] πmaxJ(π)λgpEs,aD[∣∣slogπ(as)2]

实验结果

请阅读原文。


文章转载自:

http://rGzjtgV1.nckzt.cn
http://T9DrPLYJ.nckzt.cn
http://775VH9wA.nckzt.cn
http://diHaO7qf.nckzt.cn
http://reRgDUmT.nckzt.cn
http://tjy7BYo9.nckzt.cn
http://rMX2YlAI.nckzt.cn
http://2FITQXsT.nckzt.cn
http://5dfD65AI.nckzt.cn
http://JQhZwwzU.nckzt.cn
http://85P67Mb7.nckzt.cn
http://saeanYfJ.nckzt.cn
http://NPOONn06.nckzt.cn
http://5qY62AIk.nckzt.cn
http://OhWHP3IE.nckzt.cn
http://Ni6Lf0VN.nckzt.cn
http://eJif20uC.nckzt.cn
http://93iFm4qX.nckzt.cn
http://PWi4LlgW.nckzt.cn
http://IIHcgMnk.nckzt.cn
http://l2FCgmeY.nckzt.cn
http://V9c63P7C.nckzt.cn
http://6Ejl4veg.nckzt.cn
http://PHX0sBpV.nckzt.cn
http://ppvN5SQj.nckzt.cn
http://ocvLZp45.nckzt.cn
http://nhpPKFD6.nckzt.cn
http://5f4tr3IA.nckzt.cn
http://kIgl82ni.nckzt.cn
http://Ba65Alct.nckzt.cn
http://www.dtcms.com/wzjs/734410.html

相关文章:

  • 网站建设赶集网网站空间每年继费到哪交
  • 宁夏建设技术职业学院官方网站源码之家网站
  • 沧州做网站公司西安网络科技有限公司有哪些
  • 软件开发和网站开发有何不同重庆网站建设 制作 设计 优惠价
  • 北京中御建设公司网站无锡网页制作报价
  • 网站快捷导航ie怎么做网站优化报价单
  • 网站seo优化方案项目策划书个人简历表下载可填写
  • 网站优化内链怎么做做网站建设要学多久
  • python 网站开发 实例手机seo关键词优化
  • 杭州网站制作平台公司旅行社网站模板
  • asp access网站架设教程建设网站的用途
  • 网站首页图片素材长图郴州买房网站
  • 4399游戏盒下载官方网站无锡百度网站推广
  • ps如何做音乐网站怎么做网站平台
  • 网站域名去哪买网站安全架构
  • 郑州网站建设网络公司网门app下载
  • 网站建设开票税收分类买卖网站
  • 手绘风格的网站济南比较大的网站制作公司
  • 免费的网站制作平台青岛网站推广的价格
  • 影视 wordpress苏州seo公司 翼好
  • 书店建设网站的能力网站带后台免费下载
  • 国内网站开发不用wordpress足球直播网站开发定制
  • 会展行业门户网站建设个人简历网免费模板
  • 网站运行团队建设wordpress search制作
  • 用dw建设网站娱乐公司网站建站背景介绍
  • 公司有必要建设网站吗科普重庆网站
  • 网站百度关键词排名软件查询网ip138子域名
  • 前端做的网站网站建设栏目结构表
  • iis添加网站的物理路径2016企业网站建设合同
  • 怎么在电脑上做网站注册公司都需要什么材料