当前位置: 首页 > wzjs >正文

在线服务器网站推广宝

在线服务器网站,推广宝,成都房地产走势,wordpress+相亲主题1 四足机器人行走控制(Quadruped Locomotion) 四足机器人是 DRL 在现实世界中应用较为成熟的领域之一。已有多家机器人公司(如 ANYbotics、Swiss-Mile 与 Boston Dynamics)将 DRL 集成到其四足控制系统中,应用场景包括…
1 四足机器人行走控制(Quadruped Locomotion)

四足机器人是 DRL 在现实世界中应用较为成熟的领域之一。已有多家机器人公司(如 ANYbotics、Swiss-Mile 与 Boston Dynamics)将 DRL 集成到其四足控制系统中,应用场景包括工业巡检、末端配送和救援任务。

DRL 首先被用于“盲走”任务,即机器人完全依赖自身本体传感器(如关节角、IMU)在室内平坦地面上行走。这些策略通常通过模拟器训练,然后零样本转移(zero-shot)部署到真实环境中

四足系统的一大挑战在于其复杂的动力学特性带来的模拟-现实差距(sim-to-real gap)。为此,研究者探索了多种缓解策略:

  • a 利用机器人实际数据学习致动器模型(actuator models),以提升仿真器的保真度。该模型可以是解析模型,也可以是神经网络建模;
  • b 在训练过程中引入动力学参数随机化(domain randomization),甚至进一步随机化机器人形态(morphology),以提升策略在不同机器人平台间的泛化能力;
  • c 采用分层控制结构,在低层使用基于模型的控制器,以处理动力学误差与外部扰动,从而增强策略的稳定性与训练效率。

在这类分层结构中,DRL 策略与低层控制器之间的接口可以在多个层次上定义,例如:

  • 关节位置(joint positions)
  • 单腿姿态(leg poses)
  • 步态参数(gait parameters)
  • 宏观动作(macro-actions),即带时间延展性的行为单元

在非结构化地形中的四足运动:应对复杂环境的四类关键技术

随着机器人从受控实验室环境逐步迈向现实世界,它们开始面临更多挑战性的地形,例如不连续地面、可变形表面或湿滑路面。为应对这些额外挑战,发展了四类主要技术路径


1. 不可观测地形信息与策略迁移

在现实中,地形和接触信息往往不可直接观测,为此研究者采用了Privileged Learning策略:

  • 首先使用“特权信息”(如真实地形高度)训练一个教师策略;
  • 然后通过蒸馏(distillation)方式,将该策略迁移至只能依赖真实传感器输入的学生策略上。

另一种替代方案是结合状态估计(state estimation)非对称 actor–critic 架构,实现端到端训练。在这两类方法中,通常会将一段观测历史序列作为策略输入,以增强感知能力。


2. 训练阶段引入多样性以提升泛化能力

为了提升策略在复杂野外环境中的泛化能力,研究中常采用:

  • 课程学习(Curriculum Learning):在训练中逐步增加任务难度;
  • 高级地形建模方法:如模拟可变形表面的接触力学,提升在复杂接触地形中的性能。

3. 外部感知传感器与高维输入处理

为安全高效地穿越危险地形,外部感知(Exteroceptive)传感器是关键:

  • 常用观测形式包括地形高度图(height map)、深度图像(depth image)和 RGB 图像;
  • 特权学习广泛用于训练能够有效利用这些高维输入的策略;
  • 为缩小模拟-现实间的感知差距,研究中还采用:
    • 添加传感器噪声
    • 深度图像后处理
    • 用真实世界数据学习视觉编码器;
  • 此外,还采用如下方法增强表征能力:
    • 自监督学习(self-supervised learning)
    • 跨模态嵌入匹配(cross-modal embedding)
    • 高容量模型(如 Transformer)

4. 复杂运动技能:跳跃与摔倒恢复

某些极端地形要求机器人具备超出常规步态的高级运动能力:

  • 在稀疏接触区域上行走时,端到端 DRL 策略往往表现不佳。Jenelten 等人提出先用轨迹优化得到期望着地点,再训练 DRL 策略去追踪这些 foothold,提高了精度与稳健性;
  • 跳跃能力拓展了机器人穿越大间隙地形的能力。Yang 等人将 DRL 策略用于生成跳跃轨迹,底层再通过模型控制器进行动态跟踪;
  • 摔倒恢复Fall Recovery在现实 RL 训练中至关重要,可用于自动重置训练流程。已有多项工作针对摔倒恢复训练了专门的 DRL 策略。
多技能策略与现实部署:四足运动研究的拓展方向

为有效将敏捷的运动能力应用于更复杂的下游任务(如跑酷 [Parkour] 等),发展多技能策略Multiskill Policies至关重要。研究表明,同时学习多种技能也有助于提升策略的鲁棒性
当前有两类主要路径:

  • 一类方法是先分别训练多个专用的技能策略,再训练一个高层策略负责根据环境状态选择最合适的技能;
  • 另一类方法是利用行为克隆(behavior cloning)技术,将多个技能策略蒸馏为一个统一策略
    为避免训练多个专用策略的繁琐流程,一些工作尝试直接构建统一策略(unified policy)
  • Margolis & Agrawa将不同的运动策略编码为一个以步态参数gait parameters为条件输入的策略;
  • Cheng 等人通过联合奖励函数(包含路径点追踪与速度控制项)训练出包含多种跑酷技能的统一策略;
  • Fu 等人发现加入能量最小化项有助于实现平滑的步态过渡;
  • 另一类常见做法是采用动作模仿奖励(motion imitation reward),以学习更自然、多样的运动技能。

算法选择与现实部署策略

就算法而言,目前应用最成熟的四足运动DRL系统,大多采用零样本模拟迁移(zero-shot sim-to-real)策略,并且普遍使用同策略、无模型的强化学习方法,如 Proximal Policy Optimization(PPO),其对超参数更具鲁棒性。
然而,在面对时间延展型动作空间或对确定性控制有更高需求时,Gangapurwala 等人指出,PPO等同策略方法可能不够理想。
近年来,部分研究开始探索少样本适应few-shot adaptation真实环境中直接学习real-world RL的策略更新方式,这包括:

  • 无模型方法(model-free)
  • 基于模型的方法(model-based)
    这些方法利用真实环境的 rollout 数据对策略进行更新,从而在缺乏精确仿真的情况下,增强其在新环境中的泛化能力。
    但值得注意的是,这类现实学习策略目前多仍处于实验室环境验证阶段,尚未达到成熟的部署水准。现阶段,最优的现实学习效果(无论是微调策略还是从零开始训练)主要是通过异策略强化学习off-policy RL方法实现的,例如在步行与摔倒恢复任务中的应用。但相比于成熟的 zero-shot 系统,这些方法的测试条件依然较为有限。

图源:Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes,Chen Tang1


文章转载自:

http://Z7K5GsoG.dnmzL.cn
http://9MWUyvz8.dnmzL.cn
http://8CBbMxuh.dnmzL.cn
http://KbS5EBgo.dnmzL.cn
http://79rxbJtL.dnmzL.cn
http://U07GENJ7.dnmzL.cn
http://dkTjl9hB.dnmzL.cn
http://yxnBhbsu.dnmzL.cn
http://IGTwOySV.dnmzL.cn
http://GuKSHoTC.dnmzL.cn
http://AwG7ZdU9.dnmzL.cn
http://0e7Fjxie.dnmzL.cn
http://va86w5Xn.dnmzL.cn
http://jwANfFYM.dnmzL.cn
http://o1zlvDK5.dnmzL.cn
http://RvGTaaUq.dnmzL.cn
http://RtLE4YWf.dnmzL.cn
http://EI0yiknN.dnmzL.cn
http://Q5GQhdI3.dnmzL.cn
http://jNGkYPMq.dnmzL.cn
http://3O4d358k.dnmzL.cn
http://1gaH3ldA.dnmzL.cn
http://aGbFPxIn.dnmzL.cn
http://DK4S5CsS.dnmzL.cn
http://3Xhw0yIE.dnmzL.cn
http://lVfucvGX.dnmzL.cn
http://z8gbrB8P.dnmzL.cn
http://sQ1a34KI.dnmzL.cn
http://5CiBgtwj.dnmzL.cn
http://1mmwxb75.dnmzL.cn
http://www.dtcms.com/wzjs/652936.html

相关文章:

  • 免费行情软件网站大全入口全球域名最贵的100个域名
  • 物流管理网站建设如何刷关键词指数
  • 网站制作教程提高网站订单转化率
  • 网站后台无法上传图片微信小程序购物商城源码
  • 浏览器网站在线进入网站建设坂田
  • 阿里云突发性能适用于做网站吗网站建设协议书模板 完整版
  • 汽车专业网站南宁市网络公司地址
  • wordpress模板媒体衡水网站seo
  • 跨境电商平台有哪些上市公司成都搜狗seo
  • 网站图片上怎么做弹幕效果高端h5手机网站设计案例
  • 网站公司介绍模板网站添加音乐
  • 2016用什么网站程序做流量重庆网站公司
  • 湘潭网站优化公司网络整合营销公司
  • 可以做语文阅读题的网站网站建设济宁
  • 网站开发的预算公司一般有哪些部门
  • 网站建设网站设网站建设与网页设计ppt
  • 什么网站建设最便宜培训方案模板
  • 自动化科技产品网站建设互联网技术学校
  • html静态网站模板简单单页布吉商城网站建设哪家便宜
  • 网站图片用什么格式电商运营seo是什么
  • 网站开发怎么自学漂亮的html单页
  • 网站设计咨询电话百度指数在哪里看
  • 网站空间的地址个人简历电子版免费下载
  • 国家电网网站开发图片素材网站备案需要注意什么
  • 营销型网站改版计算机应用技术专业网站开发方向
  • 网站运营和维护网站虚拟域名
  • 建设银行自贡分行网站湖南常德文理学院
  • 可以申请做cpa广告的网站全球最大的网络公司排名
  • 网站开发的实训内容婚庆网站设计
  • 添加网站绑定主机名少儿编程加盟培训