当前位置: 首页 > news >正文

机器人运动控制中的 Actor-Critic 强化学习预训练

25年10月来自EPFL和ETH的论文“Pretraining In Actor-Critic Reinforcement Learning For Robot Motion Control ”。

近年来,预训练-微调范式推动了人工智能研究的诸多变革性进展。然而,在机器人运动控制的强化学习 (RL) 领域,尽管单个机器人实例的所有特定任务策略之间很可能共享一些可泛化的知识,但个体技能通常是从头开始学习的。本文旨在定义一种预训练神经网络模型的范式,该模型封装此类知识,随后可作为经典actor-critics算法(例如近端策略优化 (PPO))中热启动 RL 过程的基础。其首先采用一种与任务无关的基于探索数据收集算法来收集多样化的动态转换数据,然后使用这些数据通过监督学习来训练本体感受逆动力学模型 (PIDM)。预训练的权重被加载到actor和critics网络中,以热启动实际任务的策略优化。其在七个不同的机器人运动控制任务上系统地验证提出的方法,结果表明该初始化策略具有显著的优势。与随机初始化相比,提出的方法平均将样本效率提高 40.1%,任务性能提高 7.5%。


通过深度学习学习动力学模型。Long (2025) 调查从物理模拟器学习动力学模型的研究,重点介绍了不同的模型架构和使用策略。Lutter & Peters (2023) 根据这些模型对先验知识的依赖程度、可解释性程度以及是否强制执行能量守恒等物理属性,进一步对其进行了分类。为了解决模拟中训练策略在模拟到模拟或模拟到现实之间的差距,Christiano (2016) 提出计算模拟对下一个状态的预期,然后依靠深度学习的逆动力学模型来推导出最优动作。由于高度非线性、复杂的接触动力学以及撞击产生的严重传感器噪声,学习腿部运动的动力学具有挑战性。Levy (2016) (2024) 提出一个半结构化动力学模型,该模型由已知的先验拉格朗日方程和一组学习的外部扭矩和噪声估计器组成。Xu (2025) 利用轻量级 GPT-2 (Radford,2019) 架构训练一个神经模拟器,该模拟器在超过一千个模拟步骤中保持稳定和准确。

如图所示本文方法概述:(i)使用探索驱动策略收集与任务无关的数据,(ii)训练本体感受逆动力学模型(PIDM)来捕捉具身感知动力学,以及(iii)初始化 PPO 中的actor- critics网络以热启动 RL 过程。

请添加图片描述

总体目标是使用监督学习预训练一个本体感受逆动力学模型 (PIDM)模型,该模型随后可以集成到PPO的actor和 critics网络中。首先,以任务无关的方式,从探索策略的强化学习训练过程中收集转换数据(Sekar et al., 2020)。需要注意的是,仅收集强化学习训练早期阶段的转换数据,而不是从特定任务的专家策略部署中收集。一方面,这种设计确保该方法不依赖于下游任务的先验知识,也不依赖于对(近似)专家策略的访问。

另一方面,不同任务的随机初始化策略的状态分布非常相似。因此,提取的知识应该具有广泛的泛化能力。通过使用这些数据进行预训练,该模型能够封装相当于其在强化学习的首次迭代中学习的知识(即基本运动学、动力学和稳定性),使其能够更快地专注于学习特定任务的技能。将预训练的PIDM的核心部分与随机初始化的外层集成,构成强化学习中的actor和 critics网络(如图所示)。由于预训练数据集中缺乏捕捉特定任务动态的数据,允许PIDM模块在整个强化学习过程中与添加的非预训练部分一起更新。

请添加图片描述

其基于 MLP 的模块化架构对 PIDM 进行参数化。该模型将动作历史和长度为 K 的本体感受观测作为输入。两者都经过双层 MLP 编码器,然后输入到 PIDM 主干网(一个 4 层 MLP)。在预训练期间,为模型提供下一个时间步所需的增量状态。然后,用 L1 损失来监督 PIDM 输出所需的动作以达到目标未来状态。预训练数据集还增强对称变换(由 Mittal(2024)或 Byun & Perrault(2024)定义)和观测噪声,以提高鲁棒性并增加样本多样性。重要的是要注意,PIDM 模型无法访问特权信息。动作和本体感觉历史提供了接触状态、训练期间的领域随机化变量(例如质量和摩擦随机化)以及施加在机器人上的随机力的间接可观测性。这些知识对于准确预测系统动力学至关重要。

将PIDM集成到actor-critic网络中:预训练的PIDM集成到actor和critic网络中。如上图所示,首先移除Delta编码器,并用一个随机初始化的Intention编码器代替,该编码器处理完整的特定于任务的观测值。Intention编码器现在只需要学习基于嵌入的表示,即特定于任务的delta目标状态,该表示可以由预训练的PIDM主干网络进行预处理。同时,移除原始输出层(预测解码器),并将PIDM主干网络和Intention编码器的连接输出传递到随机初始化的Action合成器,该合成器合成最终动作。

添加Intention编码器对于确保维度兼容性并使训练能够控制预训练模块是必要的。特定于任务的观测值可以是任何值,并且完全独立于所提出的方法。随机初始化的动作合成器对于稳定训练至关重要,因为它可以确保强化学习初始阶段的动作分布与随机初始化的原始 MLP 情况相似。更具体地说,动作合成器的随机初始化确保初始阶段的动作分布接近单位高斯分布,从而避免可能导致更多失败或惩罚的极端动作。此外,最后一个优点是,如果 PIDM 对任务不利,结构中存在一条旁路,可以轻松回退到经典的随机初始化 MLP。

完整的强化学习设置:除了actor和critics家网络的架构以及权重的初始化方式外,该方法不需要对 POMDP(奖励、课程设计、观察、动作和终止)或 PPO 超参数进行任何修改。

任务相关的意图编码器和动作合成器可以适应任何输入和输出的配置和维度。因此,处理任意任务的可行性不受限制。预训练的PIDM中的每个参数在强化学习过程中仍然可训练。通过这种方式,允许在策略优化过程中学习特定于任务的动态,从而减轻在预训练数据集中尝试详尽覆盖所有可能转换的负担。

本文采用一种基于探索的数据收集策略,该策略深受先前研究(Sekar,2020;Curi,2020;Nikolov,2018;Chua,2018)的启发,如图所示。用它来获取数据样本,以捕捉在 RL 早期阶段常见的抖动、探索行为。在实践中,探索策略使用 PPO 进行训练,其中来自在线策略推出的转换被累积到缓冲区中。PIDM 模型的概率集成通常使用引导方法进行重新训练,其中数据从缓冲区中有放回地采样。探索策略的训练主要由集成中预测的分歧来指导,作为 PIDM 推理的认知不确定性的度量。这激励策略探索可以通过更多数据提高 PIDM 准确性的状态。使用单个PIDM模型的预测误差乍一看似乎很有吸引力。然而,由此产生的策略容易只探索大幅度动作和高频抖动,这与模型的随机不确定性相对应。新增的二次奖励包括一组最小正则化奖励,用于约束任何任务中常见的不良行为(例如,高动作频率、扭矩或关节速度),以及一个奖励腾空时间的项,以鼓励与地形的互动。在数据收集过程中,采用强化学习训练的标准域随机化技术(Miki,2022;Lee,2020;Kaidanov),例如改变机器人连杆质量、摩擦系数以及施加随机力。

请添加图片描述


如图所示本文的实验旨在探索原始策略网络中的动态知识。基于预测的动作,分析内层状态与未来联合状态之间的相关性。(b) 中的零阶外推是始终预测的准确性的参考。
请添加图片描述

如图所示PPO算法总结:

请添加图片描述

http://www.dtcms.com/a/536752.html

相关文章:

  • [人工智能-大模型-97]:大模型应用层 - 随着技术的发展,软件工程与软件开发过程提效演进阶段(工具化 → 流程化 → 智能化)和未来的展望。
  • Qt从入门到放弃学习之路(1)
  • QRingBuffer:Qt内部高效环形缓冲区
  • 单位如何做网站宣传高端网站建设专业营销团队
  • 建设企业网站步骤上海做网站的公司是什么
  • 系统接口对接如何设计预防处理系统异常?
  • LeetCode算法日记 - Day 85: 等差数列划分
  • Maven相关
  • 京东商品视频API:通过商品id商品链接获取商品的视频url
  • Maven快速上手笔记
  • 手机免费制作网站模板免费下载台州网站公司那里好
  • 企业网站哪家好网站流量超标
  • 钢结构网站建设网站建设必备
  • 数据分析综合应用实战:从统计分析到机器学习预测
  • 网站 源码 下载色无极网站正在建设中
  • 【测试理论和实践 2.测试概念】
  • 算法 day 36
  • 【论文阅读】图数据库 Survey: Graph Databases
  • 长沙优化网站关键词合肥政务新区建设局网站
  • 化学网站定制简网app工场怎么创app
  • 今天我们学习Linux架构中的Redis数据库基础
  • 网站商城系统教资报名网站设置
  • 引入实时 3D 渲染技术,地平线与 Unity 开启车载交互空间化时代
  • 用狸窝转换器转换视频后文件变大的问题排查
  • Ansible自动化部署Harbor私有仓库指南④
  • AI模型开发 | 基于AutoDL部署Deepseek OCR模型,从零打造OCR应用平台
  • 网站建设微金手指下拉15价目表app制作
  • 基于深度学习的户口本识别技术通过智能图像处理、文字定位和语义理解,实现99%以上的高精度识别
  • 在线视频教育网站开发公司注册资金最低多少
  • JVM学习第一章