普林斯顿大学DPPO机器人学习突破:Diffusion Policy Policy Optimization 全新优化扩散策略
PNP机器人科研导读:
随着语言和图像基础模型的发展,大规模预训练加上微调已经成为了常见的方法之一。在机器人策略学习中,虽然基于专家数据的行为克隆是一种主要的预训练范式,但由于专家数据可能存在局限性,强化学习(Reinforcement Learning,RL)成为进一步优化策略性能的重要手段。然而,对于基于扩散模型参数化的预训练策略,如扩散策略(Diffusion Policy),强化学习微调会面临一定挑战。尽管扩散模型在训练稳定性和表示复杂分布方面具有优势,但策略梯度(Policy Gradient,PG)方法被认为在训练基于扩散的策略的过程中,用于连续控制任务时效率较低。
▲图1|DPPO概述
DPPO方法
DPPO框架包含两个主要方面。首先是构建两层MDP,它把扩散去噪过程展开为马尔可夫决策过程,使动作可能性明确,进而构建出外层为环境MDP、内层为去噪MDP的两层结构。其次是应用PPO更新,即采用近端策略优化算法对两层MDP进行更新,通过特定优势估计器形式,考虑环境和去噪来有效估计优势函数,实现策略优化。
▲图2|研究人员将扩散策略中的去噪过程视为一个MDP,整个环境可以认为是一个MDP的链路
在微调去噪步骤选择上,研究人员可选择仅微调最后几步如“K'”步而非全部K步,能加快训练速度、减少GPU内存使用且不牺牲性能。在采样微调方面,除了DDPM,还可以采用DDIM,从而减少采样步骤提高效率。扩散噪声调度上,使用余弦调度调整标准差,采样时可调整到较高最小值助于探索,评估时调整到至少0.1提高稳定性。网络架构选择上,研究人员比较了MLP和UNet,MLP设置简单且微调稳定,UNet在预训练和微调不同动作块大小时有优势,DPPO受益于不同动作块大小的预训练和微调。
实验分析
■3.1 在不同基准环境中的性能评估
●与基于扩散的RL算法比较
在OpenAI Gym的三个运动基准任务(Hopper - v2、Walker2D - v2、HalfCheetah - v2)和ROBOMIMIC的四个模拟机器人操作任务(Lift、Can、Square、Transport)上,研究人员将DPPO与多种基于扩散的RL算法进行了比较。结果表明,DPPO在不同任务中表现出一致的性能,具有良好的训练稳定性和较高的微调成功率。在一些具有挑战性的任务中,如ROBOMIMIC的Transport任务,DPPO的性能明显优于其他算法。
▲图3|与其他基于扩散的RL策略对比
●与其他策略参数化比较
在ROBOMIMIC的任务中,研究者将DPPO与常见的RL策略参数化方法,如单峰高斯(unimodal Gaussian)和高斯混合模型(Gaussian Mixture Model)进行了比较。结果显示,无论是在状态输入还是像素输入的情况下,DPPO在性能上都优于这些传统的策略参数化方法。特别是在更具挑战性的Square和Transport任务中,DPPO能够更快地收敛到较高的成功率,并在最终性能上表现出色。
●在FURNITURE - BENCH任务及模拟到真实的迁移评估
研究人员也在FURNITURE - BENCH基准的三个模拟家具组装任务(One - leg、Lamp、Round - table)上评估了DPPO。结果表明,DPPO在所有六个设置中都表现出强大的训练稳定性,并提高了策略性能。在模拟到真实的迁移实验中,研究人员将在模拟的One - leg任务中训练的DPPO和高斯策略部署到物理硬件上进行了zero - shot)测试。结果显示,DPPO在真实世界中的性能显著提高,达到80%的成功率,而高斯策略在硬件上完全失败。
■3.2 实验结果
通过实验研究了多个因素对DPPO性能的影响,包括优势估计器的选择,结果显示对于挑战性任务依赖环境状态且独立于去噪动作的价值估计器对性能至关重要;抛开去噪噪声水平对DPPO探索的影响,发现存在保证足够探索且避免过多动作噪声的最佳裁剪点;不同数量微调去噪步骤对性能和运行时间的影响,表明DPPO对少于K步的微调具有鲁棒性且能提高运行时间并保持可比性能;不同水平专家演示数据对DPPO性能的影响,结果是DPPO在不同数量专家演示数据下优于高斯-MLP基线且在GYM环境从无到有训练时实现可比最终性能和样本效率。
DPPO使用状态或像素输入和稀疏奖励 解决了更具挑战性的Square和Transport任务,从机器人模拟到90% 以上的成功率。据我们所知,DPPO 是第一个将Transport解决到 50% 以上成功率的RL 算法。最终行为稳健而流畅,无需在训练中使用任何正则化或奖励塑造。
详细可www.pnprobotics.com
DPPO 策略表现出强大的恢复行为,例如,抓取失败后,钉子被推开,但机器人随后重新定位到钉子并将其拖回正确位置。专家演示或仅 BC 策略中不存在此类行为。
大模型DPPO(Distributed Proximal Policy Optimization)策略在强化学习中具有多个显著优势。首先,DPPO通过分布式训练提高了样本效率,多智能体并行工作,共享数据加速了策略的收敛。其次,采用近端优化方法(PPO),DPPO能有效避免策略更新过大带来的不稳定性,保证了训练过程的稳定性和鲁棒性。此外,DPPO能够处理复杂、高维的状态空间,并适应动态环境变化。它在多智能体协作和复杂任务中表现尤为突出,适合用于机器人控制、自动驾驶等应用。最后,DPPO通过合理利用计算资源,在大规模任务中减少单个智能体的计算负担,提升了整体效率。整体而言,大模型DPPO策略提供了高效、稳定、可扩展的解决方案,能够在多智能体和复杂任务中实现优异的表现。
DPPO是一种用于微调预训练扩散策略的有效算法框架,它结合了策略梯度方法和扩散模型的优势,在各种机器人学习和连续控制任务中表现出了优异的性能。通过实验验证了DPPO在不同基准环境中的有效性,以及其在模拟到真实迁移任务中的强大能力。未来的工作可以进一步探索DPPO在模拟到真实迁移中的应用,特别是在基于视觉的策略预训练于多种不同任务的情况下。此外,研究DPPO如何与其他决策工具相结合,如基于模型的规划和视频预测辅助的决策,也是一个有前景的研究方向。同时,DPPO在机器人领域之外的应用,如在药物设计和文本到图像生成等领域的应用,也值得进一步探索。