PPO论文阅读
论文:Proximal Policy Optimization Algorithms
摘要:
我们提出了一类新的强化学习策略梯度方法,该方法在与环境交互采样数据与使用随机梯度上升法优化一个“代理(surrogate)目标函数”之间交替进行。传统的策略梯度方法通常对每个采样的数据样本仅执行一次梯度更新,而我们提出了一种新的目标函数,使得算法能够对同一批数据进行多轮(多 epoch)小批量(minibatch)更新。
这种新方法被称为 近端策略优化(Proximal Policy Optimization,PPO)。它保留了信赖域策略优化(Trust Region Policy Optimization, TRPO)的一些优点,但实现起来更加简单、适用范围更广,并且在经验上具有更好的样本效率。
我们在一系列基准任务上测试了 PPO,包括模拟的机器人行走任务和 Atari 游戏任务。实验结果表明,PPO 的性能优于其他在线策略梯度方法,并在样本效率、实现简易性和训练时间之间达到了良好的平衡。
1 引言
近年来,针对使用神经网络函数逼近器的强化学习,已经提出了多种不同的方法。主要的代表包括:深度 Q 学习(Deep Q-Learning)[Mni+15];“原始”(vanilla)策略梯度方法 [Mni+16];以及信赖域 / 自然策略梯度方法(Trust Region / Natural Policy Gradient Methods)[Sch+15b]。然而,目前仍然有改进空间,特别是