当前位置: 首页 > news >正文

PPO论文阅读

论文:Proximal Policy Optimization Algorithms

摘要:

我们提出了一类新的强化学习策略梯度方法,该方法在与环境交互采样数据与使用随机梯度上升法优化一个“代理(surrogate)目标函数”之间交替进行。传统的策略梯度方法通常对每个采样的数据样本仅执行一次梯度更新,而我们提出了一种新的目标函数,使得算法能够对同一批数据进行多轮(多 epoch)小批量(minibatch)更新。

这种新方法被称为 近端策略优化(Proximal Policy Optimization,PPO)。它保留了信赖域策略优化(Trust Region Policy Optimization, TRPO)的一些优点,但实现起来更加简单、适用范围更广,并且在经验上具有更好的样本效率。

我们在一系列基准任务上测试了 PPO,包括模拟的机器人行走任务和 Atari 游戏任务。实验结果表明,PPO 的性能优于其他在线策略梯度方法,并在样本效率、实现简易性和训练时间之间达到了良好的平衡。

1 引言

近年来,针对使用神经网络函数逼近器的强化学习,已经提出了多种不同的方法。主要的代表包括:深度 Q 学习(Deep Q-Learning)[Mni+15];“原始”(vanilla)策略梯度方法 [Mni+16];以及信赖域 / 自然策略梯度方法(Trust Region / Natural Policy Gradient Methods)[Sch+15b]。然而,目前仍然有改进空间,特别是

http://www.dtcms.com/a/486405.html

相关文章:

  • C++学习:异常及其处理
  • 无人机组队编队与相对定位原理详解
  • 两学一做网站登录沈阳网站设计外包
  • 网投网站如何建设中国建筑协会官网证件查询
  • 负载均衡:运维高可用的核心技术
  • 计网3.8 以太网交换机
  • 太原中小企业网站制作天津住房和城乡建设部网站
  • 如何选择最佳服务器搭建游戏?探索物理与云服务器的优势
  • 10.5 傅里叶级数:用线性代数研究函数
  • 攻防世界-[简单] 简单的base编码
  • 深入理解C++输入缓冲区:掌握各种输入方法的本质
  • 【字典树 单调栈】P9218 「TAOI-1」Apollo|普及+
  • 设计一个个人网站手机app是用什么软件开发的
  • 盘锦做网站选哪家app网站开发后台处理
  • [AI学习:SPIN -win-安装SPIN-工具过程 SPIN win 电脑安装=accoda 环境-第一篇:布置环境]
  • Spring Boot 3零基础教程,整合Redis,笔记12
  • 拆解数据法律定性三重进阶:从“财产”到“客体”再到“权益束”
  • 【Leetcodenowcode数据结构】单链表的应用(初阶)
  • ECEF坐标系中椭球简化为球的可行性与实践
  • 网站建设 中企高程企业邮箱
  • 逻辑回归实战:泰坦尼克号生存预测
  • 医疗网站建设哪个好用会员充值消费管理系统
  • 【Bug:docker】--Docker国内镜像源加载失败
  • 安阳做网站的公司网站建设开发软件教程
  • php做网站优点ui设计职业培训机构
  • 【ADS-1】【python基础-2】基本语法与数据结构(列表、字典、集合)
  • 简单的网站源码娱乐网站后缀是什么
  • C# 基于halcon的视觉工作流-章46-不匀面划痕
  • 一个手机的奇幻之旅(手机在基站间的切换)
  • Android thermal (4)_cooling device(上)