当前位置: 首页 > news >正文

【PPO】小白的强化学习算法笔记

参考视频

零基础学习强化学习算法:ppo

基础概念

在这里插入图片描述

  • environment环境
  • agent:智能体,玩游戏的你
  • state:当前状态,observation看到的部分,有的游戏只能看见state的一部分
  • action:agent做出的动作
  • reward:环境给的奖励或惩罚
其他重要概念在这里插入图片描述

注:

  • 训练和推理时不常总是使用最高的策略函数,因为要随机性多样性,不然没办法训练,输出也单一
  • 状态转移是否确定:比如开宝箱时是随机的
复习期望的概念

期望是每个可能结果的概率与其结果的乘积之和
在这里插入图片描述
训练目的:训练一个policy网络使得在各种state下,给出action,得到return的期望最大。

数学推理

接下来就是反向传播的数学推理。。。讲的很精彩
在这里插入图片描述

实际训练

玩n场游戏,每个action按概率取样而不是选择最大的。
on policy更新策略:
在这里插入图片描述

优化

之前给的公式表明:如果某个trajectory给出的action得到的reward大于零,那么就增加这个trajectory里所有状态下的采取这个action的概率。反之就减小。就很直观
在这里插入图片描述
需要优化的点:

  • reward应该看整个游戏结束之后而不是只是当前trajectory结束。就像说,以退为进,其实是进的。
  • 对上一点的修正,影响是随着步数衰减的。

因此修正公式:

  1. 对reward的求和:改为从当前步t到整个游戏结束的求和

  2. 引入衰减因子:距离当前步数越远影响越小,指数衰减。
    在这里插入图片描述

  3. 对于reward增加一个baseline以增快训练速度
    在这里插入图片描述
    不是这个方向的后面不学了。。

相关文章:

  • 一文讲清楚Python中函数和类区别和联系
  • 【更新中】【React】基础版React + Redux实现教程,自定义redux库和react-redux库
  • 【vue】vue + vant实现上传图片添加水印
  • 25、web前端开发之CSS3(二)
  • 1.6 循环嵌套
  • USB总线示波器采集卡--2 通道,10G采样
  • DML 数据操纵语言学习笔记
  • 【NLP 48、大语言模型的神秘力量 —— ICL:in context learning】
  • ffmpeg-将多个视频切片成一个新的视频
  • 智能化集成管理系统的核心特点与发展趋势
  • 26考研——树与二叉树_树与二叉树的应用(5)
  • redux ,react-redux,redux-toolkit 简单总结
  • C# 多标签浏览器 谷歌内核Csharp
  • Vue中使用JsonView进行JSON数据展示
  • element-ui messageBox 组件源码分享
  • Vue.js 完全指南:从入门到精通
  • 关于deepin上WPS读取windows上的docx文件
  • centos 7 LVM管理命令
  • Vue学习笔记集--pnpm包管理器
  • 数据库学习记录
  • 网站建设的目标是/网络营销运营推广
  • 有什么做C语言的网站/厦门seo计费
  • 自己做的网站申请软著/推广怎么推
  • 湖南建设集团网站/2023年10月疫情还会严重吗
  • 动态网站开发作业/主要推广手段免费
  • 百度搜索入口官网/网络推广seo公司