当前位置: 首页 > news >正文

强化学习入门

1 强化学习分类

1.1 是否理解环境

  1. 不理解环境 Model-free RL
    a. 必须根据真实世界的反馈进行调整
  2. 理解环境 Model-based RL
    a. 可以根据模型推理未来变化,不必依赖当前世界的反馈

1.2 概率/价值

  1. 基于概率 Policy-based
    a. 输出每个动作的概率
    b. Policy gradients
  2. 基于价值 Value-based
    a. 输出每个动作的价值
    b. Q learning / Sarsa

1.3 回合/单步更新

  1. 回合更新 Monte-Carlo update
    a. 游戏直到结束,才能更新一次
  2. 单步更新 Temporal-Difference update
    a. 游戏每进行一步,就可以更新一次

1.4 在线/离线

  1. 在线学习
    a. 走一步更新一步
    b. Sarsa
  2. 离线学习
    a. 可以先存储知识,到一定步之后再更新
    b. Q learning / Deep Q network

2 PPO与GRPO

去掉Value model(Critic model),无需额外的价值函数
在这里插入图片描述

相关文章:

  • 12.按身高排序(贪心)思路解析+源码
  • C++初阶——简单实现vector
  • 动态规划(Dynamic Programming)详解
  • PLC扫描周期和工作原理
  • 【SQL】多表查询案例
  • 模型评测:基于Python和PyTorch的深度学习模型性能评估
  • leetcode 1155. 掷骰子等于目标和的方法数
  • AIGC训练效率与模型优化的深入探讨
  • redis的缓存击穿,雪崩,穿透
  • 大模型微调解读及参数设置实践示例
  • Python 正则表达式的非捕获组介绍
  • 亲测Windows部署Ollama+WebUI可视化
  • 2024年国赛高教杯数学建模A题板凳龙闹元宵解题全过程文档及程序
  • 在nodejs中使用ElasticSearch(二)核心概念,应用
  • 从面试中的“漏掉步骤”谈自我表达与思维方式的转变
  • 【设计模式】【创建型模式】工厂方法模式(Factory Methods)
  • LeetCodehot 力扣热题100
  • Qt5 C++ TcpSocket 如何判断是服务主动断开tcp socket连接?
  • Django 5实用指南(五)模板系统
  • 如何在 Mac 上安装并配置 JDK 环境变量
  • 国家卫健委有关负责人就白皮书发布答记者问
  • 【社论】人工智能,年轻的事业
  • 五一假期上海推出首批16条“市民健康路线”,这些健康提示请收好
  • 我国首部《人工智能气象应用服务办法》今天发布
  • 我国成功发射卫星互联网低轨卫星
  • 中消协发布“五一”消费提示:践行“光盘行动”,抵制餐饮浪费