当前位置: 首页 > news >正文

强化学习入门

1 强化学习分类

1.1 是否理解环境

  1. 不理解环境 Model-free RL
    a. 必须根据真实世界的反馈进行调整
  2. 理解环境 Model-based RL
    a. 可以根据模型推理未来变化,不必依赖当前世界的反馈

1.2 概率/价值

  1. 基于概率 Policy-based
    a. 输出每个动作的概率
    b. Policy gradients
  2. 基于价值 Value-based
    a. 输出每个动作的价值
    b. Q learning / Sarsa

1.3 回合/单步更新

  1. 回合更新 Monte-Carlo update
    a. 游戏直到结束,才能更新一次
  2. 单步更新 Temporal-Difference update
    a. 游戏每进行一步,就可以更新一次

1.4 在线/离线

  1. 在线学习
    a. 走一步更新一步
    b. Sarsa
  2. 离线学习
    a. 可以先存储知识,到一定步之后再更新
    b. Q learning / Deep Q network

2 PPO与GRPO

去掉Value model(Critic model),无需额外的价值函数
在这里插入图片描述

http://www.dtcms.com/a/27818.html

相关文章:

  • 12.按身高排序(贪心)思路解析+源码
  • C++初阶——简单实现vector
  • 动态规划(Dynamic Programming)详解
  • PLC扫描周期和工作原理
  • 【SQL】多表查询案例
  • 模型评测:基于Python和PyTorch的深度学习模型性能评估
  • leetcode 1155. 掷骰子等于目标和的方法数
  • AIGC训练效率与模型优化的深入探讨
  • redis的缓存击穿,雪崩,穿透
  • 大模型微调解读及参数设置实践示例
  • Python 正则表达式的非捕获组介绍
  • 亲测Windows部署Ollama+WebUI可视化
  • 2024年国赛高教杯数学建模A题板凳龙闹元宵解题全过程文档及程序
  • 在nodejs中使用ElasticSearch(二)核心概念,应用
  • 从面试中的“漏掉步骤”谈自我表达与思维方式的转变
  • 【设计模式】【创建型模式】工厂方法模式(Factory Methods)
  • LeetCodehot 力扣热题100
  • Qt5 C++ TcpSocket 如何判断是服务主动断开tcp socket连接?
  • Django 5实用指南(五)模板系统
  • 如何在 Mac 上安装并配置 JDK 环境变量
  • [AHOI2018初中组] 分组---贪心算法
  • 『ob』obsidian文件导出:使用Pandoc插件实现多格式转换
  • Leetcode63:不同路径 II
  • Oracle EBS 12.1和APEX 集成时 Apache的配置代理
  • OpenAI ChatGPT在心理治疗领域展现超凡同理心,通过图灵测试挑战人类专家
  • win 应用程序无法正常启动(0xc0000142)。请单击确定关闭应用程序
  • 使用Flink Operator部署Flink on k8s方案
  • QT多线程编程基础
  • Nginx(详解以及如何使用)
  • Transformer Decoder 详解