当前位置：首页 > news >正文

强化学习入门

news 2025/11/5 16:17:58

1 强化学习分类

1.1 是否理解环境

不理解环境 Model-free RL
a. 必须根据真实世界的反馈进行调整
理解环境 Model-based RL
a. 可以根据模型推理未来变化，不必依赖当前世界的反馈

1.2 概率/价值

基于概率 Policy-based
a. 输出每个动作的概率
b. Policy gradients
基于价值 Value-based
a. 输出每个动作的价值
b. Q learning / Sarsa

1.3 回合/单步更新

回合更新 Monte-Carlo update
a. 游戏直到结束，才能更新一次
单步更新 Temporal-Difference update
a. 游戏每进行一步，就可以更新一次

1.4 在线/离线

在线学习
a. 走一步更新一步
b. Sarsa
离线学习
a. 可以先存储知识，到一定步之后再更新
b. Q learning / Deep Q network

2 PPO与GRPO

去掉Value model（Critic model），无需额外的价值函数
在这里插入图片描述

http://www.dtcms.com/a/27818.html

相关文章：

12.按身高排序（贪心）思路解析+源码

C++初阶——简单实现vector

动态规划（Dynamic Programming）详解

PLC扫描周期和工作原理

【SQL】多表查询案例

模型评测：基于Python和PyTorch的深度学习模型性能评估

leetcode 1155. 掷骰子等于目标和的方法数

AIGC训练效率与模型优化的深入探讨

redis的缓存击穿，雪崩，穿透

大模型微调解读及参数设置实践示例

Python 正则表达式的非捕获组介绍

亲测Windows部署Ollama+WebUI可视化

2024年国赛高教杯数学建模A题板凳龙闹元宵解题全过程文档及程序

在nodejs中使用ElasticSearch（二）核心概念，应用

从面试中的“漏掉步骤”谈自我表达与思维方式的转变

【设计模式】【创建型模式】工厂方法模式(Factory Methods)

LeetCodehot 力扣热题100

Qt5 C++ TcpSocket 如何判断是服务主动断开tcp socket连接？

Django 5实用指南（五）模板系统

如何在 Mac 上安装并配置 JDK 环境变量

[AHOI2018初中组] 分组---贪心算法

『ob』obsidian文件导出：使用Pandoc插件实现多格式转换

Leetcode63：不同路径 II

Oracle EBS 12.1和APEX 集成时 Apache的配置代理

OpenAI ChatGPT在心理治疗领域展现超凡同理心，通过图灵测试挑战人类专家

win 应用程序无法正常启动(0xc0000142)。请单击确定关闭应用程序

使用Flink Operator部署Flink on k8s方案

QT多线程编程基础

Nginx（详解以及如何使用）

Transformer Decoder 详解