当前位置：首页 > news >正文

机器学习 | 强化学习基本原理 | MDP | TD | PG | TRPO

news 2025/10/12 17:21:58

文章目录

📚什么是强化学习
- 🐇监督学习 vs 强化学习
- 🐇马尔科夫决策过程（MDP）
📚基本算法（value-based & policy-based）
- 🐇时序差分算法（TD）
- 🐇SARSA和Q-learning
- 🐇策略梯度算法（PG）
- 🐇REINFORCE和Actor-Critic
- 🐇信任区域策略优化算法（TRPO）

学习视频：【大白话03】一文理清强化学习RL基本原理 | 原理图解+公式推导

📚什么是强化学习

🐇监督学习 vs 强化学习

详见上文：机器学习 | 强化学习 vs 深度学习 vs 深度强化学习 | 概念向

🐇马尔科夫决策过程（MDP）

马尔科夫决策过程（Markov Decision Process，简称MDP）是一种

http://www.dtcms.com/a/119437.html

相关文章：

【Linux】进程基础入门指南(上)

一体式胎心仪方案特点介绍----【其利天下技术】

Versatile-OCR-Program：可以从复杂的教育材料（如试卷）中提取结构化数据的开源多模态OCR工具

进程的唤醒原语与挂起原语

简单-快速-高效——模块化解析controlnet网络结构

【xdoj离散数学上机】编程实现邮箱注册等价类划分(C++ 80/100分)

HTML5笔记：什么是HTML

十三届蓝桥杯省赛A组扫描游戏

如何挖掘客户的深层需求？需求挖掘指南

Java常见的23种设计模式

入选ICLR‘25 Spotlight！深度强化学习(DRL)迎来新突破！

残缺知识点

llama-factory微调qwen2.5-vl

【开发经验】调试OpenBMC Redfish EventService功能

Open CASCADE学习|Convert BSpline Curve to Arc Spline

优选算法系列（6.模拟）

专业抑郁测试工具：让心理健康评估更简单

AI工厂崛起：解析吴泳铭提出的GPU中心化计算范式

给k8s中绑定pv并在容器中运行中使用的pvc扩容

Elasticsearch单节点安装手册

LeetCode.3396.使数组元素互不相同所需的最少操作次数

ArkTS语言基础之函数

从Excel到智能中枢：工单管理的MES系统进化论

40、web前端开发之Vue3保姆教程(四)

tcp/ip攻击及防范

7、nRF52xx蓝牙学习（nrf_gpiote.c库函数学习）

Spring 服务调用接口时，提示You should be redirected automatically to target URL:

7.第二阶段x64游戏实战-分析人物属性

软件需求分析习题汇编

PostGreSQL/openGauss表膨胀处理