机器学习 | 强化学习基本原理 | MDP | TD | PG | TRPO
文章目录
- 📚什么是强化学习
-
- 🐇监督学习 vs 强化学习
- 🐇马尔科夫决策过程(MDP)
- 📚基本算法(value-based & policy-based)
-
- 🐇时序差分算法(TD)
- 🐇SARSA和Q-learning
- 🐇策略梯度算法(PG)
- 🐇REINFORCE和Actor-Critic
- 🐇信任区域策略优化算法(TRPO)
学习视频:【大白话03】一文理清强化学习RL基本原理 | 原理图解+公式推导
📚什么是强化学习
🐇监督学习 vs 强化学习
- 详见上文:机器学习 | 强化学习 vs 深度学习 vs 深度强化学习 | 概念向
🐇马尔科夫决策过程(MDP)
- 马尔科夫决策过程(Markov Decision Process,简称MDP)是一种