🤖 强化学习入门专栏目录
📘 第一部分:基础概念篇
- 【RL基础01】强化学习是什么?智能体、环境与奖励
- 【RL基础02】马尔可夫决策过程(MDP)详解
- 【RL基础03】值函数、策略与贝尔曼方程
- 【RL基础04】动态规划、蒙特卡洛与时序差分方法对比
🧠 第二部分:核心算法篇
- 【算法01】Q-Learning 原理与代码实现
- 【算法02】SARSA 与 Q-Learning 的异同
- 【算法03】策略梯度(Policy Gradient)入门
- 【算法04】Actor-Critic 框架详解
- 【算法05】深度强化学习初探:DQN
- 【算法06】DQN 的改进版:Double DQN 与 Dueling DQN
- 【算法07】PPO 算法原理与实战
- 【算法08】A2C / A3C 介绍与实现
- 【算法09】SAC 与 TD3:连续动作空间中的利器
🏞️ 第三部分:环境实战篇
- 【环境01】Gym 入门:CartPole 小车平衡实验
- 【环境02】MountainCar 环境:爬坡问题的挑战
- 【环境03】Atari 游戏环境配置与 Pong 实战
- 【环境04】MuJoCo 环境安装与 HalfCheetah 训练
- 【环境05】自定义 Gym 环境教程
🔧 第四部分:工具库使用篇
- 【工具01】Stable-Baselines3 安装与入门
- 【工具02】用 PPO 玩转 CartPole
- 【工具03】用 DQN 玩 Atari Pong
- 【工具04】并行训练与向量化环境
- 【工具05】结果可视化:TensorBoard 与 Reward 曲线
- 【工具06】RLlib 与分布式强化学习初探
📊 第五部分:进阶与应用篇
- 【进阶01】探索 vs 利用:ε-贪心与UCB
- 【进阶02】多智能体强化学习(MARL)入门
- 【进阶03】强化学习在机器人中的应用案例
- 【进阶04】强化学习在金融中的探索
- 【进阶05】强化学习在游戏 AI 中的应用
✅ 学习路径建议
- 新手推荐阅读顺序:
概念篇 → 算法篇(Q-Learning → 策略梯度 → DQN → PPO) → 环境实战(CartPole → Atari → MuJoCo) → 工具篇 → 进阶应用 - 读者能从 理论理解 → 算法掌握 → 实战训练 → 应用拓展,形成完整学习闭环。