Policy Gradient思想、REINFORCE算法,以及贪吃蛇小游戏(一)
文章目录
- Policy Gradient思想
- 论文
- REINFORCE算法
- 论文
- Policy Gradient思想和REINFORCE算法的关系
- 用一句人话解释什么是REINFORCE算法
- 策略这个东西实在是太抽象了,它可以是一个什么我们能实际感受到的东西?
- 你说的这个我理解了,但这个东西,我怎么优化?在一堆函数中,找到最优的函数?泛函分析吗?
Policy Gradient思想
Policy Gradient(策略梯度) 是强化学习中的一类算法范式,其核心思想是直接对参数化策略进行梯度上升优化,以最大化期望累积回报。
论文
Policy Gradient Methods for Reinforcement Learning with Function Approximation
有能力的同学们,可以读读这篇论文。我能力不太行,就不读了~
REINFORCE算法
一类适用于连接主义网络的强化学习算法(REINFORCE),能够通过调整网络权重最大化预期强化信号。其核心思想是通过蒙特卡洛采样估计梯度,并结合随机单元的行为实现策略优化。