强化学习原理(四)
一、时序差分方法
1、TD learning of state values
TD算法是基于数据也就是不基于模型来实现强化学习。
TD target的理解:
TD error的理解:
2、TD算法的收敛性
TD算法是在没有模型的情况下求解贝尔曼公式
3、TD learning of action values:Sarsa
Sarsa: 可以直接估计action value的算法
收敛性:
n-step Sarsa:
4、TD learning of optimal action values:Q-learning
Q-learning实际上就是求解一个贝尔曼最优公式,最后得到的是一个最优的q值。
On-policy VS off-policy: