强化学习原理(四)
一、时序差分方法
1、TD learning of state values
TD算法是基于数据也就是不基于模型来实现强化学习。


TD target的理解:

TD error的理解:

2、TD算法的收敛性
TD算法是在没有模型的情况下求解贝尔曼公式

3、TD learning of action values:Sarsa
Sarsa: 可以直接估计action value的算法

收敛性:

n-step Sarsa:

4、TD learning of optimal action values:Q-learning


Q-learning实际上就是求解一个贝尔曼最优公式,最后得到的是一个最优的q值。
On-policy VS off-policy:

5、Summary

