动手学强化学习 第5章时序差分算法
时序差分算法
这章引入无模型的强化学习,即不需要环境的奖励函数和状态转移函数,这些是通过agent和环境交互得到的。

这个公式是时序差分的关键,主要介绍sarsa算法和Q-learning 算法。
sarsa算法-在线策略

总结来看,本质还是暴力搜索,加入了E-贪心策略,防止跳入局部最优,这里说结合了动态规划,其实还是需要一直搜索知道得到奖励(这里是指掉入悬崖或者走到了目的地)这里应该也不用担心一直游走,因为游走本身就是带惩罚的,所以走回头路的惩罚高于走新的路。

结果也很有意思,sara会选择原理悬崖的方式走,虽然这不是最优解。
多步sara时序差分的优化,感觉是在计算当前的状态动作对时更加充分的综合后继状态的影响,即状态估计偏差更小,因此能更快收敛。
Q-learning 算法 - 离线策略

从代码上,区别只有update,这里对如何区分在线策略和离线策略还留有疑问:

这是gpt的回答,后续在来补吧,感觉离线策略就是忽视引入非实时计算带来的偏差,直接用之前的来计算价值,效率确实会高。
收敛性证明,待补
