当前位置：首页 > news >正文

动手学强化学习第5章时序差分算法

news 2025/11/2 14:54:41

时序差分算法

这章引入无模型的强化学习，即不需要环境的奖励函数和状态转移函数，这些是通过agent和环境交互得到的。
在这里插入图片描述
这个公式是时序差分的关键，主要介绍sarsa算法和Q-learning 算法。
sarsa算法-在线策略

总结来看，本质还是暴力搜索，加入了E-贪心策略，防止跳入局部最优，这里说结合了动态规划，其实还是需要一直搜索知道得到奖励（这里是指掉入悬崖或者走到了目的地）这里应该也不用担心一直游走，因为游走本身就是带惩罚的，所以走回头路的惩罚高于走新的路。
在这里插入图片描述
结果也很有意思，sara会选择原理悬崖的方式走，虽然这不是最优解。
多步sara时序差分的优化，感觉是在计算当前的状态动作对时更加充分的综合后继状态的影响，即状态估计偏差更小，因此能更快收敛。
Q-learning 算法 - 离线策略
在这里插入图片描述
从代码上，区别只有update，这里对如何区分在线策略和离线策略还留有疑问：

这是gpt的回答，后续在来补吧，感觉离线策略就是忽视引入非实时计算带来的偏差，直接用之前的来计算价值，效率确实会高。
收敛性证明，待补