当前位置：首页 > news >正文

动手学强化学习第6章 Dyna-Q 算法

news 2025/11/13 11:19:56

第六章

在这里插入图片描述

重点：
提出了有模型算法和无模型算法。
强化学习算法有两个重要的评价指标：一个是算法收敛后的策略在初始状态下的期望回报，另一个是样本复杂度，即算法达到收敛结果需要在真实环境中采样的样本数量。
在这里插入图片描述

核心的改动应该是指这个，利用模型去（学习or记录）一个占用度量对应的奖励和下一状态，然后使用它去更状态新价值函数，从代码上看也是做了类似的工作。

Q-planning可以有效加速收敛。
有必要反问一下这么做的动机是什么？
口胡一下，即为什么要在现在去做随机更新价值的这个动作：占用度量的状态价值函数的定义是当前状态到未来最终状态的累积懊悔（指负回报），而在前期更新状态价值函数时，对下一状态初始化其实都是0，没有形成传递链。只有随着迭代的深入，传递链才会被慢慢建立起来，而Q_learning做的工作实际上就是在加速传递链的建立。

问了GPT他也是认同的：

Q-learning / Q-planning 的目标是加速 Bellman 信号的传播，从而更快地建立起状态之间的价值传递链。

http://www.dtcms.com/a/602392.html

相关文章：

【前端】resetFields()失效：点击编辑后再点击新增，弹出的表单是编辑的数据

易支付系统二开对接博瑞云音箱教程及源码

TiDB 关联子查询去关联优化实战案例与原理深度解析

UCOS-III笔记（四）

广西上林县住房城乡建设网站网站代码字体变大

【窗口】分层角度来整体地理解 Android 窗口系统

网站网页设计制作公司建立wordpress网站吗

CesiumJS 案例 P35：添加图片图层（添加图片数据）

贞丰县住房和城乡建设局网站门户网站建设采购

Apache DolphinScheduler 新增 gRPC 任务插件 | 开源之夏成果总结

网站数据迁移教程汕头快速建站模板

MATLAB中生成混淆矩阵

基于MATLAB的验证码识别系统实现

路由器怎么做网站百度下载

Spark简介以及K8S部署

网站顶部图片素材官方网站建设条件

高端电商网站建设上海频道网站建设公司

Ubuntu 中的编程语言(中)

不确定知识图谱(UKGs)增强中医药大模型：药食同源个性化膳食推荐的智能化新突破

有哪些适合自学口语的软件?

算法1111

大牌印花图案设计网站工信部怎么查网站备案

做网站需要走哪些程序建筑模板制作过程

《POE 免布线：100 平米机房以太网温湿度便捷部署方案》

做优化网站是什么意思浏览器下载WordPress文件

纯静态网站制作开发公司对代理公司管理

龙海网站开发如何建立和设置公司网站

宜昌教育培训网站建设深圳宝安中学家长群

做网站违反广告法wordpress全站转移

Ubuntu 怎么把树莓派内存卡备份制作成为镜像