当前位置: 首页 > news >正文

强化学习-CH3 最优状态值和贝尔曼最优方程

强化学习-CH3 最优状态值和贝尔曼最优方程

3.1 最优状态值(state values)和最优策略(policies)

定义:(根据状态值去定义)对于每一个状态都有最大的状态值

image-20250819160802971

3.2 贝尔曼最优方程(BOE)

对于每一个状态s,它的贝尔曼最优方程的表达形式为:(π(s)表示状态s的一个策略)

image-20250819161040566

image-20250819165023292

3.2.1 最大化BOE的右边

如何求解:(有两个未知值,一个是v(s),一个是π(a|s))

因为image-20250819161550000

image-20250819161558849

image-20250819161606191

其中image-20250819161618162

最优策略π(s)是选择q(s, a)值最大的策略。

3.2.2 BOE的向量形式

image-20250819161912189

image-20250819161937088

image-20250819162009789

image-20250819162015337

3.2.3 不动点定理

不动点:x1 = f(x1) x1既是不动点

收缩映射(contraction mapping):存在γ∈(0,1),使得

image-20250819162401920

定理(收缩映射):对任意等式x=f(x),其中x和f(x)都是实向量,如果f是一个收缩映射,那么以下结论成立:

(1)一定存在一个不动点

(2)不动点是唯一的

(3)迭代算法image-20250819162739914

image-20250819162752387

由此可以看到,BOE也符合收缩映射定理

3.3 从BOE中求解最优策略

(1)求解v*

image-20250819163048229

迭代法:

image-20250819163059302

(2)求解π*

image-20250819163203447

image-20250819163401604

image-20250819163408417

对于最优状态值它是唯一的,而对于最优策略不是唯一的,且一定存在一个确定性的最优策略(可能存在不确定的最优策略)

image-20250819163538560

总结:对于贝尔曼方程,列出了状态值之间的关系,可以通过迭代法进行求解,从状态值又引出了动作值

对于BOE,它是一种特殊的贝尔曼方程,在原先的基础上求解最优的状态值和策略。根据收缩映射定理,也是通过迭代法求解最优状态值,进而获取动作值,由贪心算法,对于每个状态的策略选取动作值最大的动作,执行概率为1.

3.4 影响最优策略的因素

image-20250819163934853

(1)折扣率:γ的大小决定重视立即奖励还是未来奖励

(2)奖励:决定机器人是否进入到惩罚区域

[外链图片转存中…(img-95Ln67Ew-1755593443296)]

(1)折扣率:γ的大小决定重视立即奖励还是未来奖励

(2)奖励:决定机器人是否进入到惩罚区域

如果扩大所有奖励或给所有奖励增加相同的值,最优策略保持不变。

http://www.dtcms.com/a/339538.html

相关文章:

  • Spring Cloud——服务注册与服务发现原理与实现
  • 零基础从头教学Linux(Day 15)
  • sfc_os!SfcValidateDLL函数分析之cache文件版本
  • “R语言+遥感”的水环境综合评价方法实践技术应用
  • 告别 Dify 工作流,让 NL2SQL 落地更直接
  • 【动态规划:路径问题】最小路径和 地下城游戏
  • JCTools Spsc:单生产者-单消费者无锁队列
  • 使用 Map 存储值和使用对象object储存的区别
  • 18.web api 9
  • C++高频知识点(二十七)
  • three.js学习记录(第三节:平面几何体BufferGeometry)
  • ADSP-21565开发板和ADSP-21569开发板的底板设计区别
  • ComfyUI 里的 Prompt 插值器(prompt interpolation / text encoder 插值方式)的含义和作用!
  • 通信方式:命名管道
  • nuc设置脚本开机自启动
  • 9.Ansible管理大项目
  • 实现LoRa通信与低功耗流程(无SPI中断)
  • Pegasus,HBASE,Redis比较
  • UML常见图例
  • 源代码部署 LAMP 架构
  • C++小游戏NO.1游戏机
  • 通过分布式系统的视角看Kafka
  • Gemini CLI 最近版本更新说明(v0.1.17~v0.1.22)
  • pyecharts可视化图表K线图_Candlestick:从入门到精通 (进阶版)
  • 技术分享:跨域问题的由来与解决
  • AP6275S AMPAK正基WiFi6模块方案与应用
  • 阀门漏水超声波检测类产品有哪些?
  • 【habitat学习一】Habitat-Lab 配置键文档详解(CONFIG_KEYS.md)
  • 进程间通信(信号、共享内存)
  • 17.web api 8