当前位置：首页 > news >正文

强化学习-CH3 最优状态值和贝尔曼最优方程

news 2025/8/20 9:33:45

强化学习-CH3 最优状态值和贝尔曼最优方程

3.1 最优状态值（state values）和最优策略(policies)

定义：（根据状态值去定义）对于每一个状态都有最大的状态值

3.2 贝尔曼最优方程（BOE）

对于每一个状态s，它的贝尔曼最优方程的表达形式为：（π（s）表示状态s的一个策略）

3.2.1 最大化BOE的右边

如何求解：（有两个未知值，一个是v(s)，一个是π（a|s））

因为

当

其中

最优策略π(s)是选择q（s, a）值最大的策略。

3.2.2 BOE的向量形式

3.2.3 不动点定理

不动点：x1 = f(x1) x1既是不动点

收缩映射（contraction mapping）：存在γ∈（0,1），使得

定理（收缩映射）：对任意等式x=f(x)，其中x和f(x)都是实向量，如果f是一个收缩映射，那么以下结论成立：

（1）一定存在一个不动点

（2）不动点是唯一的

（3）迭代算法

由此可以看到，BOE也符合收缩映射定理

3.3 从BOE中求解最优策略

（1）求解v*

迭代法：

（2）求解π*

对于最优状态值它是唯一的，而对于最优策略不是唯一的，且一定存在一个确定性的最优策略（可能存在不确定的最优策略）

总结：对于贝尔曼方程，列出了状态值之间的关系，可以通过迭代法进行求解，从状态值又引出了动作值

对于BOE，它是一种特殊的贝尔曼方程，在原先的基础上求解最优的状态值和策略。根据收缩映射定理，也是通过迭代法求解最优状态值，进而获取动作值，由贪心算法，对于每个状态的策略选取动作值最大的动作，执行概率为1.

3.4 影响最优策略的因素

（1）折扣率：γ的大小决定重视立即奖励还是未来奖励

（2）奖励：决定机器人是否进入到惩罚区域

[外链图片转存中…(img-95Ln67Ew-1755593443296)]

（1）折扣率：γ的大小决定重视立即奖励还是未来奖励

（2）奖励：决定机器人是否进入到惩罚区域

如果扩大所有奖励或给所有奖励增加相同的值，最优策略保持不变。

http://www.dtcms.com/a/339538.html

相关文章：

Spring Cloud——服务注册与服务发现原理与实现

零基础从头教学Linux（Day 15）

sfc_os!SfcValidateDLL函数分析之cache文件版本

“R语言+遥感”的水环境综合评价方法实践技术应用

告别 Dify 工作流，让 NL2SQL 落地更直接

【动态规划：路径问题】最小路径和地下城游戏

JCTools Spsc：单生产者-单消费者无锁队列

使用 Map 存储值和使用对象object储存的区别

18.web api 9

C++高频知识点（二十七）

three.js学习记录（第三节：平面几何体BufferGeometry）

ADSP-21565开发板和ADSP-21569开发板的底板设计区别

ComfyUI 里的 Prompt 插值器（prompt interpolation / text encoder 插值方式）的含义和作用！

通信方式：命名管道

nuc设置脚本开机自启动

9.Ansible管理大项目

实现LoRa通信与低功耗流程（无SPI中断）

Pegasus,HBASE,Redis比较

UML常见图例

源代码部署 LAMP 架构

C++小游戏NO.1游戏机

通过分布式系统的视角看Kafka

Gemini CLI 最近版本更新说明(v0.1.17~v0.1.22)

pyecharts可视化图表K线图_Candlestick：从入门到精通（进阶版）

技术分享：跨域问题的由来与解决

AP6275S AMPAK正基WiFi6模块方案与应用

阀门漏水超声波检测类产品有哪些？

【habitat学习一】Habitat-Lab 配置键文档详解（CONFIG_KEYS.md）

进程间通信（信号、共享内存）

17.web api 8