当前位置: 首页 > news >正文

强化学习-CH2 状态价值和贝尔曼等式

强化学习-CH2 状态值和贝尔曼等式

状态值(State Value)它被定义为agent在遵循给定策略时所能获得的平均奖励。 状态值越大,对应的策略越好。 状态值可以用作评估策略是否良好的度量。Bellman方程描述了所有状态值之间的关系。 通过求解Bellman方程,可以得到状态值。 这个过程被称为策略评估,这是强化学习中的一个基本概念。

2.1 计算回报(returns)的两种方式

image-20250818144152086

针对上图的网格世界,计算回报有两种方式:

(1)按照定义:回报等于沿一条轨迹收集的所有奖励的折现总和。

image-20250818144238746

vi表示从si出发所得到的回报(奖励总和)。

(2)自举:

image-20250818144330001

上述等式可以写成矩阵形式:

image-20250818144502826

有:

image-20250818144516505

状态值就可以计算:

image-20250818144530450

2.2 状态值(State Values)

从t时刻起,得到一条轨迹

image-20250818144838761

St,At,Rt表示状态,动作,奖励,他们都是随机变量

image-20250818144920553

image-20250818144927681

这条轨迹的回报是:

image-20250818144948691

Gt也是随机变量,可以计算它的期望

image-20250818145049738

vπ(s)表示状态s的值,它只依赖于s(从s出发)和策略π

状态值与回报之间的关系进一步阐明如下。 当策略和系统模型都是确定的时,从一个状态开始总是会导致相同的轨迹。 在这种情况下,从一个状态开始获得的回报等于该状态的值。 相比之下,当策略或系统模型是随机的,从相同的状态出发可能会产生不同的轨迹。 在这种情况下,不同轨迹的收益是不同的,状态值是这些收益的均值

状态值:在给定策略π下,从一个状态出发,获取到的回报的均值。

2.3 贝尔曼(Bellman)公式

image-20250818145445706

image-20250818145512034

等式右边的第一项表示立即回报

image-20250818145715274

第二项表示未来回报的期望image-20250818145820626

因此原等式可以写成以下形式:

image-20250818150014906

上式就是贝尔曼公式,它体现了所有状态值之间的关系,从贝尔曼公式计算状态的过程就称为策略评估过程。

p(r|s,a)和p(s’|s,a)代表系统模型

2.4 贝尔曼公式的向量形式

image-20250818151225945

image-20250818151231905

rπ(s)表示立即回报 pπ(s’|s)表示在策略π下从s转移到s’的概率

image-20250818151349170

向量形式:

image-20250818151403410

image-20250818151507890

2.5 从贝尔曼公式中求解状态值

2.5.1 Closed-form solution

直接求解

image-20250818152207730

2.5.2 迭代求解

image-20250818152321490

迭代法生成一系列value,其中v0是初始猜测

image-20250818152356833

2.6 从状态值到动作值

动作值(action value)在某个状态下采取一个动作的值

一个状态-动作对(s,a)的动作值定义为

image-20250818153708634

image-20250818153813778

image-20250818153822921

状态值是对与该状态相关联的动作值的期望。

image-20250818153915770

2.7 动作值的贝尔曼公式

image-20250818154306346

态值是对与该状态相关联的动作值的期望。

[外链图片转存中…(img-Uor3nfEM-1755503156857)]

2.7 动作值的贝尔曼公式

[外链图片转存中…(img-fVdXeNUK-1755503156857)]

image-20250818154413825

http://www.dtcms.com/a/337039.html

相关文章:

  • 算法详细讲解:数据结构 - 单链表与双链表
  • Nacos-6--Naco的QUIC协议实现高可用的工作原理
  • cesium中实时获取鼠标精确坐标和高度
  • IB数学课程知识点有哪些?IB数学课程辅导机构怎么选?
  • GitLab 安全漏洞 CVE-2025-7739 解决方案
  • GitLab 安全漏洞 CVE-2025-6186 解决方案
  • AI全链路赋能:smardaten2.0实现软件开发全流程智能化突破
  • Leetcode 3651. Minimum Cost Path with Teleportations
  • 嵌入式 C++ 语言编程规范文档个人学习版(参考《Google C++ 编码规范中文版》)
  • USB基础 -- 字符串描述符 (String Descriptor) 系统整理文档
  • 2025年8月更新!Windows 7 旗舰版 (32位+64位 轻度优化+离线驱动)
  • hla mHAg
  • cortex-m中断技巧
  • 数组学习2
  • 十年回望:Vue 与 React 的设计哲学、演进轨迹与生态博弈
  • idea部署到docker
  • 静配中心配药智能化:基于高并发架构的Go语言实现
  • MySQL 函数大赏:聚合、日期、字符串等函数剖析
  • Ps切片后无法导出原因(存储为web所用格式)为灰色,及解决文案
  • Day119 持续集成docker+jenkins
  • Dockerfile优化指南:利用多阶段构建将Docker镜像体积减小90%
  • 【音频信号发生器】基本应用
  • LAMP 架构部署:Linux+Apache+MariaDB+PHP
  • C# 使用注册表开机自启
  • [C#] WPF - 自定义控件(行列间距UniformGrid)
  • docker compose再阿里云上无法使用的问题
  • 矿物分类系统开发笔记(一):数据预处理
  • 楼宇自控系统深化设计需关注哪些核心要点?技术与应用解析
  • Casadi库C++运行速度比python版本慢解决方法
  • 从第一性原理理解Embedding:独立模型vs大模型内嵌层的本质区别