当前位置：首页 > news >正文

强化学习-CH2 状态价值和贝尔曼等式

news 2025/8/19 6:17:42

强化学习-CH2 状态值和贝尔曼等式

状态值（State Value）它被定义为agent在遵循给定策略时所能获得的平均奖励。状态值越大，对应的策略越好。状态值可以用作评估策略是否良好的度量。Bellman方程描述了所有状态值之间的关系。通过求解Bellman方程，可以得到状态值。这个过程被称为策略评估，这是强化学习中的一个基本概念。

2.1 计算回报（returns）的两种方式

针对上图的网格世界，计算回报有两种方式：

（1）按照定义：回报等于沿一条轨迹收集的所有奖励的折现总和。

vi表示从si出发所得到的回报（奖励总和）。

（2）自举：

上述等式可以写成矩阵形式：

有：

状态值就可以计算：

2.2 状态值（State Values）

从t时刻起，得到一条轨迹

St,At,Rt表示状态，动作，奖励，他们都是随机变量

这条轨迹的回报是：

Gt也是随机变量，可以计算它的期望

vπ（s）表示状态s的值，它只依赖于s（从s出发）和策略π

状态值与回报之间的关系进一步阐明如下。当策略和系统模型都是确定的时，从一个状态开始总是会导致相同的轨迹。在这种情况下，从一个状态开始获得的回报等于该状态的值。相比之下，当策略或系统模型是随机的，从相同的状态出发可能会产生不同的轨迹。在这种情况下，不同轨迹的收益是不同的，状态值是这些收益的均值。

状态值：在给定策略π下，从一个状态出发，获取到的回报的均值。

2.3 贝尔曼（Bellman）公式

等式右边的第一项表示立即回报

第二项表示未来回报的期望

因此原等式可以写成以下形式：

上式就是贝尔曼公式，它体现了所有状态值之间的关系，从贝尔曼公式计算状态的过程就称为策略评估过程。

p(r|s,a)和p(s’|s,a)代表系统模型

2.4 贝尔曼公式的向量形式

rπ（s）表示立即回报 pπ（s’|s）表示在策略π下从s转移到s’的概率

向量形式：

2.5 从贝尔曼公式中求解状态值

2.5.1 Closed-form solution

直接求解

2.5.2 迭代求解

迭代法生成一系列value，其中v0是初始猜测

2.6 从状态值到动作值

动作值（action value）在某个状态下采取一个动作的值

一个状态-动作对（s,a）的动作值定义为

状态值是对与该状态相关联的动作值的期望。

2.7 动作值的贝尔曼公式

态值是对与该状态相关联的动作值的期望。

[外链图片转存中…(img-Uor3nfEM-1755503156857)]

2.7 动作值的贝尔曼公式

[外链图片转存中…(img-fVdXeNUK-1755503156857)]

http://www.dtcms.com/a/337039.html

相关文章：

算法详细讲解：数据结构 - 单链表与双链表

Nacos-6--Naco的QUIC协议实现高可用的工作原理

cesium中实时获取鼠标精确坐标和高度

IB数学课程知识点有哪些？IB数学课程辅导机构怎么选？

GitLab 安全漏洞 CVE-2025-7739 解决方案

GitLab 安全漏洞 CVE-2025-6186 解决方案

AI全链路赋能：smardaten2.0实现软件开发全流程智能化突破

Leetcode 3651. Minimum Cost Path with Teleportations

嵌入式 C++ 语言编程规范文档个人学习版（参考《Google C++ 编码规范中文版》）

USB基础 -- 字符串描述符 (String Descriptor) 系统整理文档

2025年8月更新！Windows 7 旗舰版 (32位+64位轻度优化+离线驱动)

hla mHAg

cortex-m中断技巧

数组学习2

十年回望：Vue 与 React 的设计哲学、演进轨迹与生态博弈

idea部署到docker

静配中心配药智能化：基于高并发架构的Go语言实现

MySQL 函数大赏：聚合、日期、字符串等函数剖析

Ps切片后无法导出原因（存储为web所用格式）为灰色，及解决文案

Day119 持续集成docker+jenkins

Dockerfile优化指南：利用多阶段构建将Docker镜像体积减小90%

【音频信号发生器】基本应用

LAMP 架构部署：Linux+Apache+MariaDB+PHP

C# 使用注册表开机自启

[C#] WPF - 自定义控件（行列间距UniformGrid）

docker compose再阿里云上无法使用的问题

矿物分类系统开发笔记（一）：数据预处理

楼宇自控系统深化设计需关注哪些核心要点？技术与应用解析

Casadi库C++运行速度比python版本慢解决方法

从第一性原理理解Embedding：独立模型vs大模型内嵌层的本质区别