当前位置：首页 > news >正文

强化学习原理（一）

news 2025/9/21 11:31:00

一、基本概念

State：描述的agent相对于环境的一个状态

State Space：所有状态的空间 $S={(s_{i})}^{N}_{i=1}$

Action:每一个状态可采取的一系列活动

State transition：当采取action时，agent从一个state移动到另一个state

Forbidden area：进入某个区域后，agent会得到惩罚

State transition probability：使用概率来描述状态转移

Policy：告诉agent如果在一个状态take哪个action

Mathematical representation：

Reward：是在才去一个action之后得到的实数

如果Reward是一个正数，代表对采取的action是鼓励的

如果Reard是一个负数，代表对采取的action是有惩罚的，不希望该行为的发生。

Trahectory：是一个state-action-reward的链

Discounted return 通过Discount rate

Episode：是有限步的

Markov decision process（MDP）：

二、贝尔曼公式

Motivating examples：

计算return是非常重要的，可以用来评估policy

将上方式子拆解成矩阵形式：

State value：一个trajectory 的discounted return 的期望值（平均值）

只有单一trajectory时，return等于state value。

贝尔曼公式的推导：

贝尔曼公式描述了不同状态的state value之间的关系

贝尔曼公式的矩阵和向量的形式：

Action value：agent从一个状态出发并且选择了一个action之后所得到的average return

http://www.dtcms.com/a/393104.html

相关文章：

解读43页PPT经营分析与决策支持系统建设方案交流及解决经验

ubuntu24设置证书登录及问题排查

MySQL 备份与恢复完全指南：从理论到实战

2011/12 JLPT听力原文问题四

实战free_s：在高并发缓存系统中落地“内存释放更安全——free_s函数深度解析与free全方位对比”

异步通知实验

用 C 语言模拟面向对象编程

联邦学习论文分享：FedKTL

智能体分类：从反应式到混合式的架构演进与实践

【面板数据】上市公司企业ZF连接度数据集（1991-2024年）

让codex像 cladue code一样自动牛马

NeurIPS 2025 spotlight Autonomous Driving VLA World Model FSDrive

多线程JUC

Qwen3技术之模型后训练

服务端实现

深入AQS源码：解密Condition的await与signal

ceph存储配置大全

数据库造神计划第十六天---索引（1）

【软件推荐】免费图片视频管理工具，让灵感库告别混乱

C语言入门教程 | 阶段二：循环语句详解（while、do...while、for）

GEO（Generative Engine Optimization）完全指南：从原理到实践

Msyql日期时间总结

IP地址入门基础

【ROS2】Beginner: CLI tools

LeetCode刷题记录----279.完全平方数（Medium）

H7-TOOL的250M示波器模组采集CANFD标准波形效果，开口逻辑0，闭口逻辑1

打工人日报#20250920

详解C/C++内存管理

SSM（springboot部分）

C++ std:string和Qt的QString有哪些差异？