当前位置: 首页 > news >正文

强化学习原理(一)

一、基本概念

State:描述的agent相对于环境的一个状态

State Space:所有状态的空间S={(s_{i})}^{N}_{i=1}

Action:每一个状态可采取的一系列活动

State transition:当采取action时,agent从一个state移动到另一个state

Forbidden area:进入某个区域后,agent会得到惩罚

State transition probability:使用概率来描述状态转移

Policy:告诉agent如果在一个状态take哪个action

Mathematical representation:

Reward:是在才去一个action之后得到的实数

如果Reward是一个正数,代表对采取的action是鼓励的

如果Reard是一个负数,代表对采取的action是有惩罚的,不希望该行为的发生。

Trahectory:是一个state-action-reward的链

Discounted return 通过Discount rate

Episode:是有限步的

Markov decision process(MDP):

二、贝尔曼公式

Motivating examples:

计算return是非常重要的,可以用来评估policy

将上方式子拆解成矩阵形式:

State value:一个trajectory 的discounted return 的期望值(平均值)

只有单一trajectory时,return等于state value。

贝尔曼公式的推导:

贝尔曼公式描述了不同状态的state value之间的关系

 贝尔曼公式的矩阵和向量的形式:

Action value:agent从一个状态出发并且选择了一个action之后所得到的average return

 

http://www.dtcms.com/a/393104.html

相关文章:

  • 解读43页PPT经营分析与决策支持系统建设方案交流及解决经验
  • ubuntu24设置证书登录及问题排查
  • MySQL 备份与恢复完全指南:从理论到实战
  • 2011/12 JLPT听力原文 问题四
  • 实战free_s:在高并发缓存系统中落地“内存释放更安全——free_s函数深度解析与free全方位对比”
  • 异步通知实验
  • 用 C 语言模拟面向对象编程
  • 联邦学习论文分享:FedKTL
  • 智能体分类:从反应式到混合式的架构演进与实践
  • 【面板数据】上市公司企业ZF连接度数据集(1991-2024年)
  • 让codex像 cladue code一样 自动牛马
  • NeurIPS 2025 spotlight Autonomous Driving VLA World Model FSDrive
  • 多线程JUC
  • Qwen3技术之模型后训练
  • 服务端实现
  • 深入AQS源码:解密Condition的await与signal
  • ceph存储配置大全
  • 数据库造神计划第十六天---索引(1)
  • 【软件推荐】免费图片视频管理工具,让灵感库告别混乱
  • C语言入门教程 | 阶段二:循环语句详解(while、do...while、for)
  • GEO(Generative Engine Optimization)完全指南:从原理到实践
  • Msyql日期时间总结
  • IP地址入门基础
  • 【ROS2】Beginner: CLI tools
  • LeetCode刷题记录----279.完全平方数(Medium)
  • H7-TOOL的250M示波器模组采集CANFD标准波形效果,开口逻辑0,闭口逻辑1
  • 打工人日报#20250920
  • 详解C/C++内存管理
  • SSM(springboot部分)
  • C++ std:string和Qt的QString有哪些差异?