当前位置: 首页 > news >正文

【强化学习基础概念】

State 状态

智能体的位置就是状态

State Space

状态的集合

Action

对每个状态来说,可能发出的行为

Action Space of a state

一个状态发出所有动作的集合。

State transition

状态变换的过程

Policy

在每个状态应该采取什么动作
tells the agent what actions to take at a state
确定性策略概率为1,随机粗略采集动作为概率和为1

Reward

采取一个动作后得到数字。

trajectory

一个状态行为回报链
在这里插入图片描述

return

return 就是所有的rewards加在一起的总和。
discount return,当前的奖励r不加γ,后面乘以γ,按照次数多少进行加倍进行乘以伽马,然后所有的求和就是discount return。也就是打了折的return.

episode

有限的trajectory。

continuing tasks

无线的trajectory,一直跟环境进行交互。

MDP

Markov decision process,马尔科夫决策过程。

Sets:

  • State
  • Action
  • Reward

Probability:

  • 状态转移概率,
    状态s,采取动作a,转移到s’的概率。
  • 回报概率
  • 状态s,采取动作a,获得回报r的概率

Policy

Markov Property

只跟上一时刻相关。

State Value

说白了就是reward的总和,带有discount的return在这里插入图片描述

以上以为一个trajectory。不确定是否有限,如果有限就是episode。

在这里插入图片描述
按照策略π,带有discount的return总和。

http://www.dtcms.com/a/610477.html

相关文章:

  • 有什么较好的网站开发框架广州做网站如何
  • KP2801SGA准谐振式升压型恒压功率因数校正控制器芯片详细解析
  • Java实现MySQL用户登录注册系统
  • 三门峡网站开发重庆颐众达网站
  • 解构智慧养老:当科技成为银发族的“隐形守护者”
  • 看不见的核安全:核控制系统如何降低测试风险?
  • 物联网 - MQTT、EMQX、Broker
  • 什么是企业网站重庆建设工程信息网官网加密锁安装驱动
  • 20251114 DensePose深度姿势图像处理(简单易用)
  • 网站开发的调研wordpress写了文章打不开
  • Java_泛型的继承和通配符
  • 如何在上线后出现重大故障时进行应急响应
  • 什么是布隆过滤器?如何解决高并发缓存穿透问题?
  • 可以做微信推送的网站wordpress模板 美容
  • 石家庄做网站排名手机版商城网站都有哪 些功能
  • window平台使用lama_factory Qlora微调qwen2.5-3B-instruct实践
  • 基于野火stm32f407实现多任务动态创建
  • C语言--详解--指针--下
  • Oracle查看正在rebuild online的索引
  • Odoo 19版 odoo.conf 配置参数概览
  • 做资源网站需要什么四川公共资源交易信息网
  • 企业网站营销典型案例wordpress作者排行
  • Bootstrap5 进度条
  • 鸿蒙Cordova插件架构与OnsenUI组件适配机制深度解析
  • 前端性能问题分析
  • wdcp怎么上传做好的网站俄罗斯外贸网站
  • 网站设计师工资一般多少北京海淀区网络科技有限公司
  • c++错误<RC Condition =“‘%(ResourceCompile.ExcludedFromBuild)‘!=‘true‘“
  • 《中医基础理论》- 2.哲学基础之藏象学说-肝系统详解
  • 快速建立平台网站开发网站模板设计如何将网站转成小程序