当前位置：首页 > news >正文

【强化学习基础概念】

news 2025/11/15 9:52:07

State 状态

智能体的位置就是状态

State Space

状态的集合

Action

对每个状态来说，可能发出的行为

Action Space of a state

一个状态发出所有动作的集合。

State transition

状态变换的过程

Policy

在每个状态应该采取什么动作
tells the agent what actions to take at a state
确定性策略概率为1，随机粗略采集动作为概率和为1

Reward

采取一个动作后得到数字。

trajectory

一个状态行为回报链
在这里插入图片描述

return

return 就是所有的rewards加在一起的总和。
discount return,当前的奖励r不加γ，后面乘以γ，按照次数多少进行加倍进行乘以伽马，然后所有的求和就是discount return。也就是打了折的return.

episode

有限的trajectory。

continuing tasks

无线的trajectory,一直跟环境进行交互。

MDP

Markov decision process，马尔科夫决策过程。

Sets:

State
Action
Reward

Probability:

状态转移概率,
状态s,采取动作a,转移到s’的概率。
回报概率
状态s,采取动作a,获得回报r的概率

Policy

Markov Property

只跟上一时刻相关。

State Value

说白了就是reward的总和，带有discount的return 在这里插入图片描述

以上以为一个trajectory。不确定是否有限，如果有限就是episode。

在这里插入图片描述
按照策略π，带有discount的return总和。

查看全文

http://www.dtcms.com/a/610477.html

有什么较好的网站开发框架广州做网站如何

KP2801SGA准谐振式升压型恒压功率因数校正控制器芯片详细解析

Java实现MySQL用户登录注册系统

三门峡网站开发重庆颐众达网站

解构智慧养老：当科技成为银发族的“隐形守护者”

看不见的核安全：核控制系统如何降低测试风险？

物联网 - MQTT、EMQX、Broker

什么是企业网站重庆建设工程信息网官网加密锁安装驱动

20251114 DensePose深度姿势图像处理（简单易用）

网站开发的调研wordpress写了文章打不开

Java_泛型的继承和通配符

如何在上线后出现重大故障时进行应急响应

什么是布隆过滤器？如何解决高并发缓存穿透问题？

可以做微信推送的网站wordpress模板美容

石家庄做网站排名手机版商城网站都有哪些功能

window平台使用lama_factory Qlora微调qwen2.5-3B-instruct实践

基于野火stm32f407实现多任务动态创建

C语言--详解--指针--下

Oracle查看正在rebuild online的索引

Odoo 19版 odoo.conf 配置参数概览

做资源网站需要什么四川公共资源交易信息网

企业网站营销典型案例wordpress作者排行

Bootstrap5 进度条

鸿蒙Cordova插件架构与OnsenUI组件适配机制深度解析

前端性能问题分析

wdcp怎么上传做好的网站俄罗斯外贸网站

网站设计师工资一般多少北京海淀区网络科技有限公司

c++错误＜RC Condition =“‘%(ResourceCompile.ExcludedFromBuild)‘!=‘true‘“

《中医基础理论》- 2.哲学基础之藏象学说-肝系统详解

快速建立平台网站开发网站模板设计如何将网站转成小程序

State 状态

State Space

Action

Action Space of a state

State transition

Policy

Reward

trajectory

return

episode

continuing tasks

MDP

Sets:

Probability:

Policy

Markov Property

State Value

相关文章：