当前位置：首页 > news >正文

强化学习原理二 BasicConcepts

news 2025/10/21 1:55:43

状态，State
- 状态空间，State Space
行动，Action
状态转换，state transition
策略，Policy
- 用数组或者矩阵表示这样一个策略
奖励，Reward
- 不确定的话，表格就不适用了。这个时候就要用数学来表示：p(r=-1｜s1,a1)=1 and p(r!=-1|s1,a1)=0
轨迹，Trajectory A Trajectory is a state-action-reward chain.
- 返回，return 可以用来评估一个策略好还是坏
- discount rate
- discounted return
Episode
- terminal states
MDP Markov Decision Process
- Sets
  - State
  - Action
  - Reward
- Policy
- Probablity distribute
- Markov property

http://www.dtcms.com/a/121892.html

相关文章：

从MySQL快速上手大数据Hive

go游戏后端开发31：麻将游戏的碰牌与胡牌逻辑

将外网下载的 Docker 镜像拷贝到内网运行

【文献阅读】Capabilities of Gemini Models in Medicine

Quill富文本编辑器支持自定义字体（包括新旧两个版本，支持Windings 2字体）

MyBatis 动态 SQL 使用详解

MCP 服务搭建与配置学习资源部分汇总

【CSS 选择器组合规则详解】

2025-04-09 吴恩达机器学习6——神经网络(1)：介绍

Spring Boot 3.x 中 WebClient 全面详解及示例

文件上传漏洞原理学习

Synexens上海矽印 SP10 基于 DTOF 技术的单点激光雷达

Cursor+Claude 项目开发（辅助编程）

沟通渠道混乱，信息传递延迟怎么办？

Redis高可用

树的直径 (dp或贪心)

蓝桥杯--寻找整数

【教程】xrdp修改远程桌面环境为xfce4

《从底层逻辑剖析：分布式软总线与传统计算机硬件总线的深度对话》

Mockito如何对静态方法进行测试

【Claude AI大语言模型连接Blender生成资产】Windows安装Blender MCP教程

FreeRTOS（中断时间片任务API）

微信小程序开发常用组件及用法详解

如何解决Chrome浏览器安装时提示“无法连接互联网”

Linux入门指南：从零开始探索开源世界

Mysql备忘记录

EasyExcel导入导出

雷电防护检测工作流程及重要性

【愚公系列】《高效使用DeepSeek》062-图书库存管理

台式电脑插入耳机没有声音或麦克风不管用