当前位置: 首页 > news >正文

强化学习原理二 BasicConcepts

  • 状态,State
    • 状态空间,State Space
  • 行动,Action
  • 状态转换,state transition
  • 策略,Policy
    • 用数组或者矩阵表示这样一个策略
  • 奖励,Reward
    • 不确定的话,表格就不适用了。这个时候就要用数学来表示:p(r=-1|s1,a1)=1 and p(r!=-1|s1,a1)=0
  • 轨迹,Trajectory A Trajectory is a state-action-reward chain.
    • 返回,return 可以用来评估一个策略好还是坏
    • discount rate
    • discounted return
  • Episode
    • terminal states
  • MDP Markov  Decision Process
    • Sets
      • State
      • Action
      • Reward
    • Policy
    • Probablity distribute
    • Markov property
http://www.dtcms.com/a/121892.html

相关文章:

  • 从MySQL快速上手大数据Hive
  • go游戏后端开发31:麻将游戏的碰牌与胡牌逻辑
  • 将外网下载的 Docker 镜像拷贝到内网运行
  • 【文献阅读】Capabilities of Gemini Models in Medicine
  • Quill富文本编辑器支持自定义字体(包括新旧两个版本,支持Windings 2字体)
  • MyBatis 动态 SQL 使用详解
  • MCP 服务搭建与配置学习资源部分汇总
  • 【CSS 选择器组合规则详解】
  • 2025-04-09 吴恩达机器学习6——神经网络(1):介绍
  • Spring Boot 3.x 中 WebClient 全面详解及示例
  • 文件上传漏洞原理学习
  • Synexens上海矽印 SP10 基于 DTOF 技术的单点激光雷达
  • Cursor+Claude 项目开发(辅助编程)
  • 沟通渠道混乱,信息传递延迟怎么办?
  • Redis高可用
  • 树的直径 (dp或贪心)
  • 蓝桥杯--寻找整数
  • 【教程】xrdp修改远程桌面环境为xfce4
  • 《从底层逻辑剖析:分布式软总线与传统计算机硬件总线的深度对话》
  • Mockito如何对静态方法进行测试
  • 【Claude AI大语言模型连接Blender生成资产】Windows安装Blender MCP教程
  • FreeRTOS(中断时间片任务API)
  • 微信小程序开发常用组件及用法详解
  • 如何解决Chrome浏览器安装时提示“无法连接互联网”
  • Linux入门指南:从零开始探索开源世界
  • Mysql备忘记录
  • EasyExcel导入导出
  • 雷电防护检测工作流程及重要性
  • 【愚公系列】《高效使用DeepSeek》062-图书库存管理
  • 台式电脑插入耳机没有声音或麦克风不管用