当前位置: 首页 > news >正文

程序员学习强化学习之基本概念的数学表达

基本概念

迷宫游戏为例

状态(State):S = {s1, . . . , s9}

行动(Action):A = {a1, . . . , a5}

状态转移(State transition):s_1 \overset{a2}{\rightarrow} s_2

奖励(Reward):r(s, a) 是 s和a的函数

序列(Trajectories)

策略1的序列:s_1\xrightarrow[r=0]{a2} s_2 \xrightarrow[r=0]{a3} s_5 \xrightarrow[r=0]{a3} s_8 \xrightarrow[r=1]{a2} s_9

策略2的序列:s_1\xrightarrow[r=0]{a3} s_4 \xrightarrow[r=-1]{a3} s_7 \xrightarrow[r=0]{a2} s_8 \xrightarrow[r=1]{a2} s_9

回报(return):也叫累计奖励。回报部分包括即时奖励(immediate reward)和未来奖励(future rewards),这也很好理解,因为智能体目标是最大化累计奖励。

对于策略1:回报为 return = 0 + 0 + 0 + 1 = 1.

对于策略2:回报为 return = 0 − 1 + 0 + 1 = 0

折扣因子(discounted return):discounted return = 0 + r 0 + r^2 0 + r^3 1 + ...  其中 r \in (0,1)

折扣因子的引入:1)避免回报无限大;2)短期奖励和长期奖励的平衡

片段(episode):片段任务(episodic tasks)表示序列是有限步骤;持续任务(continuing tasks)表示序列是无限步骤

相关文章:

  • 在华为设备上,VRRP与BFD结合使用可以快速检测链路故障并触发主备切换
  • 【五.LangChain技术与应用】【14.LangChain与MoonShot、通义千问:多模型融合的实战】
  • 【时时三省】(C语言基础)算术表达式和运算符
  • 如何在 Aptos 上铸造 NFT
  • 网络安全可以从事什么工作?
  • Android14 OTA升级
  • 大模型如何协助知识图谱进行实体关系之间的分析
  • 【Azure 架构师学习笔记】- Azure Databricks (16) -- Delta Lake 和 ADLS整合
  • Android14 OTA差分包升级报Package is for source build
  • 计算机毕业设计SpringBoot+Vue.js物流管理系统(源码+文档+PPT+讲解)
  • 推导二项型事件的随机变量标准误差:两种方法
  • GNU Binutils 全工具指南:从编译到逆向的完整生态
  • 铺地毯!!!
  • P3385 【模板】负环
  • 阿里云oss开发实践:大文件分片、断点续传、实时进度 React+Node+Socket.IO
  • Windows 图形显示驱动开发-WDDM 3.2-本机 GPU 围栏对象(二)
  • 5c/c++内存管理
  • 【DeepSeek 】学习编程的利器:DeepSeek 使用指南
  • react中如何使用使用react-redux进行数据管理
  • FastGPT 引申:奥运选手知识图谱构建与混合检索应用
  • 小米汽车回应部分SU7前保险杠形变
  • 科普|认识谵妄:它有哪些表现?患者怎样走出“迷雾”?
  • 马上评|训斥打骂女儿致死,无暴力应是“管教”底线
  • 雷军内部演讲回应质疑:在不服输、打不倒方面,没人比我们更有耐心
  • 南方降水频繁暴雨连连,北方高温再起或现40°C酷热天气
  • 当番茄霸总遇上晋江古言,短剧IP小变局