当前位置：首页 > news >正文

程序员学习强化学习之基本概念的数学表达

news 2025/11/3 12:27:58

基本概念

迷宫游戏为例

状态(State)：S = {s1, . . . , s9}

行动(Action)：A = {a1, . . . , a5}

状态转移(State transition)： $s_1 \overset{a2}{\rightarrow} s_2$

奖励(Reward)：r(s, a) 是 s和a的函数

序列(Trajectories)

策略1的序列： $s_1\xrightarrow[r=0]{a2} s_2 \xrightarrow[r=0]{a3} s_5 \xrightarrow[r=0]{a3} s_8 \xrightarrow[r=1]{a2} s_9$

策略2的序列： $s_1\xrightarrow[r=0]{a3} s_4 \xrightarrow[r=-1]{a3} s_7 \xrightarrow[r=0]{a2} s_8 \xrightarrow[r=1]{a2} s_9$

回报(return)：也叫累计奖励。回报部分包括即时奖励(immediate reward)和未来奖励(future rewards)，这也很好理解，因为智能体目标是最大化累计奖励。

对于策略1：回报为 return = 0 + 0 + 0 + 1 = 1.

对于策略2：回报为 return = 0 − 1 + 0 + 1 = 0

折扣因子(discounted return)：discounted return = $0 + r 0 + r^2 0 + r^3 1 + ...$ 其中 $r \in (0,1)$

折扣因子的引入：1）避免回报无限大；2）短期奖励和长期奖励的平衡

片段(episode)：片段任务(episodic tasks)表示序列是有限步骤；持续任务(continuing tasks)表示序列是无限步骤

查看全文

http://www.dtcms.com/a/51830.html

在华为设备上，VRRP与BFD结合使用可以快速检测链路故障并触发主备切换

【五.LangChain技术与应用】【14.LangChain与MoonShot、通义千问：多模型融合的实战】

【时时三省】(C语言基础)算术表达式和运算符

如何在 Aptos 上铸造 NFT

网络安全可以从事什么工作？

Android14 OTA升级

大模型如何协助知识图谱进行实体关系之间的分析

【Azure 架构师学习笔记】- Azure Databricks (16) -- Delta Lake 和 ADLS整合

Android14 OTA差分包升级报Package is for source build

计算机毕业设计SpringBoot+Vue.js物流管理系统(源码+文档+PPT+讲解)

推导二项型事件的随机变量标准误差：两种方法

GNU Binutils 全工具指南：从编译到逆向的完整生态

铺地毯！！！

P3385 【模板】负环

阿里云oss开发实践：大文件分片、断点续传、实时进度 React+Node+Socket.IO

Windows 图形显示驱动开发-WDDM 3.2-本机 GPU 围栏对象(二)

5c/c++内存管理

【DeepSeek 】学习编程的利器：DeepSeek 使用指南

react中如何使用使用react-redux进行数据管理

FastGPT 引申：奥运选手知识图谱构建与混合检索应用

arthas快速入门

后端架构模式之－BFF（Backend-For-Frontend）

康谋分享 | 3DGS：革新自动驾驶仿真场景重建的关键技术

RFID无线测温技术助力环网柜智能运维升级

微信小程序接入deepseek

道可云人工智能每日资讯｜《奇遇三星堆》VR沉浸探索展（淮安站）开展

字符函数和字符串函数

如何排查服务器内存泄漏问题

Redis｜集群 Cluster

实时云渲染技术布道 | 像素流送技术与商业化实时云渲染产品的指标对比

基本概念

相关文章：