当前位置：首页 > news >正文

MDP（马尔可夫决策过程）与 RL（强化学习）

news 2025/8/21 15:30:30

1. 什么是 MDP（马尔可夫决策过程）

你可以把 MDP 想成一个 游戏规则系统。它规定了：

状态 State (s)：游戏当前的局面。
动作 Action (a)：玩家能做的选择。
状态转移 Transition (P)：当你做了动作 a，游戏会以一定概率转移到新的状态 s′。
奖励 Reward (r)：这一步动作会给你一个分数，可能正可能负。

公式上记作：

$(s_t, a_t) \to (s_{t+1}, r_t)$

这里的 t 就是时间步。

👉 举个生活例子：
你玩“迷宫逃脱”——

状态 s = 你现在的位置。
动作 a = 向上/下/左/右走。
转移 P = 如果墙挡住了，你就原地不动；否则走到新格子。
奖励 r = 出口给 +100，走到陷阱 −50，普通格子 0。

这就是一个 MDP。

2. 什么是 RL（强化学习）

强化学习就是：

一个 智能体（Agent） 在 MDP 里玩，
它不断尝试动作，
根据奖励来调整策略（Policy），
目标是让自己 长期累计奖励最大化。

公式上的目标是最大化：

$R = \sum_{t=0}^{\infty} \gamma^t r_t$

这里 $\gamma$ 是折扣因子（0~1之间），让未来的奖励比现在的稍微“不重要”。

👉 用迷宫例子：
小机器人一开始乱走，但每次它走到出口（+100分）就记住：
“哦，走这条路不错。”
久而久之，它就学到一条最优路线。

3. RL 和 MDP 的关系

一句话总结：

MDP = 游戏规则（数学框架）
RL = 学习如何玩这个游戏（算法过程）

小检查：
你能用一句话复述一下：MDP 和 RL 分别是什么？
（不用公式，就用你自己的话总结一下就行）

查看全文

http://www.dtcms.com/a/341744.html

半导体开关器件深度解析：PNP、NPN、PMOS、NMOS

使用PCL读取PCD点云文件

MTK Linux DRM分析（一）- DRM简介

基于STM32的感应开关盖垃圾桶

基于Pytochvideo训练自己的的视频分类模型

数据结构-有序二叉树

中科米堆CASAIM手持式三维扫描仪扫描塑料件检测尺寸形位公差

Cobbler：一站式自动化系统部署方案

C++高频知识点（三十二）

Comfyui加载图像编辑Qwen-Image-Edit工作流之Windows篇

C++之多态(从0到1的突破)

【clion】cmake脚本1：调试脚本并构建Fargo项目win32版本

python 可迭代对象相关知识点

“无纸化办公”加速推进，房产证智能识别技术或成行业标配

Linux高效备份：rsync + inotify实时同步

服务器硬盘进行分区和挂载

SpringBoot3后端项目介绍：mybig-event

【MySQL的卸载】

5.k8s控制器-Replicaset-Deployment、pod 反亲和性

VLN领域的“ImageNet”打造之路：从MP3D数据集、MP3D仿真器到Room-to-Room(R2R)、RxR、VLN-CE

Adobe Acrobat 表单创建与设置

8.20 打卡 DAY 47 注意力热图可视化

不会写 SQL 也能出报表？积木报表 + AI 30 秒自动生成报表和图表

JVM讲解

leetcode7二分查找_69 and 34

Linux正则表达式

2D水平目标检测数据增强——旋转任意指定角度

RK3568 Linux驱动学习——设备树下 LED 驱动

Redisson最新版本（3.50.0左右）启动时提示Netty的某些类找不到

PowerShell脚本检查业务健康状态

1. 什么是 MDP（马尔可夫决策过程）

2. 什么是 RL（强化学习）

3. RL 和 MDP 的关系

相关文章：