当前位置: 首页 > news >正文

MDP(马尔可夫决策过程)与 RL(强化学习)

1. 什么是 MDP(马尔可夫决策过程)

你可以把 MDP 想成一个 游戏规则系统。它规定了:

  • 状态 State (s):游戏当前的局面。

  • 动作 Action (a):玩家能做的选择。

  • 状态转移 Transition (P):当你做了动作 a,游戏会以一定概率转移到新的状态 s′。

  • 奖励 Reward (r):这一步动作会给你一个分数,可能正可能负。

公式上记作:

                                                             (s_t, a_t) \to (s_{t+1}, r_t)

这里的 t 就是时间步。

👉 举个生活例子:
你玩“迷宫逃脱”——

  • 状态 s = 你现在的位置。

  • 动作 a = 向上/下/左/右走。

  • 转移 P = 如果墙挡住了,你就原地不动;否则走到新格子。

  • 奖励 r = 出口给 +100,走到陷阱 −50,普通格子 0。

这就是一个 MDP。


2. 什么是 RL(强化学习)

强化学习就是:

  • 一个 智能体(Agent) 在 MDP 里玩,

  • 它不断尝试 动作

  • 根据 奖励 来调整策略(Policy),

  • 目标是让自己 长期累计奖励最大化

公式上的目标是最大化:

                                                                    R = \sum_{t=0}^{\infty} \gamma^t r_t

这里 \gamma 是折扣因子(0~1之间),让未来的奖励比现在的稍微“不重要”。

👉 用迷宫例子:
小机器人一开始乱走,但每次它走到出口(+100分)就记住:
“哦,走这条路不错。”
久而久之,它就学到一条最优路线。


3. RL 和 MDP 的关系

一句话总结:

  • MDP = 游戏规则(数学框架)

  • RL = 学习如何玩这个游戏(算法过程)


小检查:
你能用一句话复述一下:MDP 和 RL 分别是什么?
(不用公式,就用你自己的话总结一下就行)

http://www.dtcms.com/a/341744.html

相关文章:

  • 半导体开关器件深度解析:PNP、NPN、PMOS、NMOS
  • 使用PCL读取PCD点云文件
  • MTK Linux DRM分析(一)- DRM简介
  • 基于STM32的感应开关盖垃圾桶
  • 基于Pytochvideo训练自己的的视频分类模型
  • 数据结构-有序二叉树
  • 中科米堆CASAIM手持式三维扫描仪扫描塑料件检测尺寸形位公差
  • Cobbler:一站式自动化系统部署方案
  • C++高频知识点(三十二)
  • Comfyui加载图像编辑Qwen-Image-Edit工作流之Windows篇
  • C++之多态(从0到1的突破)
  • 【clion】cmake脚本1:调试脚本并构建Fargo项目win32版本
  • python 可迭代对象相关知识点
  • “无纸化办公”加速推进,房产证智能识别技术或成行业标配
  • Linux高效备份:rsync + inotify实时同步
  • 服务器硬盘进行分区和挂载
  • SpringBoot3后端项目介绍:mybig-event
  • 【MySQL的卸载】
  • 5.k8s控制器-Replicaset-Deployment、pod 反亲和性
  • VLN领域的“ImageNet”打造之路:从MP3D数据集、MP3D仿真器到Room-to-Room(R2R)、RxR、VLN-CE
  • Adobe Acrobat 表单创建与设置
  • 8.20 打卡 DAY 47 注意力热图可视化
  • 不会写 SQL 也能出报表?积木报表 + AI 30 秒自动生成报表和图表
  • JVM讲解
  • leetcode7二分查找_69 and 34
  • Linux正则表达式
  • 2D水平目标检测数据增强——旋转任意指定角度
  • RK3568 Linux驱动学习——设备树下 LED 驱动
  • Redisson最新版本(3.50.0左右)启动时提示Netty的某些类找不到
  • PowerShell脚本检查业务健康状态