MDP(马尔可夫决策过程)与 RL(强化学习)
1. 什么是 MDP(马尔可夫决策过程)
你可以把 MDP 想成一个 游戏规则系统。它规定了:
状态 State (s):游戏当前的局面。
动作 Action (a):玩家能做的选择。
状态转移 Transition (P):当你做了动作 a,游戏会以一定概率转移到新的状态 s′。
奖励 Reward (r):这一步动作会给你一个分数,可能正可能负。
公式上记作:
这里的 t 就是时间步。
👉 举个生活例子:
你玩“迷宫逃脱”——
状态 s = 你现在的位置。
动作 a = 向上/下/左/右走。
转移 P = 如果墙挡住了,你就原地不动;否则走到新格子。
奖励 r = 出口给 +100,走到陷阱 −50,普通格子 0。
这就是一个 MDP。
2. 什么是 RL(强化学习)
强化学习就是:
一个 智能体(Agent) 在 MDP 里玩,
它不断尝试 动作,
根据 奖励 来调整策略(Policy),
目标是让自己 长期累计奖励最大化。
公式上的目标是最大化:
这里 是折扣因子(0~1之间),让未来的奖励比现在的稍微“不重要”。
👉 用迷宫例子:
小机器人一开始乱走,但每次它走到出口(+100分)就记住:
“哦,走这条路不错。”
久而久之,它就学到一条最优路线。
3. RL 和 MDP 的关系
一句话总结:
MDP = 游戏规则(数学框架)
RL = 学习如何玩这个游戏(算法过程)
小检查:
你能用一句话复述一下:MDP 和 RL 分别是什么?
(不用公式,就用你自己的话总结一下就行)