当前位置：首页 > news >正文

贝尔曼方程计算过程强化学习

news 2025/10/4 11:47:39

阿尔伯塔大学【中英⚡强化学习|Reinforcement Learning Specialization】-misuseds-稍后再看-哔哩哔哩视频

这25%哪里来的

图中提到的 25% 是指在强化学习中的 Gridworld 环境里，智能体（agent）在执行某个动作时，每个方向（上、下、左、右）移动的概率是 25%。这个设定通常用于描述 动作的不确定性 或 随机性。

在该 Gridworld 示例中：

这说明：

动作执行具有随机性，且每个方向的概率相等（均匀分布），因此每个方向的概率是：

14=25%41=25%

这是为了模拟现实世界中 控制不精确 的情况，比如机器人在滑动地面上行走，可能无法完全按指令行动。这种模型被称为 stochastic transition model（随机转移模型）。

✅ 所以，25% 来自于：智能体执行动作时，每个方向（上/下/左/右）的移动概率为 25%，即动作是随机的、均匀分布在四个方向上的。

a的状态价值=随机走右概率0.25*右的直接结果5+未来价值衰减倍数0.7*未来b状态的价值加其他几个动作

这是一个非常好的问题！Gridworld 和 国际象棋（Chess） 虽然都可以被建模为强化学习中的 马尔可夫决策过程（MDP），但它们的“状态”在 数量、复杂度、表示方式和可解性 上有本质区别。

我们来从多个角度对比它们的状态有何不同：

项目	Gridworld	国际象棋
状态数量	很小（例如 4×4=16 个格子）	极其巨大（约 10451045 种合法状态）
是否能枚举所有状态	✅ 可以，比如 A、B、C、D	❌ 几乎不可能列出所有状态

🔹 解释：

在一个简单的 4×4 Gridworld 中，智能体只能在 16 个格子中移动，状态就是 (行, 列) 坐标，比如 (0,0)、(0,1)……总共最多几十种状态。
而国际象棋棋盘是 8×8，有 32 个棋子，每个棋子有不同的类型和位置，还要考虑王车易位、吃过路兵、连续50步无吃子等规则，导致合法状态数量高达 10451045 级别。

📌 想象一下：如果你要为每个状态写一个方程来求解最优策略，Gridworld 只需要解十几个方程；而国际象棋要解 10451045 个方程 —— 这比宇宙中的原子数量还多！

项目	Gridworld	国际象棋
表示方法	坐标 `(x, y)` 或编号	棋盘矩阵（8×8），每个格子记录棋子类型和颜色
复杂度	简单	复杂

🔹 例子：

Gridworld 状态：(2, 3) 表示智能体在第2行第3列。
国际象棋状态：需要一个 8×8 的数组，每个元素可能是 空、K（白王）、q（黑后）、N（白马）等，并且还要额外记录全局状态（如是否能王车易位、吃过路兵机会等）。

所以国际象棋的状态是一个高维结构化数据，而 Gridworld 的状态只是一个低维坐标。

项目	Gridworld	国际象棋
动作结果是否确定	有时是随机的（如本图中每个方向25%概率）	完全确定（除非引入噪声）

🔹 解释：

在你提供的图片中，Gridworld 是随机环境：你按“上”，但有 25% 概率往任意方向走 —— 这叫 stochastic transition。
而国际象棋是确定性游戏：你移动马到某个位置，结果是唯一的，没有随机偏移。

但这不意味着国际象棋更简单 —— 正是因为它太复杂，才需要用搜索树（如 Alpha-Beta 剪枝）或深度网络（如 AlphaZero）来近似价值函数。

项目	Gridworld	国际象棋
能否用线性方程求解？	✅ 可以（小规模 MDP）	❌ 不可能
是否适合用动态规划？	✅ 适合	❌ 必须用近似方法

🔹 原因：

项目	Gridworld	国际象棋
奖励来源	到达某个格子得 +5，其他 +0	只有胜负平局（+1, -1, 0），中间奖励稀疏

🔹 说明：

这使得国际象棋的学习更加困难，需要长期信用分配（credit assignment）。