当前位置：首页 > news >正文

强化学习2.4 MDP作业汇总(持续更新)

news 2025/11/3 12:39:05

问题1

考虑一个具有三个状态的马尔可夫决策过程（MDP），用于捕捉机器人足球的得分情况：无（None）、对方得分（Against）、我方得分（For），对应奖励分别为0、-1、+1（图3）。奖励函数仅与当前状态相关（即( r = r(s) )）。同时，考虑三种捕捉比赛策略的动作：

平衡（Balanced）：我方得分概率5%；对方得分概率5%。
进攻（Offensive）：我方得分概率25%；对方得分概率50%。
防守（Defensive）：我方得分概率1%；对方得分概率2%。

动作隐含了三个状态之间的上述转移概率，其中( * )表示任意三个状态。例如，(T(*, a,For) )是从任意状态出发，执行动作( a )，转移到“我方得分（For）”状态的概率。

在这里插入图片描述

(1) 该MDP的策略总数是多少？

(2) 折扣因子为0.5时，使用策略迭代求解此MDP。提示：为便于手动计算，选择在所有状态下执行“平衡（Balanced）”动作作为初始策略。对于该状态-动作空间较小的问题，无需迭代执行策略评估，可直接一次性求解贝尔曼方程以获得价值。

(3) 对于给定的特定MDP，不同的折扣因子会改变最优策略吗？请给出充分的证明。一般情况下呢？

(1)

** 策略（policy）** 的定义：策略是从 “状态到动作的映射”，即每个状态下选择一个动作。
已知该 MDP 有 3 个状态（None、Against、For），每个状态下有 3 个可选动作（Balanced、Offensive、Defensive）。
对于每个状态，我们有 3 种动作选择；3 个状态的选择相互独立，因此策略总数为：3×3×3=3^3=27

(2)

这意味着由于该MDP的状态和动作数量极少，我们可以把贝尔曼方程转化为线性方程组，通过直接求解方程组的方式一次性得到状态价值，而不需要像常规策略评估那样进行迭代计算（比如迭代更新状态价值直到收敛）。

以问题(b)中的初始策略（所有状态选“Balanced”动作）为例，我们来具体解释：

贝尔曼方程的线性化

对于每个状态( s )，贝尔曼方程为：
$Vπ(s)=r(s)+γ∑s′T(s,π(s),s′)Vπ(s′)V_{\pi}(s) = r(s) + \gamma \sum_{s'} T(s, \pi(s), s') V_{\pi}(s')$

其中， $Vπ(s)V_{\pi}(s)$ 是策略在状态( s )下选择的动作（这里所有状态都选“Balanced”）， $T (s, a, s^{'})$ 是转移概率。

由于状态只有3个（None、Against、For），我们可以将其表示为一个三元一次线性方程组：
$\begin{cases} v_1 = 0 + 0.5 \times (0.9v_1 + 0.05v_2 + 0.05v_3) \\ v_2 = -1 + 0.5 \times (0.9v_1 + 0.05v_2 + 0.05v_3) \\ v_3 = 1 + 0.5 \times (0.9v_1 + 0.05v_2 + 0.05v_3) \end{cases}$
整理得到
$\begin{cases} 0.55 v_1 - 0.025 v_2 - 0.025 v_3 = 0 \\ -0.45 v_1 + 0.975 v_2 - 0.025 v_3 = -1 \\ -0.45 v_1 - 0.025 v_2 + 0.975 v_3 = 1 \end{cases}$

通过代数方法（如消元法、矩阵求逆）可直接解出：
V({None}) = 0, \quad V(\text{Against}) = -1, \quad V(\text{For}) = 1 ]

为何可以这样做？

当状态数量( n )很小时（比如本题( n=3 )），贝尔曼方程对应的线性方程组规模很小，直接求解的计算成本远低于迭代法。而当状态数量很大时（比如几十、上百个状态），迭代法（如值迭代、策略迭代的迭代评估）会更高效，因为直接求解大规模线性方程组的计算复杂度会急剧上升。

import numpy as npdef policy_iteration():# 定义状态和动作states = ['None', 'Against', 'For']actions = ['Balanced', 'Offensive', 'Defensive']state_index = {s: i for i, s in enumerate(states)}action_index = {a: i for i, a in enumerate(actions)}# 奖励函数：r(None)=0, r(Against)=-1, r(For)=1r = np.array([0, -1, 1])# 转移概率：T[动作][从任意状态][到状态]# T[0] = Balanced: For=0.05, Against=0.05, None=0.9# T[1] = Offensive: For=0.25, Against=0.5, None=0.25# T[2] = Defensive: For=0.01, Against=0.02, None=0.97T = np.array([[[0.9, 0.05, 0.05],   # Balanced: [None, Against, For][0.9, 0.05, 0.05],[0.9, 0.05, 0.05]],[[0.25, 0.5, 0.25],   # Offensive[0.25, 0.5, 0.25],[0.25, 0.5, 0.25]],[[0.97, 0.02, 0.01],  # Defensive[0.97, 0.02, 0.01],[0.97, 0.02, 0.01]]])gamma = 0.5  # 折扣因子theta = 1e-6  # 收敛阈值# 初始策略：所有状态选择Balanced（索引0）policy = np.zeros(len(states), dtype=int)  # [0, 0, 0]while True:# 1. 策略评估：求解当前策略的状态价值VV = np.zeros(len(states))while True:delta = 0for s in range(len(states)):v = V[s]a = policy[s]# 贝尔曼方程：V(s) = r(s) + gamma * sum(T(s,a,s')*V(s'))V[s] = r[s] + gamma * np.dot(T[a, s], V)delta = max(delta, abs(v - V[s]))if delta < theta:break# 2. 策略改进policy_stable = Truefor s in range(len(states)):old_action = policy[s]# 计算所有动作的Q值Q = []for a in range(len(actions)):q = r[s] + gamma * np.dot(T[a, s], V)Q.append(q)# 选择Q值最大的动作new_action = np.argmax(Q)if new_action != old_action:policy_stable = Falsepolicy[s] = new_action# 检查策略是否稳定if policy_stable:breakreturn V, policy, states, actions# 执行策略迭代
V, policy, states, actions = policy_iteration()# 输出结果
print("最优状态价值:")
for i, s in enumerate(states):print(f"V({s}) = {V[i]:.4f}")print("\n最优策略:")
for i, s in enumerate(states):print(f"在状态{s}下选择动作: {actions[policy[i]]}")

结果如下所示
在这里插入图片描述

(3)

1. 特定MDP的核心设定

奖励函数：仅与当前状态相关
r(None) = 0 ，r(Against) = -1， r(For) = +1
转移概率：仅与动作相关（与当前状态无关）
例如：动作Balanced在任意状态下，转移到For的概率为5%，Against为5%，None为90%
最优状态价值：由问题(b)可知
r(None) = 0 ，r(Against) = -1， r(For) = +1

2. 证明：动作价值比较与gamma无关

（1）动作价值公式简化

动作价值( Q(s,a) )的定义为：
$\gamma \sum_{s'} T(a,s') V^*(s')$

由于转移概率( T(a,s’) )与当前状态( s )无关（题目中“*表示任意状态”），可令：
$\sum_{s'} T(a,s') V^*(s')$
（( L(a) )为执行动作( a )后的长期奖励期望，仅与动作( a )相关）

因此，动作价值公式简化为：
$\gamma \cdot L(a)$

这表明：同一状态下，不同动作的( Q )值差异仅由( L(a) )决定，与 $g amma$ 无关。

（2）计算三种动作的( L(a) )

代入最优状态价值\ r(None) = 0 ，r(Against) = -1， r(For) = +1 ：

动作Balanced：
$L(\text{Balanced}) = T(*, \text{Balanced}, \text{None}) \cdot V^*(\text{None}) + T(*, \text{Balanced}, \text{Against}) \cdot V^*(\text{Against}) + T(*, \text{Balanced}, \text{For}) \cdot V^*(\text{For})$
$\times 0 + 0.05 \times (-v) + 0.05 \times v = 0$
动作Offensive：
$L(\text{Offensive}) = 0.25 \times 0 + 0.5 \times (-v) + 0.25 \times v = -0.25v$
动作Defensive：
$L(\text{Defensive}) = 0.97 \times 0 + 0.02 \times (-v) + 0.01 \times v = -0.01v$

（3）对比( Q(s,a) )的大小

无论 $\in [0,1)$ 取何值，始终有：
$L(\text{Balanced}) = 0 > L(\text{Defensive}) = -0.01v > L(\text{Offensive}) = -0.25v$

结合 $\gamma \cdot L(a)$ ，在所有状态下：

None状态（( r=0 )）：
$Q(\text{For}, \text{Balanced}) = 1 + \gamma \times 0 = 1$ ，大于另外两个动作的( Q )值（均为负数）。
Against状态（( r=-1 )）：
$Q(\text{For}, \text{Offensive}) = 1 + \gamma \times (-0.25v) = 1 - 0.25\gamma v$ ，大于另外两个动作的( Q )值（更负）。
For状态（( r=1 )）：
$Q(\text{For}, \text{Defensive}) = 1 + \gamma \times (-0.01v) = 1 - 0.01\gamma v$ ，大于另外两个动作的( Q )值（更小的正数）。

（4）结论

题目特定MDP中，折扣因子gamma不会改变最优策略，最优策略始终是“所有状态选择Balanced动作”。

场景	折扣因子是否改变最优策略	核心原因
题目特定MDP	否	三种动作的长期奖励期望( L(a) )固定，Balanced的( L(a) )始终最大，与gamma无关
一般MDP	可能	gamma改变短期/长期奖励权重，当动作存在“短期-长期奖励权衡”时，最优策略变化

查看全文

http://www.dtcms.com/a/562189.html