当前位置：首页 > news >正文

第7章 n步时序差分(3) n 步离轨策略学习

news 2025/10/13 12:40:24

n 步离轨策略学习

离轨策略学习（Off-policy learning）是指在学习目标策略 $π\pi$ 的同时，智能体实际遵循另一个行为策略 $b$ 。通常， $π\pi$ 是基于当前动作价值函数的贪心策略（或 $ε\varepsilon$ -贪心策略）； $b$ 是更具试探性的策略（如 $ε\varepsilon$ -贪心），需满足对所有状态-动作对有 $b (a ∣ s) > 0$ ，以保证覆盖性。为利用策略 $b$ 产生的数据来学习 $π\pi$ ，需通过重要度采样（importance sampling）校正两种策略在动作选择上的概率差异。

在 n 步时序差分方法中，回报基于连续 $n$ 步构建，因此需考虑这 $n$ 个动作在 $π\pi$ 与 $b$ 下的相对概率。

对于时间区间 $[t, h]$ ，重要度采样率为：
$\rho_{t:h} \doteq \prod_{k=t}^{\min(h,\,T-1)} \frac{\pi(A_k|S_k)}{b(A_k|S_k)} \tag{7.10}$

若 $π(Ak∣Sk)=0\pi(A_k|S_k) = 0$ （即目标策略永不选该动作），则对应回报权重为 0，完全忽略。若 $π\pi$ 选择某动作的概率远高于 $b$ ，则该回报权重增大，以补偿其在数据中出现频率低的问题。当 $π=b\pi = b$ 时， $ρt:h=1\rho_{t:h} = 1$ ，此时离轨策略方法退化为同轨策略（on-policy）方法。

定义

离轨 n 步时序差分

对 $\leq t < T$ ，在 $t + n$ 时刻更新 $V(S_t)$ ：
$V_{t+n}(S_t) \doteq V_{t+n-1}(S_t) + \alpha \rho_{t:t+n-1} \left[ G_{t:t+n} - V_{t+n-1}(S_t) \right] \tag{7.9}$
其中：

$T−1)π(Ak∣Sk)b(Ak∣Sk)\rho_{t:t+n-1} = \prod_{k=t}^{\min(t+n-1,\,T-1)} \frac{\pi(A_k|S_k)}{b(A_k|S_k)}$
$G_{t:t+n}$ 为 n 步回报

离轨n 步 Sarsa

对 $\leq t < T$ ，更新 $Q(S_t, A_t)$ ：
$Q_{t+n}(S_t, A_t) \doteq Q_{t+n-1}(S_t, A_t) + \alpha \rho_{t+1:t+n} \left[ G_{t:t+n} - Q_{t+n-1}(S_t, A_t) \right] \tag{7.11}$

重要度采样率从 $t + 1$ 开始到 $t + n$ ，即 $ρt+1:t+n\rho_{t+1:t+n}$
不包含当前动作 $A_t$ ，因为更新的是已确定的 $S_t, A_t)$ ，关注的是后续动作的策略差异

离轨n 步期望 Sarsa（动作价值）

与 n 步 Sarsa 类似，但是使用期望 Sarsa 的 n 步回报，重要度采样率为 $ρt+1:t+n−1\rho_{t+1:t+n-1}$ 少了一项，因为期望 Sarsa 在最后一个状态考虑所有可能动作的期望，不依赖实际采取的动作，故无需对第 $t + n$ 步动作进行重要度采样修正

实现

输入：行为策略 $b$ 满足 $b (a ∣ s) > 0$ 对所有 $\in \mathcal{S}, a \in \mathcal{A}(s)$
参数：步长 $α∈(0,1]\alpha \in (0,1]$ ，探索率 $ε>0\varepsilon > 0$ ，正整数 $n$
初始化：对所有 $\in \mathcal{S}, a \in \mathcal{A}(s)$ ，任意初始化 $Q (s, a)$ ；策略 $π\pi$ 为基于当前 $Q$ 的 $ε\varepsilon$ -贪心策略

对每幕执行：

初始化并存储初始状态 $S_0$ （非终止状态）
根据 $b(⋅∣S0)b(\cdot \mid S_0)$ 选择并存储动作 $A_0$
设 $\leftarrow \infty$
对 $\ldots$ 执行：
- 若 $t < T$ ：
  - 执行动作 $A_t$
  - 观察并存储奖励 $R_{t+1}$ 和下一状态 $S_{t+1}$
  - 若 $S_{t+1}$ 为终止状态，则 $\leftarrow t + 1$
  - 否则，根据 $b(⋅∣St+1)b(\cdot \mid S_{t+1})$ 选择并存储动作 $A_{t+1}$
- 计算 $τ←t−n+1\tau \leftarrow t - n + 1$
- 若 $τ≥0\tau \geq 0$ ：
  - 计算重要度采样率：
    $\rho \leftarrow \prod_{i=\tau+1}^{\min(\tau+n,\,T-1)} \frac{\pi(A_i \mid S_i)}{b(A_i \mid S_i)}$
  - 计算部分回报：
    $\leftarrow \sum_{i=\tau+1}^{\min(\tau+n,\,T)} \gamma^{i-\tau-1} R_i$
  - 若 $τ+n<T\tau + n < T$ ，追加自举项：
    $\leftarrow G + \gamma^n Q(S_{\tau+n}, A_{\tau+n})$
  - 更新动作价值函数：
    $Q(S_\tau, A_\tau) \leftarrow Q(S_\tau, A_\tau) + \alpha \rho \big[ G - Q(S_\tau, A_\tau) \big]$
  - 若正在学习策略 $π\pi$ ，则确保 $π(⋅∣Sτ)\pi(\cdot \mid S_\tau)$ 是基于当前 $Q$ 的 $ε\varepsilon$ -贪心策略
- 若 $τ=T−1\tau = T - 1$ ，则结束本幕

上述算法为离轨策略版本，因此动作由行为策略 $b$ 选择，而目标策略 $π\pi$ 用于重要度采样和（可选）策略改进。若 $π=b\pi = b$ ，则 $ρ=1\rho = 1$ ，退化为同轨策略 n 步 Sarsa。

[!NOTE]

实验

n = 2（两步 Sarsa）
折扣因子 $γ=1\gamma = 1$
步长 $α=0.5\alpha = 0.5$
状态空间： $S={A,B,C,D,E}\mathcal{S} = \{A, B, C, D, E\}$ ，其中 $E$ 是终止状态
动作空间：每个非终止状态有 $A(s)={a,b}\mathcal{A}(s) = \{a, b\}$
初始动作价值函数：对所有 $\in \{A,B,C,D\}, a \in \{a,b\}$ ，设 $Q (s, a) = 0$
目标策略 $π\pi$ ：纯贪心（即 $π(a∣s)=1\pi(a|s) = 1$ 若 $Q (s, a) > Q (s, b)$ ，若相等则任选其一；为确定性，我们约定：当 $Q (s, a) = Q (s, b)$ 时， $π\pi$ 选择动作 $a$ ）
行为策略 $b$ ： $ε=0.5\varepsilon = 0.5$ 的 $ε\varepsilon$ -贪心策略，即：
以概率 $0.5$ 选择当前贪心动作（初始时为 $a$ ），
以概率 $0.5$ 随机均匀选择动作（即 $P (a) = P (b) = 0.5$ ），
因此，初始时： $\times 0.5 = 0.75$ ， $b (b ∣ s) = 0.25$ （因为贪心动作是 $a$ ）

由于初始 $Q = 0$ ，贪心动作统一设为 $a$ ，故 $π(a∣s)=1\pi(a|s)=1$ , $π(b∣s)=0\pi(b|s)=0$ 。

一幕轨迹（由行为策略 $b$ 生成）：
$\begin{aligned} &S_0 = A,\quad A_0 = a,\quad R_1 = 1,\quad S_1 = B, \\ &A_1 = b,\quad R_2 = 2,\quad S_2 = C, \\ &A_2 = a,\quad R_3 = 3,\quad S_3 = D, \\ &A_3 = a,\quad R_4 = 4,\quad S_4 = E \ (\text{终止}) \end{aligned}$

在状态 $B$ ，智能体执行了非贪心动作 $b$ 。由于目标策略 $π\pi$ 是纯贪心且初始 $Q = 0$ ，有 $π(b∣B)=0\pi(b|B) = 0$ ，因此在更新涉及 $A_1 = b$ 时，重要度采样比将为 0。

终止时刻： $T = 4$

t = 0

$t < T$ （ $\infty$ 初始）
执行 $A_0 = a$ ，观察 $R_1 = 1$ , $S_1 = B$
$S1≠ES_1 \neq E$ → $\infty$
根据 $b(⋅∣B)b(\cdot|B)$ 选择 $A_1 = b$ （已给出）

$τ=0−2+1=−1<0\tau = 0 - 2 + 1 = -1 < 0$ → 不更新

当前 Q：全为 0

t = 1

$t < T$
执行 $A_1 = b$ ，观察 $R_2 = 2$ , $S_2 = C$
非终止 → $\infty$
选择 $A_2 = a$

$τ=1−2+1=0≥0\tau = 1 - 2 + 1 = 0 \geq 0$ → 更新 $S_0, A_0) = (A, a)$

计算重要度采样比：

$ρ=∏i=τ+1min⁡(τ+n−1,T−1)π(Ai∣Si)b(Ai∣Si)=π(A1∣S1)b(A1∣S1)=π(b∣B)b(b∣B)=00.25=0\rho = \prod_{i=\tau+1}^{\min(\tau+n-1, T-1)} \frac{\pi(A_i|S_i)}{b(A_i|S_i)} = \frac{\pi(A_1|S_1)}{b(A_1|S_1)} = \frac{\pi(b|B)}{b(b|B)} = \frac{0}{0.25} = 0$

计算回报 $G$ ：

$min⁡(τ+n,T)=min⁡(2,∞)=2\min(\tau+n, T) = \min(2, \infty) = 2$
$R_1 + \gamma R_2 = 1 + 2 = 3$
$τ+n=2<T\tau + n = 2 < T$ → 加自举项： $\gamma^2 Q(S_2, A_2) = + Q(C, a) = 0$
所以 $G = 3$

更新：
$\leftarrow 0 + 0.5 \cdot \rho \cdot (G - Q) = 0 + 0.5 \cdot 0 \cdot (3 - 0) = 0$

尽管获得了回报 3，但由于后续动作 $b$ 在目标策略下永远不会被选择，该经验被完全忽略（ $ρ=0\rho = 0$ ）。

当前 Q：全为 0

t = 2

$t < T$
执行 $A_2 = a$ ，观察 $R_3 = 3$ , $S_3 = D$
非终止 → $\infty$
选择 $A_3 = a$

$τ=2−2+1=1≥0\tau = 2 - 2 + 1 = 1 \geq 0$ → 更新 $S_1, A_1) = (B, b)$

计算 $ρ\rho$ ：

范围： $\tau+1 = 2$ 到 $min⁡(1+2,∞)=3\min(1+2, \infty) = 3$ ，但 $\infty$ ，所以到 $i = 2$ （因为 $A_2$ 是第 2 步动作）
实际： $ρ=π(A2∣S2)b(A2∣S2)=π(a∣C)b(a∣C)=10.75=43\rho = \frac{\pi(A_2|S_2)}{b(A_2|S_2)} = \frac{\pi(a|C)}{b(a|C)} = \frac{1}{0.75} = \frac{4}{3}$

因为 $A_2 = a$ 是贪心动作， $π(a∣C)=1\pi(a|C)=1$ ， $b (a ∣ C) = 0.75$

计算 $G$ ：

$R_2 + \gamma R_3 = 2 + 3 = 5$
$τ+n=3<T\tau + n = 3 < T$ → 加自举项： $Q(S_3, A_3) = Q(D, a) = 0$
$G = 5$

更新 $Q (B, b)$ ：
$\leftarrow 0 + 0.5 \cdot \frac{4}{3} \cdot (5 - 0) = 0.5 \cdot \frac{4}{3} \cdot 5 = \frac{10}{3} \approx 3.333$

$(B, b)$ 不是目标策略选择的动作，但由于它导致了后续符合 $π\pi$ 的动作（ $A_2 = a$ ），所以该经验被加权使用。

当前 Q：

$\approx 3.333$
其余仍为 0

t = 3

执行 $A_3 = a$ ，观察 $R_4 = 4$ , $S_4 = E$
$S_4$ 是终止状态 → 设 $T = 4$
不再选择 $A_4$
$τ=3−2+1=2≥0\tau = 3 - 2 + 1 = 2 \geq 0$ → 更新 $S_2, A_2) = (C, a)$

计算 $ρ\rho$ ：

范围： $\tau+1 = 3$ 到 $min⁡(2+2,T−1)=min⁡(4,3)=3\min(2+2, T-1) = \min(4, 3) = 3$
$ρ=π(A3∣S3)b(A3∣S3)=π(a∣D)b(a∣D)=10.75=43\rho = \frac{\pi(A_3|S_3)}{b(A_3|S_3)} = \frac{\pi(a|D)}{b(a|D)} = \frac{1}{0.75} = \frac{4}{3}$

计算 $G$ ：

$min⁡(τ+n,T)=min⁡(4,4)=4\min(\tau+n, T) = \min(4, 4) = 4$
$R_3 + \gamma R_4 = 3 + 4 = 7$
$τ+n=4=T\tau + n = 4 = T$ → 不加自举项

更新 $Q (C, a)$ ：
$\leftarrow 0 + 0.5 \cdot \frac{4}{3} \cdot (7 - 0) = 0.5 \cdot \frac{4}{3} \cdot 7 = \frac{14}{3} \approx 4.667$

当前 Q：

$\approx 3.333$
$\approx 4.667$
其余为 0

t = 4

$\not< T$ → 不执行动作
$τ=4−2+1=3≥0\tau = 4 - 2 + 1 = 3 \geq 0$ → 更新 $S_3, A_3) = (D, a)$

计算 $ρ\rho$ ：

范围： $i = 4$ 到 $min⁡(3+2,T−1)=min⁡(5,3)=3\min(3+2, T-1) = \min(5, 3) = 3$ → 空乘积
空乘积定义为 1 → $ρ=1\rho = 1$

因为 $τ+n=5>T=4\tau + n = 5 > T = 4$ ，所以没有后续动作需要校正， $ρ=1\rho = 1$

计算 $G$ ：

$min⁡(3+2,4)=4\min(3+2, 4) = 4$
$G = R_4 = 4$
$τ+n=5>T\tau + n = 5 > T$ → 不加自举项

更新 $Q (D, a)$ ：
$\leftarrow 0 + 0.5 \cdot 1 \cdot (4 - 0) = 2.0$

当前 Q：

$\approx 3.333$
$\approx 4.667$
$Q (D, a) = 2.0$
剩余为0

t = 5

$τ=5−2+1=4\tau = 5 - 2 + 1 = 4$
$T - 1 = 3$ ， $τ=4>3\tau = 4 > 3$ → 结束
状态-动作初始 Q 更新后 Q 说明
(A, a) 0 0 因后续动作 $b$ 被 $π\pi$ 拒绝， $ρ=0\rho=0$
(B, a) 0 0 未被访问，未更新
(B, b) 0 $\approx 3.333$ 虽非贪心，但后续动作符合 $π\pi$ ， $ρ=4/3\rho = 4/3$
(C, a) 0 $\approx 4.667$ 后续动作符合 $π\pi$ ， $ρ=4/3\rho = 4/3$
(C, b) 0 0 未被访问
(D, a) 0 2.0 最后一步， $ρ=1\rho = 1$
(D, b) 0 0 未被访问
(E, ·) — 0 终止状态

状态-动作	初始 Q	更新后 Q	说明
(A, a)	0	0	因后续动作 $b$ 被 $π\pi$ 拒绝， $ρ=0\rho=0$
(B, a)	0	0	未被访问，未更新
(B, b)	0	$\approx 3.333$	虽非贪心，但后续动作符合 $π\pi$ ， $ρ=4/3\rho = 4/3$
(C, a)	0	$\approx 4.667$	后续动作符合 $π\pi$ ， $ρ=4/3\rho = 4/3$
(C, b)	0	0	未被访问
(D, a)	0	2.0	最后一步， $ρ=1\rho = 1$
(D, b)	0	0	未被访问
(E, ·)	—	0	终止状态