当前位置：首页 > news >正文

强化学习_Paper_2000_Eligibility Traces for Off-Policy Policy Evaluation

news 2025/10/18 13:11:56

paper Link: Eligibility Traces for Off-Policy Policy Evaluation

1. 问题设定

汇总算法

符号	含义
$\rho_t = \pi(a_t\| s_t)/\mu(a_t \| s_t)$	重要性采样比
$\delta^{IS}_t = r_{t+1} + \gamma V(s_{t+1}) - V(s_t)$	IS-TD 误差
$\delta^{PD}_t = r_{t+1} + \gamma \rho_{t+1} V(s_{t+1}) - V(s_t)$	PD-TD 误差
$\delta^{TB}_t = r_{t+1} + \gamma \sum_a \pi(s_{t+1}, a) V(s_{t+1}) - V(s_t)$	TB-TD 误差
$e_t \in \mathbb{R}^d$	eligibility trace 向量
$\in [0,1]$	迹衰减系数

算法	需要 μ 概率	迹权重	更新乘子	无偏条件	方差趋势	内存
IS-λ	✅	$\rho_t$	$\rho_t \delta^{IS}_te_t$	λ=1	爆炸	O(d)
WIS-λ	✅	$\rho_t$	$(\rho_t \delta^{IS}_t e_t)/M_t$	渐近	↓	O(d+1)
PD-λ	✅	$\rho_t$	$\delta^{PD}_t e_t$	λ=1	中	O(d)
TB-λ	❌	$\pi_t$	$\delta^{TB}_t e_t$	λ=1	低	O(d)

核心思想：把整条轨迹的回报用重要性采样比 $\rho$ 加权，再用迹向量在线累积。

迹定义
- $e_t = \gamma \lambda \rho_t e_{t-1}$
TD error 【无 $\rho$ 】:
- $\delta t = r{t+1} + \gamma Q_t(s_{t+1}, a_{t+1}) - Q_t(s_t, a_t) == r_{t+1} + \gamma V_t(s_{t+1}) - V_t(s_t) $
更新action-value function 【有 $\rho$ 】：
- $Q_{t+1} = Q_t + \alpha \rho_t \delta_t e_t$
性质
✅ 无偏（ $\pi$ 下期望与 MC 一致）
❌ 方差随轨迹长度指数增长（ $\prod \rho_{0:t} \rightarrow \infin$ ）

用累积比重的倒数做归一化因子，降低方差

在线实现需维护加权迹
- $M_t = \gamma \lambda \rho_t M_{t-1} + 1$
更新action-value function 【有 $\rho$ 】：
- $Q_{t+1} = Q_t + \alpha \rho_t \delta_t e_t / M_t$
性质
✅ 方差 ↓，仍渐近无偏
❗ 需要存储额外标量 $M_t$ ，且对非线性逼近收敛保证弱

动机: IS 把整条轨迹一起加权，方差大。
核心: Per-decision只把当前步 $ρ$ 放进回报，而非整条轨迹；等价于一步 IS + 多步 TD。

迹定义与 IS 相同：（负责纠正历史特征的权重）
- $e_t = \gamma \lambda \rho_t e_{t-1}, \forall s, a$
TD error: 单步重要性采样【有 $\rho$ 】：（负责纠正奖励/价值）
- $\delta _t = r_{t+1} + \gamma \rho_{t+1} Q_t(s_{t+1}, a_{t+1}) - Q_t(s_t, a_t)$
更新action-value function 【无 $\rho$ 】：
- $Q_{t+1} = Q_t + \alpha \delta_t e_t$
性质
- $λ = 1$ 时无偏； $λ < 1$ 引入 λ-加权偏差
- 方差比 IS-λ 小一个轨迹长度因子
- 线性逼近下收缩算子，收敛到 λ-加权 Bellman 误差最小值
  - 与 $I S - λ$ 相比，方差 ↓×轨迹长度，偏差 ↑×(1-λ)。

「裁剪 IS」= 实现简单 + 可微 + 生态成熟，而 PD-IS 的降方差优势在现代大 batch + clip + GPU 场景下聊胜于无，于是被生态淘汰。

工程与算法生态发生了三点根本变化：

方差问题靠「裁剪/正则」解决，而非「改公式」
1. IS 的 ρ² 爆炸方差确实恐怖，但 PPO、TRPO、IMPALA 等直接用 clip(ρ, 1±ε) 或 bias-corrected ρ̂ 把权重硬压到有限区间
2. 方差被人工截断控制，同时保持可微、易实现
现代流水线需要可微、端到端
1. IS 形式 $\rho = \frac{\pi_\theta}{\mu_{\theta_{old}}}$ 是 θ 的显式函数，可以自动微分穿过整个轨迹
2. PD-IS 把 ρ 拆进 $\delta$ 内部，导致 $\delta$ 也含 $\theta$ ，反向传播时要再求一次 $\delta$ 对 $\theta$ 的导数，实现复杂且 Hessian 不稳
3. 在大 batch + GPU 场景，「整条轨迹一次乘 ρ」比「每步拆 δ」更快更内存友好
算法生态「以 IS 为原子」已成型
1. Retrace、V-trace、IMPALA、ACER、SAC(off-policy) 都把 clip-ρ 作为基础乐高块
2. 这些高级变体在 IS 框架内就能达到 Bias-Variance 最优，PD-IS 的额外降方差边际收益低
3. 社区工具链（RLlib、Tianshou、Acme）默认提供 clip-ρ 算子，IS 即插即用；PD-IS 需要重写轨迹反向逻辑，无人愿意维护

核心思想：不需要权重 $\mu$ 的概率！用目标策略 $\pi$ 的概率直接对回报做加权树回溯，天生 off-policy。

迹定义
- $e_t = \gamma \lambda \pi_t e_{t-1}$
- 定义 $\pi$ -权重 $\pi_t = \pi(a_t|s_t)$
TD error: 单步重要性采样：（负责纠正奖励/价值）
- $\delta _t = r_{t+1} + \gamma\sum_a \pi(s_{t+1}, a) Q_t(s_{t+1}, a_{t+1}) - Q_t(s_t, a_t)$
更新action-value function：
- $Q_{t+1} = Q_t + \alpha \delta_t e_t$

在这里插入图片描述

一句话总结

Tree-Backup 提出 “用 $\pi$ 概率加权回溯” 来摆脱 μ；AlphaZero 的 MCTS Backup 正是这一思想在完美信息博弈+深度网络上的工程化实现，两者共享 $\pi$ -加权、无 $μ$ 、低方差的同一血统。