当前位置：首页 > wzjs >正文

phpcms v9 网站名称标签快速整站排名seo教程

wzjs 2025/7/28 5:16:00

phpcms v9 网站名称标签,快速整站排名seo教程,广东省政务服务网,wordpress ftp设置方法目录 AC的数据低效性： 根本原因：策略更新导致数据失效应用场景： 1. 离策略值函数估计 2. 离策略策略优化 3. 经验回放（Experience Replay） 4. 策略梯度方法具体场景分析场景1：连续策略更新场…

AC的数据低效性：

根本原因：策略更新导致数据失效

应用场景：

1. 离策略值函数估计

2. 离策略策略优化

3. 经验回放（Experience Replay）

4. 策略梯度方法

具体场景分析

场景1：连续策略更新

场景2：高维动作空间

为什么AC不能直接复用数据？

改进方案：向off-policy演化

原理：

重要性采样的核心价值

在强化学习中，重要性采样（Importance Sampling） 主要用于解决离策略（Off-policy）学习中的分布偏移问题。其核心应用场景是通过行为策略（Behavior Policy） 收集的样本，来估计目标策略（Target Policy） 的期望值。

AC的数据低效性：

Actor-Critic（AC）算法作为典型的 on-policy 方法，其数据利用率低的核心原因在于策略更新与数据收集的强耦合性。以下是具体分析：

根本原因：策略更新导致数据失效

策略更新即数据淘汰
- 每次策略 $\pi_{\theta}$ 更新后（参数 $\theta$ 改变），新策略的动作分布 $\pi_{\theta_{\text{new}}}$ 与旧策略 $\pi_{\theta_{\text{old}}}$ 不同。
- 旧策略收集的数据 $(s, a, r, s')$ 服从旧分布 $\pi_{\theta_{\text{old}}}(a|s)$ ，而更新后需要的是新分布 $\pi_{\theta_{\text{new}}}(a|s)$ 下的数据。
- 结果：旧数据立即失效，必须重新采样。
数学本质
策略梯度更新依赖当前策略的期望：

若用旧策略 $\pi_{\theta_{\text{old}}}$ 的数据估计期望，需引入重要性权重：

但原生AC算法，是一个on-policy算法，直接丢弃旧数据，不进行修正。

$\bigtriangledown_{\theta} J(\theta_t)=\Xi _{S \sim \eta ,A\sim \pi}[*]$

也就是： target policy == behaivor policy，那么当每次target policy发生变化时，都需要进行重新采样，如何转化为off-policy？从而提高数据利用率：可以通过imortance sampling来实现

应用场景：

1. 离策略值函数估计

问题：目标策略 $\pi$ 的期望回报 $\mathbb{E}_{\pi}[G_t]$ 无法直接采样（如目标策略是确定性策略，而采样策略是探索性策略）。
解决方案：
使用行为策略 $b$ 生成的轨迹样本，通过重要性权重修正分布偏差：

其中 $\rho_t$ 是从时刻 $t$ 到终止时刻 $T$ 的累积重要性权重。

2. 离策略策略优化

算法示例：
- Off-policy Actor-Critic（如ACER）
- Q-Learning的方差缩减（使用加权重要性采样）
原理：
通过重要性权重重用旧策略的样本更新新策略，减少环境交互次数，提升样本效率。

3. 经验回放（Experience Replay）

场景：
在DQN等算法中，回放池中的经验由历史策略生成，与当前策略分布不一致。
解决方案：
对每个样本 $(s,a,r,s')$ 计算重要性权重 $\frac{\pi(a|s)}{b(a|s)}$ ，修正Q值更新：

4. 策略梯度方法

问题：
策略梯度 $\nabla_\theta J(\theta) = \mathbb{E}{\pi\theta}[\nabla_\theta \log \pi_\theta(a|s) Q^{\pi}(s,a)]$ 依赖当前策略样本。
重要性采样作用：
重用旧策略 $\pi_{\theta_{\text{old}}}$ 的样本计算梯度：

应用在PPO、TRPO等算法中。

具体场景分析

场景1：连续策略更新

AC流程：
收集数据 → 更新Critic → 更新Actor → 丢弃数据 → 重新收集数据
效率瓶颈：
90%的时间花在数据收集上，仅10%用于计算更新。
例：训练一个Atari游戏，AC需2000万帧数据，而off-policy的DQN仅需1000万帧。

场景2：高维动作空间

问题：
高维空间（如机器人控制）需大量样本覆盖动作分布，但AC每次更新后旧样本作废。
后果：
智能体陷入局部最优，需额外探索新区域，进一步降低效率。

为什么AC不能直接复用数据？

理论限制：
策略梯度定理要求期望基于当前策略分布（$\mathbb{E}{a \sim \pi{\theta}}$）。
实践风险：
若强行复用旧数据，梯度估计偏差随策略差异增大而爆炸（见下图）。

| 策略差异 (KL散度) | 梯度偏差 | 效果               |
|-------------------|----------|--------------------|
| 小 (<0.01)        | 低       | 可用               |
| 中 (0.01~0.1)     | 中       | Q值估计失真        |
| 大 (>0.1)         | 高       | 训练崩溃           |

改进方案：向off-policy演化

为提升数据利用率，现代AC算法引入重要性采样或混合策略：

算法	核心改进	数据利用率
PPO	重要性采样 + 权重裁剪 (Clip)	中 (复用少量旧数据)
SAC	最大熵框架 + 经验回放	高 (完全off-policy)
TD3	双Q网络 + 延迟更新 + 经验回放	高 (完全off-policy)
A3C	异步并行采样 (数据并行)	低 (但加速采样过程)

注：PPO虽复用数据，但其重要性权重 $\frac{\pi_{\text{new}}}{\pi_{\text{old}}}$ 的方差限制了复用次数（通常仅3-10次）。

原理：

根据 $p_0$ 分布来生成样本 $x_i$ ：

期望： $\mathbf{E}[x_i] = \mathbf{E}[X]$ , $var [x_i] = var[X]$

当 $n \rightarrow \infty$ , 平均值可以近似期望： $\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i \rightarrow \mathbf{E}[X]$

$\mathbf{E}[\bar{x}] = \mathbf{E}[X],var[\bar{x}]=\frac{1}{n}var[X]$

如果样本分布发生变化，变为分布 $p_1$

$p_1(X=+1)=0.8, p_1(X=-1)=0.2.$

那么期望就变为：

$\mathbf{E}_{X \sim p_1}[X] = (+1).0.8 + (-1).0.2 = 0.6$

$\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i \rightarrow \mathbf{E}_{X \sim p_1}[X]=0.6 \neq \mathbf{E}_{X \sim p_0}[X]$

问题：

在迭代过程中，策略的分布发生变化(p1 -> p0)，如何还能够利用之前生成的数据(p1)来进行继续学习呢? 如果能够基于behavior policy $\beta$ 产生的样本来估计 $\mathbf{E}_{A \sim \pi}[*]$ （其中 $\pi$ 是目标policy）。

也就是基于 ${x_i} \sim p1$ 来估计 $\mathbf{E}_{X \sim p_0}[X]$

我们就可以使用重要性采样，对 $p_1$ 分布数据进行采样：

$\mathbf{E}_{X \sim p_0}[X] = \sum_{x}^{}p_0(x)x = \sum_{x}^{}p_1(x)\frac{p_0(x)}{p_1(x)}x = \mathbf{E}_{X \sim p_1}[f(X)]$

这样我们可以通过 $\mathbf{E}_{X \sim p_1}[f(X)]$ 来估计 $\mathbf{E}_{X \sim p_0}[f(X)]$

如何估计 $\mathbf{E}_{X \sim p_1}[f(X)]$ ？

定义： $\bar{f} = \frac{1}{n}\sum_{i=1}^{n}f(x_i ) \ where \ x_i \sim p_1$

then:

$\mathbf{E}_{X \sim p_1}[\bar{f}] = \mathbf{E}_{X \sim p_1}[f(X)]$

$var_{X \sim p_1}[\bar{f}] = \frac{1}{n}var_{X \sim p_1}[f(X)]$

所以通过 $\bar{f}$ 可以成功近似p_0分布：

$\bar{f} = \frac{1}{n}\sum_{i=1}^{n}f(x_i ) =\frac{1}{n}\sum_{i=1}^{n}\frac{p_0(x_i)}{p_1(x_i)}x_i$

其中 $\frac{p_0(x_i)}{p_1(x_i)}$ 就是重要性权重。

- 如果两者相等，那么重要性权重就是1， $\bar{f} = \bar{x}$

- 如果 $p_0(x_i) \geq p_1(x_i)$ ,那么就代表 $x_i$ 更容易被 $p_0$ 采样到，而不是 $p_1$ ，所以要加大权重，这样的话就可以加强样本的重要性。

为什么 $p_0(x)$ 已知，为什么不直接期望？

这样的话，通过重要性采样，对 $p_1$ 分布的数据进行采样，就可以近似 $p_0(x)$ 分布：

具体算法：

beta对应于p1

应用到梯度上升算法中：

相比AC失去探索性，由于分母beta不可变：

重要性采样的核心价值

场景	作用
离策略评估	用行为策略样本估计目标策略的值函数
策略优化	重用历史样本更新策略，提升样本效率
经验回放	修正回放池样本的分布偏移
方差缩减	结合加权重要性采样稳定训练