当前位置：首页 > news >正文

Asynchronous Advantage Actor-Critic（A3C）

news 2025/10/25 17:20:33

深度神经网络提供了丰富的表示，可以使强化学习（RL）算法有效地执行。然而，之前认为简单的在线RL算法与深度神经网络的结合是本质上不稳定的。相反，已经提出了多种解决方案来稳定该算法（Riedmiller, 2005; Mnih et al., 2013; 2015; Van Hasselt et al., 2015; Schulman et al., 2015a）。这些方法共享一个共同的观点：在线RL agent所遇到的观察数据序列是非平稳的，而在线RL更新是强相关的。通过将agent的数据存储在经验回放内存中，可以对数据进行批处理（Riedmiller, 2005; Schulman et al., 2015a）或从不同时间步随机采样（Mnih et al., 2013; 2015; Van Hasselt et al., 2015）。以这种方式对内存进行聚合减少了非平稳性，并解耦了更新，但同时也将方法限制为离线强化学习算法。
深度强化学习算法基于经验回放，在像Atari 2600这样的挑战性领域取得了前所未有的成功。然而，经验回放存在一些缺点：它需要更多的内存和计算资源，并且对真实交互的计算要求较高；此外，它需要能够从旧政策生成的数据中进行更新的离线学习算法。
在本文中，我们提出了一种非常不同的深度强化学习范式。我们异步地执行多个agent并行工作，运行在多个环境实例中。这种并行性还使得agent的训练数据更加平稳，因为在每个时间步，多个agent将经历不同的状态。这一简单的思想使得一个更广泛的基本在线RL算法（如Sarsa、n步方法和演员-批评方法）能够与离线RL算法（如Q学习）结合使用，从而能在使用深度神经网络时高效而稳健地应用。

强化学习背景

我们考虑标准的强化学习设置，其中agent与环境 $E$ 进行交互，时间是离散的。在每个时间步 $t$ 时，agent接收状态 $s_t$ 并根据其策略 $\pi$ 从可能的动作集 $A$ 中选择一个动作 $a_t$ ，其中 $\pi$ 是从状态 $s_t$ 到动作 $a_t$ 的映射。作为回报，agent会接收到下一个状态 $s_{t+1}$ 并获得一个标量奖励 $r_t$ 。该过程会继续，直到agent到达一个终止状态，然后过程重新开始。返回值 $R_t$ 是从时间步 $t$ 开始的总累积回报，折扣因子为 $\gamma \in (0,1)$ ，agent的目标是最大化每个状态 $s_t$ 的期望回报。

动作值 $Q^\pi(s,a) = \mathbb{E}[R_t | s_t = s, a_t = a]$ 是在状态 $s$ 选择动作 $a$ 并遵循策略 $\pi$ 时的期望回报。最优价值函数 $Q^*(s,a) = \max_{\pi} Q^\pi(s,a)$ 给出了状态 $s$ 和动作 $a$ 在任何策略下能够达到的最大值。类似地，状态 $s$ 下的价值函数定义为 $V^\pi(s) = \mathbb{E}[R_t | s_t = s]$ ，即遵循策略 $\pi$ 从状态 $s$ 开始的期望回报。

在基于值的模型自由强化学习方法中，动作值函数使用函数逼近器表示，如神经网络。设 $\theta)$ 为带有参数 $\theta$ 的近似动作值函数。参数 $\theta$ 的更新可以通过多种强化学习算法推导出来。例如，Q-learning 算法直接逼近最优动作值函数： $Q^*(s,a) \approx Q(s,a;\theta)$ 。在一步 Q-learning 中，动作值函数 $Q(s,a;\theta)$ 的参数 $\theta$ 通过迭代计算一系列损失函数进行学习，损失函数为：

$L_i(\theta_i) = \mathbb{E}[(r + \gamma \max_{a'} Q(s', a'; \theta_i) - Q(s, a; \theta_i))^2]$

其中 $s^{'}$ 是状态 $s$ 后的下一个状态。

我们将上述方法称为一步 Q-learning，因为它将动作值 $Q (s, a)$ 更新为一步回报 $\gamma \max_{a'} Q(s', a'; \theta)$ 。使用一步方法的一个缺点是，获得奖励 $r$ 仅直接影响导致奖励的状态动作对 $s, a$ 的值。其他状态动作对的值仅通过更新后的值 $Q (s, a)$ 间接受到影响。这可能使得学习过程变得缓慢，因为需要许多更新才能将奖励传播到相关的前置状态和动作。

加速传播奖励的一种方法是使用 $n$ 步回报 (Watkins, 1989; Peng & Williams, 1996)。在一步 Q-learning 中， $Q (s, a)$ 被更新为一步回报 $r_t + \gamma r_{t+1} + \cdots + \gamma^{n-1}r_{t+n-1} + \max_{a'} \gamma^n Q(s_{t+n},a')$ 。这使得一个奖励 $r$ 直接影响前面 $n$ 个状态动作对的值。这样传播回报到相关的状态动作对可能更加高效。

与基于值的方法不同，基于策略的无模型方法直接参数化策略 $\pi(a|s; \theta)$ 并通过执行通常是近似的梯度估计来更新参数 $\theta$ ，以优化期望回报 $\mathbb{E}[R_t]$ 。一种这样的算法是 REINFORCE 算法（Williams, 1992）。标准 REINFORCE 更新策略参数 $\theta$ 的方向是 $\nabla_\theta \log \pi(a_t|s_t; \theta) R_t$ ，这是 $\nabla_\theta \mathbb{E}[R_t]$ 的无偏估计。可以通过减去一个学习的状态函数 $b_t(s_t)$ 来减少这个估计的方差，例如 Williams (1992) 中所述。结果的梯度是 $\nabla_\theta \log \pi(a_t|s_t; \theta) (R_t - b_t(s_t))$ 。

学习的价值函数的估计通常作为基准函数 $b_t(s_t)$ ，即 $\hat{V}(s_t)$ ，从而降低策略梯度的方差。当近似价值函数作为基准时，数量 $R_t$ 用于缩放策略梯度可以看作是状态 $s_t$ 中动作 $a_t$ 的优势估计，即 $A(s_t, a_t) = Q(a_t, s_t) - V(s_t)$ ，因为 $Q^*(a_t, s_t)$ 是一个估计值，而 $b_t$ 是 $V^\pi(s_t)$ 的估计。这种方法可以看作是一个演员-评论员架构，其中演员是策略 $\pi$ ，而基准函数 $b_t$ 是评论员 (Sutton & Barto, 1998; Degris et al., 2012)。

异步强化学习框架

我们现在介绍了一种多线程异步变种的强化学习方法，包括一步 Sarsa one-step Sarsa、一段 Q-learning one-step Q-learning、多段 Q-learning n-step Q-learning,和优势演员-评论员advantage actor-critic.方法。设计这些方法的目的是为了找到能够可靠地训练深度神经网络策略的强化学习算法，同时避免过大的资源需求。虽然底层的强化学习方法差异较大，其中演员-评论员方法是基于策略的搜索方法，Q-learning 是基于值的离策略方法，但我们采用了两种主要思想来使这四种算法在给定设计目标的情况下具有实际可行性。

首先，我们使用异步演员-学习者，类似于 Gorila 框架 (Nair et al., 2015)，但是我们使用多线程的 CPU 来代替独立的机器和参数服务器。将学习者放在单台机器上可以减少发送梯度和参数的通信成本，并且使我们能够使用 Hogwild! (Recht et al., 2011) 样式的更新进行训练。

其次，我们观察到多个演员-学习者并行运行时，可能会探索环境的不同部分。此外，可以在每个演员-学习者中显式使用不同的探索策略来最大化这种多样性。通过在不同线程中运行不同的探索策略，多个演员-学习者并行应用在线更新时对参数所做的整体变化，可能比单个代理应用在线更新时的时间相关性更低。因此，我们不使用重放记忆，而是依赖并行的演员使用不同的探索策略来执行类似于 DQN 训练算法中的经验回放所起到的稳定作用。

除了稳定学习，使用多个并行的演员-学习者还有多个实际的好处。首先，我们获得了大致与并行演员-学习者数量成线性关系的训练时间减少。其次，由于我们不再依赖经验回放来稳定学习，我们能够使用基于策略的强化学习方法，如 Sarsa 和演员-评论员方法，以稳定的方式训练神经网络。接下来，我们将描述我们的一步 Q-learning、一段 Sarsa、多段 Q-learning 和优势演员-评论员方法的变种。

算法 1 异步一步 Q-learning - 每个演员-学习者线程的伪代码

// 假设全局共享的 $\theta, \theta^-, T = 0$
初始化线程步长计数器 $\gets 0$
初始化目标网络权重 $\theta^- \gets \theta$
初始化网络梯度 $\nabla \theta \gets 0$
获取初始状态 $s$

采取 $\epsilon$ -贪心策略选择动作 $a$ ，基于 $\theta)$
接收新的状态 $s^{'}$ 和奖励 $r$
$\gets$
$r$ ，对于终止状态 $s^{'}$
$\gamma \max_{a'} Q(s', a'; \theta^-)$ ，对于非终止状态 $s^{'}$

累积梯度 $\nabla \theta$ :
$\nabla \theta \gets \nabla \theta + \frac{\partial Q(s,a;\theta)}{\partial \theta} \cdot (y - Q(s, a; \theta))$

$\gets s'$
$\gets T + 1$ 且 $\gets t + 1$

如果 $\geq \text{Mod} \cdot I_{\text{target}}$ 那么
更新目标网络 $\theta^- \gets \theta$
结束如果

如果 $Async_update = 0 t \mod I_{\text{Async\_update}} = 0$ 或者 $s^{'}$ 是终止状态
执行异步更新 $\theta$ 使用梯度
清空梯度 $\nabla \theta \gets 0$
结束如果

直到 $T_{\text{max}}$

我们称之为异步一步 Q-learning 的 Q-learning 变种伪代码如算法 1 所示。每个线程与它自己环境的副本进行交互，并在每个步骤计算 Q-learning 损失的梯度。我们使用一个共享的、缓慢变化的目标网络来计算 Q-learning 损失，这与 DQN 训练方法中提出的相同。我们还在应用梯度之前，累积多个时间步的梯度，这类似于使用小批量数据。这减少了多个演员-学习者互相覆盖更新的可能性。累积更新跨越多个步骤还提供了一些能力，使得可以在计算效率和数据效率之间进行权衡。

最后，我们发现给每个线程分配不同的探索策略有助于提高鲁棒性。以这种方式为探索添加多样性通常也会通过更好的探索来提高性能。虽然有许多可能的方法使得探索策略有所不同，我们通过使用 $\epsilon$ -贪心策略进行探索，并让每个线程定期从某个分布中采样 $\epsilon$ 来进行实验。

异步一步 Sarsa: 异步一步 Sarsa 算法与算法 1 中给出的异步一步 Q-learning 相同，唯一的不同是它使用了不同的目标值来计算 $Q (s, a)$ 。一步 Sarsa 使用的目标值是 $\gamma Q(s', a'; \theta^-)$ ，其中 $a^{'}$ 是在状态 $s^{'}$ 中采取的动作 (Rummery & Niranjan, 1994; Sutton & Barto, 1998)。我们再次使用目标网络并更新跨多个时间步累积的梯度来稳定学习。

异步多步 Q-learning: 我们的多步 Q-learning 变种的伪代码在补充算法 S1 中给出。该算法有些不同寻常，因为它采用了前视方式，显式计算多步回报，而不是像常见的反向传播方法那样使用资格迹 (Sutton & Barto, 1998)。我们发现，使用前视方式在训练神经网络时比基于动量的方法和反向传播更加容易。为了执行单次更新，算法首先使用其探索策略选择动作，持续 $t_{\text{max}}$ 步，或直到达到终止状态为止。这个过程导致代理从环境中接收 $t_{\text{max}}$ 个奖励，直到上次更新为止。然后，算法计算多步 Q-learning 更新，用于每个状态-动作对，这些状态-动作对是自上次更新以来所遇到的。每个多步更新使用尽可能长的多步回报，最终结果是针对最后一个状态的单步更新，针对第二个状态的双步更新，以此类推，直到总共达到 $t_{\text{max}}$ 步。所有累积的更新在单个梯度步骤中应用。

异步优势演员-评论员: 我们称之为异步优势演员-评论员（A3C）的方法，保持一个策略 $\pi(a_t | s_t; \theta)$ 和一个价值函数估计 $V(s_t; \theta_v)$ 。与我们的多步 Q-learning 变种类似，我们的演员-评论员变种也使用前视方式，并利用多步回报来更新策略和价值函数。策略和价值函数在每 $t_{\text{max}}$ 步之后更新，或者当达到终止状态时更新。算法中的更新可以视为 $\nabla_\theta \log \pi(a_t | s_t; \theta') A(s_t, a_t; \theta, \theta_v)$ ，其中 $A(s_t, a_t; \theta, \theta_v)$ 是优势函数的估计，给定 $A(s_t, a_t; \theta, \theta_v) = \sum_{i=0}^{k-1} \gamma^i r_{t+i} + \gamma^k V(s_{t+k}; \theta_v) - V(s_t; \theta_v)$ ，其中 $k$ 可以从状态到状态变化，并且有上界。

通过 $t_{\text{max}}$ : 算法的伪代码在补充算法 S2 中给出。

与基于值的方法一样，我们依赖于并行的演员-学习者和累积更新来提高训练的稳定性。请注意，虽然策略的参数 $\theta$ 和价值函数的参数 $\theta_v$ 被显示为分开的，为了通用性，实际上我们总是共享一些参数。我们通常使用一个卷积神经网络，该网络为策略 $\pi(a_t | s_t; \theta)$ 提供一个 softmax 输出，为价值函数 $V(s_t; \theta_v)$ 提供一个线性输出，并且所有非输出层都是共享的。

我们还发现，将策略 $\pi$ 的熵添加到目标函数中可以通过抑制过早收敛到次优的确定性策略来改善探索。该技术最早由 Williams & Peng (1991) 提出，他们发现这种方法在需要层次化行为的任务中尤为有效。完整目标函数中包含熵正则化项对策略参数的梯度形态为 $\nabla_\theta \log \pi(a_t | s_t; \theta') (R_t - V(s_t; \theta_v)) + \beta \nabla_\theta H(\pi(s_t; \theta'))$ ，其中 $H$ 是熵，超参数 $\beta$ 控制熵正则化项的强度。

优化: 我们在异步框架中研究了三种不同的优化算法——带动量的 SGD、RMSProp (Tieleman & Hinton, 2012) 不使用共享统计量，以及使用共享统计量的 RMSProp。我们使用了标准的非中心化 RMSProp 更新，给定为：

$\alpha g + (1 - \alpha) \Delta \theta^2$ 和 $\theta \gets \theta - \eta \frac{\Delta \theta}{\sqrt{g} + \epsilon}$

其中所有操作都是逐元素进行的。对一组 Atari 2600 游戏的比较显示，当 RMSProp 的变体在各线程间共享统计量 $g$ 时，比其他两种方法更加稳健。方法和比较的详细信息包括在补充部分 1 中。

A3C（异步优势演员-评论员，Asynchronous Advantage Actor-Critic）方法是一种强化学习算法，它结合了策略梯度和价值函数估计，并通过异步训练的方式进行优化。

异步训练：A3C通过多个并行的“演员-学习者”线程来训练模型。每个线程在独立的环境副本中执行，并异步更新全局模型的参数。通过这种异步性，A3C能够减少因时间相关性带来的不稳定性和训练瓶颈。
优势估计：A3C利用优势函数（Advantage Function）来计算更新的目标。优势函数估计为：
$A(s_t, a_t) = Q(s_t, a_t) - V(s_t)$
其中， $Q(s_t, a_t)$ 是动作值函数， $V(s_t)$ 是状态值函数。通过这种方式，A3C避免了对动作值函数进行直接回报估计，而是通过优势来指引策略更新，减少了更新的方差。
前视方式的多步回报：A3C采用了前视方式来计算多步回报，而不是使用基于资格迹的反向传播方法。这使得回报的传播更加高效，适合深度神经网络的训练。

“前视方式”（Look-ahead 或 Forward-looking）是强化学习中用于计算回报的一种策略。它的核心思想是：代理在进行更新时，不仅仅使用当前时刻的奖励，还考虑未来多个时间步的奖励。

特点：
1. 考虑多个时间步的回报
  前视方式会将当前时刻的奖励与未来几个时间步的奖励结合，形成一个更全面的估计。例如，在 $n$ 步 Q-learning 中，目标是未来 $n$ 步的累积回报加上第 $n$ 步状态的估计值。
2. 提高训练效率
  因为前视方式传播回报更快，代理可以更早感知奖励信号，从而加速学习，特别是在深度强化学习中效果明显。
3. 与资格迹（Eligibility Traces）的对比
  资格迹是一种“反向传播”式的更新策略，当前奖励会“向前”传回过去的状态。而前视方式则直接累积未来的奖励来进行当前的更新——它更像是提前观察未来，再回来更新当前。
例子： $n$ 步 Q-learning 的前视方式更新目标

在 $n$ 步 Q-learning 中，更新目标如下：

$Q(s_t, a_t) \gets Q(s_t, a_t) + \alpha \left[ \sum_{i=0}^{n-1} \gamma^i r_{t+i} + \gamma^n \max_{a'} Q(s_{t+n}, a') - Q(s_t, a_t) \right]$

其中：
- $r_{t+i}$ 是从当前时刻 $t$ 开始的第 $i$ 步的奖励
- $\gamma$ 是折扣因子
- $Q(s_{t+n}, a')$ 是在 $t + n$ 时刻下的最大奖励估计
熵正则化：A3C在目标函数中引入了熵正则化项，目的是提高探索性，避免算法过早收敛到局部最优。通过调整熵项的超参数 $\beta$ ，可以控制策略的确定性，增强探索能力。
共享卷积网络：A3C通常使用共享的卷积神经网络结构，其中策略网络和价值网络共享非输出层，分别输出策略和状态值估计。这种共享结构提高了训练效率和数据利用率。
与Q-learning的对比：
- Q-learning 是基于值的方法，主要通过更新动作值函数 $Q (s, a)$ 来学习最优策略。在深度强化学习中，Q-learning通常结合经验回放来稳定学习，但经验回放需要大量的内存和计算资源。
- A3C 则是基于策略的方法，直接优化策略和价值函数，不依赖于经验回放。它通过异步并行执行多个线程，利用多步回报和优势估计，避免了Q-learning在训练时的稳定性问题和资源消耗。
与REINFORCE的对比：
- REINFORCE 是一种基于策略的方法，通过策略梯度来直接优化策略，但它容易受到方差的影响。
- A3C 通过使用优势函数 $A(s_t, a_t)$ 和多步回报来降低REINFORCE方法中的方差，增强了学习过程的稳定性。同时，A3C引入了异步训练和熵正则化，使得策略更新更加鲁棒和高效。
与Sarsa的对比：
- Sarsa 是一种基于值的方法，通常用于在线学习过程中。在传统的Sarsa算法中，代理根据当前策略选择动作并更新动作值函数。
- A3C 则结合了基于策略和基于值的方法，通过异步并行训练和多步回报加速学习，并利用优势函数来减小学习过程中的方差。A3C通常比Sarsa方法更稳定，且适用于深度神经网络。