当前位置：首页 > news >正文

【Introduction to Reinforcement Learning】翻译解读4

news 2025/10/10 12:49:05

3 强化学习方法

理解RL中的各种方法和概念对于设计和有效实施RL算法至关重要。RL方法可以分为离线方法（off-policy）和在线方法（on-policy），以及基于模型（model-based）和无模型（model-free）的方法。这些类别提供了不同的学习方法和与环境交互的技术。

3.1 无模型Model-free与基于模型Model-based的方法

无模型方法直接确定最优策略或价值函数，而无需构建环境模型。它们不需要知道转移概率和奖励，因为它们可以完全从观察到的状态、动作和奖励中学习。与基于模型的方法相比，无模型方法实现起来更为简单，依赖于基于经验的学习。无模型方法主要分为两类：基于价值的方法和基于策略的方法。前者侧重于学习动作价值函数来推导最优策略。例如，Q-learning是一种离线方法，它通过在更新规则中使用最大操作符来学习最优策略的价值，而不依赖于智能体的实际动作。而SARSA则是一种基于策略的算法，它更新其Q值，基于实际由策略采取的动作。两种方法都基于贝尔曼方程更新它们的动作价值估计，直到收敛。
与此不同，基于策略的方法，例如REINFORCE，通过直接学习策略，而无需显式地学习价值函数。这些方法通过沿着期望奖励的梯度直接调整策略参数。这种方法在高维动作空间的环境中特别有用，其中基于价值的方法可能不够有效。基于策略的方法还能够处理随机策略，为处理动作选择中的不确定性提供了自然框架。
除了这两类主要方法外，还有结合了基于价值和基于策略方法的混合方法，例如Actor-Critic算法。这些方法由两个主要组件组成：一个actor，它根据critic建议的方向更新策略参数；一个critic，它评估动作价值函数。结合两种学习方法旨在提供更稳定和高效的学习过程。
另一个无模型方法的重要进展是深度强化学习（DRL）的发展。通过将深度神经网络与传统的RL算法结合，诸如Deep Q-Networks（DQN）和Proximal Policy Optimization（PPO）等方法在复杂的高维环境中取得了成功，包括游戏和机器人控制任务。这些技术的进步为RL在现实世界问题中的应用开辟了新的可能性，在以往无法解决的领域中展示了强大的性能。
使用基于模型的方法可以预测动作的结果，这些方法有助于战略规划和决策制定。使用这些方法可以通过提供虚拟实验的机会来提高学习效率，尽管开发和改进准确模型的复杂性依然存在。自动驾驶系统就是一个基于模型方法应用于现实世界的例子。随着自动驾驶汽车在动态环境中进行导航、避免障碍物以及选择最优路线，必须实时做出决策。自动驾驶汽车创建了详细的环境模型，这些模型包括静态元素，如道路和建筑物，以及动态元素，如其他车辆和行人。传感器数据，包括摄像头、激光雷达（LiDAR）和雷达，用于构建这个模型。通过使用环境模型，汽车能够预测各种动作的结果。例如，当一辆车改变车道时，它利用模型预测周围车辆的行为，以确定最安全和最有效的车道变换方式。该模型帮助汽车规划路线和制定战略决策。为了最小化时间延迟、避免交通拥堵并提高安全性，汽车评估不同的路线和动作。仿真允许汽车选择最佳的动作，从而实现更好的现实应用。比如，汽车可以模拟不同的情况，例如在繁忙的十字路口等待，或者寻找备用路线。考虑到每个动作的潜在结果，汽车可以做出更知情的决策，从而提高效率。在提高自动驾驶汽车导航能力并增强其在真实环境中的安全性方面，这种基于模型的方法发挥了重要作用。
使用基于模型的方法相比不使用模型的方法有几个优势。通过模拟未来的状态和奖励，基于模型的方法可以在不直接与环境交互的情况下，规划和评估不同的动作序列。这种能力被认为有助于加速收敛到最优策略，因为学习过程可以通过利用模型的预测来加速。基于模型的方法还能更快地适应环境的变化，因为它允许模型被更新并据此重新规划。尽管基于模型的方法有许多优点，但它们也面临着一些挑战，主要体现在准确性和计算成本上。为了创建一个准确的环境模型，需要创建一个高保真的模型。此外，规划过程可能在计算上非常昂贵，特别是在状态和动作数目较多的环境中。尽管如此，计算能力和算法的进步继续改善基于模型方法的可行性和性能，使其成为RL中的一种有价值的方法。

3.2 离线与在线方法

在线学习和离线学习是无模型学习方法中的两种方法，它们不依赖于环境的转移概率。根据行为策略和更新策略之间的关系，它们被分类为在线方法和离线方法。在线方法评估并改进策略，基于在当前策略（ $\pi$ ）下采取的动作和获得的奖励进行决策，交替进行探索和学习。这些方法根据实际与环境的交互更新策略，因此策略优化的是实际与环境交互的策略，使得探索和策略改进自然地结合在一起。
另一方面，离线方法涉及独立地学习最优策略的价值，与智能体的实际行为无关。在这些方法中，我们区分两种策略：行为策略（behavior policy）和目标策略（target policy）。行为策略用于探索环境，而目标策略旨在基于收集的经验改善性能。这使得行为策略可以更具探索性，同时学习一个最优目标策略。离线方法的一个显著优点是它们可以从任何策略生成的数据中学习，而不仅仅是当前正在执行的策略，从而使得它们非常灵活且样本高效。行为策略和目标策略的解耦使得离线方法能够更有效地重用经验。例如，通过一个探索环境的行为策略收集的经验，可以用于改善目标策略，目标策略旨在最大化奖励。这个特性使得离线方法在动态和复杂的环境中尤其强大，在这些环境中需要广泛的探索。
目标策略与行为策略之间的关系决定了一个方法是在线方法还是离线方法。相同的策略表明是在线方法，而不同的策略则表明是离线方法。实现细节和目标也会影响分类。为了更好地区分这些方法，我们首先需要学习不同的策略。行为策略 $b$ 是智能体用来决定在每个时间步骤采取的动作的策略。行为策略可能包括例如推荐各种电影来探索用户偏好的推荐系统的例子。目标策略 $\pi$ 则决定智能体如何根据观察到的结果更新它的价值估计。例如，在推荐电影的例子中，目标策略决定推荐系统如何基于推荐的电影的反馈来更新估计的用户偏好。
对这两种策略相互作用的深入理解对于实现有效的学习系统至关重要。智能体的行为策略决定了它如何探索环境，在探索与利用之间取得平衡以获取有用的信息。另一方面，目标策略决定智能体如何从这些经验中学习，以便改进价值估计。当使用在线方法时，行为策略和目标策略是相同的，这意味着与环境交互时采取的动作也用于更新价值估计。这样得到的结果是稳定的学习，但可能在探索状态空间时效率较低。行为策略和目标策略之间的差异在离线方法中表现得尤为明显。在与行为策略相反的目标策略中，目标策略专注于通过采取最合适的动作来优化价值估计。尽管这种分离能使学习效率更高，但如果行为策略与最优策略相差过远，它也可能引入不稳定性。此外，像Actor-Critic算法这样的先进方法将行为策略（actor）和目标策略（critic）分开。演员根据当前策略做出决策，而评论员则评估这些决策并提供反馈，以改进策略，从而结合了在线方法的稳定性与离线方法的效率。