当前位置：首页 > news >正文

强化学习概论（1）

news 2025/10/2 23:06:05

文章目录

一、说明
二、强化学习概述
三、强化学习应用示例
四、强化学习的要素

一、说明

强化学习（Reinforcement Learning, RL）是机器学习的一个分支，目标是让智能体（agent）通过与环境（environment）的交互来学习最优的行为策略（policy），从而最大化某个累积回报（cumulative reward）。其核心思想是通过试错和反馈的机制，找到在每个情境下的最优决策。

二、强化学习概述

强化学习是学习如何做——如何将情境映射到行动——以最大化数值奖励信号。与大多数机器学习形式不同，学习者不会被告知要采取哪些行动，而是必须通过尝试来发现哪些行动能带来最大的奖励。在最有趣和最具挑战性的情况下，行动不仅会影响即时奖励，还会影响下一个情境，并进而影响所有后续奖励。试错搜索和延迟奖励这两个特性是强化学习最重要的两个显著特征。

强化学习的定义不是描述学习方法，而是描述学习问题。任何适合解决该问题的方法，我们都认为是强化学习方法。关于强化学习问题在马尔可夫决策过程最优控制方面的完整规范要等到第 3 章，但其基本思想只是捕捉学习代理与环境交互以实现目标时所面临的实际问题的最重要方面。显然，这样的代理必须能够在某种程度上感知环境状态，并且必须能够采取影响状态的行动。代理还必须具有与环境状态相关的一个或多个目标。该表述旨在以最简单的形式包含这三个方面——感知、行动和目标，而不会简化其中任何一个。

强化学习不同于监督学习，后者是机器学习、统计模式识别和人工神经网络领域当前大多数研究的学习类型。监督学习是指从知识渊博的外部监督者提供的示例中进行学习。这是一种重要的学习类型，但仅靠它不足以从交互中学习。在交互问题中，获取既正确又能代表智能体必须采取行动的所有情境的期望行为示例通常不切实际。在未知领域——人们期望学习最有益的地方——智能体必须能够从自身经验中学习。

强化学习中出现而其他学习类型中不存在的挑战之一是探索与利用之间的权衡。为了获得大量奖励，强化学习代理必须优先选择过去尝试过且被证明能够有效产生奖励的动作。但为了发现这样的动作，它必须尝试以前从未选择过的动作。代理必须利用已知的知识来获得奖励，但为了在未来做出更好的动作选择，它也必须进行探索。困境在于，无论只进行探索还是利用，都无法避免任务失败。代理必须尝试各种动作，并逐步选择那些看起来最好的动作。在随机任务中，每个动作都必须尝试多次才能获得其预期奖励的可靠估计。探索-利用困境已被数学家们深入研究了数十年（参见第二章）。现在，我们只需指出，在通常定义的监督学习中，平衡探索和利用的整个问题甚至不会出现。

强化学习的另一个关键特性是，它明确地考虑了目标导向型智能体与不确定环境交互的整个问题。这与许多只考虑子问题而不考虑它们如何融入整体问题的方法形成了鲜明对比。例如，我们之前提到，许多机器学习研究都关注监督学习，但并未明确指出这种能力最终将如何发挥作用。其他研究人员发展了具有通用目标的规划理论，但并未考虑规划在实时决策中的作用，也未考虑规划所需的预测模型从何而来。尽管这些方法已经取得了许多有用的成果，但它们对孤立子问题的关注是一个显著的局限性。

强化学习则采取相反的策略，始于一个完整的、交互式的、目标导向型的智能体。所有强化学习智能体都有明确的目标，能够感知环境的各个方面，并能够选择行动来影响环境。此外，通常从一开始就假设智能体必须在环境存在很大不确定性的情况下进行操作。当强化学习涉及规划时，它必须解决规划与实时行动选择之间的相互作用，以及如何获取和改进环境模型的问题。当强化学习涉及监督学习时，它会出于特定的原因进行操作，这些原因决定了哪些能力至关重要，哪些能力不重要。为了使学习研究取得进展，必须分离并研究重要的子问题，但这些子问题应该是在完整的、交互式的、目标导向型的智能体中发挥明确作用的子问题，即使完整智能体的所有细节尚无法填补。

强化学习是其中一部分的一大趋势，即人工智能与其他工程学科之间的联系日益紧密。不久之前，人工智能还被认为几乎与控制理论和统计学完全无关。它与逻辑和符号有关，而非数字。人工智能是大型的 LISP 程序，而非线性代数、微分方程或统计学。在过去的几十年里，这种观点逐渐被削弱。例如，现代人工智能研究人员接受统计和控制算法作为相关的竞争方法，或仅仅是他们的专业工具。人工智能与传统工程之间先前被忽视的领域如今已成为最活跃的领域之一，其中包括神经网络、智能控制以及我们的主题——强化学习等新领域。在强化学习中，我们扩展了最优控制理论和随机逼近的思想，以实现人工智能更广泛、更宏伟的目标。

三、强化学习应用示例

理解强化学习的一个好方法是考虑一些指导其发展的例子和可能的应用。

一位象棋大师会下出一步棋。这一选择既取决于计划——预测可能的回应和反击——也取决于对特定位置和走法可行性的即时直觉判断。

自适应控制器实时调整炼油厂的运行参数。该控制器根据指定的边际成本，优化产量/成本/质量之间的平衡，而非严格遵循工程师最初建议的设定点。

一只小瞪羚出生几分钟后就挣扎着站起来。半小时后，它就能以每小时20英里的速度奔跑。

移动机器人会决定是进入新房间寻找更多垃圾，还是尝试返回电池充电站。它会根据以往找到充电站的速度和难易程度做出决定。

菲尔正在准备早餐。仔细观察，即使是这个看似平凡的活动，也揭示了复杂的条件行为网络和相互关联的目标-子目标关系：走到橱柜前，打开它，选择一个麦片盒，然后伸手去拿、抓住并取回盒子。为了拿到碗、勺子和牛奶壶，还需要其他复杂、协调、互动的行为序列。每一步都涉及一系列眼球运动，以获取信息并引导伸手和移动。他不断地快速判断如何携带物品，或者是否先把一些物品送到餐桌上再去拿其他物品更好。每一步都由目标引导，例如拿起勺子或走到冰箱前，并服务于其他目标，例如在麦片煮好后用勺子吃饭，最终获得营养。

这些示例都具有一些非常基本、容易被忽视的特征。它们都涉及主动决策代理与其环境之间的交互，尽管环境存在不确定性，代理仍会努力实现目标。代理的行动可以影响环境的未来状态（例如，下一个棋局、炼油厂储水池的水位、机器人的下一个位置），从而影响代理未来可用的选项和机会。正确的选择需要考虑行动的间接、延迟后果，因此可能需要预见或规划。

同时，在所有这些例子中，动作的后果都无法完全预测；因此，智能体必须频繁监测其环境并做出适当的反应。例如，菲尔必须留意他倒进麦片碗里的牛奶，以免溢出。所有这些例子都涉及明确的目标，即智能体可以根据其直接感知到的信息来判断其目标的进展情况。国际象棋选手知道自己是否获胜，炼油厂控制员知道石油产量，移动机器人知道电池何时耗尽，菲尔知道自己是否正在享用早餐。

在所有这些例子中，智能体都能利用其经验来不断提升自身表现。国际象棋棋手不断完善其用于评估位置的直觉，从而提升棋艺；小羚羊提高了奔跑的效率；菲尔则学会了简化早餐的制作流程。智能体在任务开始时所掌握的知识——无论是来自先前相关任务的经验，还是通过设计或进化而内置于任务中——都会影响哪些知识有用或易于学习，但与环境的交互对于调整行为以利用任务的特定特性至关重要。

四、强化学习的要素

除了代理和环境之外，还可以识别强化学习系统的四个主要子元素：策略，奖励函数，价值函数，以及可选的环境模型。

策略定义了学习代理在特定时间的行为方式。粗略地说，策略是从感知到的环境状态到在这些状态下要采取的行动的映射。它对应于心理学中所谓的一组刺激-反应规则或关联。在某些情况下，策略可能是一个简单的函数或查找表，而在其他情况下，它可能涉及大量计算，例如搜索过程。策略是强化学习代理的核心，因为它本身就足以决定行为。一般来说，策略可能是随机的。

奖励函数定义了强化学习问题中的目标。粗略地说，它将环境的每个感知状态（或状态-动作对）映射到一个数字，即奖励，表示该状态的内在可取性。强化学习代理的唯一目标是最大化其在长期内获得的总奖励。奖励函数定义了对代理来说什么是好事件，什么是坏事件。在生物系统中，将快乐和痛苦等同于奖励并不合适。它们是代理所面临的问题的直接和决定性特征。因此，奖励函数必须是代理无法改变的。但是，它可以作为改变策略的基础。例如，如果策略选择的某个动作之后的奖励很低，那么该策略可能会更改为在将来的那种情况下选择其他动作。一般来说，奖励函数可能是随机的。

奖励函数指示的是即时意义上的良好，而价值函数则指定了长期意义上的良好。粗略地说，一个状态的价值是指智能体从该状态开始，在未来预期积累的奖励总量。奖励决定了环境状态的即时内在可取性，而价值则表明了在考虑了可能随后发生的状态及其可获得的奖励之后，该状态的长期可取性。例如，一个状态可能始终产生较低的即时奖励，但仍然具有较高的价值，因为它之后经常出现其他产生高奖励的状态。反之亦然。打个比方，奖励就像快乐（如果高）和痛苦（如果低），而价值则对应于我们对环境处于特定状态的满意或不满意程度的更精细、更有远见的判断。通过这种方式表达，我们希望能够清楚地看到，价值函数将一个基本且熟悉的概念形式化。

从某种意义上说，奖励是首要的，而作为奖励预测的价值则是次要的。没有奖励就没有价值，而估算价值的唯一目的就是获得更多奖励。然而，在制定和评估决策时，我们最关注的是价值。行动选择基于价值判断。我们寻求的是能够带来最高价值而非最高奖励状态的行动，因为这些行动从长远来看能为我们带来最大的奖励。在决策和规划中，我们最关注的是被称为价值的衍生量。不幸的是，确定价值比确定奖励困难得多。奖励基本上是由环境直接赋予的，但价值必须根据智能体在其整个生命周期内进行的一系列观察来估计和重新估计。事实上，几乎所有强化学习算法中最重要的组成部分都是一种高效估算价值的方法。价值估算的核心作用可以说是我们在过去几十年里在强化学习中学到的最重要的东西。

虽然本书中讨论的所有强化学习方法都是围绕估计价值函数构建的，但这对于解决强化学习问题并非绝对必要。例如，遗传算法、遗传编程、模拟退火等搜索方法以及其他函数优化方法已被用于解决强化学习问题。这些方法直接在策略空间中搜索，而无需求助于价值函数。我们之所以将这些方法称为进化方法，是因为它们的操作类似于生物进化的方式，即使生物在其生命周期中没有学习，它们也能产生具有熟练行为的生物体。如果策略空间足够小，或者可以构建得使得好的策略通用或易于找到，那么进化方法就会有效。此外，进化方法在学习代理无法准确感知其环境状态的问题上也具有优势。

然而，我们所说的强化学习指的是在与环境交互的同时进行学习，而进化方法则不具备这一点。我们相信，在许多情况下，能够利用个体行为交互细节的方法比进化方法效率更高。进化方法忽略了强化学习问题的许多有用结构：它们没有利用所搜索的策略是从状态到动作的函数这一事实；它们没有注意到个体在其一生中经历了哪些状态，或者它选择了哪些动作。在某些情况下，这些信息可能会产生误导（例如，当状态被错误感知时），但更多时候，它应该能够实现更高效的搜索。尽管进化和学习有许多共同的特征，并且可以像在自然界中一样自然地协同工作，但我们并不认为进化方法本身特别适合强化学习问题。为简单起见，本书中使用“强化学习”一词时，不包括进化方法。

一些强化学习系统的第四个也是最后一个要素是环境模型。它能够模拟环境的行为。例如，给定一个状态和动作，模型可以预测由此产生的下一个状态和下一个奖励。模型用于规划，规划指的是在实际经历未来可能的情况之前，通过考虑这些情况来决定行动方案的任何方式。将模型和规划融入强化学习系统是一个相对较新的发展。早期的强化学习系统明确地是试错式学习者；它们的做法被认为几乎与规划截然相反。然而，逐渐清晰的是，强化学习方法与使用模型的动态规划方法密切相关，而动态规划方法又与状态空间规划方法密切相关。在第九章中，我们将探讨强化学习系统，它同时进行试错学习、学习环境模型以及使用该模型进行规划。现代强化学习涵盖了从低级试错学习到高级审议式规划的各个方面。

查看全文

http://www.dtcms.com/a/323245.html