1. 强化学习简介
一句话总结:强化学习(Reinforcement Learning, RL)是一种机器学习范式,强调智能体(agent)通过与环境(environment)的交互,以试错(trial‑and‑error)的方式学习一套策略(policy),以最大化累积奖励(cumulative reward)。

1.1. 基本组成:智能体与环境
- 智能体(Agent):能够感知环境状态并执行动作的主体。
- 环境(Environment):智能体所处的外部系统,会根据智能体的动作返回新的状态和奖励信号。
1.2. 关键要素
- 奖励(Reward):环境对智能体动作的反馈,可正可负,指导智能体区分好坏行为。
- 策略(Policy):智能体决定在某状态下选择何种动作的概率分布。可以是确定性的,也可以是随机的。
- 值函数(Value Function):用于评估在某一状态(或状态—动作对)下,后续可能获得的累积奖励。
1.3. 与其他学习范式的区别
- 监督学习:需要大量标注的输入–输出样本;强化学习仅需奖励信号,不需标签。
- 无监督学习:关注数据结构与分布;强化学习关注通过交互获取反馈并优化决策。
1.4. 强化学习的应用
应用领域 | 具体示例 |
---|
游戏 AI | DeepMind 的 AlphaGo、OpenAI Five 在 Dota 2 中的表现 |
机器人控制 | Figure 02 的仿真训练步态、Google 机器人手臂开门实例 |
自动驾驶 | 基于卷积神经网络的自动驾驶汽车感知与决策、静态环境下车辆轨迹预测 |
金融交易与投资 | 算法交易、投资组合优化与风险管理 |
医疗健康 | 动态治疗方案推荐(如癌症放疗和脓毒症治疗) |
自然语言处理 | 对话系统优化、文本摘要与机器翻译 |
营销与广告 | 实时竞价与广告位优化、个性化推荐广告 |
能源管理 | 电网负荷优化与微电网控制 |
推荐系统 | 新闻推荐与内容个性化推荐 |
交通信号控制 | 多交叉口交通信号协调优化 |
2. 专业名词解释
专业名词 | 解释 |
---|
智能体 (Agent) | 在环境中执行动作、接收状态和奖励,并根据策略不断学习和决策的主体。 |
环境 (Environment) | 智能体所处的外部系统或仿真场景,定义了状态空间、动作空间以及奖励机制。 |
状态 (State) | 环境在某一时刻的描述,通常由一组变量或观测组成,表示智能体可观测的信息。 |
动作 (Action) | 智能体在某一状态下可执行的操作或决策,可离散也可连续。 |
奖励 (Reward) | 环境对智能体动作的反馈信号,指导智能体区分好坏行为,以最大化累积奖励为目标。 |
折扣因子 (Discount Factor, γ) | 用于计算未来奖励现值的系数,γ∈[0,1],γ 越大表示越重视长期回报,γ 越小表示越偏好短期回报。 |
累积回报 (Return, Gₜ) | 智能体从时间步 t 开始到未来各时刻获得的折扣奖励总和: ( G t = ∑ k = 0 ∞ γ k R t + k + 1 ) (G_t = \sum_{k=0}^\infty γ^k R_{t+k+1}) (Gt=∑k=0∞γkRt+k+1)。 |
策略 (Policy, π) | 智能体在各状态下选择动作的概率分布,可为确定性策略或随机策略。 |
值函数 (Value Function) | 用于评估状态(或状态–动作对)如何“好”的函数,代表从该状态(或状态–动作对)出发可获得的期望累积回报。 |
状态–动作值函数 (Q-Value, Q) | 特殊的值函数,评估在给定状态下执行某动作后,按照策略继续行动可获得的期望累积回报。 |
马尔可夫决策过程 (MDP) | 强化学习的数学框架,由状态空间、动作空间、转移概率和奖励函数构成,假设系统满足马尔可夫性。 |
探索–利用权衡 (Exploration–Exploitation) | 智能体在尝试新动作(探索)与利用已知最优动作(利用)之间的平衡策略或机制。 |
模型基 (Model-based) | 强化学习方法之一,通过学习或已知环境模型来进行规划和决策。 |
无模型 (Model-free) | 强化学习方法之一,不显式构建环境模型,直接从交互经验中学习策略或值函数。 |
On‑policy | 策略学习方式之一,使用当前行为策略生成数据并更新同一策略,如 SARSA、PPO。 |
Off‑policy | 策略学习方式之一,使用与行为策略不同的数据或经验回放更新目标策略,如 Q‑learning、DQN。 |
3. 强化学习分类

一、按算法核心思想分类
1. 基于价值(Value-Based)
- 特点:通过估计状态或动作的长期价值(Q值)选择最优策略。
- 代表算法:
- Q-learning:无模型、离线策略,通过最大化未来奖励更新Q表。
- DQN(Deep Q-Network):结合深度神经网络与Q-learning,解决高维状态空间问题,加入经验回放和目标网络稳定训练。
- Double DQN:改进DQN的过估计问题,分离动作选择与价值评估。
2. 基于策略(Policy-Based)
- 特点:直接优化策略函数,输出动作概率分布。
- 代表算法:
- REINFORCE:回合更新策略,通过蒙特卡洛采样估计梯度。
- PPO(Proximal Policy Optimization):限制策略更新幅度,平衡稳定性与效率,广泛应用于游戏和大模型对齐。
- TRPO(Trust Region Policy Optimization):通过KL散度约束策略更新步长,保证稳定性。
3. Actor-Critic混合方法
- 特点:结合价值函数(Critic)与策略函数(Actor),兼顾评估与优化。
- 代表算法:
- A3C(Asynchronous Advantage Actor-Critic):异步多线程训练,加速收敛。
- DDPG(Deep Deterministic Policy Gradient):处理连续动作空间,结合确定性策略与Q函数。
- SAC(Soft Actor-Critic):最大化熵正则化,鼓励探索,提升鲁棒性。
二、按环境模型依赖分类
1. Model-Free(无模型)
- 特点:不依赖环境动态模型,直接通过交互学习策略或价值函数。
- 典型算法:Q-learning、DQN、PPO、SAC。
2. Model-Based(有模型)
- 特点:学习或假设环境模型(如状态转移概率),利用规划优化策略。
- 代表方法:
- 动态规划(DP):基于已知模型求解最优策略。
- 蒙特卡洛树搜索(MCTS):结合模型预测与策略优化,如AlphaGo。
三、按更新方式分类
1. 回合更新(Monte-Carlo)
- 特点:等待完整回合结束后更新策略,如REINFORCE。
2. 单步更新(Temporal Difference)
- 特点:每一步交互后立即更新,如Q-learning、SARSA。
3. 多步更新(n-Step Bootstrapping)
- 特点:平衡单步与回合更新的偏差与方差,如Sarsa(λ)。
四、其他重要算法
- SARSA:在线策略算法,强调动作选择的连续性,保守性强。
- A2C(Advantage Actor-Critic):同步版本A3C,简化多线程设计。
- Imitation Learning(模仿学习):结合专家示范数据加速策略学习。