当前位置: 首页 > news >正文

【强化学习】什么是强化学习?2025

1. 强化学习简介

一句话总结:强化学习(Reinforcement Learning, RL)是一种机器学习范式,强调智能体(agent)通过与环境(environment)的交互,以试错(trial‑and‑error)的方式学习一套策略(policy),以最大化累积奖励(cumulative reward)。

在这里插入图片描述

1.1. 基本组成:智能体与环境

  • 智能体(Agent):能够感知环境状态并执行动作的主体。
  • 环境(Environment):智能体所处的外部系统,会根据智能体的动作返回新的状态和奖励信号。

1.2. 关键要素

  • 奖励(Reward):环境对智能体动作的反馈,可正可负,指导智能体区分好坏行为。
  • 策略(Policy):智能体决定在某状态下选择何种动作的概率分布。可以是确定性的,也可以是随机的。
  • 值函数(Value Function):用于评估在某一状态(或状态—动作对)下,后续可能获得的累积奖励。

1.3. 与其他学习范式的区别

  • 监督学习:需要大量标注的输入–输出样本;强化学习仅需奖励信号,不需标签。
  • 无监督学习:关注数据结构与分布;强化学习关注通过交互获取反馈并优化决策。

1.4. 强化学习的应用

应用领域具体示例
游戏 AIDeepMind 的 AlphaGo、OpenAI Five 在 Dota 2 中的表现
机器人控制Figure 02 的仿真训练步态、Google 机器人手臂开门实例
自动驾驶基于卷积神经网络的自动驾驶汽车感知与决策、静态环境下车辆轨迹预测
金融交易与投资算法交易、投资组合优化与风险管理
医疗健康动态治疗方案推荐(如癌症放疗和脓毒症治疗)
自然语言处理对话系统优化、文本摘要与机器翻译
营销与广告实时竞价与广告位优化、个性化推荐广告
能源管理电网负荷优化与微电网控制
推荐系统新闻推荐与内容个性化推荐
交通信号控制多交叉口交通信号协调优化

2. 专业名词解释

专业名词解释
智能体 (Agent)在环境中执行动作、接收状态和奖励,并根据策略不断学习和决策的主体。
环境 (Environment)智能体所处的外部系统或仿真场景,定义了状态空间、动作空间以及奖励机制。
状态 (State)环境在某一时刻的描述,通常由一组变量或观测组成,表示智能体可观测的信息。
动作 (Action)智能体在某一状态下可执行的操作或决策,可离散也可连续。
奖励 (Reward)环境对智能体动作的反馈信号,指导智能体区分好坏行为,以最大化累积奖励为目标。
折扣因子 (Discount Factor, γ)用于计算未来奖励现值的系数,γ∈[0,1],γ 越大表示越重视长期回报,γ 越小表示越偏好短期回报。
累积回报 (Return, Gₜ)智能体从时间步 t 开始到未来各时刻获得的折扣奖励总和: ( G t = ∑ k = 0 ∞ γ k R t + k + 1 ) (G_t = \sum_{k=0}^\infty γ^k R_{t+k+1}) (Gt=k=0γkRt+k+1)
策略 (Policy, π)智能体在各状态下选择动作的概率分布,可为确定性策略或随机策略。
值函数 (Value Function)用于评估状态(或状态–动作对)如何“好”的函数,代表从该状态(或状态–动作对)出发可获得的期望累积回报。
状态–动作值函数 (Q-Value, Q)特殊的值函数,评估在给定状态下执行某动作后,按照策略继续行动可获得的期望累积回报。
马尔可夫决策过程 (MDP)强化学习的数学框架,由状态空间、动作空间、转移概率和奖励函数构成,假设系统满足马尔可夫性。
探索–利用权衡 (Exploration–Exploitation)智能体在尝试新动作(探索)与利用已知最优动作(利用)之间的平衡策略或机制。
模型基 (Model-based)强化学习方法之一,通过学习或已知环境模型来进行规划和决策。
无模型 (Model-free)强化学习方法之一,不显式构建环境模型,直接从交互经验中学习策略或值函数。
On‑policy策略学习方式之一,使用当前行为策略生成数据并更新同一策略,如 SARSA、PPO。
Off‑policy策略学习方式之一,使用与行为策略不同的数据或经验回放更新目标策略,如 Q‑learning、DQN。

3. 强化学习分类

在这里插入图片描述


一、按算法核心思想分类

1. 基于价值(Value-Based)
  • 特点:通过估计状态或动作的长期价值(Q值)选择最优策略。
  • 代表算法:
    • Q-learning:无模型、离线策略,通过最大化未来奖励更新Q表。
    • DQN(Deep Q-Network):结合深度神经网络与Q-learning,解决高维状态空间问题,加入经验回放和目标网络稳定训练。
    • Double DQN:改进DQN的过估计问题,分离动作选择与价值评估。
2. 基于策略(Policy-Based)
  • 特点:直接优化策略函数,输出动作概率分布。
  • 代表算法:
    • REINFORCE:回合更新策略,通过蒙特卡洛采样估计梯度。
    • PPO(Proximal Policy Optimization):限制策略更新幅度,平衡稳定性与效率,广泛应用于游戏和大模型对齐。
    • TRPO(Trust Region Policy Optimization):通过KL散度约束策略更新步长,保证稳定性。
3. Actor-Critic混合方法
  • 特点:结合价值函数(Critic)与策略函数(Actor),兼顾评估与优化。
  • 代表算法:
    • A3C(Asynchronous Advantage Actor-Critic):异步多线程训练,加速收敛。
    • DDPG(Deep Deterministic Policy Gradient):处理连续动作空间,结合确定性策略与Q函数。
    • SAC(Soft Actor-Critic):最大化熵正则化,鼓励探索,提升鲁棒性。

二、按环境模型依赖分类

1. Model-Free(无模型)
  • 特点:不依赖环境动态模型,直接通过交互学习策略或价值函数。
  • 典型算法:Q-learning、DQN、PPO、SAC。
2. Model-Based(有模型)
  • 特点:学习或假设环境模型(如状态转移概率),利用规划优化策略。
  • 代表方法:
    • 动态规划(DP):基于已知模型求解最优策略。
    • 蒙特卡洛树搜索(MCTS):结合模型预测与策略优化,如AlphaGo。

三、按更新方式分类

1. 回合更新(Monte-Carlo)
  • 特点:等待完整回合结束后更新策略,如REINFORCE。
2. 单步更新(Temporal Difference)
  • 特点:每一步交互后立即更新,如Q-learning、SARSA。
3. 多步更新(n-Step Bootstrapping)
  • 特点:平衡单步与回合更新的偏差与方差,如Sarsa(λ)。

四、其他重要算法

  • SARSA:在线策略算法,强调动作选择的连续性,保守性强。
  • A2C(Advantage Actor-Critic):同步版本A3C,简化多线程设计。
  • Imitation Learning(模仿学习):结合专家示范数据加速策略学习。

相关文章:

  • 解决 Exception in thread “main“ java.lang.NoClassDefFoundError
  • 【java】程序设计基础 八股文版
  • 深入理解 Web 架构:从基础到实践
  • 0506--01-DA
  • tinyrenderer笔记(Phong光照模型)
  • QML ProgressBar控件详解
  • C++高性能内存池
  • 逻辑越权--登录和支付数据篡改
  • DeepSeek智能时空数据分析(七):4326和3857两种坐标系有什么区别?各自用途是什么?
  • 【Python面向对象编程】类与对象的深度探索指南
  • USB学习【2】通讯的基础-反向不归零编码
  • Linux 更改内存交换 swap 为 zram 压缩,减小磁盘写入
  • OrcaFex11.5
  • 多语言笔记系列:Polyglot Notebooks 中使用扩展库
  • Unity 游戏数量单位换算(K/M/B/T)
  • 雅思阅读--易错词汇60个
  • 38.前端代码拆分
  • 软考-软件设计师中级备考 13、刷题 数据结构
  • aws平台windows虚拟机扩容
  • 从入门到登峰-嵌入式Tracker定位算法全景之旅 Part 8 |产品化与运维:批量标定、误差监控、OTA 升级与安全防护
  • 媒体起底“速成洋文凭”灰产链,专家:我们要给学历“祛魅”
  • 国铁集团:铁路五一假期运输收官,多项运输指标创历史新高
  • 又一日军“慰安妇”制度受害者去世,大陆在世幸存者仅7人
  • 过半中国上市公司去年都在“扩编”,哪些公司人效最高
  • 文旅部:加强对景区索道、游船等设施设备安全隐患排查整治
  • IPO周报|节后首批3只新股本周申购,色谱设备龙头来了