当前位置: 首页 > news >正文

强化学习核心概念与算法详解-马尔可夫决策过程(MDP)+贝尔曼方程(Bellman Equation)

本文系统梳理强化学习(Reinforcement Learning, RL)的核心理论,从基本概念到贝尔曼方程,再到动态规划、蒙特卡洛和时间差分三大求解方法,构建清晰的知识脉络。特别地,我们将深入探讨马尔可夫性质贝尔曼方程的内在联系,揭示它们如何共同构成强化学习问题建模与求解的理论基石。


1. 基本概念

1.1 马尔可夫决策过程(MDP):强化学习的标准建模框架

在强化学习中,几乎所有问题都被形式化为马尔可夫决策过程(Markov Decision Process, MDP)。MDP 提供了一个统一的数学框架,将智能体与环境的交互抽象为状态、动作、奖励和状态转移的组合。

一个 MDP 由五元组 (S,A,P,R,γ)(S, A, P, R, \gamma)(S,A,P,R,γ) 定义:

  • SSS:状态空间,所有可能环境状态的集合;
  • AAA:动作空间,智能体可执行动作的集合;
  • P(s′,r∣s,a)P(s', r \mid s, a)P(s,rs,a):状态-奖励转移概率函数,表示在状态 sss 执行动作 aaa 后转移到状态 s′s's 并获得奖励 rrr 的联合概率;
  • R(s,a)R(s, a)R(s,a)R(s,a,s′)R(s, a, s')R(s,a,s):奖励函数,通常定义为期望奖励:
    R(s,a)=E[rt+1∣st=s,at=a] R(s,a) = \mathbb{E}[r_{t+1} \mid s_t = s, a_t = a] R(s,a)=E[rt+1st=s,at=a]
  • γ∈[0,1]\gamma \in [0,1]γ[0,1]:折扣因子,用于权衡即时奖励与未来奖励的重要性。

关键假设:马尔可夫性质
MDP 的核心前提是马尔可夫性质,即:
P(st+1∣st,at,st−1,at−1,… )=P(st+1∣st,at) P(s_{t+1} \mid s_t, a_t, s_{t-1}, a_{t-1}, \dots) = P(s_{t+1} \mid s_t, a_t) P(st+1st,at,st1,at1,)=P(st+1st,at)
换句话说,未来的状态仅依赖于当前状态和动作,而与历史轨迹无关。这一假设极大简化了建模复杂度,使得我们无需记忆完整历史即可预测未来。虽然现实中许多任务(如部分可观测环境)不完全满足该性质,但通过设计包含历史信息的状态表示(如使用RNN或堆叠帧),可以近似满足马尔可夫性,从而使问题可解。

1.2 奖励函数(Reward Function)

奖励是环境对智能体行为的即时反馈,为标量信号。

  • 在 MDP 中,奖励依赖于当前状态和动作:
    R(s,a)=E[rt+1∣st=s,at=a] R(s,a) = \mathbb{E}[r_{t+1} \mid s_t = s, a_t = a] R(s,a)=E[rt+1st=s,at=a]
    其中 rt+1r_{t+1}rt+1 是执行动作 aaa 后获得的即时奖励。

1.3 回报(Return)

回报是从当前时刻开始,未来所有奖励的折扣加权和,用于衡量长期性能。

Gt=∑k=0∞γkrt+k+1 G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1} Gt=k=0γkrt+k+1

  • 符号说明
    • GtG_tGt:时刻 ttt 的回报;
    • rt+k+1r_{t+k+1}rt+k+1:第 t+k+1t+k+1t+k+1 步的即时奖励;
    • γ∈[0,1]\gamma \in [0,1]γ[0,1]折扣因子,控制未来奖励的重要性。
      • γ=0\gamma = 0γ=0:只关注当前奖励;
      • γ→1\gamma \to 1γ1:重视长期回报;
      • 使用 γ<1\gamma < 1γ<1 可避免无限回报发散,并体现未来不确定性。

1.4 价值函数(Value Function)

价值函数衡量策略的长期表现,是强化学习中评估与优化策略的核心工具。

(1)状态价值函数 Vπ(s)V_\pi(s)Vπ(s)

在策略 π\piπ 下,从状态 sss 出发的期望回报:

Vπ(s)=Eπ[Gt∣st=s] V_\pi(s) = \mathbb{E}_\pi[G_t \mid s_t = s]

http://www.dtcms.com/a/349604.html

相关文章:

  • 合同管理软件的主要功能有什么?
  • 朴素贝叶斯学习笔记:从原理到实战(J享)
  • (LeetCode 每日一题) 498. 对角线遍历 (矩阵、模拟)
  • SSM从入门到实战:3.2 SpringMVC请求处理与控制器
  • 《C++哈希表:高效数据存储与检索的核心技术》
  • 朴素贝叶斯算法学习总结
  • MySQL 磁盘和 Redis 内存
  • 无人机航拍数据集|第22期 无人机城市交通目标检测YOLO数据集8624张yolov11/yolov8/yolov5可训练
  • Coze用户账号设置修改用户头像-前端源码
  • 【ACP】2025-最新-疑难题解析-5
  • Python Day 33 JavaScript BOM 与 DOM 核心笔记整合
  • 【数学建模】如何总结数学建模中的层次分析法最好
  • 通过Fiddler肆意修改接口返回数据进行测试
  • EXCEL自动调整列宽适应A4 A3 A2
  • OpenCV计算机视觉实战(21)——模板匹配详解
  • 将盾CDN:高防CDN和游戏盾有什么区别?
  • 宋红康 JVM 笔记 Day07|本地方法接口、本地方法栈
  • More Effective C++ 条款08:理解各种不同意义的new和delete
  • Genymotion 虚拟机如何安装 APK?(ARM 插件安装教程)
  • (操作系统)死锁是什么 必要条件 解决方式
  • 5分钟发布技术博客:cpolar简化Docsify远程协作流程
  • 《 nmcli网络管理学习》
  • [新启航]医疗器械深孔加工:新启航激光频率梳攻克 130mm 深度,实现 2μm 精度测量
  • Windows Server 2019 DateCenter搭建 FTP 服务器
  • MOLEX莫仕/莫莱克斯借助PCIe发展,引领数据中心的未来
  • 从Java全栈到前端框架的深度探索
  • gte2_common的作用
  • 数据集成平台-Kafka实时同步Doris能力演示
  • Appium学习笔记
  • 如何判断投手甲的认知比投手乙高?