当前位置: 首页 > news >正文

强化学习(3)策略梯度

让智能体直接学习如何行动,而不是间接学习状态或动作的价值。

简单来说,策略梯度的用处就是直接优化智能体的行为(策略),以最大化长期回报。

注意与TD Learning的关系


策略梯度(Policy Gradient)的关键作用

策略梯度方法主要通过一个被称为 策略函数(Policy Function)的神经网络来参数化智能体的行为 π(a∣s;θ)\pi(a|s; \theta)π(as;θ),然后使用梯度上升来调整参数 θ\thetaθ,使智能体更有可能做出高回报的动作。

1. 核心作用:直接优化行为

  • 直接学习策略 π\piπ 策略梯度方法绕过了价值函数的估计(尽管一些变体也会用到价值函数),直接计算并更新策略 π\piπ 的参数 θ\thetaθ
  • 目标函数(Objective): 它的目标函数是期望回报(Expected Return) J(θ)=Eπθ[Gt]J(\theta) = \mathbb{E}_{\pi_\theta} [G_t]J(θ)=Eπθ[Gt]。通过计算这个目标函数相对于 θ\thetaθ 的梯度 ∇J(θ)\nabla J(\theta)J(θ),智能体可以知道如何微调其行为以获得更高的分数。

2. 适用于连续动作空间

这是策略梯度相对于传统 Q-Learning 或 DQN 的一个巨大优势:

  • Q-Learning 的局限性: 基于价值的方法(如 Q-Learning)在连续动作空间中会非常困难。它们必须计算 max⁡aQ(s,a)\max_a Q(s, a)maxaQ(s,a),这意味着必须遍历无限个动作来找到 Q 值最大的那个,这是不可行的。
  • 策略梯度的优势: 策略梯度可以直接输出一个连续的动作(或动作的概率分布的参数,如均值和方差)。它不需要显式地最大化 Q 值,而是直接通过梯度上升来优化策略,完美解决了连续控制问题。

3. 处理随机策略

策略梯度天然适用于学习随机策略(Stochastic Policy) π(a∣s)\pi(a|s)π(as),这意味着在同一个状态 sss 下,它会输出一个动作的概率分布

  • 为什么需要随机性? 在许多复杂的或部分可观察的环境中,随机性是必需的。例如,两个动作 a1a_1a1a2a_2a2 的效果可能非常接近,随机策略可以保持一定的探索性,防止智能体被困在局部最优解中。
  • 避免局部最优: 策略梯度通过随机性鼓励探索,这比基于 ϵ\epsilonϵ-greedy 机制(如 DQN)的探索方式更自然、更有效。

4. 克服部分可观察性(POMDPs)

在部分可观察的马尔可夫决策过程(POMDP)中,智能体无法得知环境的完整状态。

  • DQN 的问题: 基于价值的方法在这种情况下容易失败,因为 Q(s,a)Q(s, a)Q(s,a) 的估计是基于不完整的状态信息 sss 的。
  • 策略梯度的优势: 策略可以直接是一个从观测动作的映射。如果策略使用循环神经网络(RNN/LSTM),它能够捕捉历史信息,从而在部分可观察的环境中做出更鲁棒的决策。

总结:策略梯度 vs. 价值函数

特性策略梯度方法(如 REINFORCE, A2C, PPO)价值函数方法(如 Q-Learning, DQN)
学习目标直接学习策略 π(a∣s)\pi(a|s)π(as),最大化预期回报间接学习价值函数 Q(s,a)Q(s, a)Q(s,a),最优策略从 Q 值中导出。
动作空间适用于连续离散动作空间。主要适用于离散动作空间。
策略类型天然支持随机策略通常支持确定性策略,通过 ϵ\epsilonϵ-greedy 引入随机性。
核心挑战梯度估计的方差(Variance)较大,训练需要更多样本。训练可能不稳定(尤其是在函数近似时),存在目标追踪问题。
http://www.dtcms.com/a/415109.html

相关文章:

  • langchain的核心组件
  • 算法基础篇(6)差分
  • Umbra(陰影):DDS底層協議漏洞遠程惡意組件注入Botnets
  • 【自然语言处理与大模型】LlamaIndex快速入门②
  • 附近广告公司地址快速优化seo
  • 文心大模型4.5:百度推出的新一代原生多模态基础大模型
  • 厦门网站推广费用广西网站建设银行
  • 今日面试之项目拷打:锁与事务的深度解析
  • 基于IMX6ULL 芯片 UART1
  • Coze源码分析-资源库-删除数据库-后端源码-基础设施/数据存储层
  • 多后端服务器架构解析
  • 四种常用SVC(service)及其与Ingress协作方式
  • C#多线程全家桶:从Thread到async/await
  • 网站备案 论坛甘肃微信网站建设
  • 数模之路获奖总结——数据分析交流(R语言)
  • 网站 后台 数据 下载网站优化软件推荐
  • Java数据结构第二十七期:布隆过滤器,用 “模糊” 换高效的查重黑科技
  • 怎么做质量高的网站如何实现网站建设服务
  • 我的项目开发的一般流程,供交流
  • 做网站实名认证有什么用濮阳市城乡一体化示范区主任
  • InnoDB压缩技术:节省空间提升性能
  • 国任保险携手云轴科技ZStack获评鼎新杯数字化转型应用典型案例
  • 进入网站wordpress配置如何在百度搜到自己的网站
  • 建设银行网站怎么看不见余额专业类网站
  • qq登录网站授权怎么做外贸自建站平台哪个好
  • 红豆杉发展前景与培育技术(英文翻译稿)
  • 虾皮后端一面
  • 网站的新闻模块怎么做公司网络推广营销
  • 自己做刷东西的网站百度地图电脑版网页
  • 【开题答辩全过程】以 spb+疾病风险预警平台的设计与实现为例,包含答辩的问题和答案