当前位置: 首页 > news >正文

强化学习经典策略梯度算法REINFORCE

REINFORCE 算法推导

REINFORCE算法是一种基于策略梯度的蒙特卡洛强化学习算法,通过直接优化策略参数以最大化期望回报。基本原理:REINFORCE属于策略梯度方法,其核心是通过梯度上升调整策略参数θ,使得高回报的动作被赋予更高的概率。具体来说,算法通过采样完整的轨迹(episode)计算累积回报,并用其估计梯度,进而更新策略。

1. 目标函数

策略梯度方法的目标是最大化期望累积回报
在这里插入图片描述

J ( θ ) = E τ ∼ π θ [ R ( τ ) ] J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \right] J(θ)=Eτπθ[R(τ)]
其中:

  • τ = ( s 0 , a 0 , r 0 , . . . , s T ) \tau = (s_0, a_0, r_0, ..., s_T) τ=(s0,a0,r0,...,sT) 是轨迹(Trajectory)
  • R ( τ ) = ∑ t = 0 T γ t r t R(\tau) = \sum_{t=0}^T \gamma^t r_t R(τ)=t=0Tγtrt 是轨迹的折扣回报
  • γ \gamma γ 是折扣因子

2. 策略梯度定理

对目标函数求梯度:
∇ θ J ( θ ) = ∇ θ E τ ∼ π θ [ R ( τ ) ] \nabla_\theta J(\theta) = \nabla_\theta \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \right] θJ(θ)=θEτπθ[R(τ)]

2.1 期望展开为轨迹积分

∇ θ J ( θ ) = ∫ ∇ θ p θ ( τ ) R ( τ ) d τ \nabla_\theta J(\theta) = \int \nabla_\theta p_\theta(\tau) R(\tau) d\tau θJ(θ)=θpθ(τ)R(τ)dτ

2.2 对数概率技巧

利用 ∇ θ p θ ( τ ) = p θ ( τ ) ∇ θ log ⁡ p θ ( τ ) \nabla_\theta p_\theta(\tau) = p_\theta(\tau) \nabla_\thet

相关文章:

  • 专业的天津网站建设关键词竞价排名名词解释
  • 苏宁网站开发人员工资广告推广计划
  • 做网站容易 但运营难湖南网站设计外包费用
  • 按钮特效网站网页制作教程
  • 大型网站都怎么做推广如何在百度推广自己
  • 网站建设空间域名是什么资源网
  • CMake Presets教程
  • 开发一个小程序需要多久时间?小程序软件开发周期
  • 【Flask开发】嘿马文学web完整flask项目第2篇:2.用户认证,Json Web Token(JWT)【附代码文档】
  • 物联网安全技术:守护智能世界的防线
  • 如何把已有的虚拟环境的python版本进行降级?
  • Java观察者模式详解
  • AI助理是如何助力企业的
  • git克隆数据失败
  • 优维HAO案例:香港联交所上市企业「智能运维平台」项目
  • 【学Rust写CAD】25 变量类(variable.rs)
  • 优雅~~Spring Boot 整合多数据源的姿势
  • 计算机硬件——CPU 主要参数
  • 图像处理:使用Numpy和OpenCV实现傅里叶和逆傅里叶变换
  • 裴蜀定理:整数解的奥秘
  • AI与玩具结合的可行性分析
  • 【学Rust写CAD】28 带 Alpha 通道的双线性插值函数(bilinear_interpolation_alpha.rs)
  • 第六章:机器人建模与仿真__《ROS机器人开发实践》_notes
  • 告别外置电路:IEPE接口如何重构精密测量生态?
  • DreamDiffusion代码学习及复现
  • 【Linux】GCC编译选项-Wl 和 链接(ld)选项-rpath