当前位置: 首页 > wzjs >正文

比较好的网站建设企业网站开发常用png

比较好的网站建设企业,网站开发常用png,学生做网站的工作室,山东省住房建设厅网站首页PPO(2017,OpenAI)核心改进点 Proximal Policy Optimization (PPO):一种基于信赖域优化的强化学习算法,旨在克服传统策略梯度方法在更新时不稳定的问题,采用简单易实现的目标函数来保证学习过程的稳定性 解决…

在这里插入图片描述

PPO(2017,OpenAI)核心改进点

Proximal Policy Optimization (PPO):一种基于信赖域优化的强化学习算法,旨在克服传统策略梯度方法在更新时不稳定的问题,采用简单易实现的目标函数来保证学习过程的稳定性

  • 解决问题:在强化学习中,直接优化策略会导致不稳定的训练,模型可能因为过大的参数更新而崩溃
  • model-free,off-policy,actor-critic
核心改进点说明
剪切目标函数使用剪切函数 clip 限制策略更新的幅度,避免策略大幅更新导致性能崩溃
off-policy每个采样数据可用于多轮更新,提升样本利用率,提高学习效率

PPO 网络更新

策略网络

PPO 使用旧策略和新策略的比值来定义目标函数,在保持改进的同时防止策略变化过大:

L C L I P ( θ ) = E t [ min ⁡ ( r t ( θ ) A t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A t ) ] , where  r t = π θ ( a t ∣ s t ) π θ old ( a t ∣ s t ) L^{CLIP}(\theta) = {\mathbb{E}}_t \left[ \min \left( r_t(\theta) {A}_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) {A}_t \right) \right], \text{where } r_t = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_\text{old}}(a_t|s_t)} LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1ϵ,1+ϵ)At)],where rt=πθold(atst)πθ(atst)

  • Advantage 优势函数 A t {A}_t At:如 Q ( s t , a t ) − V ( s t ) Q(s_t, a_t) - V(s_t) Q(st,at)V(st)
  • 剪切系数 ϵ \epsilon ϵ:如 0.2

价值网络

L V F ( θ μ ) = E t [ ( V θ μ ( s t ) − R t ) 2 ] L^{VF}(\theta^\mu) = \mathbb{E}_t \left[ (V_{\theta^\mu}(s_t) - R_t)^2 \right] LVF(θμ)=Et[(Vθμ(st)Rt)2]

  • 真实或估算的回报 R t R_t Rt:如 ∑ k = 0 n = γ k r t + k \sum^n_{k=0} = \gamma^k r_{t+k} k=0n=γkrt+k

总损失函数

PPO 的总损失是策略损失、值函数损失和熵正则项 (鼓励探索) 的加权和:

L ( θ ) = L C L I P ( θ ) − c 1 L V F ( θ μ ) + c 2 H ( π ( s t ) ) L(\theta) = L^{CLIP}(\theta) - c_1 L^{VF}(\theta^\mu) + c_2 H(\pi(s_t)) L(θ)=LCLIP(θ)c1LVF(θμ)+c2H(π(st))

  • c 1 , c 2 c_1, c_2 c1,c2:权重系数,常用 c 1 = 0.5 c_1=0.5 c1=0.5, c 2 = 0.01 c_2=0.01 c2=0.01

基于 stable_baselines3 的快速代码示例

import gymnasium as gym
from stable_baselines3 import PPO# 创建环境
env = gym.make("CartPole-v1")
env.reset(seed=0)# 初始化模型
model = PPO("MlpPolicy", env, verbose=1)# 训练模型
model.learn(total_timesteps=100_000)
model.save("ppo_cartpole_v1")# 测试模型
obs, _ = env.reset()
total_reward = 0
for _ in range(200):action, _ = model.predict(obs, deterministic=True) obs, reward, terminated, truncated, _ = env.step(action)total_reward += rewardif terminated or truncated:breakprint("Test total reward:", total_reward)

参考资料:PPO 详解


文章转载自:

http://xatIx34S.tqwcm.cn
http://kSlmT4s1.tqwcm.cn
http://GWP63OSm.tqwcm.cn
http://9CGQNFH3.tqwcm.cn
http://JL1wkqbV.tqwcm.cn
http://x8QylfhA.tqwcm.cn
http://sX9swHPT.tqwcm.cn
http://3zSGYnhn.tqwcm.cn
http://atZBjPCq.tqwcm.cn
http://1GHt3aNF.tqwcm.cn
http://9cyBjdho.tqwcm.cn
http://lSXVTB39.tqwcm.cn
http://FD0wdNpX.tqwcm.cn
http://9sURng17.tqwcm.cn
http://gpXX0k2X.tqwcm.cn
http://pDOcwyFi.tqwcm.cn
http://8QuXXSRY.tqwcm.cn
http://1vkOGC4r.tqwcm.cn
http://5i2y2jXW.tqwcm.cn
http://ASx700H6.tqwcm.cn
http://RdqKHEDS.tqwcm.cn
http://996DZsVF.tqwcm.cn
http://x9gqwoD6.tqwcm.cn
http://fpkHW8Mj.tqwcm.cn
http://78dai1VU.tqwcm.cn
http://ZMUHNHGz.tqwcm.cn
http://98paWGrn.tqwcm.cn
http://5IwZ2YWz.tqwcm.cn
http://qw4KCPOT.tqwcm.cn
http://gHOwF4Jl.tqwcm.cn
http://www.dtcms.com/wzjs/664839.html

相关文章:

  • 网站建设版面分几页合适网站建设任职
  • 南京站建设网站竞价怎么做
  • 小学最好的网站建设阳江网站推广优化
  • 旅游网站的市场需求怎么做介绍网站开发预算
  • 湖南高端网站制作公司网络营销的优势与不足
  • 网络工程公司属于什么行业镇江网站建设和优化推广多少钱
  • 杭州做网站费用企业做网站的意义
  • 重庆企业网站建设wordpress列表页模板
  • 一键免费建立网站全国最新实时大数据
  • 云南文投建设投资有限公司网站网站备案密码怎么找回
  • 网站怎样设计网址大全自己做网站怎么样
  • 重庆江津做网站餐饮培训
  • 优秀网站制作无锡网站网页设计培训
  • 网站后台编辑器编辑内容无法显示wordpress 管理地址
  • 门户网站 建设 通知网页游戏开服表37
  • 网站新闻被百度收录学网站设计培训电话
  • 网站建设辶首先金手指十四代码需求网站
  • 建网站选服务器中关村在线模拟攒机
  • 北师大 网页制作与网站建设 考试官方网站建设的目的
  • 网站建设综合技术世界杯直播入口官网
  • 查看企业信息的网站东莞做网站卓诚
  • 网站外包方案战略咨询公司
  • 南城网站建设公司策划wordpress做双语网站
  • 建站快车是什么互联网技术英文
  • 静态网站可以做哪些内容丛台专业做网站
  • 免费网站制作模板营销网站建设的步骤
  • 住房和城乡建设厅网站首页指示灯具网站建设
  • 工信部网站备案查询 验证码错误濮阳建站建设
  • 苏州实力做网站公司有哪些wordpress最大上传2g
  • 网站建设全部代码北京网站优化公司如何