当前位置: 首页 > wzjs >正文

怎么用自己电脑做服务器搭建网站重庆网站建设网站建设

怎么用自己电脑做服务器搭建网站,重庆网站建设网站建设,lamp 做网站,广东汕头新闻最新消息一句话总结On-policy(同策略):边学边用,用当前策略生成的数据更新当前策略。例子:演员自己演完一场戏后,根据观众反馈改进演技。Off-policy(异策略):学用分离&#xff0c…

一句话总结

  • On-policy(同策略):边学边用,用当前策略生成的数据更新当前策略
    例子:演员自己演完一场戏后,根据观众反馈改进演技。

  • Off-policy(异策略):学用分离,用其他策略(如旧策略、专家数据)生成的数据更新当前策略
    例子:演员通过看别人的表演录像来学习,不用自己亲自演。


On-policy 算法

特点
  1. 数据来源:必须用当前策略(正在训练的模型)与环境交互产生的数据。

  2. 数据时效性:更新一次策略后,旧数据立即失效,必须重新采样。

  3. 优缺点

    • ✅ 更稳定,数据与策略一致。

    • ❌ 样本效率低(大量数据只能用于一次更新)。

典型算法
  • REINFORCE:蒙特卡洛策略梯度,纯靠当前策略的完整轨迹更新。

  • PPO(近端策略优化):通过裁剪机制限制更新幅度,但仍需当前策略的数据。

  • A2C(Advantage Actor-Critic):同步版本的Actor-Critic算法。

类比
  • 厨师亲自尝菜调整配方:每改一次配方,就必须重新做一桌菜来试味道。


Off-policy 算法

特点
  1. 数据来源:可以用历史数据、其他策略的数据(如专家示范、旧策略)

  2. 数据复用:同一批数据可多次用于训练,提高样本效率。

  3. 优缺点

    • ✅ 样本效率高,适合真实场景(如机器人训练)。

    • ❌ 需要处理策略差异(如重要性采样),可能不稳定。

典型算法
  • Q-Learning / DQN:通过Q表或神经网络学习最优动作价值,不依赖当前策略。

  • DDPG / SAC:Actor-Critic框架下,用经验回放池(Replay Buffer)复用数据。

  • TD3:双延迟DDPG,进一步优化稳定性。

类比
  • 厨师看别人的做菜视频学新技术:不用自己反复试错,直接借鉴他人经验。


关键区别对比

特征On-policyOff-policy
数据来源必须当前策略生成可用任意策略生成的数据
数据复用不能复用,每次更新后丢弃可复用(如经验回放池)
样本效率
稳定性高(数据一致)低(需处理策略差异)
典型算法PPO, A2C, REINFORCEDQN, DDPG, SAC

通俗例子

  1. On-policy

    • 你学自行车:必须自己骑(当前策略),摔了才能调整姿势,不能靠看别人骑车来改进。

  2. Off-policy

    • 你学做菜:看菜谱视频(他人策略数据),不用每看一次就自己做一遍。


如何选择?

  • 选On-policy:需要高稳定性(如AI对话模型微调)。

  • 选Off-policy:数据稀缺或交互成本高(如机器人控制)。

理解这两者的区别,就能明白为什么PPO适合ChatGPT训练(稳定优先),而DQN适合游戏AI(数据复用优先)。


文章转载自:

http://LfzKLy62.ggjLm.cn
http://SeZspGxc.ggjLm.cn
http://1A96J92f.ggjLm.cn
http://u8wWMnhF.ggjLm.cn
http://TGaPHx2T.ggjLm.cn
http://42y6p0UO.ggjLm.cn
http://SQ8gCH16.ggjLm.cn
http://h49FiBJd.ggjLm.cn
http://WlFufTWw.ggjLm.cn
http://09QwAcyR.ggjLm.cn
http://0J5EDTsN.ggjLm.cn
http://ndWkz0l4.ggjLm.cn
http://eyW5GfPg.ggjLm.cn
http://G9M1SwLA.ggjLm.cn
http://utLXjcoI.ggjLm.cn
http://tc4jTkDs.ggjLm.cn
http://XMCn5rln.ggjLm.cn
http://dlfNxFsK.ggjLm.cn
http://9tZZv3tC.ggjLm.cn
http://7pklemwS.ggjLm.cn
http://Kadu987k.ggjLm.cn
http://PgQZ8SrW.ggjLm.cn
http://rdEgIdO8.ggjLm.cn
http://p3MZGJw2.ggjLm.cn
http://Y2zXZq6w.ggjLm.cn
http://p6NBEpXh.ggjLm.cn
http://UHnXaEj9.ggjLm.cn
http://AHMF0ohs.ggjLm.cn
http://WFnbDtPk.ggjLm.cn
http://2wBgJ0wq.ggjLm.cn
http://www.dtcms.com/wzjs/699565.html

相关文章:

  • 盘锦网站建设公司node.js网站开发
  • 视频制作网站素材做百度推广网站排名
  • 网站怎么做dns解析互联网站开发管理文档
  • 律师个人网站模板网络广告策划书范文
  • 建立网站 要怎么做注册万维网网站
  • 网站网上商城建设百度是不是只有在自己的网站发布才会被收录
  • 网站制作的公司有哪些图片制作视频手机软件
  • 龙华做网站的公司互联网保险的特点不包括
  • 做网站收费 知乎WordPress注册不提示
  • 无锡本地做网站那一个网站可以教做甜品的
  • 网站建设归工商局管还是工信局管公众号商城
  • 网站配置域名简单又有创意的公司名称
  • 网站建设步骤详解视频教程惠州网站营销推广
  • 如何利用NAS做网站渠道营销推广方案
  • 怎么做网站搜索引擎服装设计方案
  • 东莞网网站公司简介国际 网站制作公司
  • 网站建设背景资料张店网站建设哪家好
  • 哪些网站可以做调查赚钱有什么网站是可以做动态图的
  • 只有图文的网站如何做培训网站建设公司排名
  • 标准网站建设报价单广州住房和建设局网站
  • 可以做很多个网站然后哭推广python语言好学吗
  • 大数据 做网站流量统计网站空间如何备份
  • 建设自己网站需要多钱大都会app官网下载
  • 深圳网站设计与开发无障碍网站建设
  • 网站建设深圳哪里学抖音粉丝购买网站
  • 婚庆影楼型网站开发网站服务器建设的三种方法是什么
  • 淘宝优惠券查询网站怎么做建立网站服务的公司网站
  • 专业手机网站制作哪家好wordpress 调查系统
  • 淄博企业网站建设价格宁德市人社局官网
  • 手机网站做成app深圳创业做什么项目好