当前位置: 首页 > news >正文

手机可以做网站学校网站建设与管理办法

手机可以做网站,学校网站建设与管理办法,如何做网站站内搜索功能,邯郸学校网站建设报价一句话总结On-policy(同策略):边学边用,用当前策略生成的数据更新当前策略。例子:演员自己演完一场戏后,根据观众反馈改进演技。Off-policy(异策略):学用分离&#xff0c…

一句话总结

  • On-policy(同策略):边学边用,用当前策略生成的数据更新当前策略
    例子:演员自己演完一场戏后,根据观众反馈改进演技。

  • Off-policy(异策略):学用分离,用其他策略(如旧策略、专家数据)生成的数据更新当前策略
    例子:演员通过看别人的表演录像来学习,不用自己亲自演。


On-policy 算法

特点
  1. 数据来源:必须用当前策略(正在训练的模型)与环境交互产生的数据。

  2. 数据时效性:更新一次策略后,旧数据立即失效,必须重新采样。

  3. 优缺点

    • ✅ 更稳定,数据与策略一致。

    • ❌ 样本效率低(大量数据只能用于一次更新)。

典型算法
  • REINFORCE:蒙特卡洛策略梯度,纯靠当前策略的完整轨迹更新。

  • PPO(近端策略优化):通过裁剪机制限制更新幅度,但仍需当前策略的数据。

  • A2C(Advantage Actor-Critic):同步版本的Actor-Critic算法。

类比
  • 厨师亲自尝菜调整配方:每改一次配方,就必须重新做一桌菜来试味道。


Off-policy 算法

特点
  1. 数据来源:可以用历史数据、其他策略的数据(如专家示范、旧策略)

  2. 数据复用:同一批数据可多次用于训练,提高样本效率。

  3. 优缺点

    • ✅ 样本效率高,适合真实场景(如机器人训练)。

    • ❌ 需要处理策略差异(如重要性采样),可能不稳定。

典型算法
  • Q-Learning / DQN:通过Q表或神经网络学习最优动作价值,不依赖当前策略。

  • DDPG / SAC:Actor-Critic框架下,用经验回放池(Replay Buffer)复用数据。

  • TD3:双延迟DDPG,进一步优化稳定性。

类比
  • 厨师看别人的做菜视频学新技术:不用自己反复试错,直接借鉴他人经验。


关键区别对比

特征On-policyOff-policy
数据来源必须当前策略生成可用任意策略生成的数据
数据复用不能复用,每次更新后丢弃可复用(如经验回放池)
样本效率
稳定性高(数据一致)低(需处理策略差异)
典型算法PPO, A2C, REINFORCEDQN, DDPG, SAC

通俗例子

  1. On-policy

    • 你学自行车:必须自己骑(当前策略),摔了才能调整姿势,不能靠看别人骑车来改进。

  2. Off-policy

    • 你学做菜:看菜谱视频(他人策略数据),不用每看一次就自己做一遍。


如何选择?

  • 选On-policy:需要高稳定性(如AI对话模型微调)。

  • 选Off-policy:数据稀缺或交互成本高(如机器人控制)。

理解这两者的区别,就能明白为什么PPO适合ChatGPT训练(稳定优先),而DQN适合游戏AI(数据复用优先)。

http://www.dtcms.com/a/544822.html

相关文章:

  • 网站建设流程的过程建设行政主管部门政务网站
  • 计算机网络-物理层
  • css面试题1
  • Git的原理与使用 -- 分支管理
  • 7.1.3 大数据方法论与实践指南-查询平台
  • 什么是所有权
  • 江苏建设网站公司合肥建设工程质量监督局网站
  • js基础:07、作用域(全局作用域、函数作用域)、声明提前(变量的声明提前、函数的声明提前)、执行上下文(this)、新创建对象方法、构造函数
  • 七牛云到阿里云对象存储回源配置
  • Ant Design Landing模版使用教程-react-npm
  • ChatGPT-4o在自然科学中的应用:统计建模、机器学习与时空数据分析实战
  • 仓颉语言包与模块系统深度解析
  • 营销型网站建设制作多少钱做网站电销
  • windows装wsl ubuntu24.04 ,里面装qemu ,然后装mac os (windows也可以直接qemu安装macos)(未实践)
  • Tongweb7启动脚本说明
  • 【Linux】进程初阶(2)——进程状态
  • WSL2 Ubuntu cuda驱动问题解决和CUDA Toolkit安装
  • 深圳市住房建设局网站个性婚纱摄影
  • SQLite 约束 (Constraints) 面试核心知识点
  • 使用J-Link Attach NXP S32K3导致对应RAM区域被初始化成0xDEADBEEF
  • 电子商务网站建设与维护展望分销系统微信
  • 变量与可变性
  • STM32 GPIO其他少见的库函数解析
  • 云栖实录|驰骋在数据洪流上:Flink+Hologres驱动零跑科技实时计算的应用与实践
  • 百度免费网站空间中国铁建股份有限公司
  • 【Git】版本更新
  • 网站建设与维护就业前景电商培训类网站模板下载
  • Android电池优化和前后台任务
  • 使用 Java 将 Excel 工作表转换为 CSV 格式
  • Kotlin基础类型扩展函数使用指南