当前位置：首页 > news >正文

手机可以做网站学校网站建设与管理办法

news 2025/10/30 8:20:39

手机可以做网站,学校网站建设与管理办法,如何做网站站内搜索功能,邯郸学校网站建设报价一句话总结On-policy（同策略）：边学边用，用当前策略生成的数据更新当前策略。例子：演员自己演完一场戏后，根据观众反馈改进演技。Off-policy（异策略）：学用分离&#xff0c…

一句话总结

On-policy（同策略）：边学边用，用当前策略生成的数据更新当前策略。
例子：演员自己演完一场戏后，根据观众反馈改进演技。
Off-policy（异策略）：学用分离，用其他策略（如旧策略、专家数据）生成的数据更新当前策略。
例子：演员通过看别人的表演录像来学习，不用自己亲自演。

On-policy 算法

特点

数据来源：必须用当前策略（正在训练的模型）与环境交互产生的数据。
数据时效性：更新一次策略后，旧数据立即失效，必须重新采样。
优缺点：
- ✅ 更稳定，数据与策略一致。
- ❌ 样本效率低（大量数据只能用于一次更新）。

典型算法

REINFORCE：蒙特卡洛策略梯度，纯靠当前策略的完整轨迹更新。
PPO（近端策略优化）：通过裁剪机制限制更新幅度，但仍需当前策略的数据。
A2C（Advantage Actor-Critic）：同步版本的Actor-Critic算法。

类比

厨师亲自尝菜调整配方：每改一次配方，就必须重新做一桌菜来试味道。

Off-policy 算法

特点

数据来源：可以用历史数据、其他策略的数据（如专家示范、旧策略）。
数据复用：同一批数据可多次用于训练，提高样本效率。
优缺点：
- ✅ 样本效率高，适合真实场景（如机器人训练）。
- ❌ 需要处理策略差异（如重要性采样），可能不稳定。

典型算法

Q-Learning / DQN：通过Q表或神经网络学习最优动作价值，不依赖当前策略。
DDPG / SAC：Actor-Critic框架下，用经验回放池（Replay Buffer）复用数据。
TD3：双延迟DDPG，进一步优化稳定性。

类比

厨师看别人的做菜视频学新技术：不用自己反复试错，直接借鉴他人经验。

关键区别对比

特征	On-policy	Off-policy
数据来源	必须当前策略生成	可用任意策略生成的数据
数据复用	不能复用，每次更新后丢弃	可复用（如经验回放池）
样本效率	低	高
稳定性	高（数据一致）	低（需处理策略差异）
典型算法	PPO, A2C, REINFORCE	DQN, DDPG, SAC

通俗例子

On-policy：
- 你学自行车：必须自己骑（当前策略），摔了才能调整姿势，不能靠看别人骑车来改进。
Off-policy：
- 你学做菜：看菜谱视频（他人策略数据），不用每看一次就自己做一遍。

如何选择？

选On-policy：需要高稳定性（如AI对话模型微调）。
选Off-policy：数据稀缺或交互成本高（如机器人控制）。

理解这两者的区别，就能明白为什么PPO适合ChatGPT训练（稳定优先），而DQN适合游戏AI（数据复用优先）。

http://www.dtcms.com/a/544822.html

相关文章：

网站建设流程的过程建设行政主管部门政务网站

计算机网络-物理层

css面试题1

Git的原理与使用 -- 分支管理

7.1.3 大数据方法论与实践指南-查询平台

什么是所有权

江苏建设网站公司合肥建设工程质量监督局网站

js基础：07、作用域(全局作用域、函数作用域)、声明提前(变量的声明提前、函数的声明提前)、执行上下文(this)、新创建对象方法、构造函数

七牛云到阿里云对象存储回源配置

Ant Design Landing模版使用教程-react-npm

ChatGPT-4o在自然科学中的应用：统计建模、机器学习与时空数据分析实战

仓颉语言包与模块系统深度解析

营销型网站建设制作多少钱做网站电销

windows装wsl ubuntu24.04 ，里面装qemu ，然后装mac os （windows也可以直接qemu安装macos）（未实践）

Tongweb7启动脚本说明

【Linux】进程初阶(2)——进程状态

WSL2 Ubuntu cuda驱动问题解决和CUDA Toolkit安装

深圳市住房建设局网站个性婚纱摄影

SQLite 约束 (Constraints) 面试核心知识点

使用J-Link Attach NXP S32K3导致对应RAM区域被初始化成0xDEADBEEF

电子商务网站建设与维护展望分销系统微信

变量与可变性

STM32 GPIO其他少见的库函数解析

云栖实录｜驰骋在数据洪流上：Flink+Hologres驱动零跑科技实时计算的应用与实践

百度免费网站空间中国铁建股份有限公司

【Git】版本更新

网站建设与维护就业前景电商培训类网站模板下载

Android电池优化和前后台任务

使用 Java 将 Excel 工作表转换为 CSV 格式

Kotlin基础类型扩展函数使用指南