当前位置: 首页 > news >正文

强化学习 MDP

强化学习于有监督微调的区别

  • 优化目标:有监督学习和强化学习的优化目标相似,即都是在优化某个数据分布下的一个分数值的期望。

  • 优化方法:二者优化的途径是不同的,有监督学习直接通过优化模型对于数据特征的输出来优化目标,即修改目标函数而数据分布不变;强化学习则通过改变策略来调整智能体和环境交互数据的分布,进而优化目标,即修改数据分布而目标函数不变。

  • 训练目标:有监督学习关注寻找一个模型,使其在给定数据分布下得到的损失函数的期望最小;强化学习关注寻找一个智能体策略,使其在与动态环境交互的过程中产生最优的数据分布,即最大化该分布下一个给定奖励函数的期望。

  • 训练周期:有监督学习的数据是静态的,只用在给定数据集上训练进行一次性训练。强化学习的数据可以不断产生,可以持续训练,通过不断地与环境交互更新策略。

  • 数据:有监督学习需要标注数据集,强化学习不依赖标注数据集,而是通过与环境交互产生数据。

  • 损失函数:有监督学习的损失是准确的,可以直接根据标签和预测计算损失。强化学习只能从环境或奖励模型获取奖励,从环境获取奖励一般是延迟的,奖励模型给出的奖励不一定准确,计算得到的损失不一定准确。

 

 

重要性采样

重要性采样是一种统计方法,用于通过从一个方便的分布中抽取样本来估计另一个难以直接采样的分布的特性。它的核心思想是通过调整样本的权重来补偿采样分布与目标分布之间的差异,从而得到对目标分布的准确估计。

 

重要性采样在 RL 中的作用

  • 作为加速作用,重要性采样提高了数据利用率和训练效率。它允许我们先用一个固定的 “旧策略” 一次性、并行地生成一个大的数据池。在接下来的多次训练中,我们都复用这批数据。虽然数据是 “旧” 的,但我们通过乘以一个重要性权重(即新、旧策略对同一个行为的概率比值),对数据分布的差异进行校正,从而能近似地在 “新策略” 上进行无偏估计。这就把 “采一次用一次” 变成了 “采一次用 N 次”,极大地加速了训练。

  • 重要性采样与 PPO 的 Clip 结合,保证了训练的平稳。其本身也反映了新旧 policy 的差异。如果这个比值过大,说明策略想做一个非常激进的更新,这很危险,容易导致模型 “学废” 了。PPO 的精髓就在于,它会把这个比值 Clip 在一个非常小的安全区间内。这样既能让策略朝着正确的方向更新,又限制了每一步的更新幅度不能过大,确保了整个 RLHF 过程的稳定收敛。

http://www.dtcms.com/a/272260.html

相关文章:

  • Selenium 4 教程:自动化 WebDriver 管理与 Cookie 提取 || 用于解决chromedriver版本不匹配问题
  • 《PyQt6-3D:开启Python 3D开发新世界》
  • Windows Edge 播放 H.265 视频指南
  • OpenAI正准备推出一款搭载人工智能功能的网络浏览器,试图直接挑战Alphabet旗下
  • 前端面试专栏-算法篇:21. 链表、栈、队列的实现与应用
  • NAT技术(网络地址转换)
  • 【实战】使用 ELK 搭建 Spring Boot Docker 容器日志监控系统
  • OSPF实验以及核心原理全解
  • 【SkyWalking】配置告警规则并通过 Webhook 推送钉钉通知
  • HP EVA SAN 数据恢复利器:Data recovery plugin for HP StorageWorks EVA
  • 前端项目集成husky + lint-staged + commitlint
  • Web-Bench:基于web标准和框架的benchmark
  • Fiddler中文版全面评测:功能亮点、使用场景与中文网资源整合指南
  • 什么是强化学习(RL)--2
  • 如何在VMware里的飞牛OS访问主机里面图片文件夹
  • 【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题
  • 【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔(三)
  • 华为昇腾NPU与NVIDIA CUDA生态兼容层开发实录:手写算子自动转换工具链(AST级代码迁移方案)
  • 缓存穿透与击穿多方案对比与实践指南
  • 设计模式的六大设计原则
  • AI问答之手机相机专业拍照模式的主要几个参数解释
  • 【笔记】使用 html 创建网址快捷方式
  • 达梦数据库DMDRS搭建单向dm8-dm8数据同步
  • 【工具教程】批量提取OCR图片中固定文字保存WPS表格,批量OCR识别图像中的文字保存到Excel表格的操作步骤和注意事项
  • 虚拟环境已安装该包,且已激活,但报错
  • 智能体的记忆系统:短期记忆、长期记忆与知识图谱
  • Spring for Apache Pulsar->Reactive Support->Quick Tour
  • 【LeetCode100】--- 1.两数之和【复习回滚】
  • 氢能源杂谈
  • 深入拆解Spring核心思想之一:IoC