当前位置: 首页 > news >正文

RLHF的定义

RLHF的定义首先由《Deep Reinforcement Learning from Human Preferences》提出,解决了强化学习中奖励函数怎么设计的问题。

传统RL的问题:依赖于人类设计的奖励函数,这在实际应用中往往非常困难且不够灵活,因为面临涉及复杂、定义不明确或难以指定的目标的任务时,很难定义奖励函数。而不正确或者有偏的奖励函数会导致reward hacking问题,导致训练出的模型不符合预期。而让人类实时的对模型当前行为进行反馈的成本又过高。

RLHF提出从人类给出的反馈中学习奖励函数,该奖励函数满足以下需求:

  1. 能够解决人类只能识别所需行为,但不一定能提供演示的任务

  2. 允许非专家用户进行示教

  3. 能扩展到大规模问题

  4. 用户给出反馈的成本不高

如下图所示,利用人类偏好来拟合奖励函数,同时利用RL算法优化当前预测的奖励函数。人类比较两个agent的行为轨迹片段哪个更好,而不是提供绝对数值分数。在某些领域中,人类更擅长比较agent的性能而不是给出绝对的评分,这种比较也能学习到人类偏好。比较agent轨迹片段与比较单个状态几乎一样快,比较轨迹片段明显更有帮助。在线地收集反馈可以提高系统的性能,并防止agent利用学到的奖励函数的弱点刷分。

                               

http://www.dtcms.com/a/344290.html

相关文章:

  • 无人机延时模块技术难点解析
  • 数字安全隐形基石:随机数、熵源与DRBG核心解析与技术关联
  • Kubernetes 构建高可用、高性能 Redis 集群
  • 服务器硬件中的磁盘SSD与HDD性能区别,以及分别适用于什么业务?
  • 高性能、高实时、高安全:如何在飞凌嵌入式i.MX95xx核心板上同时实现?
  • C++ 循环:从入门到精通的深度解析
  • KubeBlocks for MSSQL 高可用实现
  • 云原生(Cloud Native)技术概述
  • 企业级大模型解决方案:架构、落地与代码实现​
  • LeetCode 分类刷题:34. 在排序数组中查找元素的第一个和最后一个位置
  • Unreal Engine APawn 与 ACharacter 比较
  • 开发避坑指南(31):Oracle 11g LISTAGG函数使用陷阱,缺失WITHIN子句解决方案
  • 如何优雅统计知识库文件个数与子集下不同文件夹文件个数
  • Vue3源码reactivity响应式篇之Ref
  • Oracle APEX 经典报表中的Checkbox
  • 期货Level2五档订单簿0.25秒级高频分时及日频历史行情数据使用指南
  • Docker 部署 MySQL 8.0 完整指南:从拉取镜像到配置远程访问
  • 高级SQL优化 | 告别 Hive 中 GROUP BY 的大 KEY 数据倾斜!PawSQL 自适应优化算法详解
  • MsSQL 函数,实现数字转换成人民币大写
  • IDEA基础配置优化指南(中英双版)
  • matlab中随机森林算法的实现
  • AI重塑职业教育:个性化学习计划提效率、VR实操模拟强技能,对接就业新路径
  • 在Excel和WPS表格中如何隐藏单元格的公式
  • 视觉语言对比学习的发展史:从CLIP、BLIP、BLIP2、InstructBLIP(含MiniGPT4的详解)
  • 一分钟了解六通道 CAN(FD) 集线器
  • 第二阶段WinFrom-6:文件对话框,对象的本地保存,序列化与反序列化,CSV文件操作,INI文件读写
  • 【虚拟化】磁盘置备方式的性能损耗对比
  • k8s应用的包管理Helm工具
  • 基于国产麒麟操作系统的Web数据可视化教学解决方案
  • 【Java SE】深入理解继承与多态