当前位置：首页 > news >正文

RLHF的定义

news 2025/8/23 7:08:40

RLHF的定义首先由《Deep Reinforcement Learning from Human Preferences》提出，解决了强化学习中奖励函数怎么设计的问题。

传统RL的问题：依赖于人类设计的奖励函数，这在实际应用中往往非常困难且不够灵活，因为面临涉及复杂、定义不明确或难以指定的目标的任务时，很难定义奖励函数。而不正确或者有偏的奖励函数会导致reward hacking问题，导致训练出的模型不符合预期。而让人类实时的对模型当前行为进行反馈的成本又过高。

RLHF提出从人类给出的反馈中学习奖励函数，该奖励函数满足以下需求：

能够解决人类只能识别所需行为，但不一定能提供演示的任务
允许非专家用户进行示教
能扩展到大规模问题
用户给出反馈的成本不高

如下图所示，利用人类偏好来拟合奖励函数，同时利用RL算法优化当前预测的奖励函数。人类比较两个agent的行为轨迹片段哪个更好，而不是提供绝对数值分数。在某些领域中，人类更擅长比较agent的性能而不是给出绝对的评分，这种比较也能学习到人类偏好。比较agent轨迹片段与比较单个状态几乎一样快，比较轨迹片段明显更有帮助。在线地收集反馈可以提高系统的性能，并防止agent利用学到的奖励函数的弱点刷分。

http://www.dtcms.com/a/344290.html

相关文章：

无人机延时模块技术难点解析

数字安全隐形基石：随机数、熵源与DRBG核心解析与技术关联

Kubernetes 构建高可用、高性能 Redis 集群

服务器硬件中的磁盘SSD与HDD性能区别，以及分别适用于什么业务？

高性能、高实时、高安全：如何在飞凌嵌入式i.MX95xx核心板上同时实现？

C++ 循环：从入门到精通的深度解析

KubeBlocks for MSSQL 高可用实现

云原生（Cloud Native）技术概述

企业级大模型解决方案：架构、落地与代码实现

LeetCode 分类刷题：34. 在排序数组中查找元素的第一个和最后一个位置

Unreal Engine APawn 与 ACharacter 比较

开发避坑指南(31)：Oracle 11g LISTAGG函数使用陷阱，缺失WITHIN子句解决方案

如何优雅统计知识库文件个数与子集下不同文件夹文件个数

Vue3源码reactivity响应式篇之Ref

Oracle APEX 经典报表中的Checkbox

期货Level2五档订单簿0.25秒级高频分时及日频历史行情数据使用指南

Docker 部署 MySQL 8.0 完整指南：从拉取镜像到配置远程访问

高级SQL优化 | 告别 Hive 中 GROUP BY 的大 KEY 数据倾斜！PawSQL 自适应优化算法详解

MsSQL 函数，实现数字转换成人民币大写

IDEA基础配置优化指南（中英双版）

matlab中随机森林算法的实现

AI重塑职业教育：个性化学习计划提效率、VR实操模拟强技能，对接就业新路径

在Excel和WPS表格中如何隐藏单元格的公式

视觉语言对比学习的发展史：从CLIP、BLIP、BLIP2、InstructBLIP(含MiniGPT4的详解)

一分钟了解六通道 CAN（FD）集线器

第二阶段WinFrom-6：文件对话框，对象的本地保存，序列化与反序列化，CSV文件操作，INI文件读写

【虚拟化】磁盘置备方式的性能损耗对比

k8s应用的包管理Helm工具

基于国产麒麟操作系统的Web数据可视化教学解决方案

【Java SE】深入理解继承与多态