当前位置: 首页 > news >正文

【大模型】大模型微调-RLHF(强化学习)

上篇介绍了PEFT(LORA)参数微调,这篇介绍RLHF(基于人类反馈的强化学习)

RLHF

  1. 背景与目标

大模型(如 GPT、LLaMA 等)在 预训练阶段 学到的是 预测下一个 token 的能力,但:

它生成的回答可能 不符合人类偏好(冗长、跑题、有害内容)。

单纯监督微调(SFT)只能让模型模仿数据,缺乏对“质量/偏好”的优化。

因此,需要一种方法让模型输出 更符合人类期望 —— 这就是 RLHF。

  1. RLHF 的三大核心阶段
    (1) 监督微调(Supervised Fine-Tuning, SFT)

数据:人工编写的 高质量问答对。

方法:用这些数据 微调预训练模型。

结果:得到一个初步的 “对齐模型”,它能回答问题,但还不一定稳定。

(2) 奖励模型(Reward Model, RM)训练

数据:人工对 多个模型输出 进行 排序/偏好标注,如:

Prompt: "解释相对论"
答案 A: 很简洁,科学准确
答案 B: 冗长且啰嗦
→ 人类选择 A 
http://www.dtcms.com/a/361130.html

相关文章:

  • 技术速递|构建你的第一个 MCP 服务器:如何使用自定义功能扩展 AI 工具
  • 分享智能电动窗帘方案
  • 串口通讯个人见解
  • 智能核心:机器人芯片的科技革新与未来挑战
  • 【STM32】贪吃蛇 [阶段 8] 嵌入式游戏引擎通用框架设计
  • 山东教育报省级报刊简介
  • Axios拦截器:前端通信的交通警察[特殊字符]
  • 手机网络IP归属地更改方法总结
  • 人工智能-python-深度学习-项目全流程解析
  • LeetCode刷题记录----74.搜索二维矩阵(Medium)
  • 2025年中国GEO优化服务商全景分析:技术演进、核心能力与选型指南
  • 设计模式14-组合模式
  • 内存管理 - 从虚拟到物理
  • ADSL 代理 Proxy API 申请与使用指南
  • 前端安全防护深度实践:从XSS到CSRF的完整安全解决方案
  • T507 音频调试
  • 在 Qt 中:QString 好,还是 std::string 好?
  • DVWA靶场通关笔记-Weak Session IDs (Impossible级别)
  • 【Flask】测试平台开发,实现全局邮件发送工具 第十二篇
  • 【SpringBoot】20 - SpringBoot中的Ajax和MyBatis究竟是什么?
  • 【lucene核心】impacts的由来
  • 【Web安全】CRLF注入攻击深度解析:原理、场景与安全测试防御指南
  • hive表不显示列注释column comment的问题解决
  • 【Proteus仿真】蜂鸣器控制系列仿真——蜂鸣器控制/蜂鸣器播放音乐/蜂鸣器播放多种音乐/蜂鸣器和LED组成报警装置
  • UE5 C++ 第三方动态库的使用
  • 【数据库】openGauss 6.0 单机自动化安装最佳实践
  • MTK-Android13-实现拷贝预置资源到vendor分区下
  • Java全栈学习笔记27
  • 深度解析条件编译:#ifdef与#ifndef的本质区别与应用实践
  • Dify中使用SearXNG