当前位置: 首页 > news >正文

强化学习概述及学习流程

在大语言模型的训练流程中,有监督微调虽然能让模型初步具备遵循人类指令的能力,但存在诸多局限。而强化学习通过整体评估模型输出、依赖反馈进行学习,成为大语言模型构建中不可或缺的关键步骤。本文将详细介绍强化学习的基础概念、与有监督学习的区别,以及基于人类反馈的强化学习流程。

一、强化学习概述

强化学习(Reinforcement Learning,RL)研究的是智能体与环境交互的问题,目标是使智能体在复杂且不确定的环境中最大化奖励。其基本框架主要由智能体和环境两部分组成,在训练过程中,智能体不断与环境交互:智能体从环境中获取状态,输出动作(决策),环境则根据动作返回下一个状态及当前动作的奖励。

1、核心概念

以机器狗学习抓飞盘为例,可清晰理解强化学习的核心概念:

  • 智能体与环境:机器狗是智能体,负责做出决策并执行动作;飞盘的飞行轨迹、速度等构成环境,环境会以奖励形式对智能体的行为给予反馈。
  • 状态、行为与奖励:状态是智能体对当前环境的评估(如飞盘的位置、速度);动作是智能体基于状态采取的行动(如跳跃、奔跑);奖励是环境对动作的反馈(成功抓住飞盘为正奖励,错过为负奖励)。
  • 策略与价值:策略是智能体在特定状态下的行动规则;价值函数用于预测未来采取某一行为能带来的奖励,帮助智能体评估状态的好坏。

强化学习的目标是让智能体通过与环境的互动,学习到能最大化未来奖励的策略,在短期奖励与远期奖励之间找到平衡。

2、智能体类型

  • 基于价值的智能体:显式学习价值函数,策略从价值函数中推算得出。
  • 基于策略的智能体:直接学习策略函数,不单独学习价值函数,价值隐式体现在策略中。
  • 演员–评论员智能体:结合前两种智能体的特点,既学习策略函数(演员),又学习价值函数(评论员),通过两者交互得到最佳动作。

二、强化学习与有监督学习的区别

可以用旅行方式类比两种学习方式的核心差异:

对比维度有监督学习强化学习
数据来源如同旅行指南,提供清晰的问题 - 答案对如同陌生城市,无明确指南,需自主探索
反馈机制实时告知动作是否正确(如 “这条路对不对”)仅告知结果好坏(如 “这家餐厅是否合适”),需通过试错调整
目标掌握所有 “标准答案”(参观指南上的所有景点)学习在环境中高效行动(找到最佳路径)

强化学习在大语言模型中的优势

  1. 考虑整体影响: 有监督学习针对单个词元反馈,依赖交叉熵损失,对个别词元变化不敏感(如否定词可能完全改变语义但损失变化小);而强化学习针对整体输出反馈,兼顾表达多样性和对微小变化的敏感性,更适合自然语言的灵活性。

  2. 缓解幻觉问题: 有监督学习易导致模型在未知问题上强行输出答案(产生幻觉);强化学习可通过定制奖励函数(正确答案高分、放弃回答中低分、错误答案高负分),促使模型在未知时选择不回答。

  3. 解决多轮对话奖励累积问题: 多轮对话的最终目标需考虑整体交互过程,有监督学习难以构建;强化学习通过奖励函数对对话的连贯性和背景进行整体评估,优化多轮对话能力。

三、基于人类反馈的强化学习(RLHF)

大语言模型部署时需考虑安全性与人类价值观对齐,模型输出应满足帮助性(Helpfulness)、真实性(Honesty)、无害性(Harmless) 的 3H 原则。基于人类反馈的强化学习(RLHF)正是实现这一目标的关键方法。

1、核心流程

RLHF 主要分为两个步骤:

  1. 奖励模型训练: 利用人类标注的偏好数据学习人类偏好,判断模型回复的有用性和无害性,为后续训练提供奖励信号。

  2. 近端策略优化(PPO): 基于奖励模型的反馈,使用 PPO 算法微调语言模型,通过迭代让模型探索更符合人类偏好的回复策略。

2、PPO 涉及的模型

  • 策略模型(Policy Model):生成模型回复。
  • 奖励模型(Reward Model):输出奖励分数评估回复质量。
  • 评论模型(Critic Model):预测回复好坏,实时调整模型以选择未来累积收益最大的行为。
  • 参考模型(Reference Model):备份 SFT 模型,防止策略变化过于极端,维持稳定性。

3、PPO 实施流程

  1. 环境采样:策略模型生成回复,奖励模型对回复打分获得奖励。
  2. 优势估计:评论模型预测未来累积奖励,结合广义优势估计(GAE)算法评估每次行动的优势。
  3. 优化调整:利用优势函数优化策略模型,同时通过参考模型限制策略变化幅度,保证稳定性。

总结

强化学习通过智能体与环境的交互、基于反馈最大化奖励,弥补了有监督学习在大语言模型训练中的不足。基于人类反馈的强化学习(RLHF)借助奖励模型和 PPO 算法,使模型输出更符合人类偏好和 3H 原则,成为构建高性能、安全可靠的通用对话模型的核心技术。

http://www.dtcms.com/a/263357.html

相关文章:

  • 视频讲解:门槛效应模型Threshold Effect分析数字金融指数与消费结构数据
  • spring-ai 工作流
  • LG 将正式终止手机相关服务,彻底告别手机市场
  • 机器人、灵巧手动捕方案 | 突破底层适配,动捕数据直通仿真平台
  • 【科研绘图系列】R语言绘制世界地图分布(world map)
  • 【数据挖掘】数据挖掘综合案例—银行精准营销
  • 衡石科技chatbot分析手册--钉钉数据问答机器人配置
  • 纯前端本地文件管理器(VSCode风格)(浏览器对本地文件增删改查)
  • 阿里云计算巢私有化MCP市场:企业级AI工具的安全部署新选择
  • hono+postgresql+CURD
  • 华为云Flexus+DeepSeek征文 | 从零开始搭建Dify-LLM应用开发平台:华为云全流程单机部署实战教程
  • FPGA实现CameraLink视频解码转SDI输出,基于LVDS+GTX架构,提供2套工程源码和技术支持
  • 如何让Excel自动帮我们算加减乘除?
  • Python 数据分析与机器学习入门 (一):环境搭建与核心库概览
  • DAY 43 预训练模型
  • RWKV-8 系列之 DeepEmbedAttention:精简 KV 缓存,尤其适合混合模型(RWKV-7s)
  • 创客匠人方法论:从 0 到 1 打造创始人 IP 的实战框架
  • pytorch底层原理学习--PyTorch 架构梳理
  • 3.前端和后端参数不一致,后端接不到数据的解决方案
  • 16014.rtsp推流服务器
  • 详解Kafka如何保证消息可靠性
  • 大语言模型(LLM)笔记
  • YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-instance.py
  • [15-2] 读写内部FLASH读取芯片ID 江协科技学习笔记(20个知识点)
  • MySQL DATETIME 类型时间精度陷阱:一次由毫秒引发的数据“消失”之谜
  • 【Actix Web】Rust Web开发实战:Actix Web框架全面指南(2025企业级应用版)
  • java初学习(-2025.6.30小总结)
  • TCP 三次握手协商 MSS 前,如何确定 MSS 值
  • SQL规范
  • 【软考高项论文】论信息系统项目的范围管理