当前位置：首页 > news >正文

强化学习概述及学习流程

news 2025/7/1 13:54:35

在大语言模型的训练流程中，有监督微调虽然能让模型初步具备遵循人类指令的能力，但存在诸多局限。而强化学习通过整体评估模型输出、依赖反馈进行学习，成为大语言模型构建中不可或缺的关键步骤。本文将详细介绍强化学习的基础概念、与有监督学习的区别，以及基于人类反馈的强化学习流程。

一、强化学习概述

强化学习（Reinforcement Learning，RL）研究的是智能体与环境交互的问题，目标是使智能体在复杂且不确定的环境中最大化奖励。其基本框架主要由智能体和环境两部分组成，在训练过程中，智能体不断与环境交互：智能体从环境中获取状态，输出动作（决策），环境则根据动作返回下一个状态及当前动作的奖励。

1、核心概念

以机器狗学习抓飞盘为例，可清晰理解强化学习的核心概念：

智能体与环境：机器狗是智能体，负责做出决策并执行动作；飞盘的飞行轨迹、速度等构成环境，环境会以奖励形式对智能体的行为给予反馈。
状态、行为与奖励：状态是智能体对当前环境的评估（如飞盘的位置、速度）；动作是智能体基于状态采取的行动（如跳跃、奔跑）；奖励是环境对动作的反馈（成功抓住飞盘为正奖励，错过为负奖励）。
策略与价值：策略是智能体在特定状态下的行动规则；价值函数用于预测未来采取某一行为能带来的奖励，帮助智能体评估状态的好坏。

强化学习的目标是让智能体通过与环境的互动，学习到能最大化未来奖励的策略，在短期奖励与远期奖励之间找到平衡。

2、智能体类型

基于价值的智能体：显式学习价值函数，策略从价值函数中推算得出。
基于策略的智能体：直接学习策略函数，不单独学习价值函数，价值隐式体现在策略中。
演员–评论员智能体：结合前两种智能体的特点，既学习策略函数（演员），又学习价值函数（评论员），通过两者交互得到最佳动作。

二、强化学习与有监督学习的区别

可以用旅行方式类比两种学习方式的核心差异：

对比维度	有监督学习	强化学习
数据来源	如同旅行指南，提供清晰的问题 - 答案对	如同陌生城市，无明确指南，需自主探索
反馈机制	实时告知动作是否正确（如 “这条路对不对”）	仅告知结果好坏（如 “这家餐厅是否合适”），需通过试错调整
目标	掌握所有 “标准答案”（参观指南上的所有景点）	学习在环境中高效行动（找到最佳路径）

强化学习在大语言模型中的优势

考虑整体影响：有监督学习针对单个词元反馈，依赖交叉熵损失，对个别词元变化不敏感（如否定词可能完全改变语义但损失变化小）；而强化学习针对整体输出反馈，兼顾表达多样性和对微小变化的敏感性，更适合自然语言的灵活性。
缓解幻觉问题：有监督学习易导致模型在未知问题上强行输出答案（产生幻觉）；强化学习可通过定制奖励函数（正确答案高分、放弃回答中低分、错误答案高负分），促使模型在未知时选择不回答。
解决多轮对话奖励累积问题：多轮对话的最终目标需考虑整体交互过程，有监督学习难以构建；强化学习通过奖励函数对对话的连贯性和背景进行整体评估，优化多轮对话能力。