当前位置: 首页 > news >正文

Post-training of LLMs

大模型后训练的三种主要方式:

  • 监督微调(SFT):作为最简单且最流行的后训练方法,它属于监督学习/模仿学习范畴。需要创建包含标注的提示-响应对数据集,其中提示通常是给模型的指令,响应则是模型应有的理想回答。此过程仅需1,000至10亿个标记,远少于预训练规模。其训练损失的关键区别在于:仅对响应标记进行训练,而不涉及提示标记。
  • 直接偏好优化(DPO):该方法需要创建包含提示及其对应优质/劣质响应的数据集。针对任一提示,可生成多个响应并筛选出优质与劣质样本。训练目标是使模型远离劣质响应并学习优质响应。该方法同样仅需1,000至10亿个标记,并采用更复杂的损失函数(后续课程将详细展开)。
  • 在线强化学习(Online RL):此方法只需准备提示集和奖励函数。从提示开始,让语言模型生成响应,再通过奖励函数对该响应进行评分,最后利用该信号更新模型。通常需要1,000至1,000万(或更多)个提示,目标是通过模型自身生成的响应来最大化奖励值。

SFT:

SFT(Supervised Fine-Tuning,监督微调)是一种常见的模型微调方法。它的基本思想是基于已经预训练好的模型,在特定任务上利用标注数据进行监督学习,从而进一步优化模型的表现。

在SFT中,预训练模型首先被加载并固定在初始状态。然后,在给定的标注数据集上进行微调。与一般的微调方法类似,SFT的目标是通过引入任务特定的监督信号(例如标签或目标输出),让模型在目标任务上进一步优化。

SFT的优势
  1. 提高模型性能:通过在特定任务的数据上进行微调,模型可以显著提高在该任务上的表现。
  2. 减少标注数据需求:由于预训练模型已经在大量数据上进行过训练,SFT通常只需要较少的标注数据即可达到良好的效果。
  3. 灵活性:SFT可以应用于各种任务,如文本分类、情感分析、机器翻译等。

DPO:

DPO(Direct Preference Optimization)是一种用于对齐大语言模型(LLMs)的新型方法,旨在高效地将人类偏好融入模型训练中。它提供了一种替代强化学习(如 RLHF, Reinforcement Learning with Human Feedback)的方式,能够直接优化偏好数据,而无需显式地引入奖励模型(Reward Model)或策略梯度方法。

工作原理

逐步流程
  1. 数据收集:收集模型的不同输出,以及人类对这些输出的偏好判断。例如,让模型生成两篇不同的文案,然后让人类评判更喜欢哪一篇。
  2. 损失函数定义:设计一个损失函数,用于衡量模型输出与人类偏好之间的差距。损失函数就像一个裁判,告诉模型它的输出离人类偏好有多远。
  3. 模型参数更新:根据损失函数的计算结果,使用优化算法更新模型的参数,使模型的输出更接近人类偏好。就像大厨根据顾客反馈调整蛋糕配方一样。
  4. 重复训练:不断重复上述步骤,直到模型的输出能很好地符合人类偏好。

关键要点

  1. 直接偏好优化(DPO)是一种通过利用人类偏好来训练模型的有效方法,能提升模型输出与人类期望的契合度。
  2. 它具有提升用户体验、降低成本等优点,在多个行业有广泛应用前景。

在线强化学习On-Policy

1.在线强化学习和离线强化学习

强化学习(Reinforcement Learning, RL)是一种通过与环境交互来学习最优策略的方法。其中,Online RL和Offline RL是两种主要的范式:

  • Online RL: 通过实时与环境交互生成数据进行学习。
  • Offline RL: 基于预收集的静态数据集训练,无需实时交互。

两者的区别在于数据来源和使用方式的不同。Online RL依赖实时生成的数据,而Offline RL则利用已有的历史数据。

2. 数据利用效率比较

从数据利用效率的角度来看,Offline RL通常被认为高于Online RL,主要原因如下:

  1. 数据重复利用: Offline RL可以反复使用历史数据进行训练,而Online RL中的每个样本通常只被使用一次或少数几次。
  2. 批量处理: Offline RL可以通过批量处理技术一次性对大量数据进行优化,提高计算效率。
  3. 数据增强技术: Offline RL可以结合数据增强方法生成更多样化的训练样本,进一步提升数据利用率。

然而,Offline RL也面临分布偏移问题,即训练数据的分布可能与实际应用中的分布不一致,这需要通过保守策略优化等方法缓解。

3. 场景适用性分析

不同场景下,Online RL和Offline RL各有优劣:

场景特点适合的RL类型原因
高风险环境Offline RL避免因实时交互导致的潜在风险。
低交互成本Online RL能够快速适应环境变化。
数据稀缺Offline RL充分利用有限的历史数据。

在交互成本高昂或数据采集困难的场景中,Offline RL的高效数据利用能力显得尤为重要。

http://www.dtcms.com/a/477712.html

相关文章:

  • 【学习总结】AI接口测试-零基础从接口概念到客达天下系统Apifox+DeepSeek接口测试实战全流程
  • 【苍穹外卖笔记】Day04--套餐管理模块
  • 初识redis(分布式系统, redis的特性, 基本命令)
  • [特殊字符] Avalonia + Silk.NET 加载 3D 模型时 GenBuffer 返回 0?这是个底层兼容性陷阱!
  • 学习threejs,打造交互式花卉生成器
  • Redis 学习笔记(二)
  • 北京展览馆网站建设wordpress插件排列
  • 北京做网站优化多少钱最基本最重要的网站推广工具是
  • 每日算法刷题Day70:10.13:leetcode 二叉树10道题,用时2h
  • MySQL 设置远程 IP 连接方式(含自动检测授权脚本)
  • flash型网站网址高校思政课网站建设
  • 网站建设费做什么会计科目硬件开发外包平台
  • 【SpringBoot从初学者到专家的成长15】MVC、Spring MVC与Spring Boot:理解其差异与联系
  • Docker 存储与数据共享
  • k8s storageclasses nfs-provisioner 部署
  • Linux(Samba服务)
  • 电商智能客服进化论:多轮对话+意图识别+知识推荐系统开发
  • 算法198. 打家劫舍
  • 刚学做网站怎么划算全栈网站开发工程师
  • 长春网站优化公司wordpress目录遍历漏洞
  • 华为OD-23届考研-Java面经
  • 10.9 鸿蒙创建和运行项目
  • delphi调用C#编写的DLL
  • 从API调用到智能体编排:GPT-5时代的AI开发新模式
  • C++学习录(1):C++入门简介,从零开始
  • 电力专用多功能微气象监测装置在电网安全运维中的核心价值是什么?
  • 科研快报 |声波“听”见火灾温度:混合深度学习重构三维温度场
  • 从超级大脑到智能毛细血管:四大技术重构智慧园区生态版图
  • 旅游网站建设方案书制作一个网站平台需要多少钱
  • SQL入门:集合运算实战指南