当前位置: 首页 > news >正文

DeepSeek指令微调与强化学习对齐:从SFT到RLHF

后训练微调的重要性

预训练使大模型获得丰富的语言和知识表达能力,但其输出往往与用户意图和安全性需求不完全匹配。业内普遍采用三阶段训练流程:预训练 → 监督微调(SFT)→ 人类偏好对齐(RLHF)。预训练阶段模型在大规模语料上学习语言规律;监督微调利用人工标注的数据让模型更擅长理解和执行指令;对齐阶段则通过强化学习或其他方法进一步优化,使模型输出更有用、符合人类偏好并更安全。这种后续微调策略显著提高了模型的实用性和安全性,弥补了纯预训练模型的局限。

DeepSeek的指令微调策略

以DeepSeek V2为例,其指令微调数据集规模高达约150万条。其中,**“有益”数据约120万条(包括对话、数学题、编程题等),“安全”**数据约30万条(涵盖各种敏感问题及拒绝回答的多样化示例)。这些数据经人工和算法共同筛选以提升质量,减少模型幻觉和不当回答。微调过程中,模型的训练目标是使其生成符合示范答案的高质量回复,即最大化正确回答的可能性并注重准确性。在实际经验中,大规模高质量的SFT数据往往能显著提升模型表现,DeepSeek V2在这个数据集上训练了多轮(2个epoch)微调,学习率很低(约5×10^-6)

相关文章:

  • 【Linux笔记】——Linux线程封装
  • Transformer 架构在目标检测中的应用:YOLO 系列模型解析
  • 进阶-数据结构部分:3、常用查找算法
  • [Windows] 系统综合优化工具 RyTuneX 1.3.1
  • 最小二乘法拟合平面(线性回归法、梯度下降、PCA法)
  • 2025年PMP 学习十七 第11章 项目风险管理 (11.1~11.4)
  • GitHub文档加载器设计与实现
  • mAP、AP50、AR50:目标检测中的核心评价指标解析
  • 如何分析动态采样引起的计划不稳定 | OceanBase SQL 调优实践
  • MODBUS RTU通信协议详解与调试指南
  • 建筑兔零基础人工智能自学记录94|模式识别(上)-9
  • 在Maven中替换文件内容的插件和方法
  • 深入解析Spring Boot与JUnit 5的集成测试实践
  • Git 多人协作
  • pip升级或者安装报错怎么办?
  • 每日算法刷题Day9 5.17:leetcode定长滑动窗口3道题,用时1h
  • 数据库原理及其应用 第六次作业
  • printf耗时高的原因
  • Qt Widgets模块功能详细说明,基本控件:QLabel(一)
  • Go 语言的 GMP 模型
  • 2024年全国博物馆接待观众14.9亿人次
  • 柬埔寨果农:期待柬埔寨榴莲走进中国市场
  • 国内规模最大女子赛艇官方赛事在沪启航,中外41支队伍逐浪
  • 当“小铁人”遇上青浦,看00后如何玩转长三角铁三
  • 日本一季度实际GDP环比下降0.2%
  • 魔都眼|锦江乐园摩天轮“换代”开拆,新摩天轮暂定118米