当前位置：首页 > news >正文

DeepSeek指令微调与强化学习对齐：从SFT到RLHF

news 2025/7/3 22:50:47

后训练微调的重要性

预训练使大模型获得丰富的语言和知识表达能力，但其输出往往与用户意图和安全性需求不完全匹配。业内普遍采用三阶段训练流程：预训练 → 监督微调（SFT）→ 人类偏好对齐（RLHF）。预训练阶段模型在大规模语料上学习语言规律；监督微调利用人工标注的数据让模型更擅长理解和执行指令；对齐阶段则通过强化学习或其他方法进一步优化，使模型输出更有用、符合人类偏好并更安全。这种后续微调策略显著提高了模型的实用性和安全性，弥补了纯预训练模型的局限。

DeepSeek的指令微调策略

以DeepSeek V2为例，其指令微调数据集规模高达约150万条。其中，**“有益”数据约120万条（包括对话、数学题、编程题等），“安全”**数据约30万条（涵盖各种敏感问题及拒绝回答的多样化示例）。这些数据经人工和算法共同筛选以提升质量，减少模型幻觉和不当回答。微调过程中，模型的训练目标是使其生成符合示范答案的高质量回复，即最大化正确回答的可能性并注重准确性。在实际经验中，大规模高质量的SFT数据往往能显著提升模型表现，DeepSeek V2在这个数据集上训练了多轮（2个epoch）微调，学习率很低（约5×10^-6）

查看全文

http://www.dtcms.com/a/196456.html