DeepSeek后训练:监督微调策略,开启模型优化新时代
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】
文章目录
- GPT多模态大模型与AI Agent智能体系列一百八十九
- DeepSeek-V3 后训练:监督微调策略,开启模型优化新时代
- 更多技术内容
- 总结
GPT多模态大模型与AI Agent智能体系列一百八十九
DeepSeek-V3 后训练:监督微调策略,开启模型优化新时代
3.4 DeepSeek后训练
在深度学习模型的研发与优化进程中,后训练阶段是赋予模型更强实用性和适应性的关键环节。对于DeepSeek-V3模型而言,后训练阶段的监督微调与强化学习等操作,如同为模型进行精细打磨和能力拓展,使其能够更好地应对复杂多样的实际任务。监督微调通过精心整理和处理不同领域的数据,让模型学习到更贴合实际应用的知识和技能;强化学习则借助独特的奖励模型和优化策略,引导模型不断提升性能和表现。接下来将深入探讨DeepSeek-V3在后训练阶段所采取的具体策略和方法,以及这些措施如何助力模型实现性能的飞跃。
3.5.1 监督微调
在监督微调阶段,为了让DeepSeek-V3模型能更好地适应多样化的实际应用场景,对指令调整数据集进行了精心整理。这个数据集规模庞大,包含了150万个实例,且覆盖了多个不同领域。由于各个领域的特性和需求各异,因此针对不同领域采用了特定的数据创建方法。
1.推理数据
推理相关的数据集涵盖了数学、代码竞赛问题以及逻辑谜题等内容。在生成这些数据时,借助了内部的DeepSeek-R1模型。DeepSeek-R1模型生成的数据具有较高的准确性,但也存在一些明显的不足,比如生成的答案常常过度思考,导致表述过于复杂;格式不够规范,影响可读性;长度过长,增加了信息提取的难度。因此,面临的挑战是如何在DeepSeek-R1数据的高准确性与常规格式推理数据所具备的清晰简洁之间找到平衡。
为解决这一问题,首先针对代码、数学或通用推理等特定领域,开发了一个专家模型。该专家模型的训练采用了监督微调(Supervised Fine-Tuning,SFT)和强化学习(Reinforcement Learning,RL)相结合的流程。这个专家模型在后续的工作中扮演着为最终模型生成数据的重要角色。
在训练过程中,针对每个实例会生成两种不同类型的SFT样本。第一种样本是将问题与其原始答案按照<问题,原始答案>的格式进行配对。第二种样本则更为复杂,它在问题和DeepSeek-R1生成的答案基础上,加入了精心设计的系统提示,格式为<系统提示,问题,R1答案>。系统提示中包含了引导模型生成带有反思和验证机制答案的指令,其目的是让模型生成的答案更加完善和可靠。
在强化学习阶段,模型通过高温采样生成答案。在这个过程中,即使没有明确的系统提示,模型也能够融合DeepSeek-R1生成的数据模式以及原始数据中的模式。经过数百次的RL步骤训练后,中间的RL模型逐渐学会了融入DeepSeek-R1的模式,这种学习成果能够战略性地提升模型的整体性能。
在完成RL训练阶段后,采用拒绝采样的方式,以专家模型作为数据生成源,为最终模型筛选高质量的SFT数据。通过这种方式筛选出的数据,既保留了DeepSeek-R1的优势,又能生成简洁有效的答案,为最终模型的训练提供了优质的数据基础。
2.非推理数据
对于非推理数据,像创意写作、角色扮演和简单问答等类型,采用了不同的处理方式。利用DeepSeek-V2.5模型来生成答案,然后邀请专业的人工标注员对生成的数据进行验证,确保数据的准确性和正确性。人工标注员凭借专业知识和经验,仔细检查数据是否符合相应的要求,将存在错误或不合理的部分进行修正或剔除,从而保证非推理数据的质量。
3.SFT设置
利用整理好的SFT数据集对DeepSeek-V3基础模型进行了两轮微调。在微调过程中,采用余弦退火学习率调度策略。学习率从一个较高的初始值开始,随着训练的推进逐渐降低。在训练过程中,每个单独的序列由多个样本打包组成。为了避免样本之间相互干扰,采用了样本掩码策略,确保这些示例在训练过程中相互隔离,彼此不可见。这样可以让模型专注于每个样本自身的特征和规律,提高微调的效果,使DeepSeek-V3模型能够更好地学习到数据中的有效信息,从而提升在各种任务中的表现。
更多技术内容
更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。
总结
此文章有对应的配套新书教材和视频:
【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。
【配套视频】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏
实战驱动,掌握大模型开发全流程
智能涌现与 AGI 前瞻,抢占技术高地
上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄