DeepSeek大模型混合专家模型,DeepSeekMoE 重构 MoE 训练逻辑
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】
文章目录
- GPT多模态大模型与AI Agent智能体系列一百八十七
- DeepSeek大模型,动态偏差项 + 无 Token 丢弃:DeepSeekMoE 重构 MoE 训练逻辑
- 更多技术内容
- 总结
GPT多模态大模型与AI Agent智能体系列一百八十七
DeepSeek大模型,动态偏差项 + 无 Token 丢弃:DeepSeekMoE 重构 MoE 训练逻辑
在人工智能大语言模型蓬勃发展的时代浪潮里,DeepSeek凭借其卓越的技术实力脱颖而出,成为推动自然语言处理领域进步的关键力量。DeepSeek大语言模型由杭州深度求索人工智能基础技术研究有限公司推出,自2024年上线以来,迅速在行业内崭露头角。公司成立于2023年5月16日,虽成立时间不长,却凭借创新的技术理念和强大的研发能力,在大语言模型领域取得了令人瞩目的成绩。
DeepSeek以Transformer架构为基础,进行深度神经网络模型的自主研发。在其技术体系中,预训练是关键的一环,通过在海量语料数据上的训练,模型能够学习到丰富的语言知识和语义表达。之后,借助监督微调以及基于人类反馈的强化学习等技术,模型在语言理解和生成方面的能力得到进一步优化,更加贴合人类的语言习惯和使用需求。此外,DeepSeek还特别注重安全性,融入审核、过滤等安全机制,确保模型生成的内容既准确又合规,为用户提供安全可靠的使用体验。这一系列技术的协同作用,使得DeepSeek大语言模型具备强大的功能,能够在语义分析、计算推理、问答对话、篇章生成以及代码编写等多种场景中发挥出色的表现,广泛服务于企业端客户和开发者。
在DeepSeek众多的创新技术中,DeepSeek- R1和原生稀疏注意力(Native Sparse Attention,NSA)技术以及 DeepSeek-V3模型架构尤为突出。DeepSeek- R1旨在强化模型的推理能力,通过创新的训练方式,让模型在推理任务上取得了显著进展。其训练过程包含多个阶段,首先以大量精心收集的冷启动数据对基础模型进行微调,为后续的强化学习提供更优质的起始点。接着,运用强化学习对模型进行优化,在此过程中,不仅提升了模型在推理任务上的准确性,还引入了语言一致性奖励机制,有效解决了推理过程中语言混合的问题,使得模型输出更加清晰易懂。通过这一系列操作,DeepSeek- R1在多个推理任务基准测试中表现优异,例如在AIME 2024 测试中,其通过率达到了79.8%,超过了OpenAI-o1-1217等知名模型。
NSA技术则是DeepSeek在处理长上下文时的一大创新。随着长上下文建模需求的不断增加,传统注意力机制的高计算成本成为瓶颈。NSA技术通过动态分层稀疏策略,巧妙地结合粗粒度令牌压缩和细粒度令牌选择,实现了在保持全局上下文感知的同时,提高了计算效率。在处理长序列时,NSA将键和值组织成时间块,并通过三条注意力路径进行处理:压缩注意力路径用于获取粗粒度模式,选择注意力路径聚焦于重要的令牌块,滑动窗口注意力路径则负责捕捉局部上下文信息。这三条路径相互协作,使得模型在处理长文本时能够快速准确地定位关键信息,提升了模型对长上下文的处理能力。实验结果表明,在64k长度的序列处理中,NSA在解码、前向传播和反向传播阶段都比全注意力机制有显著的加速,且序列越长优势越明显。
而DeepSeek-V3模型架构则是DeepSeek技术实力的集大成者。它延续并优化了在 DeepSeek-V2中已得到验证的多头潜在注意力(Multi-head Latent Attention,MLA)和DeepSeekMoE架构。MLA架构通过对注意力键值的低秩联合压缩,有效减少了推理时的KV缓存,在降低内存占用的同时保证了性能。DeepSeekMoE架构则通过更细粒度的专家划分和共享专家机制,提升了模型的计算效率。在此基础上,DeepSeek-V3还引入了辅助损失无负载均衡策略和多Token预测(Multi-Token Prediction,MTP)训练目标。辅助损失无负载均衡策略通过为每个专家引入偏置项,动态调整专家负载,避免了传统辅助损失方法对模型性能的负面影响,实现了负载均衡与模型性能的良好平衡。MTP目标则扩展了模型的预测范围,使模型能够同时预测多个未来Token。MTP模块通过共享的嵌入层、输出头和Transformer块,对每个输入令牌进行多步预测,提高了数据利用效率和模型的预测能力。在训练过程中,通过计算每个预测深度的交叉熵损失并进行加权平均,得到整体的MTP损失,以此优化模型。
DeepSeek- R1、NSA技术与DeepSeek-V3模型架构相互配合,共同构成了DeepSeek强大的技术体系。这些技术的创新与应用,不仅让DeepSeek在大语言模型领域展现出卓越的性能,也为行业的发展提供了新的思路和方向。
从模型的训练过程来看,DeepSeek-V3在训练阶段充分利用了这些技术的优势。在预训练环节,DeepSeek-V3使用了15.8万亿高质量且多样化的Token进行训练,训练过程稳定且高效。这得益于其精心设计的训练框架,采用了FP8混合精度训练技术,结合定制的计算集群和优化的训练算法,使得训练效率大幅提升。在这个过程中,NSA技术发挥了重要作用,它能够在处理长序列数据时,有效减少计算量,加快训练速度,同时保持模型的准确性。例如,在面对大规模文本数据时,NSA技术可以通过动态分层稀疏策略,快速筛选出关键信息,避免对冗余信息的无效计算,从而提高训练效率。
在训练框架方面,DeepSeek-V3采用了多种优化技术。其中,DualPipe算法通过重叠计算和通信阶段,减少了流水线气泡,提高了计算资源的利用率。在跨节点全对全通信方面,定制的高效通信内核能够充分利用InfiniBand(IB)和NVLink的带宽,同时减少对计算资源的占用。此外,通过对内存的精细优化,如重新计算RMSNorm和MLA上投影操作、在 CPU中存储指数移动平均值等技术,使得在训练过程中能够有效减少内存占用,进一步提升训练效率。这些优化措施使得DeepSeek-V3在训练成本上具有显著优势,整个训练过程仅用了不到280万个GPU小时,花费约558.6万美元,相比其他同类大模型,训练成本大幅降低。
而在推理阶段,DeepSeek-V3同样展现出了强大的性能。基于MLA架构和NSA技术,模型能够快速处理输入数据,准确生成高质量的输出。在处理实际应用中的问题时,如智能客服场景下对用户问题的快速理解和准确回答,以及代码生成场景中高效生成符合需求的代码片段,DeepSeek-V3都表现出色。例如,在代码生成任务中,它能够根据用户提供的简单描述,快速生成逻辑正确、语法规范的代码,并且在生成过程中,能够充分利用其在训练过程中学习到的大量代码知识和模式,生成的代码具有较高的实用性和可读性。
DeepSeek- R1的推理能力强化也为 DeepSeek-V3在复杂任务处理上提供了有力支持。在面对需要逻辑推理的问题时,DeepSeek-V3能够借助 DeepSeek- R1的训练成果,更加准确地分析问题,找到解决方案。比如在数学问题求解和逻辑推理任务中,DeepSeek-V3能够利用DeepSeek- R1学习到的推理模式和思维方式,进行复杂的推理运算,得出准确的答案。这种不同技术之间的协同工作,使得DeepSeek-V3在面对多样化的任务时,都能够表现出卓越的性能。
从应用场景来看,DeepSeek-V3的强大性能使其在多个领域都具有广泛的应用前景。在智能教育领域,它可以作为智能辅导工具,根据学生的问题提供详细的解答和学习建议,帮助学生更好地理解知识,提高学习效果。在企业智能办公场景中,能够辅助员工进行文档撰写、数据分析等工作,提高工作效率和质量。在自然语言处理的研究领域,DeepSeek-V3也为研究人员提供了一个强大的工具,有助于推动相关领域的研究进展。
展望未来,DeepSeek将继续在这些核心技术的基础上进行创新和优化。随着硬件技术的不断发展,如GPU性能的进一步提升和新型硬件架构的出现,DeepSeek有望进一步提高模型的训练和推理效率。在模型架构方面,可能会探索更加先进的架构设计,进一步提升模型的性能和泛化能力。在训练数据方面,将不断扩大数据规模,提高数据质量,涵盖更多领域和语言,使模型能够学习到更丰富的知识。同时,也会进一步加强对安全和隐私保护的研究,确保模型在使用过程中的安全性和可靠性。
DeepSeek凭借其创新的技术体系,在大语言模型领域已经取得了显著的成绩。其核心技术不仅为当前的应用提供了强大的支持,也为未来的发展奠定了坚实的基础。相信在未来,DeepSeek将继续引领大语言模型技术的发展潮流,为人工智能领域的发展做出更大的贡献。
2.带无辅助损失负载均衡的DeepSeekMoE
在深度学习模型的架构设计中,DeepSeek-V3的DeepSeekMoE展现出诸多创新特性。以下将从其基本架构、负载均衡策略、辅助损失机制、路由方式以及Token处理等方面展开详细阐述。
1)DeepSeekMoE基本架构
在DeepSeek-V3里,前馈网络(Feedforward Network,FFN)运用了DeepSeekMoE架构,和传统的MoE架构比起来,DeepSeekMoE有独特的设计。它把专家划分得更细致,还设置了一部分共享专家。这样的设计能让模型在处理各种任务时,更灵活地调配专家资源,提升整体表现。在计算FFN输出时,会综合考虑输入以及不同类型专家的作用。这里涉及到共享专家和路由专家的数量、每个专家的具体功能,还有决定专家参与程度的门控值等因素。而且,DeepSeek-V3计算亲和度分数的方式和DeepSeek-V2有点不一样,它用Sigmoid函数来计算,并且会对选出来的亲和度分数做归一化处理,让模型在分配计算资源时更合理。
2)无辅助损失负载均衡
在MoE模型运行时,专家负载不均衡是个常见且很关键的问题,这可能会导致路由崩溃,让专家并行计算的效率变低。以前解决这个问题,大多靠添加辅助损失。但研究发现,辅助损失太大的话,模型性能会受影响。为了能更好地平衡负载和模型性能,DeepSeek-V3 提出了不用辅助损失的负载均衡策略。具体做法是,给每个专家都加一个偏差项,在做路由决策的时候,把这个偏差项加到亲和度分数里来决定选哪些专家。不过要注意,这个偏差项只在路由决策时有用,真正和FFN输出相乘的门控值,还是由原来的亲和度分数决定。在训练模型的过程中,我们会一直盯着每个训练步骤里所有专家的负载情况。每完成一步训练,要是发现某个专家负载过高,就把对应的偏差项减小;要是负载过低,就增大偏差项。通过这样动态调整偏差项,DeepSeek-V3在训练时能让专家负载保持平衡,比那些只靠辅助损失来平衡负载的模型表现更好。
3)互补的序列级辅助损失
虽然DeepSeek-V3主要靠无辅助损失策略来平衡负载,但为了避免单个序列里出现负载太不均衡的情况,还采用了一种序列级平衡损失的方法。这个方法会根据一些特定的计算规则,来鼓励每个序列上的专家负载尽量保持平衡。这里面涉及到一个平衡因子,它是个超参数,在DeepSeek-V3里,这个值会设置得特别小。还有指示函数,它会根据特定条件来判断,以及序列里Token的数量,这些因素共同作用,来实现对序列级负载平衡的调节。
4)节点限制路由
和DeepSeek-V2采用的设备限制路由类似,DeepSeek-V3也用了一种受限路由机制,目的是控制训练时的通信成本。简单来说,就是保证每个Token最多只会被发送到一定数量的节点。这些节点是根据分布在每个节点上专家的相关亲和度分数之和来挑选的。在这种限制下,DeepSeek-V3的MoE训练框架几乎能让计算和通信过程同时进行,提高整体效率。
5)无Token丢弃
因为DeepSeek-V3有有效的负载均衡策略,所以在整个训练过程中,它的负载都能保持得很好。这就使得在训练时,模型不会丢弃任何Token。而且,在推理阶段,设计了专门的部署策略来保证负载平衡,所以在推理过程中,DeepSeek-V3同样不会丢弃Token。
更多技术内容
更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。
总结
此文章有对应的配套新书教材和视频:
【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。
【配套视频】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏
实战驱动,掌握大模型开发全流程
智能涌现与 AGI 前瞻,抢占技术高地
上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄