
1. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
发布时间: 2024 年 1 月 5 日
主要内容:
基于 Transformer 架构,采用分组查询注意力(GQA)优化推理成本。
支持多步学习率调度器,提升训练效率。
在预训练和对齐(监督微调与 DPO)方面进行了创新。
论文地址: 已打包上传,地址见文末
2. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
发布时间: