大模型—— DeepSeek V3.1 Base / Instruct 发布
DeepSeek V3.1 Base / Instruct 发布
昨晚 [DeepSeek] V3.1 Base / Instruct 在 Hugging Face 上低调发布,但引起了巨大的社区反响。
🔑 更新亮点
- 双版本发布:V3.1 Base(MIT开源许可)与 Instruct。
- 架构基本未改:与 V3 架构/配置差别不大,此次主要是 后训练优化,并可能在尝试 Anthropic 风格的 “no-think / think” 混合模式。
- MIT 开源许可:罕见的大体量基础模型采用宽松许可证,极具战略意义。
📊 参数规模
- Hugging Face 卡片显示 参数规模 >685B,是目前最大的开源模型之一,远超主流 LLaMA / Mistral 系列。
- 社区普遍认为这是对 GPT-5 等闭源模型的“对标性开源举措”。