当前位置: 首页 > news >正文

DeepSeek-V3-0324 版本升级概要

DeepSeek-V3-0324 魔搭社区汇聚各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。https://modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324

发布背景与改进

根DeepSeek-V3-0324 展示了以下关键改进:

  • 推理性能提升:研究表明,该模型在多个基准测试中表现优异。例如,MMLU-Pro 从 75.9% 提升至 81.2%(+5.3%),GPQA 从 59.1% 提升至 68.4%(+9.3%),AIME 从 39.6% 提升至 59.4%(+19.8%),LiveCodeBench 从 39.2% 提升至 49.2%(+10.0%)。在 MMLU-Pro 达到 81.6%,MATH-500 达到 90.8%,领先于 Qwen-Max、GPT-4.5 和 Claude-Sonnet-3.7。

  • 前端开发技能增强:模型在代码可执行性和网页美观性上有所改进,特别适合生成更具吸引力的前端页面和游戏界面。

  • 工具使用能力提升:官方文档显示,模型在功能调用(Function Calling)方面准确性提高,修复了之前版本的问题,支持 JSON 输出和 FIM 完成。

使用建议

        对于非复杂推理任务,建议关闭“DeepThink”功能以优化性能。“DeepThink”似乎是一个深度推理模式,可能增加计算开销,适合复杂任务。

  • 系统提示:在官方DeepSeek网页/应用中使用带有特定日期的系统提示。
  • 温度参数设置:在Web和应用环境中,模型温度参数Tmodel设置为0.3,通过API调用时,温度1.0将映射到0.3。
  • 文件上传和网页搜索提示:提供了文件上传和网页搜索的提示模板,包括如何引用搜索结果和格式化回答。

性能与基准测试

DeepSeek-V3-0324 在以下基准测试中表现突出:

基准测试

DeepSeek-V3-0324 表现

与其他模型比较

MMLU-Pro

81.6%

领先 Qwen-Max (75.8%)、GPT-4.5 (71.4%)

GPOA

90.8%

领先 Qwen-Max (87.2%)、GPT-4.5 (84.0%)

MATH-500

90.8%

领先 Qwen-Max (68.7%)、GPT-4.5 (65.2%)

AIME 2024

35.4%

领先 Qwen-Max (25.1%)、GPT-4.5 (22.3%)

LiveCodeBench

69.2%

领先 Qwen-Max (41.3%)、GPT-4.5 (38.7%)

这些数据表明,DeepSeek-V3-0324 在数学推理和代码生成方面表现尤为突出。

许可与开放源代码

        模型采用 MIT 许可,与 DeepSeek-R1 相同,开放源代码权重可在 魔搭社区 / Hugging Face 下载。DeepSeek-V3-0324的模型结构与DeepSeek-V3相同,可参考DeepSeek-V3仓库获取本地运行信息(GitHub)。

技术细节与架构

        DeepSeek-V3-0324 采用混合专家(MoE)架构,总参数为 685 亿,每次任务仅激活约 37 亿参数,大幅减少运算需求,显著提高推理效率。(原理与之前的DeepSeek-V3和R1一样)

        其上下文长度为 131k,输出速度达 20 令牌/秒,适合高性能需求。

小结

        DeepSeek-V3-0324 是 DeepSeek 的最新 AI 模型,推理性能、前端开发和工具使用能力显著提升,采用 MIT 许可,开放源代码。

关键引用

  • DeepSeek-V3-0324 - 魔搭社区

  • Hugging Face DeepSeek-V3-0324

  • DeepSeek-V3 GitHub 仓库

  • DeepSeek V3-0324 Medium 文章

相关文章:

  • 关于embedding向量模型的知识
  • Kafka中的消息如何分配给不同的消费者?
  • 多线程—synchronized原理
  • Ubuntu24.04 配置远程桌面服务
  • 当前环境下,数据安全何去何从?
  • [数据结构]并查集(系统整理版)
  • vscode 打开工程 看不到文件目录
  • FlexAlign.SpaceBetween`、`FlexAlign.SpaceAround` 和 `FlexAlign.SpaceEvenly三个属性的区别
  • 解决Dify:failed to init dify plugin db问题
  • C - 通讯录2.0(详细解析)
  • AI知识补全(八):多模态大模型是什么?
  • 第4期:重构软件测试体系——生成式AI如何让BUG无所遁形
  • Python包下载路径 Chrome用户数据 修改到非C盘
  • Elasticsearch 搜索高级
  • C#高级:启动、中止一个指定路径的exe程序
  • 六十天Linux从0到项目搭建(第十天)(系统调用 vs 库函数/进程管理的建模/为什么进程管理中需要PCB?/exec 函数/fork原理与行为详解)
  • 【Linux加餐-网络命令】
  • 数仓架构告别「补丁」时代!全新批流一体 Domino 架构终结“批流缝合”
  • vue中使用defineModel简化defineProps和defineEmits的用法
  • Node.js Express 处理静态资源
  • 五一首日出沪高峰,G1503高东收费站上午车速约30公里/小时
  • 过去24小时中美是否就关税问题进行过接触?外交部:没有
  • 78家公募年度业绩比拼:23家营收净利双升,十强座次微调
  • “乐购浦东”消费券明起发放,多个商家同期推出折扣促销活动
  • 出行注意防晒补水,上海五一假期以多云天气为主最高33℃
  • 被算法重塑的世界,人与技术如何和谐共处