当前位置: 首页 > news >正文

DeepSeek实战--各版本对比

1.对比

版本参数量优势劣势使用场景竞品
DeepSeek-V36710亿(MoE架构,激活370亿)开源、高效推理(60 TPS)、低成本(API费用低)、中文处理能力突出(90%准确率多模态能力有限通用任务(聊天、编码、多语言翻译)、长文本处理、编程竞赛GPT-4o(通用性稍弱,但成本更低)、Claude 3.5 Sonnet
DeepSeek-R1(满血版)6710亿(全激活)复杂逻辑推理(数学、编程)、支持多模态、展示推理过程部署成本高、推理速度慢、代码生成稳定性欠佳科研前沿、决策支持、教育工具(如数学竞赛、密码解密)OpenAI o1(推理能力接近)、Google Gemini Advanced
DeepSeek-R1(蒸馏版)1.5B–32B低成本部署、响应速度快、适合资源受限环境推理能力弱于满血版,精度有所牺牲企业客服、移动端应用(如智能家居)、实时交互场景GPT-3.5 Turbo(性价比更高)、Llama 2-7B
DeepSeek-V22360亿中文能力领先开源模型、轻量化设计、训练成本低(GPT-4的1%)多模态支持有限、推理速度较慢中文NLP任务(法律分析、医学研究)、多任务场景GPT-4(中文能力更强)、LLaMA3-70B(英文相当)
DeepSeek-VL10亿–45亿(多规格)多模态融合(图文联合处理)、小参数高性能参数规模较小,复杂任务处理有限视觉问答(VQA)、文档理解、OCRLLaVA(性能更优)、GPT-4V(多模态能力更强)
DeepSeek-Coder670亿代码生成准确性高(HumanEval通过率65.2%)、支持多编程语言复杂推理能力弱于通用模型代码补全、纠错、生成(软件开发、教育)GitHub Copilot(功能相似但更灵活)、CodeLlama

截止:2025/05/02

2.什么是蒸馏?

1)知识迁移机制
大模型蒸馏借鉴“师生教学”模式,教师模型通过输出软标签(概率分布)、中间层特征或注意力权重,指导学生模型的学习。软标签不仅包含类别信息,还传递类别间的关系,使学生模型能捕捉更复杂的决策逻辑。

  • 软标签:教师模型输出的概率分布,通过温度参数(Temperature)调整平滑程度,增强学生模型对模糊边界的理解。
  • 中间层对齐:模仿教师模型的隐藏层激活或注意力机制,提升学生模型的内部特征表达能力。

2)实施步骤

  • 训练教师模型:先训练一个高性能的大模型(如GPT-4、DeepSeek-R1)。
  • 生成软标签:用教师模型对训练数据推理,生成包含知识输出的软标签。
  • 训练学生模型:结合软标签和真实标签,通过损失函数(如KL散度与交叉熵的加权组
    合)优化学生模型。

3.DeepSeek 可以做什么 ?

借用清华大学的总结,说明一下

在这里插入图片描述
链接:https://pan.quark.cn/s/3e804ec46889#/share/doc/560b7613c3f84a3c8c88baad0f25dbfd

相关文章:

  • 在网鱼网吧测试文件试验成功
  • Java 入门:自定义标识符规则解析
  • 树状数组 + 线段树
  • 推荐系统(1)--用户协同过滤和物品协同过滤
  • Codeforces Round 1022 (Div. 2) A ~ C
  • 「Mac畅玩AIGC与多模态14」开发篇10 - 固定文本输出工作流示例
  • 广告事件聚合系统设计
  • 时间给了我们什么?
  • wsl安装
  • kubernetes中离线业务编排详解JobCronJob之Job 应用
  • 字符串的相关方法
  • 5.2刷题
  • shell(6)
  • btrace1.0使用方法
  • 超预期!淘宝闪购提前开放全国全量,联合饿了么扭转外卖战局
  • ARConv的复现流程
  • 算法笔记.分解质因数
  • 值此五一劳动节来临之际,
  • 【Java IO流】字符输入流FileReader、字符输出流FileWriter
  • CMake separate_arguments用法详解
  • 准85后青海海北州副州长、州公安局局长李贤荣挂职临沂市副市长
  • 竞彩湃|德甲保级白热化,都灵主帅直面旧主
  • 新能源车盈利拐点:8家上市车企去年合计净利854亿元,多家扭亏
  • 人民日报评论员:因势利导对经济布局进行调整优化
  • 国家医保局副局长颜清辉调任人社部副部长
  • 小核酸药物企业瑞博生物递表港交所,去年亏损2.81亿元