当前位置: 首页 > news >正文

【AI学习】DeepSeek-R1-Distill的意义和影响

在写完上一篇文章《DeepSeek为什么这么火爆?解密梁文锋的深谋远虑》后,又想到了一个新的问题。

在DeepSeek R1的技术报告中,还有这样一个技术:蒸馏赋予小模型推理能力。这项技术的意义和影响是什么?

先看看这个技术,摘录其中的章节如下:

2.4 蒸馏:赋予小模型推理能力

为了给更高效的小型模型配备DeepSeek-R1等推理能力,我们使用DeepSeek-R1策划的80万个样
本直接微调了Qwen(Qwen,2024 b)和Llama(AI@Meta,2024)等开源模型。我们的研究结果表明,这种简单的蒸馏方法显著增强了较小模型的推理能力。我们在这里使用的基本模型是Qwen 2.5-Math-1.5B、Qwen 2.5-Math-7 B、Qwen 2.5 - 14 B、Qwen 2.5 - 32 B、Llama-3.1-8B和Llama-3.3- 70 B-Direct。我们选择Llama-3.3是因为它的推理能力略好于Llama 3.1。对于蒸馏模型,我们仅应用SFT,不包括RL阶段,尽管结合RL可以大幅提高模型性能。我们的主要目标是证明蒸馏技术的有效性,将RL阶段的探索留给更广泛的研究界。

然后在讨论章节,报告给出了技术的评估结果。

4.1.蒸馏与s.强化学习

在3.2节中,我们可以看到,通过蒸馏DeepSeek-R1,小模型可以取得令人印象深刻的结果。然而,仍然剩下一个问题:该模型能否通过论文中讨论的大规模RL训练而不经过蒸馏而获得相当的性能?
为了回答这个问题,我们使用数学、代码和STEM数据在Qwen-32 B-Base上进行大规模RL训练,训练超过10000个步骤,从而产生DeepSeek-R1-Zero-Qwen-32 B。实验结果如表6所示,表明32 B基础模型在大规模化后RL训练,性能与QwQ-32 B-Preview相当。然而,从DeepSeek-R1提炼出来的DeepSeek-R1- Distill Qwen-32 B在所有基准测试中的表现明显优于DeepSeek-R1-Zero-Qwen-32 B。
因此,我们可以得出两个结论:首先,将更强大的模型蒸馏成更小的模型会产生出色的结果,而依赖本文提到的大规模RL的较小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能。其次,虽然蒸馏策略既经济又有效,但超越智能边界可能仍然需要更强大的基础模型和更大规模的强化学习。

在这里插入图片描述
这里的DeepSeek-R1-Distill就是上图的第三步:用前述训练过程中的 SFT 数据来微调 Qwen 和 Llama 等较小模型,以提升这些模型的推理能力。虽然把这个过程称为“蒸馏”,但并不是传统意义上的知识蒸馏,更像是用大模型的输出数据去监督微调(SFT)小模型(包括 Llama 8B 和 70B,以及 Qwen 1.5B–30B)。

DeepSeek-R1-Distill的意义和影响

DeepSeek-R1-Distill的意义,更小的模型更高效,推理成本更低,也更容易部署在普通硬件上,如果能够通过蒸馏技术提升性能,对于研究者或爱好者而言很有吸引力。
那影响呢?我有点不确定。后续业界是否还有开发小模型的动力?或者说基于小模型去做领域模型?如果这样做了,将来更大的模型有了领域能力,通过蒸馏技术简单的就能超越你的的小模型。这是否意味着,小模型也将被具有更大模型能力的厂家所垄断?

相关文章:

  • 【TI C2000】F28002x的系统延时、GPIO配置及SCI(UART)串口发送、接收
  • Git命令摘录
  • C++ -- stack的模拟实现 介绍适配器模式
  • Zookeeper(45) 如何在Zookeeper中删除节点?
  • CentOS上安装WordPress
  • 在SpringBoot如何调用DeepSeek接口
  • 【Qt】模型/视图(Model/View)框架详解(一):基本概念
  • 【Axure教程】数字滚动效果
  • 深入解析LVS命令参数及DR模式下的ARP抑制原理
  • rustdesk远程桌面自建服务器
  • stl里的deque 中控map 假如用完了,该如何处理
  • C# 调用 C++ 动态库接口
  • 深入指南:在IDEA中启用和使用DeepSeek
  • 花卉图片分类实战 -- 基于预训练的 Vision Transformer 实现
  • Vue3组件通信全攻略:8种传值方式详解
  • JavaScript document.write()介绍(直接将内容写入HTML文档的早期方法,已逐渐被现代DOM操作方法取代)
  • export关键字
  • boolen盲注和时间盲注
  • 链表(C语言版)
  • LeetCode541 反转字符串2
  • “复旦源”一源六馆焕新启幕,设立文化发展基金首期1亿元
  • 光明日报社副总编辑薄洁萍调任求是杂志社副总编辑
  • 上海:到2027年,实现近海航线及重点海域5G网络高质量覆盖
  • 俄乌代表团抵达谈判会场
  • 阿里上财年营收增6%,蒋凡:会积极投资,把更多淘宝用户转变成即时零售用户
  • 中国情怀:时代记录与家国镜相|澎湃·镜相第三届非虚构写作大赛征稿启事