当前位置：首页 > news >正文

DDK:Distilling Domain Knowledge for Efficient Large Language Models

news 2025/9/23 17:10:27

速览方法论

不太了解知识蒸馏的可以看这篇文章【KD开山之作】

本文的动机是“降低学生模型在各领域和老师模型的差异”。

在一些性能差异比较大的领域，ddk方法可以降低student模型的困惑度(PPL, Perplexity)，提高学生模型在该领域的性能。

该篇文章的优势在于，提高了student模型的泛用性，相较于当下的方法，student性能更加均衡。

Contributions

1）To the best of our knowledge, we are the first to study the influence of domain-specific data mixtures for distilling LLMs, and efficiently transfer the domain knowledge of the teacher network upon the domain weights.

首个研究特定领域知识混合对大模型知识蒸馏的影响，并基于领域权重对领域知识迁移。

2）DDKproposes a factor smooth updating strategy to strategically enhance the appropriate focus of the distillation process on targeted domains, which effectively stabilizes the domain knowledge guided sampling process for smoother distillation.

领域知识权重是基于它提出的discrepancy factor（领域差异因子）。文章提出了一种平滑更新该因子的策略。

3）Extensive experiments on multiple benchmark datasets demonstrate the effectiveness and generalization ability of our proposed DDK.

在多个基准数据集上进行广泛实验验证方法的有效性。

Method

领域差异因子

简单说明一下，M 是模型，CE是交叉熵，Y是label，下标s，t表示student，teacher。

$l$ 是困惑度得分，将交叉熵得到的熵值通过exp放大，再通过Softmax获得在各领域上的分布。

这个r越大则差异越大。

平滑更新策略

第一项是因子的迭代公式，第二项是因子的基准线。

第二项用作者的话说就是 “为了防止出现过小的值，这样就能保证在不同领域进行数据采样时有一个基准概率，避免某些领域因为领域差异因子过小而几乎不被采样到数据的情况。”

~~谁没有斗公式的时候呢，哈哈~~

损失函数

对各领域的求和

第一项是输出的交叉熵，第二项是隐藏状态的KL散度（相对熵）

增加第二项的目的是近似学生模型和教师模型的分布

方法挺简单，但是人家实验用了16张A100 :)

这篇论文是alibaba发表的。一开始我看到使用的教师模型是7B左右的参数是有点疑惑的，但仔细想想其实这个研究方向就是大模型的轻量化，而从7B继续轻量化到1.5B并保持不错的效果，也就意味着大模型个人化的可能。

Appendix

http://www.dtcms.com/a/50546.html

相关文章：

Linux系列：如何调试 malloc 的底层源码

linux ubuntu系统运行python虚拟环境，启用端口服务和定时任务

Scala 中的数组和List的区别

excel vlookup的精确查询、模糊查询、反向查询、多列查询

Linux下测试Wifi性能——2.Linux下wifi指令

Spring Boot 整合 JMS-ActiveMQ，并安装 ActiveMQ

关于opencv中solvepnp中UPNP与DLS与EPNP的参数

神经网络：AI的网络神经

pytest中pytest.ini文件的使用

【USRP】NVIDIA Sionna：用于 6G 物理层研究的开源库

Linux的用户与权限--第二天

2.反向传播机制简述——大模型开发深度学习理论基础

【2025小白版】计算复试/保研机试模板（个人总结非GPT生成）附代码

【科研绘图系列】R语言绘制数值的美国地图（USA map）

JavaScript实现倒计时函数

Spring Boot 学习笔记

特征选择之递归特征消除（REF）

【零基础到精通Java合集】第十五集：Map集合框架与泛型

MySQL夺命连环13问

AT89C51手册解读：特性、引脚、操作模式及编程详解

【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）

深入解析Java线程模型：从BIO到NIO的性能跃迁之路

文件上传靶场（1--9关）

Kotlin使用心得：提升开发效率的实战技巧（一）

前端面试场景题葵花宝典之四

如何直接导出某个conda环境中的包, 然后直接用 pip install -r requirements.txt 在新环境中安装

conda虚拟环境中如何查看包的位置

2024四川大学计算机考研复试上机真题

javascript一些原生方法记录

【Groovy】Array、List、Set、Map简介