当前位置：首页 > news >正文

【论文阅读】Decoupled Knowledge Distillation

news 2025/7/11 7:04:25

摘要：最先进的蒸馏方法主要基于从中间层蒸馏出深层特征，而 logit 蒸馏的重要性则被大大忽视了。为了提供研究 logit 蒸馏的新观点，我们将经典的 KD 损失重新表述为两部分，即目标类知识蒸馏 （TCKD）和非目标类知识蒸馏 （NCKD）。我们实证调查并证明了两部分的效果：TCKD 传递了有关训练样本“困难”的知识，而 NCKD 是 logit 蒸馏起作用的突出原因。更重要的是，我们揭示了经典的 KD 损失是一个耦合公式，它（1）抑制了 NCKD 的有效性，并且（2）限制了平衡这两个部分的灵活性。为了解决这些问题，我们提出了解耦知识蒸馏（DKD），使 TCKD 和 NCKD 能够更高效、更灵活地发挥作用。与基于复杂特征的方法相比，我们的 DKD 在 CIFAR-100、ImageNet 和 MS-COCO 数据集上取得了相当甚至更好的结果，并且在图像分类和目标检测任务上具有更好的训练效率。本文证明了 logit 蒸馏的巨大潜力，希望对未来的研究有所帮助。
在这里插入图片描述

参考链接

论文
代码
Decoupled Knowledge Distillation论文阅读+代码解析

http://www.dtcms.com/a/272309.html

相关文章：

【大模型推理论文阅读】 Thinking Tokens are Information Peaks in LLM Reasoning

iOS 抓包详细教程：从零搭建、操作到实战调试的全流程指南

图像亮度调整的简单实现

Flutter多线程机制深度解析

【Docker基础】Docker容器与网络关联命令使用指南：深入理解容器网络连接

力扣61.旋转链表

Windows下VScode配置FFmpeg开发环境保姆级教程

面试150 LRU缓存

LeetCode - 1668. 最大重复子字符串

原创：多面体编译，polybench-c-4.2批量测试脚本

php中array($this, ‘loadClass‘)表示啥意思？

阿里云-跨账号同步OSS Bucket

【Note】Linux Kernel 之内核架构、源码文件、API/ABI 、FHS

Linux 内核日志中常见错误

idea安装maven 拉取依赖失败的解决办法

网络基本概念

Ubuntu22.0.4安装PaddleNLP

Android Coil 3 data加载图的Bitmap或ByteArray数据类型，Kotlin

Redis BigKey 深度解析：从原理到实战解决方案

arm架构，arm内核，处理器之间的关系

【部分省份已考真题】备战2025全国青少年信息素养大赛-算法创意实践挑战赛c++省赛/复赛真题——被污染的药剂

如何发现Redis中的bigkey？

Django中序列化与反序列化

Python（31）PyPy生成器优化深度解析：JIT加速下的Python性能革命

查看已安装 Django REST Framework (DRF) 版本

【提高篇-基础知识与编程环境：1、Linux系统终端中常用的文件与目录操作命令】

力扣-54.螺旋矩阵

QT - 串口QserialPort应用

C语言——预处理详解

C#中异步任务取消：CancellationToken