当前位置: 首页 > news >正文

【论文阅读】Decoupled Knowledge Distillation

摘要:最先进的蒸馏方法主要基于从中间层蒸馏出深层特征,而 logit 蒸馏的重要性则被大大忽视了。为了提供研究 logit 蒸馏的新观点,我们将经典的 KD 损失重新表述为两部分,即目标类知识蒸馏 (TCKD) 和非目标类知识蒸馏 (NCKD)。我们实证调查并证明了两部分的效果:TCKD 传递了有关训练样本“困难”的知识,而 NCKD 是 logit 蒸馏起作用的突出原因。更重要的是,我们揭示了经典的 KD 损失是一个耦合公式,它 (1) 抑制了 NCKD 的有效性,并且 (2) 限制了平衡这两个部分的灵活性。为了解决这些问题,我们提出了解耦知识蒸馏 (DKD),使 TCKD 和 NCKD 能够更高效、更灵活地发挥作用。与基于复杂特征的方法相比,我们的 DKD 在 CIFAR-100、ImageNet 和 MS-COCO 数据集上取得了相当甚至更好的结果,并且在图像分类和目标检测任务上具有更好的训练效率。本文证明了 logit 蒸馏的巨大潜力,希望对未来的研究有所帮助。
在这里插入图片描述

参考链接

论文
代码
Decoupled Knowledge Distillation论文阅读+代码解析

http://www.dtcms.com/a/272309.html

相关文章:

  • 【大模型推理论文阅读】 Thinking Tokens are Information Peaks in LLM Reasoning
  • iOS 抓包详细教程:从零搭建、操作到实战调试的全流程指南
  • 图像亮度调整的简单实现
  • Flutter多线程机制深度解析
  • 【Docker基础】Docker容器与网络关联命令使用指南:深入理解容器网络连接
  • 力扣61.旋转链表
  • Windows下VScode配置FFmpeg开发环境保姆级教程
  • 面试150 LRU缓存
  • LeetCode - 1668. 最大重复子字符串
  • 原创:多面体编译,polybench-c-4.2批量测试脚本
  • php中array($this, ‘loadClass‘)表示啥意思?
  • 阿里云-跨账号同步OSS Bucket
  • 【Note】Linux Kernel 之 内核架构、源码文件、API/ABI 、FHS
  • Linux 内核日志中常见错误
  • idea安装maven 拉取依赖失败的解决办法
  • 网络基本概念
  • Ubuntu22.0.4安装PaddleNLP
  • Android Coil 3 data加载图的Bitmap或ByteArray数据类型,Kotlin
  • Redis BigKey 深度解析:从原理到实战解决方案
  • arm架构,arm内核,处理器之间的关系
  • 【部分省份已考真题】备战2025全国青少年信息素养大赛-算法创意实践挑战赛c++省赛/复赛真题——被污染的药剂
  • 如何发现Redis中的bigkey?
  • Django中序列化与反序列化
  • Python(31)PyPy生成器优化深度解析:JIT加速下的Python性能革命
  • 查看已安装 Django REST Framework (DRF) 版本
  • 【提高篇-基础知识与编程环境:1、Linux系统终端中常用的文件与目录操作命令】
  • 力扣-54.螺旋矩阵
  • QT - 串口QserialPort应用
  • C语言——预处理详解
  • C#中异步任务取消:CancellationToken