当前位置: 首页 > news >正文

PyTorch中知识蒸馏浅讲

知识蒸馏

在 PyTorch 中,使用 teacher_model.eval() 和冻结教师模型参数是知识蒸馏(Knowledge Distillation)中的关键步骤。

​1. teacher_model.eval() 的作用

目的:

将教师模型切换到评估模式,影响某些特定层(如 Dropout、BatchNorm)的行为。

​具体影响:

  • ​Dropout 层
    在训练模式下,Dropout 层会随机丢弃神经元以防止过拟合;但在评估模式下,Dropout 层会保持所有神经元激活

  • ​BatchNorm 层
    在训练模式下,BatchNorm 使用当前 batch 的均值和方差进行归一化,并更新移动平均统计量;但在评估模式下,BatchNorm 会固定使用训练阶段累积的全局均值和方差

为什么需要:

  • 确保教师模型的推理行为稳定,避免随机性(如 Dropout)或统计量波动(如 BatchNorm)影响输出结果的一致性。
  • 在生成软标签(Soft Targets)时,保持教师模型输出的可靠性

相关文章:

  • 文件压缩与解压(zip4j)
  • SnapdragonCamera骁龙相机源码解析
  • 【C++指南】一文总结C++二叉搜索树
  • 【Linux】传输层协议 TCP
  • Vue3实现锚点定位
  • 项目实战:基于Spring WebFlux与LangChain4j实现大语言模型流式输出
  • 服务停止后,自启动的service怎么写
  • QT/C++ 多线程并发下载实践
  • nx-admin1.2版本发布
  • 【教程】如何使用匿名Github仓库: anonymous.4open.science
  • 【蓝桥杯】单片机设计与开发,RTC实时时钟
  • 微信小程序使用 Vant Weapp 组件库教程
  • 迅为RK3568开发板helloworld 驱动实验-驱动编写
  • Python 自动化:节省时间,更智能地工作
  • Python小练习系列 Vol.12:学生信息排序(sorted + key函数)
  • 1.2 基于卷积神经网络与SE注意力的轴承故障诊断
  • Spring 面经
  • 生物化学笔记:医学免疫学原理11 免疫应答 + 固有免疫应答占位效应 + 适应性免疫应答 IgM和IgG抗体用于判断感染时期
  • 【C语言】深入理解指针(三):C语言中的高级指针应用
  • Linux centos 7 服务器组建与管理
  • 英国研究:近七成年轻人认为上网有害心理健康
  • 两次通话、三点诉求,泽连斯基对美称愿与俄签署和平备忘录
  • 特朗普与泽连斯基通话
  • 确诊前列腺癌后,拜登首次发声
  • 搜狐一季度营收1.36亿美元,净亏损同比收窄超两成
  • 马上评|房屋“注胶堵漏”骗局何以屡屡得逞