知识蒸馏 是什么?具体怎么实现的
知识蒸馏(Knowledge Distillation)是一种将大型模型(教师模型)的知识转移到小型模型(学生模型)的技术,通过让学生模型学习教师模型的****输出分布而非仅学习真实标签,使小模型能接近大模型的性能
🌰 知识蒸馏原理简化案例:教小学生做选择题
场景设定
- 老师:经验丰富的高中老师,擅长解答历史选择题(正确率95%)。
- 学生:普通小学生,刚开始学历史(直接做题正确率60%)。
- 任务:让小学生通过老师的指导,提高选择题正确率。

传统教学法(直接给答案)