模型蒸馏过程中的“软目标”与“温度”
1. 概念阐释:
想象一下,你是个小孩子(小模型),想学画画。你的老师(大模型)是个世界级画家,他画了一幅非常复杂的画。传统上,你只被教“画完后,这幅画是猫还是狗”(硬目标)。
但知识蒸馏不一样。老师会告诉你:“这块区域,虽然看起来像猫的胡须,但如果仔细看,它也有一点点像狗的耳朵,还有非常非常微弱的一点点像树叶。” 老师不仅告诉你“是什么”,还会告诉你“有多像其他东西”。这种细致的“感觉”就是 “软目标”。
而 “温度”,就像老师在告诉你这些细微感觉时,会稍微 “放慢语速,说得更清楚一点”。让这些本来很小的“像不像”变得更容易被你这个小孩子(小模型)听懂和模仿。
在Hinton的原始论文中,知识蒸馏的核心思想是:让“学生模型”不只学习“正确答案”本身,更要学习“老师模型”在给出“正确答案”时,对“其他答案”的“倾向性判断”。
我们来具体拆解一下:
-
“硬目标”: 这就是我们通常训练模型时用的“正确答案”。比如,