大语言模型的知识蒸馏综述
摘要
在大语言模型(LLMs)时代,知识蒸馏(Knowledge Distillation,KD)成为一种关键方法,用于将如 GPT-4 等领先的专有 LLM 的先进能力迁移到开源模型如 LLaMA 和 Mistral 上。与此同时,随着开源 LLM 的快速发展,KD 也在压缩这些模型、以及通过自蒸馏方式实现自我提升方面扮演了重要角色。本文对 KD 在 LLM 领域中的作用进行了全面调研,强调其在向小型模型传授高级知识、模型压缩和自我改进方面的重要性。
本综述围绕三个基础支柱展开:算法、技能和垂直化,系统探讨了 KD 的核心机制、对特定认知能力的增强方式,以及其在各个实际应用场景中的价值。尤为重要的是,本文深入分析了数据增强(Data Augmentation,DA)与 KD 之间的协同作用,展示了 DA 如何在 KD 框架中成为一个强有力的范式,用于提升 LLM 的性能。通过生成富含上下文且与技能相关的训练数据,DA 使 KD 超越了传统局限,使开源模型能够逼近专有模型在上下文理解、伦理对齐和深层语义洞察等方面的能力。
本研究旨在为研究人员和工程实践者提供一份全面而深入的指南,详细梳理当前的知识蒸馏方法,并提出未来的研究方向。通过桥接专有模型与开源模型之间的差距,本综述强调了开发更加可及、高效和强大的 AI 解决方案的潜力。最重要的是,我们强烈主张严格遵守关于 LLM 使用的法律条款,确保知识蒸馏应用的伦理性与合法性。
相关的 Github 仓库地址为:https://github.com/Tebmer/Awesome-K
