NLP高频面试题(三十八)——什么是LLM的灾难性遗忘?如何避免灾难性遗忘?
近年来,大语言模型在人工智能领域取得了显著进展。然而,随着模型的不断更新和新任务的引入,出现了一个重要的问题,即灾难性遗忘(Catastrophic Forgetting)。灾难性遗忘指的是大模型在连续学习新知识或新任务时,先前掌握的旧知识会迅速被覆盖或遗忘,从而导致模型在旧任务中的表现明显下降。
灾难性遗忘产生的原因
灾难性遗忘主要有以下几个方面的原因:
1. 参数更新机制
深度学习模型通常采用梯度下降方法进行学习,新任务的数据会显著影响模型参数。这种参数的剧烈更新往往忽视了旧任务的重要特征,使模型迅速遗忘原有知识。
2. 数据分布的非平稳性
模型训练通常假设数据的分布保持不变,但在实际应用中,数据往往随着新任务的引入而不断变化。数据分布变化会干扰模型的内部表征,使得模型难以保持对旧任务稳定的认知。
如何避免或减轻灾难性遗忘
针对灾难性遗忘的问题,研究人员提出了以下几种有效的缓解策略:
1. 回放机制(Rehearsal)
回放策略通过在训练新任务时适当融入旧任务的数据,有助于模型保持对过往知识的记忆。这种方法模仿