论文略读:Arcee’s MergeKit: A Toolkit for Merging Large Language Models
emnlp 2024
- 在过去的一年里,开源大型语言模型(LLMs)迅速发展,并已可通过 Hugging Face 模型库获取。
- 这些模型的训练规模可达数万亿个 token,参数量通常在 1 亿至 700 亿以上不等
- 开源模型检查点涵盖了多种任务,既包括预训练模型,也包括指令微调模型
然而,为每项任务分别微调一个模型面临诸多挑战:
需要分别存储和部署多个模型;
各模型无法共享任务间的有用知识
从零开始训练这些模型需要极大的投入。
而进一步微调则容易引发灾难性遗忘(catastrophic forgetting)问题,这会破坏模型原有的通用能力和多任务表现
将模型调整为符合用户偏好的响应行为通常需要大量人类偏好数据,这对于大多数团队来说是难以获得的
这引出了一个关键问题:如何有效利用现有的预训练模型检查点?
模型融合(model merging)因此成为一个变革性策略——通过将多个模型的参数融合为一个单一模型,不仅实现了多任务学习和持续学习,还有效缓解了灾难性遗忘的问题
在本文中,我们提出了 MergeKit ——一个用于执行社区提出的模型融合策略的统一库。MergeKit 兼容 内存受限的 CPU 以及 加速的 GPU 设备。