论文笔记:EMR-MERGING: Tuning-Free High-Performance Model Merging
2024 neurips
1 intro
- 随着 HuggingFace、timm 和 torchvision 等开源仓库的发展,预训练与微调模型的数量激增,这导致模型部署的存储和成本负担加重。
- 多任务学习(MTL)通过联合训练多数据集来部分缓解上述问题,但它存在以下缺陷:
(i) 计算成本高;
(ii) 隐私数据限制导致数据不可获取
- 多任务学习(MTL)通过联合训练多数据集来部分缓解上述问题,但它存在以下缺陷:
因此,近年来出现了**模型融合(model merging)**方法,试图通过权重合并的方式绕过训练过程,减少计算与数据开销,具备重要的实际意义。
一个简单的模型融合方法是对权重进行平均,但这往往会带来明显的性能下降
为此,已有研究提出了三类主流融合方法:
权重加权平均类(Weighted averaging):
如 Fisher-Merging、RegMean
使用 Fisher 信息矩阵 或内积矩阵 预计算加权系数。
任务向量合成类(Task vector-based methods):
如 Task Arithmetic 、Ties-Merging 、AdaMerging ;
将任务向量加和而非权重加和;
Ties-Merging 解决干扰问题,AdaMerging 自适应调整系数。
预处理技术类(Pre-processing)
如 DARE
通过稀疏和缩放任务向量来减少干扰
尽管已有方法取得一定进展,但仍存在两大问题:
(1) 合并模型与原始模型/MTL 模型之间仍存在明显性能差距
(2) 性能提升依赖于数据或训练进行调参
论文重新审视现有融合范式
发现,现有方法的核心目标是:构造一个能统一处理所有任务的单一模型权重,形式如下:
但这种策略存在问题:
当任务数量较多或任务难度较大时,一个统一权重难以同时逼近所有任务模型的表现;
单一参数空间模拟多任务权重是一种次优解。
——>论文提出新的融合范式:首先提取一个统一主干模型权重,然后为每个任务构造一个轻量的任务特定模块,包括掩码和缩放器。
基于上述范式,论文提出了 EMR-Merging(Elect, Mask & Rescale-Merging) 方法。