论文略读: Howto Merge Your Multimodal Models Over Time?
CVPR 2024
- 论文关注时间维度上的模型融合(Temporal Model Merging)
- 也即模型不是一次性进行融合的,而是一个一个融合进来的
- 论文提出了一个统一框架 TIME(Temporal Integration of Model Expertise),从三个关键维度系统刻画时间维度模型融合的设计空间
TIME 框架三大设计维度:
初始化阶段(Initialization Phase)
随着专家模型持续诞生,选择每轮训练的初始化权重成为关键问题。部署阶段(Deployment Phase)
在每个任务完成后,必须部署一个最终模型。在时间维度的融合设置中,部署过程需兼顾历史专家模型的融合;
任务特定新知识的引入;
过去知识的保留与新知识的集成之间的平衡。
融合技术(Model Merging Techniques)
以往研究已提出多种同时融合方法,包括:简单的权重平均与插值【24, 63, 68, 76】;
更复杂的候选选择与重加权策略【11, 42, 43, 89, 95】。
若要在时间维度上应用这些方法,需深入理解它们在候选模型数量变化(kt)及数据分布漂移条件下的表现。
- 论文利用多模态连续预训练基准 FoMo-in-Flux开展实验,该基准包含 63 个任务数据集,具备良好的时间顺序属性,适合在现实计算约束下研究时间模型融合
- 得出如下关键见解:
- [A] 时间因素至关重要
标准的“离线”模型融合技术无法很好地适应时间融合设定 - [B] 融合技术复杂度影响有限
在时间融合中,使用复杂融合策略相比简单加权平均,提升有限,尤其在任务序列较长时 - [C] 初始化与部署策略是核心关键
如何在每个任务前后选择与组合已有模型权重,比具体使用何种融合算法更关键 - [D] 时间融合具备良好可扩展性
更大的模型或更充足的计算资源将更充分释放时间融合的优势。在一定条件下,时间融合甚至优于一次性多任务联合训练模型
- [A] 时间因素至关重要
- 得出如下关键见解: