当前位置：首页 > news >正文

论文略读： Howto Merge Your Multimodal Models Over Time?

news 2025/7/26 15:55:05

CVPR 2024

论文关注时间维度上的模型融合（Temporal Model Merging）
- 也即模型不是一次性进行融合的，而是一个一个融合进来的

论文提出了一个统一框架 TIME（Temporal Integration of Model Expertise），从三个关键维度系统刻画时间维度模型融合的设计空间

TIME 框架三大设计维度：

初始化阶段（Initialization Phase）
随着专家模型持续诞生，选择每轮训练的初始化权重成为关键问题。
部署阶段（Deployment Phase）
在每个任务完成后，必须部署一个最终模型。在时间维度的融合设置中，部署过程需兼顾
1. 历史专家模型的融合；
2. 任务特定新知识的引入；
3. 过去知识的保留与新知识的集成之间的平衡。
融合技术（Model Merging Techniques）
以往研究已提出多种同时融合方法，包括：
1. 简单的权重平均与插值【24, 63, 68, 76】；
2. 更复杂的候选选择与重加权策略【11, 42, 43, 89, 95】。
3. 若要在时间维度上应用这些方法，需深入理解它们在候选模型数量变化（kt）及数据分布漂移条件下的表现。

论文利用多模态连续预训练基准 FoMo-in-Flux开展实验，该基准包含 63 个任务数据集，具备良好的时间顺序属性，适合在现实计算约束下研究时间模型融合
- 得出如下关键见解：
  - [A] 时间因素至关重要
    标准的“离线”模型融合技术无法很好地适应时间融合设定
  - [B] 融合技术复杂度影响有限
    在时间融合中，使用复杂融合策略相比简单加权平均，提升有限，尤其在任务序列较长时
  - [C] 初始化与部署策略是核心关键
    如何在每个任务前后选择与组合已有模型权重，比具体使用何种融合算法更关键
  - [D] 时间融合具备良好可扩展性
    更大的模型或更充足的计算资源将更充分释放时间融合的优势。在一定条件下，时间融合甚至优于一次性多任务联合训练模型

http://www.dtcms.com/a/294950.html

相关文章：

IGM弧焊机器人气体节约

SwiftUI 实战：构建一个复杂的图书首页长页面

本地部署 Stable Diffusion：零基础搭建 AI文生图模型

Linux中scp命令传输文件到服务器报错

直播软件搭建与原生直播系统开发全解析

【2025目标检测】最新论文

VulhubDVWA靶场环境搭建及使用

【Mysql】 Mysql zip解压版 Win11 安装备忘

Neo4j 框架初步简单使用(基础增删改查)

OMS监考系统V2版本无法启动问题解决办法

[每日随题15] 前缀和 - 拓扑排序 - 树状数组

海信IP501H-IP502h_GK6323处理器-原机安卓9专用-TTL线刷烧录可救砖

【Java学习|黑马笔记|Day21】IO流|缓冲流，转换流，序列化流，反序列化流，打印流，解压缩流，常用工具包相关用法及练习

C++面试7——继承与多态

Xorg占用显卡内存问题和编译opencv GPU版本

InnoDB的redo log和 undo log

智能小e-集成配置

Nestjs框架: 基于Prisma的多租户功能集成和优化

使用抓取 API 可靠高效地提取亚马逊（Amazon)数据

CCD工业相机系统设计——基于FPGA设计

SQL执行顺序

LLM 隐藏层特征增强技术

同步型降压转换器的“同步”是什么意思？

Vite 7.0 引入的几个重要新 API 详解

三极管与场效应管的对比

Python脚本服务器迁移至K8S集群部署

k8s中的configmap存储

JavaWeb-Servlet

内外网互传文件安全、可控、便捷的跨网数据交换

服务器版本信息泄露-iis返回包暴露服务器版本信息