当前位置: 首页 > news >正文

论文笔记:EMR-MERGING: Tuning-Free High-Performance Model Merging

2024 neurips

1 intro

  • 随着 HuggingFace、timm  和 torchvision  等开源仓库的发展,预训练与微调模型的数量激增,这导致模型部署的存储和成本负担加重
    • 多任务学习(MTL)通过联合训练多数据集来部分缓解上述问题,但它存在以下缺陷:
      • (i) 计算成本高;

      • (ii) 隐私数据限制导致数据不可获取

  • 因此,近年来出现了**模型融合(model merging)**方法,试图通过权重合并的方式绕过训练过程,减少计算与数据开销,具备重要的实际意义。

  • 一个简单的模型融合方法是对权重进行平均,但这往往会带来明显的性能下降

    • 为此,已有研究提出了三类主流融合方法:

      • 权重加权平均类(Weighted averaging)

        • 如 Fisher-Merging、RegMean

        • 使用 Fisher 信息矩阵 或内积矩阵 预计算加权系数。

      • 任务向量合成类(Task vector-based methods)

        • 如 Task Arithmetic 、Ties-Merging 、AdaMerging ;

        • 将任务向量加和而非权重加和;

        • Ties-Merging 解决干扰问题,AdaMerging 自适应调整系数。

      • 预处理技术类(Pre-processing)

        • 如 DARE

        • 通过稀疏和缩放任务向量来减少干扰

    • 尽管已有方法取得一定进展,但仍存在两大问题:

      • (1) 合并模型与原始模型/MTL 模型之间仍存在明显性能差距

      • (2) 性能提升依赖于数据或训练进行调参

  • 论文重新审视现有融合范式

    • 发现,现有方法的核心目标是:构造一个能统一处理所有任务的单一模型权重,形式如下:

    • 但这种策略存在问题:

      • 当任务数量较多或任务难度较大时,一个统一权重难以同时逼近所有任务模型的表现

      • 单一参数空间模拟多任务权重是一种次优解

  • ——>论文提出新的融合范式:首先提取一个统一主干模型权重,然后为每个任务构造一个轻量的任务特定模块,包括掩码和缩放器。

  • 基于上述范式,论文提出了 EMR-Merging(Elect, Mask & Rescale-Merging) 方法。

2 方法

3 理论分析

http://www.dtcms.com/a/293169.html

相关文章:

  • 2025.7.22 测试 总结
  • Qt/C++源码/监控设备模拟器/支持onvif和gb28181/多路批量模拟/虚拟监控摄像头
  • 50天50个小项目 (Vue3 + Tailwindcss V4) ✨ | ImageCarousel(图片轮播组件)
  • linux应用:spi_ioc_transfer结构cs_change说明
  • 【实时Linux实战系列】实时文件系统的特性与优化
  • 深入解析Hadoop中的Region分裂与合并机制
  • Adam、AdamW介绍,以及AdamW优势
  • 数控机床上滚珠螺杆故障怎么解决?
  • HITL节点介绍(Human-in-the-loop nodes)(指在自动化流程(如AI工作流或系统)中,允许人类在关键步骤直接参与、干预或修正的节点)
  • 【Verilog】竞争、冒险
  • 11.Java三大特性
  • 知识付费平台源码开发详解:内容审核、版权保护与防盗机制全方案
  • IMU(LSM6DSMTR+LIS2MDLTR)
  • STL学习(一、string容器)
  • C# 基于halcon的视觉工作流-章21-点查找
  • freertos任务调度关键函数理解 vTaskSwitchContext
  • 编程基础:常见数据类型详解
  • Kubernetes 服务发布基础
  • 从云端到指尖:MNN实现端侧大模型“量子压缩”
  • Flask转发 [Siemens.Sistar.Api.dll] Braumat API--->DLL to restAPI
  • 鸿蒙开发:弹出库更新至1.2.2版本,新增模态页面弹出
  • Java中的泛型数据
  • K8S基础环境部署
  • 赋能未来数学课堂——基于Qwen3、LangChain与Agent架构的个性化教辅系统研究
  • Rocky Linux 9 快速安装 Node.js
  • 遇到JAVA问题
  • SQL 基础案例解析
  • Spring Boot 使用Jasypt加密
  • 我们能否承担微服务带来的复杂性和运维成本?
  • wps dispimg python 解析实现参考