当前位置: 首页 > news >正文

论文笔记:Parameter Competition Balancing for Model Merging

neurips 2024

1 intro

  • 近年来,模型融合(model merging)技术迅速发展,使得可以将多个分别针对不同任务微调后的模型直接集成为一个统一模型,从而实现多任务处理能力,而无需重新访问原始训练数据
    • 然而,目前已有的融合方法普遍存在以下问题:

      • 无法充分处理任务间的冲突与关联,特别是在参数级别上的权重竞争(parameter competition)

      • 在多个任务之间难以实现良好的参数平衡(parameter balancing),从而影响融合模型的整体表现。

  • ——>论文提出PCB-Merging(Parameter Competition Balancing),全新的、轻量级、无需训练(training-free)的模型融合方法

    • 通过对每个参数分配不同的融合系数,实现对任务间参数竞争的动态平衡。

2 preliminary

2.1 问题设定

2.2 参数表示

2.3 引入任务向量

2.4 向量加权融合

3 方法

3.1 任务内平衡

3.2 任务间平衡

3.3 丢弃与重缩放(Drop and Rescale)

Drop and Rescale 这一步就是为了:

  • 丢弃(Drop):过滤掉“低重要性”的参数,压制无用/冲突参数;

  • 重缩放(Rescale):对保留下来的参数按照其重要性再次加权,提升其代表性。

公式3:

公式4:

3.3 搜索系数

http://www.dtcms.com/a/292476.html

相关文章:

  • MongoDB频繁掉线频繁断开服务的核心原因以及解决方案-卓伊凡|贝贝|莉莉|糖果
  • 在Windows 10/11上使用Qt和SOEM构建EtherCAT主站:工业控制新纪元
  • 【Axure视频教程】形状地图
  • Qt 事件处理机制深入剖析
  • 【OpenCV篇】OpenCV——01day.图像基础
  • 通俗易懂循环神经网络(RNN)指南
  • cookie基本使用
  • 如何用keepAlive实现标签页缓存
  • Samba 共享解决方案:微服务多机共享 `/app` 目录
  • Hugging Face 模型的缓存和直接下载有什么区别?
  • 【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 主页-微博基本信息实现
  • 程序代码篇---PID简介
  • 《计算机“十万个为什么”》之 MQ
  • 卷积神经网络:LeNet模型
  • STM32-GPIO理论部分1
  • 如何将iPad中的视频传输到电脑(6种简单方法)
  • 如何构建FunASR的本地语音识别服务
  • 出货奥地利,稳石氢能AEM氢户储应用方案撬动欧洲市场。
  • 智能文本抽取在法院卷宗管理的技术实现及优势
  • 记录解决问题--使用maven help插件一次性上传所有依赖到离线环境,spring-boot-starter-undertow离线环境缺少依赖
  • windows下nvm的安装及使用
  • 清华大学顶刊发表|破解无人机抓取与投递难题
  • 2025年COR SCI2区,基于多种配送模式的无人机自主配送车辆路径问题,深度解析+性能实测
  • 无人机吊舱与遥控器匹配技术解析
  • 【matlab】无人机控制算法开发与应用流程
  • 从差异到协同:OKR 与 KPI 的管理逻辑,Moka 让适配更简单
  • 进程优先级切换调度-进程概念(6)
  • Linux笔记1——简介安装
  • 高可用架构模式——数据集群和数据分区
  • Kafka监控体系搭建:基于Prometheus+JMX+Grafana的全方位性能观测方案