当前位置: 首页 > news >正文

论文略读:REMEDY: RECIPE MERGING DYNAMICS IN LARGE VISION-LANGUAGE MODELS

ICLR 2025

  • 模型合并能够将多个任务特定模型整合成一个统一模型,实现跨任务能力迁移
    • 任务算术(task arithmetic)通过加权任务向量实现知识迁移
    • 后续的 TIES-Merging 和 AdaMerging 又进一步利用模型剪枝与合并系数自适应机制,提升了视觉模型中的多样性与适应性。
  • 但在 LVLM 上的模型合并仍未被充分探索,其面临两大挑战:

    • 模型规模巨大

      • LVLM 通常包含三个模块:视觉编码器(visual encoder)、投影器(projector)、大型语言模型(LLM)。

      • 例如 LLaVA 1.5 包含 3 亿视觉编码器参数和 70 亿或 130 亿 LLM 参数。

      • 在任务特定数据有限(如 ScienceQA 仅有 1696 对图像-问题样本)的情况下,全面微调这些模块代价极高。

      • 因此,寻找高效子模块以进行知识迁移成为关键。

    • 视觉语言任务具有异质性

      •  LVLM 的输入同时包含视觉与语言数据,任务差异可能来自图像模态、语言模态,或两者兼具

      • 如图 1 所示,同一张地球图片在不同任务中可能需要生成不同输出(如识别城市名 vs. 生成图像描述)

      • 在零样本泛化任务中,LVLM 被期望处理新的视觉-语言组合,其挑战远超传统单模态任务的零样本学习

  • ——>为了解决上述挑战,本文提出了REcipe MErging DYnamics(REMEDY),一个针对 LVLM 的模型合并新范式,解决传统视觉模型合并方法的局限性。

    • REMEDY 包括两个核心步骤:

      • Recipe 构建(Recipe Construction)

        • 将模型中的可复用模块(如 projector 与 LLM 的浅层)定义为 recipes

        • 通过在多个 LVLM 上的大量实验,我们发现这些模块:

          • 显著提升了视觉感知能力;

          • 改进了图文交互理解;

          • 并非只是“模仿输出风格”,而是真正增强了任务迁移能力

      • Recipe 合并(Recipe Merging)

        • 在构建完 recipe 后,提出一种模态感知的分配器(modality-aware allocator)

          • 该分配器利用**少量示例(few-shot learning)**判断输入图文与现有 recipe 的相关性;

          • 然后执行一次性权重分配(one-shot weight allocation);

          • 该动态融合机制可适应多模态输入,实现跨任务、跨模态知识的有效整合

http://www.dtcms.com/a/293857.html

相关文章:

  • 深入解析预训练语言模型在文本生成中的革命性应用:技术全景与未来挑战
  • 【Elasticsearch】跨集群检索(Cross-Cluster Search)
  • 18.设备虚拟化
  • Java 堆(优先级队列)
  • Linux基本指令:掌握系统操作的钥匙
  • Unity3D性能优化全攻略
  • 原创-基于 PHP 和 MySQL 的证书管理系统 第三版
  • OpenLayers 快速入门(四)View 对象
  • springboot苍穹外卖实战:十二、添加购物车+查看购物车+清空购物车
  • React学习——美团小案例——Day3
  • 一种集合式方法:实现高效且有效的大语言模型零样本排序
  • PHP:经典与现代交织的编程语言,持续赋能Web开发
  • 浙大Fast Lab:融合3D激光雷达与强化学习的「端到端导航」,让无人机“飞”在点云上!
  • javaSE(List集合ArrayList实现类与LinkedList实现类)day15
  • OSPF(多区域)
  • Android14 锁屏密码修改为至少6位
  • 开源深度学习新宠:Burn框架助您无忧高效建模
  • USB4.0:开启高速数据传输的新时代
  • Upload-Labs通关全攻略详细版
  • Keepalived高可用模型
  • [matlab]matlab上安装xgboost安装教程简单版
  • Excel——设置打印的区域
  • Unity × RTMP × 头显设备:打造沉浸式工业远控视频系统的完整方案
  • 将AI协作编程从“碰运气”的提示工程(Prompt Engineering)提升到“可预期”的上下文工程(Context Engineering)
  • 驯服AI的“魔法咒语”:Prompt提示词工程使用教程
  • 【Spring Cloud Gateway 实战系列】基础篇:路由、断言、过滤器、负载均衡深度解析
  • AI产品经理面试宝典第46天:模型评估与Prompt工程核心考点解析
  • 1553B心得总结
  • VSCODE 禁用git 功能
  • k8s:docker compose离线部署haborV2.13.1及采用外部的postgresql及redis数据库