当前位置: 首页 > news >正文

阿里联合上海AI Lab提出DMM!多个模型压缩成一个通用T2I模型!可控任意风格生成!

阿里联合上海 AI Lab 提出了一种基于分数蒸馏的模型合并范式DMM,将多个模型压缩为一个多功能的 T2I 模型。DMM 能够在风格提示的控制下生成各种专业风格的图像(写实风格、亚洲肖像、动漫风格等)。

效果展示

结果

与字符 LoRA 相结合的结果

两种风格插值的结果

  • 论文:https://arxiv.org/pdf/2504.12364

  • 代码:https://github.com/MCG-NJU/DMM

  • 模型:https://huggingface.co/MCG-NJU/DMM

  • 试用:https://huggingface.co/spaces/MCG-NJU/DMM

  • 工作流:https://github.com/songtianhui/ComfyUI-DMM

论文介绍

论文名:DMM:Building a Versatile Image Generation Model via Distillation-Based Model Merging

文本转图像 (T2I) 生成模型的成功促使大量基于同一基础模型在各种专用数据集上进行微调的模型检查点的涌现。这种庞大的专用模型生成过程带来了新的挑战,例如高参数冗余和巨大的存储成本,因此亟需开发有效的方法将各种强大模型的功能整合并统一为一个模型。模型合并的一种常见做法是在参数空间中采用静态线性插值来实现风格混合。然而,这种方法忽略了 T2I 生成任务的特点,即众多不同的模型涵盖了各种风格,这可能导致合并后的模型不兼容和混乱。

为了解决这个问题,论文引入了一种可自动生成风格图像的流程,该流程可以在风格向量的控制下准确地生成任意风格的图像。基于此设计提出了基于分数蒸馏的模型合并范式 (DMM),将多个模型压缩为一个通用的 T2I 模型。此外通过提出新的合并目标和评估方案,在T2I生成背景下重新思考并重新制定了模型合并任务。实验表明 DMM 可以紧凑地重组来自多个教师模型的知识,并实现可控的任意风格生成。

方法概述

DMM 的分布式训练框架。

  • (a)训练期间 GPU 集群上的模型布局。每个节点分配一个特定的教师模型,以共享参数共同监督学生模型。维护一组可学习的嵌入(风格提示),以提供提示并相互区分。

  • (b)持续学习。通过初始化和添加新的嵌入,引入新的教师模型。冻结的预训练学生模型作为正则化,风格提示随机选择。

基于蒸馏的模型合并的可风格提示的生成流程。提出的蒸馏目标包含三个损失项:分数蒸馏、特征模仿和多类对抗损失。

基于蒸馏的模型合并的可风格提示的生成流程。提出的蒸馏目标包含三个损失项:分数蒸馏、特征模仿和多类对抗损失。

实验结果

不同风格选择的视觉生成结果。每组中,第一行是我们模型的结果,第二行是相应的教师模型的结果。

不同风格选择的视觉生成结果。每组中,第一行是我们模型的结果,第二行是相应的教师模型的结果。

DMM与ControlNetCanny、IP-Adapter、字符LoRA集成的可视化效果

DMM与ControlNetCanny、IP-Adapter、字符LoRA集成的可视化效果

结论

论文重新思考了T2I扩散模型领域的模型合并任务,并构建了一个多功能、可支持样式提示的扩散模型,用于可控的图像生成。具体而言,作者提出了一种基于分数蒸馏的简单而有效的合并范式DMM,DMM利用三种类型的损失函数来提升合并性能,并进行正则化以支持稳定的持续学习。借助我们设计的基于嵌入的样式控制机制,用户可以在推理过程中操作样式提示,灵活地执行各种样式组合。论文基于新的指标设计了一个评估基准,结果表明提出的合并模型在图像生成质量方面能够很好地模拟专家教师模型。

相关文章:

  • Tomcat全方位监控实施方案指南
  • Python内置函数ord()详解
  • 数据库系统学习
  • M3T联邦基础模型用于具身智能:边缘集成的潜力与挑战
  • 8. 线性表的类型定义
  • 面向开发者的提示词工程④——文本推断(Inferring)
  • Qt(part1)Qpushbutton,信号与槽,对象树,自定义信号与槽,lamda表达式。
  • 人员定位系统解决方案
  • 记录一个用了很久的git提交到github和gitee比较方便的方法
  • 基于Javamail的邮件收发系统设计与实现【源码+文档】
  • NLP学习路线图(二十九):BERT及其变体
  • 三种读写传统xls格式文件开源库libxls、xlslib、BasicExcel的比较
  • 20250606-C#知识:List排序
  • 使用 Ansible 在 Windows 服务器上安装 SSL 证书
  • Opencv中的addweighted函数
  • [论文阅读] 人工智能 | 大语言模型计划生成的新范式:基于过程挖掘的技能学习
  • Linux-http协议
  • Xilinx 325T FPGA 中的 GT(GTP 或 GTX)收发器和普通 LVDS 接口的差模和共模电压
  • 软件功能测试报告都包含哪些内容?
  • 多线程下使用缓存+锁Lock, 出现“锁失效” + “缓存未命中竞争”的缓存击穿情况,双重检查缓存解决问题
  • 上饶哪有做网站的公司?/网络精准营销推广
  • 咸阳公司做网站/企业获客方式
  • 每个城市建设规划在哪个网站/销售课程视频免费
  • 做电商网站公司/新闻热点事件2021(最新)
  • 自己写的网页怎么发布到网上/长沙seo袁飞
  • 网站认证必须做么/外链网