当前位置: 首页 > news >正文

中科院提出多方协作注意力控制方法MCA-Ctrl,无需调优的即可使用文本和复杂的视觉条件实现高质量的图像定制。

中国科学院计算技术研究所研究团队提出了多方协作注意力控制方法( MCA - Ctrl ),这是一种无需调优的方法,能够使用文本和复杂的视觉条件实现高质量的图像定制。MCA-Ctrl 可用于文本驱动的主体图像生成和图像驱动的主体图像编辑。该方法实现了跨动物、人物和物体的高质量定制,既保留了特定主体的独特特征,又满足了用户的特定需求。下图为MCA-Ctrl 的定制化结果。

相关链接

  • 论文:https://arxiv.org/abs/2505.01428

  • 代码:https://github.com/yanghan-yh/MCA-Ctrl

论文介绍

论文标题:Multi-party Collaborative Attention Control for Image Customization

扩散模型的快速发展增加了对定制图像生成的需求。然而,当前的定制方法面临一些局限性:

  1. 通常仅接受图像或文本条件;

  2. 在复杂的视觉场景中,定制往往会导致主体泄漏或混淆;

  3. 基于图像条件的输出容易受到背景不一致的影响;

  4. 计算成本高昂。

为了解决这些问题,论文提出了多方协作注意力控制( MCA - Ctrl ),这是一种无需调优的方法,能够使用文本和复杂的视觉条件实现高质量的图像定制。具体而言,MCA-Ctrl 利用自注意力层中的两个关键操作来协调多个并行的扩散过程并指导目标图像的生成。这种方法使 MCA-Ctrl 能够捕捉特定主体的内容和外观,同时保持与条件输入的语义一致性。此外,为了减少复杂视觉场景中常见的主体泄漏和混淆问题,我们引入了主体定位模块,该模块可根据用户指令提取精确的主体和可编辑的图像层。定量和人工评估实验表明,MCA-Ctrl 在零样本图像定制方面优于现有方法,有效地解决了上述问题。

方法概述

MCA-Ctrl 概述。 该方法通过三个并行扩散过程中的自注意力协同控制来定制图像,无需进行微调。图 (A) 和 (B) 展示了 MCA-Ctrl 在图像和文本条件下的推理流程,而 (C) 和 (D) 展示了自注意力局部查询和自注意力全局注入的细节。

实验结果

MCA-Ctrl 与 FreeCustom 在角色定制方面的比较。

MCA-Ctrl 与 FreeCustom 在角色定制方面的比较。

结论

论文提出了一种无需调整的图像定制生成方法—MCA-Ctrl。该模型通过协调三个并行扩散过程之间的注意力控制,实现了高质量、高保真度的主体驱动编辑和生成。此外,MCA-Ctrl 通过引入主体定位模块,解决了复杂视觉场景中的特征混淆问题。大量实验结果表明,MCA-Ctrl 的编辑和生成性能优于大多数微调模型。

相关文章:

  • Java开发过程中,trycatch异常处理的避坑梳理
  • 巧克力---贪心+堆模拟/优先队列
  • 图像识别预处理(配合pytesseract使用)
  • 一个典型的Qt界面拆分(解耦)方案
  • figma MCP + cursor如何将设计稿生成前端页面
  • 链游技术破壁:NFT资产确权与Play-to-Earn经济模型实战
  • 【数据结构】B树
  • TP6 实现一个字段对数组中的多个值进行LIKE模糊查询(OR逻辑)
  • 【nano与Vim】常用命令
  • K8S认证|CKS题库+答案| 3. 默认网络策略
  • 无需域名,直接加密IP的SSL方案
  • 【Survival Analysis】【机器学习】【3】 SHAP可解釋 AI
  • DDD架构实战 领域层 事件驱动
  • MCP Server 之旅第 5 站:服务鉴权体系解密
  • vanna+deepseek+chainlit 实现自然语言转SQL的精度调优
  • 构建 MCP 服务器:第 4 部分 — 创建工具
  • 【零基础 快速学Java】韩顺平 零基础30天学会Java[学习笔记]
  • 打造你的 Android 图像编辑器:深入解析 PhotoEditor 开源库
  • 用设计模式重新思考(类FSM)验证:从混乱到优雅
  • ES6——数组扩展之Set数组
  • 现在做网站怎么赚钱/百度平台客服电话
  • 丰胸建设网站/朋友圈广告怎么投放
  • 如何进行一个网站建设/建立企业网站步骤
  • 旅游网站建设报价单/百度推广是什么意思
  • 网站建设客户在哪里找/百度免费下载安装百度
  • 推荐做网站的公司/无锡百度竞价推广