中科院提出多方协作注意力控制方法MCA-Ctrl,无需调优的即可使用文本和复杂的视觉条件实现高质量的图像定制。
中国科学院计算技术研究所研究团队提出了多方协作注意力控制方法( MCA - Ctrl ),这是一种无需调优的方法,能够使用文本和复杂的视觉条件实现高质量的图像定制。MCA-Ctrl 可用于文本驱动的主体图像生成和图像驱动的主体图像编辑。该方法实现了跨动物、人物和物体的高质量定制,既保留了特定主体的独特特征,又满足了用户的特定需求。下图为MCA-Ctrl 的定制化结果。
相关链接
-
论文:https://arxiv.org/abs/2505.01428
-
代码:https://github.com/yanghan-yh/MCA-Ctrl
论文介绍
论文标题:Multi-party Collaborative Attention Control for Image Customization
扩散模型的快速发展增加了对定制图像生成的需求。然而,当前的定制方法面临一些局限性:
-
通常仅接受图像或文本条件;
-
在复杂的视觉场景中,定制往往会导致主体泄漏或混淆;
-
基于图像条件的输出容易受到背景不一致的影响;
-
计算成本高昂。
为了解决这些问题,论文提出了多方协作注意力控制( MCA - Ctrl ),这是一种无需调优的方法,能够使用文本和复杂的视觉条件实现高质量的图像定制。具体而言,MCA-Ctrl 利用自注意力层中的两个关键操作来协调多个并行的扩散过程并指导目标图像的生成。这种方法使 MCA-Ctrl 能够捕捉特定主体的内容和外观,同时保持与条件输入的语义一致性。此外,为了减少复杂视觉场景中常见的主体泄漏和混淆问题,我们引入了主体定位模块,该模块可根据用户指令提取精确的主体和可编辑的图像层。定量和人工评估实验表明,MCA-Ctrl 在零样本图像定制方面优于现有方法,有效地解决了上述问题。
方法概述
MCA-Ctrl 概述。 该方法通过三个并行扩散过程中的自注意力协同控制来定制图像,无需进行微调。图 (A) 和 (B) 展示了 MCA-Ctrl 在图像和文本条件下的推理流程,而 (C) 和 (D) 展示了自注意力局部查询和自注意力全局注入的细节。
实验结果
MCA-Ctrl 与 FreeCustom 在角色定制方面的比较。
结论
论文提出了一种无需调整的图像定制生成方法—MCA-Ctrl。该模型通过协调三个并行扩散过程之间的注意力控制,实现了高质量、高保真度的主体驱动编辑和生成。此外,MCA-Ctrl 通过引入主体定位模块,解决了复杂视觉场景中的特征混淆问题。大量实验结果表明,MCA-Ctrl 的编辑和生成性能优于大多数微调模型。