[2025CVPR-图象处理方向]Z-Magic:零样本多属性引导图像创建器
1. 背景与动机
- 问题陈述:在生成式AI(如扩散模型)广泛应用的背景下,多属性定制(如文本提示、风格、面部ID等)需求日益增长。现有方法(如独立条件扩散模型)假设属性间相互独立,忽略了属性间的条件依赖关系(如服装颜色受款式影响),导致生成图像缺乏上下文连贯性。
- 关键发现:文档通过分析条件扩散模型的梯度(如公式 gc=∇xtlogp(c∣xt)),发现当属性被独立处理时,不同条件的梯度方向接近正交(余弦相似度接近0),这类似于高维空间中随机向量的特性(Figure 1所示)。这表明独立假设破坏了属性间的自然关联,限制了生成图像的整体和谐性。
- 研究目标:Z-Magic旨在解决这一问题,通过重新形式化多属性生成为条件概率问题,建模属性间的依赖关系,实现零样本设置下的高效、连贯图像生成,减少对大规模训练的依赖。
2. 方法细节
Z-Magic的核心基于分数扩散模型(Score-based Diffusion Models),将多属性生成重新形式化为条件概率问题。方法分为两部分:条件依赖创建和多任务学习视角。
-