EasyControl:Adding Efficient and flexible control for diffusion transformer
1.introduction
早期的unet架构的方法通过冻结预训练参数并引入额外的适配器或encoder结构实现预训练模型的灵活扩展,DiT架构标志该领域往基于token的方法过渡,这些方法通过vae编码器将条件图像转换为token序列,将其与噪声潜在表示连接,并对模型进行微调,以实现条件引导生成。DiT方法的问题:1.计算瓶颈问题,当引入额外的图像标记时,由于自注意力机制,其时间复杂度相对于输入长度呈平方级增长;2.存在多条件协同控制挑战,现有方法难以在但条件训练范式下实现多条件指导下的稳定协调,潜在空间中不同条件信号的表征冲突导致生成质量下降,特别是在零样本多条件组合场景中,模型缺乏有效的跨条件交互机制;3.模型适应性存在局限性。尽管当前的参数高效微调方法能够保持骨干网络参数冻结,但微调模块与社区中的定制模型之间存在参数冲突,这种设计缺陷导致在风格迁移过程中出现特征退化,限制了模块的即插即用特性。
Easycontrol是一种轻量级且即插即用的条件注入lora模块,其核心创新点在条件信号的隔离注入,该模块通过并行分支机制集成到预训练模型中,其中rank仅用于条件分支的token,同时保持文本分支和噪声分支的权重冻结。
在token处理层面,我们