⭐CVPR2025 用于个性化图像生成的 TFCustom 框架
📄论文题目:TFCustom: Customized Image Generation with Time-Aware Frequency Feature Guidance
✍️作者及机构:Mushui Liu、Dong She、Wanggui He、Yuanlei Hou、Siming Fu 等(浙江大学、中国科学技术大学、阿里巴巴集团、Middle East Centre, RIPED)
🧩面临问题:当前主题驱动的图像个性化生成存在局限。一方面,主流的 ReferenceNet 范式主要作为潜在特征提取器,无法在不同时间步向去噪主干网络传递合适的特征,导致图像一致性欠佳;另一方面,在多对象参考生成时,容易出现对象冲突或细节模糊等问题1234。
🎯创新点及其具体研究方法:
1️⃣ 提出 TFCustom 框架:该框架注重参考图像在不同时间和频率层面的特征,包括同步 ReferenceNet、时间感知频率特征优化模块和奖励模型优化,实现个性化生成25。
2️⃣ 同步 ReferenceNet 与时间感知频率优化模块:对参考图像在每个时间步施加噪声,使 ReferenceNet 提取的特征与去噪网络的噪声潜在特征时间对齐,并通过扩散损失优化;设计时间感知频率细化模块(TA-FFR),利用高斯算子提取低频特征(结构轮廓)和 Krisch 算子提取高频特征(纹理细节),结合时间嵌入自适应注入,早期侧重低频定轮廓,后期侧重高频添细节6789。
3️⃣ 奖励模型优化与损失函数:引入奖励损失函数,利用 DINOv2 模型计算生成图像与参考图像的特征相似度,在训练阶段对时间步 t<T0 施加该损失;整体损失函数结合去噪扩散损失、参考扩散损失和奖励损失,平衡各部分权重,提升参考对象与生成图像的相似度,缓解多对象冲突1011。
4️⃣ 实验验证性能优势:在单对象任务(DreamBench 数据集)和多对象任务(MS-Bench 数据集)上进行实验,TFCustom 在 CLIP-I、DINO、CLIP-T 等指标上均超越现有方法,展现出在纹理和文本细节生成上的优越性12131415。
#论文精读 #图像生成 #个性化生成 #计算机视觉 #深度学习 #CVPR #频率特征 #扩散模型