当前位置: 首页 > news >正文

⭐CVPR2025 用于个性化图像生成的 TFCustom 框架

📄论文题目:TFCustom: Customized Image Generation with Time-Aware Frequency Feature Guidance
✍️作者及机构:Mushui Liu、Dong She、Wanggui He、Yuanlei Hou、Siming Fu 等(浙江大学、中国科学技术大学、阿里巴巴集团、Middle East Centre, RIPED)
🧩面临问题:当前主题驱动的图像个性化生成存在局限。一方面,主流的 ReferenceNet 范式主要作为潜在特征提取器,无法在不同时间步向去噪主干网络传递合适的特征,导致图像一致性欠佳;另一方面,在多对象参考生成时,容易出现对象冲突或细节模糊等问题1234。
在这里插入图片描述
🎯创新点及其具体研究方法:
1️⃣ 提出 TFCustom 框架:该框架注重参考图像在不同时间和频率层面的特征,包括同步 ReferenceNet、时间感知频率特征优化模块和奖励模型优化,实现个性化生成25。
2️⃣ 同步 ReferenceNet 与时间感知频率优化模块:对参考图像在每个时间步施加噪声,使 ReferenceNet 提取的特征与去噪网络的噪声潜在特征时间对齐,并通过扩散损失优化;设计时间感知频率细化模块(TA-FFR),利用高斯算子提取低频特征(结构轮廓)和 Krisch 算子提取高频特征(纹理细节),结合时间嵌入自适应注入,早期侧重低频定轮廓,后期侧重高频添细节6789。
3️⃣ 奖励模型优化与损失函数:引入奖励损失函数,利用 DINOv2 模型计算生成图像与参考图像的特征相似度,在训练阶段对时间步 t<T0 施加该损失;整体损失函数结合去噪扩散损失、参考扩散损失和奖励损失,平衡各部分权重,提升参考对象与生成图像的相似度,缓解多对象冲突1011。
4️⃣ 实验验证性能优势:在单对象任务(DreamBench 数据集)和多对象任务(MS-Bench 数据集)上进行实验,TFCustom 在 CLIP-I、DINO、CLIP-T 等指标上均超越现有方法,展现出在纹理和文本细节生成上的优越性12131415。

#论文精读 #图像生成 #个性化生成 #计算机视觉 #深度学习 #CVPR #频率特征 #扩散模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.dtcms.com/a/316531.html

相关文章:

  • python可视化--Seaborn图形绘制方法和技巧,Bokeh图形绘制方法和技巧
  • 虚幻GAS底层原理解剖二 (GE)
  • 安全策略一体化落地指南:从定义到执行的闭环架构
  • 自适应爬虫代理高频数据抓取
  • 数据大集网:全链路赋能下的获客渠道革新与行业实践
  • 王阳明心学笔记
  • 【软考中级网络工程师】2021年下半年上午真题及答案解析
  • C++进阶—特殊类设计
  • Java面试宝典:深入解析JVM运行时数据区
  • ArrayList 深度剖析:从底层原理到性能优化的实战指南
  • python 之 autogen-core《三》主题与订阅
  • TypeScript:融合 JS、ES6 与 Vue3 的前端开发新范式
  • 大模型——Qwen开源会写中文的生图模型Qwen-Image
  • 【Dify学习笔记】:保留原所有数据,升级Dify版本
  • Linux(16)——进程间通信(下)
  • 深度学习·基础知识
  • BUUCTF杂项MISC题解题思路(3)(不断更新)
  • AG32 mcu通过ahb转apb方式操作cpld外设
  • 计算机视觉CS231n学习(3)
  • 基于深度学习的医学图像分析:使用CycleGAN实现医学图像风格转换
  • 深入理解Spring Boot自动配置原理
  • 区块链:重构信任的价值互联网革命​
  • 技术实践:在Debian上为同型号双网卡配置差异化驱动
  • 【Algorithm | 0x02 动态规划】背包问题
  • AIDL学习
  • sql调优总结
  • MySQL 5.7 和 8.0 离线安装教程(图文版适合电脑小白)
  • 信用机制的发展与货币演进
  • CSRF漏洞原理及利用(全)
  • vue环境的搭建