当前位置: 首页 > news >正文

MajicTryOn(基于wanvideo的虚拟试穿项目)

网络结构

 Attention模块详解

        左边服装通过qwen2.5-VL-7B来生成详细的服装描述;线条提取器产生相应的线条map;garment和line map通过vae转换为潜在空间特征,然后分别经过patchfier,最后通过zero proj得到Garment Tokens和Line Tokens;右边是dit中的attention block模块(只包括cross attention部分),首先是Input Tokens 经过线性层和经过clip的图像tokens做交叉注意力计算,Text Tokens (文本通过umt5 文本编码器得到)经过线性层和经过线性层的Input Tokens 进行交叉注意力计算,后面将经过交叉注意力计算的文本特征和图像特征相加在一起;FGCA也同样是交叉注意力,只不过他们是将Line Tokens和Garment Tokens经过Linear得到的K,V分别堆叠在一起后再和Input Tokens进行叉注意力计算。最后将所有的经过注意力计算的特征相加在一起。需要注意的是一个轻量化Adapter模块:自适应服装特征分布 .

训练目标函数

 

 引入了一个mask区域loss计算,加强需要生成的衣服区域的生成保真度。

 数据和评估指标

 数据

VITON-HD

DressCode

ViViD

 评估指标

 SSIM, LPIPS, FID, and KID;前两个主要专注于两个图像像素的相似度,后两个主要专注于两个图像像素分布的相似度

 实现细节

预训练模型Wan2.1-Fun-14B-Control

第一阶段使用分辨率256-512的分辨率训练,第二阶段继续训练,在512-1024分辨率上

训练视频49帧,batch_size为2。第一阶段15k步数,第二阶段10K步数。

优化器 AdamW,学习率1e-5

机器配置8 NVIDIA H20 (96GB) GPUs

 

参考论文

https://arxiv.org/pdf/2505.21325

目前代码未开源

 

相关文章:

  • @Minikube 部署与配置
  • 使用 Python 构建并调用 ComfyUI 图像生成 API:完整实战指南
  • 【大厂机试题解法笔记】观看文艺演出问题
  • 使用扩散模型解决Talking Head生成中的头像抖动问题
  • 毫米波雷达基础理论(3D+4D)
  • 20250606-C#知识:匿名函数、Lambda表达式与闭包
  • C#中datagridview单元格value为{}大括号
  • Compose基本介绍
  • 8.1_排序的基本概念
  • 【C++】24. 哈希表的实现
  • Day46
  • 消息队列高级特性与原理:解锁分布式系统的底层逻辑
  • 【信息系统项目管理师-论文真题】2025上半年(第一批)论文详解(包括解题思路和写作要点)
  • 【大模型LLM学习】Flash-Attention的学习记录
  • PL/SQLDeveloper中数值类型字段查询后显示为科学计数法的处理方式
  • 主流定位技术:Zigbee、蓝牙、UWB、RFID、5G通信介绍及对比
  • PCB特种工艺应用扩展:厚铜、高频与软硬结合板
  • 视觉SLAM基础补盲
  • 【Kotlin】协程
  • 准确--k8s cgroup问题排查
  • seo怎么做网站的tdk/公司域名注册步骤
  • 东营两学一做网站/站长工具使用
  • 网站维护需要/电商项目策划书
  • 卡盟做网站/长春百度快速优化
  • 网站开发建设合同/北京网站推广营销服务电话
  • dz网站数据备份恢复/优秀营销软文100篇