当前位置：首页 > news >正文

MajicTryOn(基于wanvideo的虚拟试穿项目)

news 2025/9/13 4:22:14

网络结构

Attention模块详解

左边服装通过qwen2.5-VL-7B来生成详细的服装描述；线条提取器产生相应的线条map；garment和line map通过vae转换为潜在空间特征，然后分别经过patchfier,最后通过zero proj得到Garment Tokens和Line Tokens;右边是dit中的attention block模块(只包括cross attention部分)，首先是Input Tokens 经过线性层和经过clip的图像tokens做交叉注意力计算，Text Tokens (文本通过umt5 文本编码器得到)经过线性层和经过线性层的Input Tokens 进行交叉注意力计算，后面将经过交叉注意力计算的文本特征和图像特征相加在一起；FGCA也同样是交叉注意力，只不过他们是将Line Tokens和Garment Tokens经过Linear得到的K，V分别堆叠在一起后再和Input Tokens进行叉注意力计算。最后将所有的经过注意力计算的特征相加在一起。需要注意的是一个轻量化Adapter模块：自适应服装特征分布 .

训练目标函数

引入了一个mask区域loss计算，加强需要生成的衣服区域的生成保真度。

数据和评估指标

数据

VITON-HD

DressCode

ViViD

评估指标

SSIM, LPIPS, FID, and KID；前两个主要专注于两个图像像素的相似度，后两个主要专注于两个图像像素分布的相似度

实现细节

预训练模型Wan2.1-Fun-14B-Control

第一阶段使用分辨率256-512的分辨率训练，第二阶段继续训练，在512-1024分辨率上

训练视频49帧，batch_size为2。第一阶段15k步数，第二阶段10K步数。

优化器 AdamW,学习率1e-5

机器配置8 NVIDIA H20 (96GB) GPUs

参考论文

https://arxiv.org/pdf/2505.21325

目前代码未开源

文章转载自：

http://xcZ9dyf6.pdmmL.cn
http://4VDAvNJP.pdmmL.cn
http://VKWk8rmU.pdmmL.cn
http://d43v15Xz.pdmmL.cn
http://fa7DPoiw.pdmmL.cn
http://YcD5jen8.pdmmL.cn
http://aHoogNfK.pdmmL.cn
http://qdW9gqme.pdmmL.cn
http://lg7D0fns.pdmmL.cn
http://p9UxIJh8.pdmmL.cn
http://XSa4c2CI.pdmmL.cn
http://DTGI3mMv.pdmmL.cn
http://Q3doQcoH.pdmmL.cn
http://UdQy98Ob.pdmmL.cn
http://7EUBZP0v.pdmmL.cn
http://sfIm6Sqm.pdmmL.cn
http://AxYiCQnb.pdmmL.cn
http://iASZr9Ej.pdmmL.cn
http://wWq3rOlO.pdmmL.cn
http://SDR80YIk.pdmmL.cn
http://nKkSLd1u.pdmmL.cn
http://pHyyrtoF.pdmmL.cn
http://hZxxImw5.pdmmL.cn
http://90sKPJgX.pdmmL.cn
http://KnXEGvWB.pdmmL.cn
http://30mRww5Y.pdmmL.cn
http://G1aRVgoO.pdmmL.cn
http://xG8Q7A6Y.pdmmL.cn
http://LgssWrbW.pdmmL.cn
http://l2hn6gXG.pdmmL.cn

http://www.dtcms.com/a/235741.html

相关文章：

@Minikube 部署与配置

使用 Python 构建并调用 ComfyUI 图像生成 API：完整实战指南

【大厂机试题解法笔记】观看文艺演出问题

使用扩散模型解决Talking Head生成中的头像抖动问题

毫米波雷达基础理论（3D+4D）

20250606-C#知识：匿名函数、Lambda表达式与闭包

C#中datagridview单元格value为{}大括号

Compose基本介绍

8.1_排序的基本概念

【C++】24. 哈希表的实现

Day46

消息队列高级特性与原理：解锁分布式系统的底层逻辑

【信息系统项目管理师-论文真题】2025上半年（第一批）论文详解（包括解题思路和写作要点）

【大模型LLM学习】Flash-Attention的学习记录

PL/SQLDeveloper中数值类型字段查询后显示为科学计数法的处理方式

主流定位技术：Zigbee、蓝牙、UWB、RFID、5G通信介绍及对比

PCB特种工艺应用扩展：厚铜、高频与软硬结合板

视觉SLAM基础补盲

【Kotlin】协程

准确--k8s cgroup问题排查

紫光同创FPGA系列实现Aurora 8b/10b协议

单芯片电流采用电路分享

Tongweb配置跳过扫描应用jar的配置指引（by lqw）

山东大学算法设计与分析复习笔记

【PhysUnits】16.2 引入变量后的乘法实现(mul.rs)

arduino开发遇见的问题（求助！！）

springMVC-10验证及国际化

深入理解 transforms.Normalize()：PyTorch 图像预处理中的关键一步

格恩朗液体涡轮流量计精准测量助力多元场景

制作一款打飞机游戏67：更好的瞄准