当前位置: 首页 > news >正文

统一虚拟试穿框架OmniTry:突破服装局限,实现多品类可穿戴物品虚拟试穿无蒙版新跨越。

在虚拟试穿(VTON)领域,现有研究多聚焦于服装,这在一定程度上限制了其应用范围。浙江大学团队提出了一个统一框架 OmniTry,该框架将 VTON 的应用范畴拓展至服装之外的各类可穿戴物品,像珠宝、配饰等,还提供无蒙版设置以贴合实际应用场景。面对扩展物品类型时数据管理获取配对图像的难题,团队设计了独特的两阶段流程,巧妙利用大规模未配对图像和少量配对图像训练微调模型。经基于综合基准的评估,OmniTry 在物体定位和身份保存上表现卓越,且代码、模型权重和评估基准即将公开,有望推动该领域发展。

试穿结果

在包含 12 个主要可穿戴物品类别的 OmniTry-Bench 上进行评估的结果。

与现有方法的比较

将 OmniTry 扩展到不常见的类。

相关链接

  • 论文:https://arxiv.org/pdf/2508.13632

  • 主页:https://omnitry.github.io/

  • 代码:https://github.com/Kunbyte-AI/OmniTry

  • 模型:https://huggingface.co/Kunbyte/OmniTry

论文介绍

虚拟试穿 (VTON) 是一项实用且应用广泛的任务,现有研究大多侧重于服装。本文提出了一个统一的框架 OmniTry,它将 VTON 的范围从服装扩展到任何可穿戴物品,例如珠宝和配饰,并提供无遮罩设置,以实现更实际的应用。当扩展到各种类型的物品时,获取配对图像(即物品图像和相应的试穿结果)的数据管理具有挑战性。

为了解决这个问题,论文提出了一个两阶段流程:

  1. 利用大规模未配对图像(即带有任何可穿戴物品的肖像)来训练模型进行无遮罩定位。论文重新设计了修复模型,使其能够在给定空遮罩的情况下自动将物品绘制到合适的位置。

  2. 使用配对图像进一步微调模型,以迁移物品外观的一致性。即使只有少量配对样本,第一阶段后的模型也能快速收敛。

OmniTry 的评估基于一个包含 12 类常见可穿戴物品的综合基准,其中包含店内和野外图像。实验结果表明,与现有方法相比,OmniTry 在物体定位和身份保存方面均表现出色。

方法概述

OmniTry 的两阶段训练流程。 第一阶段基于自然场景人像图像,以无口罩的方式将可穿戴物品添加到人物身上。第二阶段引入店内配对图像,旨在控制物体外观的一致性。

实验结果

结论

OmniTry 是一个统一的无遮罩试穿框架,它将现有的服装试穿扩展至任何可穿戴物体。为了解决许多类型物体缺乏丰富的配对样本(即物体和试穿图像)的问题,在 OmniTry 中提出了一个两阶段训练流程。

  • 第一阶段,利用大规模未配对图像来监督模型进行无遮罩物体定位。

  • 第二阶段,则对模型进行训练以保持物体的一致性。

论文详细阐述了 OmniTry 的设计,包括用于避免捷径学习的无痕擦除、用于无遮罩生成的基于图像修复的重新利用策略以及用于身份迁移的带遮罩全注意力机制。提出了一个针对统一试穿的新基准,并证明了 OmniTry 与现有方法相比的有效性。大量的实验也验证了 OmniTry 即使使用少量配对图像进行训练也能实现高效的学习。

http://www.dtcms.com/a/354359.html

相关文章:

  • 【小白笔记】网速
  • TypeScript:完整的函数类型书写方式
  • 【开题答辩全过程】以超市管理系统为例,包含答辩的问题和答案
  • Linux 系统核心调优:CPU、磁盘 I/O、网络与内核参数实战
  • 流行蝴蝶剑高清重制版Windows10可玩!
  • 小程子找Bug之for循环的初始化表达类型
  • 【美团】放它一马
  • 今日行情明日机会——20250827
  • 即时配送运营平台系统功能分析
  • 寄存器, 堆栈, 汇编指令详解
  • 入门概念|Thymeleaf与Vue
  • 企业微信对接 代理 WXJava Ngnix映射 weixin-java-cp
  • Vue 登录页高低分辨率背景图优化实现
  • mathtype公式存在乱码
  • SqlHelper类的方法详细解读和使用示例
  • Libvio访问异常排查指南
  • sql server 取起始日期到结束日期中自然月最后一天,与日期维度行转列
  • 数据治理:AI健康血液的生命线
  • Elasticsearch数据迁移快照方案初探(一):多节点集群配置踩坑记
  • Anaconda的安装与使用
  • 文本分块的优化策略-语义完整性、控制长度、重叠切分、结合模型,考虑大模型输入限制
  • matlab的app中传递数据
  • 林墨2025全新个人EP《嘻嘻呵呵嘿嘿哈哈》 第三支单曲解锁
  • 【数据分享】安徽省安庆市地理基础数据(道路、水系、铁路、行政边界(含乡镇)、DEM等)
  • 企业分支上云的常见误区与纠正方案
  • LeetCode - 反转链表 / K 个一组翻转链表
  • HSA35NV001美光固态闪存NQ482NQ470
  • CT03-215.数组中第k大的元素
  • 面试之微服务架构
  • 美团面试手撕:手动实现开方函数math.sqrt(x)