当前位置: 首页 > news >正文

在线教程丨字节开源 InfiniteYou 图像生成框架,实现高保真面部特征迁移

InfiniteYou(简称 InfU)是由字节跳动智能创作团队 (ByteDance Intelligent Creation) 近期推出的一款基于 Diffusion Transformers 的身份保持 (identity-preserved) 图像生成框架。它通过先进的技术,能够在生成图像的同时保持人物身份的一致性,即在生成不同场景的图片时能够精准保留面部特征

作为该领域最早利用扩散 Transformer (DiTs) 的框架之一,InfU 系统性地解决了现有方法的 3 大核心问题:身份相似度不足、图文对齐偏差以及生成质量与美学表现欠佳。其核心创新 InfuseNet 通过残差连接将身份特征注入 DiT 基础模型,在保持生成能力的同时显著提升身份保真度。采用包含预训练和合成单人多样本 (SPMS) 数据监督微调 (SFT) 的多阶段训练策略,进一步优化了图文对齐性,改善生成质量并有效缓解人脸复制效应。大量实验表明,InfU 实现了 SOTA 级别的性能表现,全面超越现有基线方法

目前「InfiniteYou 高保真图像生成 Demo」教程已上线至 HyperAI超神经官网教程板块, 感兴趣的小伙伴快来亲自上手试一试吧 !

教程地址

https://go.hyper.ai/xQnpS

Demo 运行

  1. 登录 hyper.ai,在「教程」页面,选择「InfiniteYou 高保真图像生成 Demo」,点击「在线运行此教程」。

在这里插入图片描述

在这里插入图片描述

  1. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在这里插入图片描述

  1. 选择「NVIDIA RTX A6000」以及「PyTorch」镜像,OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经总专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=Ada0322_NR0n

在这里插入图片描述

在这里插入图片描述

  1. 等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

在这里插入图片描述

在这里插入图片描述

效果展示

  1. 进入 Demo 页面后,首先在「Identity Image」处上传包含人脸的照片,然后输入 Prompt,并在「Model Version」处选择模型版本,这里默认使用「aes_stage2」以获得更好的图文对齐和生成效果,如需更高的 ID 相似度,请尝试「sim_stage1」。「Control Image[Optional]」处可上传人脸的控制图片,模型会提取 5 个面部关键点来控制生成,非必要项。最后点击「Generate」生成图像。

在这里插入图片描述

在这里插入图片描述

  1. 此处上传了一张 Yann Lecun 的照片,可以看到生成效果还是不错的。

*prompt:A sophisticated gentleman exuding confidence. He is dressed in a 1990s brown plaid jacket with a high collar, paired with a dark grey turtleneck. His trousers are tailored and charcoal in color, complemented by a sleek leather belt. The background showcases an elegant library with bookshelves, a marble fireplace, and warm lighting, creating a refined and cozy atmosphere. His relaxed posture and casual hand-in-pocket stance add to his composed and stylish demeanor

在这里插入图片描述

在这里插入图片描述

以上就是 HyperAI超神经本期为大家推荐的教程,快来上手亲自体验吧!

教程地址https://go.hyper.ai/xQnpS

相关文章:

  • 一文全面了解超融合产品:科技融合的新力量
  • 5分钟读懂ArgoCD:在Kubernetes中实现持续部署
  • 怎样才不算干扰球·棒球1号位
  • feign 使用时可能的问题
  • 国内智能外呼系统市场概况及技术发展趋势
  • [250411] Meta 发布 Llama 4 系列 AI 模型 | Rust 1.86 引入重大语言特性
  • mysql相关面试题
  • Ubuntu虚拟机连不上网
  • 华为华三模拟器解决兼容问题Win11 24H2 现在使用ENSP的问题解决了
  • webrtc pacer模块(一) 平滑处理的实现
  • PySide6 监测设备变更事件
  • 智慧能源管理平台:驱动电网数字化转型,引领绿色能源新时代
  • HTML应用指南:利用GET请求获取全国汉堡王门店位置信息
  • 算法思想之前缀和(二)
  • 操作系统 4.3-生磁盘的使用
  • 种田游戏的综合尝试
  • IBM Rational Software Architect安装感受及使用初体验
  • 日语学习-日语知识点小记-构建基础-JLPT-N4阶段(2):んです
  • 【ESP32S3】GATT Server service table传送数据到调试助手
  • 2025.04.05 广东汕尾两日游记
  • 找黄岩做网站企业/百度中心
  • 电子网站建设公司/中国最权威的网站排名
  • 自己可以做微网站吗/黄冈seo顾问
  • 网站营销案例展示/seo网站结构优化的方法
  • 做网站的人搞鬼少首页文件/微博推广费用
  • 成立做网站的公司/免费推广app软件下载