当前位置: 首页 > news >正文

字节跳动 USO 模型!打破 AI 图像生成壁垒,开启创意融合新时代

在 AI 图像生成领域,风格驱动和主题驱动的图像生成长期以来被视为相对独立的任务,二者之间的矛盾限制了图像生成的灵活性和精准度。字节跳动的智能创作实验室(UXO 团队)推出的 USO(Unified Style and Subject-driven Generation via Disentangled and Reward Learning)模型,成功打破了这一僵局,为图像生成带来了全新的思路和可能性。目前,该模型已在 GitHub 全面开源( https://github.com/bytedance/USO ),吸引了众多开发者和创作者的关注。

一、技术突破:创新训练,打破风格与主题的对立

(一)构建大规模三元组数据集

字节跳动的研究人员深知数据对于 AI 模型的重要性,为此构建了包含约 20 万个三元组的大规模数据集。每个三元组由 “风格参考图像”“内容参考图像” 和 “风格化目标图像” 组成,这种独特的设计让模型能够学习如何将风格和内容有机结合。在训练过程中,模型通过对这些三元组数据的学习,逐渐掌握风格与内容之间的关联和转换方式,为后续实现风格与主题的统一生成奠定了坚实基础。

(二)采用独特的两阶段训练方法

USO 模型在训练过程中采用了独特的两阶段训练方法。第一阶段聚焦于学习风格,借助先进的图像编码器帮助模型深入理解艺术风格。在这个阶段,模型专注于捕捉风格参考图像中的色彩、纹理、笔触等风格特征,从而为后续的风格迁移和融合提供支持。第二阶段则引入内容信息,确保主题的准确性。通过处理内容参考图像,模型能够在保持风格一致性的同时,准确呈现出主题内容,实现了风格和内容在模型学习过程中的分离与最终生成时的完美融合。

(三)引入风格奖励学习机制

为了进一步提升模型的性能,字节团队引入了风格奖励学习(SRL)机制。这一机制利用强化训练,鼓励模型在保持主题不变的前提下,尽可能地模仿目标风格。在生成图像时,模型会根据 SRL 机制的反馈,不断优化生成结果,使生成的图像在风格上更接近参考图像,同时又能准确传达主题信息,从而显著提高了图像生成的精准度和灵活性。

二、性能优势:精准灵活,超越开源模型

(一)高灵活性与精准度的图像生成

USO 模型在图像生成方面展现出了极高的灵活性和精准度。无论是风格驱动的生成,还是主题驱动的生成,亦或是两者结合的生成任务,USO 都能出色完成。在风格驱动生成中,用户上传一张印象派风格的画作作为风格参考,再输入 “花园中的猫” 的文本提示,USO 能生成具有印象派风格的猫在花园中的图像,不仅色彩和笔触模仿得惟妙惟肖,而且猫和花园的元素也能准确呈现。在主题驱动生成中,输入 “一个在海边冲浪的人”,USO 能生成符合描述的高质量图像,并且可以根据用户提供的风格参考,灵活地为图像添加不同的风格,如卡通风格、写实风格等。

(二)在行业基准平台的优势表现

字节跳动推出了业界首个能够同时评估风格相似性和主题保真度的基准平台 ——USO-bench。在这个平台上,USO 模型在各个维度都取得了显著优势,超越了现有的开源模型。这一成绩充分证明了 USO 模型在处理风格与主题融合方面的卓越能力,也为开发者和创作者提供了一个客观的评估标准,让他们能够更好地了解 USO 模型的性能优势。

三、应用场景:多元领域,激发创意无限

(一)数字艺术创作

对于数字艺术家来说,USO 模型是激发创意的强大工具。艺术家可以利用该模型快速探索不同风格与主题的组合,创作出新颖独特的艺术作品。一位数字艺术家想要创作一系列融合中国传统山水画风格和现代都市主题的作品,通过 USO 模型,他可以轻松地将山水画的笔墨风格应用到现代都市的建筑、街道等元素上,创造出别具一格的艺术效果,为数字艺术领域带来全新的视觉体验。

(二)商业设计

在商业设计领域,USO 模型也具有巨大的应用潜力。品牌可以借助 USO 模型生成风格多样但主题统一的营销材料,满足不同平台的需求。一家时尚品牌在进行新品推广时,需要在社交媒体、官方网站、线下海报等多个平台发布宣传素材。使用 USO 模型,品牌可以根据不同平台的特点和受众喜好,生成具有统一主题(如新品特色)但风格各异的图像,如在社交媒体上使用潮流时尚风格的图像吸引年轻消费者,在线下海报上使用简约大气风格的图像提升品牌形象,从而提高品牌推广的效果。

四、开源价值:开放生态,推动行业发展

(一)鼓励开发者探索创新

USO 模型的全面开源为开发者提供了一个广阔的探索空间。开发者可以基于 USO 模型进行二次开发,探索其在更多领域的应用可能性。开发者可以结合自己的创意和技术,开发出专门用于特定行业的图像生成工具,如医疗影像风格转换工具、建筑设计概念图生成工具等,为不同行业带来创新的解决方案。

(二)促进 AI 图像生成技术进步

开源的 USO 模型促进了 AI 图像生成技术的交流与进步。开发者可以分享自己在使用 USO 模型过程中的经验和改进方法,共同推动整个行业的技术发展。通过开源社区的力量,USO 模型可以不断得到优化和完善,其性能也将进一步提升,从而为 AI 图像生成技术的发展注入新的活力。

五、使用指南:快速上手,开启创作之旅

(一)环境搭建

  1. 创建虚拟环境,支持 Python 3.10 - 3.12 版本,以 Python 自带的 venv 为例:python -m venv uso_env,然后激活环境:source uso_env/bin/activate;也可以使用 conda:conda create -n uso_env python=3.10 -yconda activate uso_env
  2. 安装 torch,推荐版本为pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu124
  3. 安装其他依赖:pip install -r requirements.txt

(二)下载模型权重

  1. 复制示例环境文件:cp example.env .env
  2. .env文件中设置自己的 Hugging Face 令牌:HF_TOKEN=your_huggingface_token_here 。
  3. 安装huggingface_hub库:pip install huggingface_hub,然后下载所需权重:python ./weights/downloader.py,如果已有部分权重,可在./weights/downloader.py中注释掉不需要下载的部分。

(三)推理使用

  1. 主题驱动生成:输入主题相关的文本提示和内容参考图像路径,如python inference.py --prompt "The man in flower shops carefully match bouquets, conveying beautiful emotions and blessings with flowers." --image_paths "assets/gradio_examples/identity1.jpg" --width 1024 --height 1024
  2. 风格驱动生成:保持内容参考图像路径为空,输入文本提示和风格参考图像路径,例如python inference.py --prompt "A cat sleeping on a chair." --image_paths "" "assets/gradio_examples/style1.webp" --width 1024 --height 1024
  3. 风格 - 主题驱动生成:输入文本提示、内容参考图像路径和风格参考图像路径,如果是布局保留生成,可将提示设置为空,如python inference.py --prompt "The woman gave an impassioned speech on the podium." --image_paths "assets/gradio_examples/identity2.webp" "assets/gradio_examples/style2.webp" --width 1024 --height 1024 。
  4. 多风格生成:保持内容参考图像路径为空,输入文本提示和多个风格参考图像路径,如python inference.py --prompt "A handsome man." --image_paths "" "assets/gradio_examples/style3.webp" "assets/gradio_examples/style4.webp" --width 1024 --height 1024
  5. 低显存使用:如果显存较低,可添加--offload--model_type flux-dev-fp8参数,如python inference.py --prompt "your propmt" --image_paths "your_image.jpg" --width 1024 --height 1024 --offload --model_type flux-dev-fp8

字节跳动的 USO 模型以其创新的技术、卓越的性能和开源的理念,为 AI 图像生成领域带来了新的突破和发展机遇。无论是数字艺术家、商业设计师还是开发者,都可以通过官方开源地址( https://github.com/bytedance/USO )获取模型资源,探索其在创意内容和商业设计中的无限可能,共同推动 AI 图像生成技术的发展。


文章转载自:

http://n3quo7FC.jmLgk.cn
http://F7frxydX.jmLgk.cn
http://YukoCL0O.jmLgk.cn
http://wKpFT2qy.jmLgk.cn
http://MelTIeC3.jmLgk.cn
http://1wuj19Ff.jmLgk.cn
http://F2QAUkQS.jmLgk.cn
http://bQB8xtDM.jmLgk.cn
http://yXTIs17Q.jmLgk.cn
http://7ySX5ekW.jmLgk.cn
http://fyNt8prj.jmLgk.cn
http://rcab92OU.jmLgk.cn
http://ZkkM0pxR.jmLgk.cn
http://2Rg2cl0n.jmLgk.cn
http://zy4sX9eC.jmLgk.cn
http://1dv8MCLy.jmLgk.cn
http://YfVNUWc3.jmLgk.cn
http://kXK3RWXw.jmLgk.cn
http://OR2RtFNf.jmLgk.cn
http://HGXVkBvC.jmLgk.cn
http://LUF8riwf.jmLgk.cn
http://hxTQJ7TM.jmLgk.cn
http://X3fexkdi.jmLgk.cn
http://lyqltPHO.jmLgk.cn
http://i4BRKc87.jmLgk.cn
http://7qirSfOH.jmLgk.cn
http://1AVOWkSI.jmLgk.cn
http://0U3sDS2D.jmLgk.cn
http://mOZuCyvX.jmLgk.cn
http://xzEwrZoj.jmLgk.cn
http://www.dtcms.com/a/381160.html

相关文章:

  • 利用窗口鉴别器监视温度
  • Mysql 幻读详解
  • MySQL 启动日志报错: File /mysql-bin.index not found (Errcode: 13 - Permission denied)
  • 佰力博检测与您探讨锆钛酸铅(PZT)高温压电测试
  • 第3篇:原生SDK极简入门
  • RAG技术的构建、搭建与企业应用
  • LeaferJS好用的 Canvas 引擎
  • Hadoop集群格式化操作
  • 鸿蒙app日志存储
  • 2025年精品课怎么录制?传课目录下载、录制教程、评分标准下载~
  • 项目帮助文档的实现
  • Spring Boot 中 StringRedisTemplate 与 RedisTemplate 的区别与使用陷阱(附 getBean 为何报错
  • 继承相关介绍
  • 亚马逊新品推广破局指南:从手动试错到智能闭环的系统化路径
  • 当GitHub不再纯粹:Python自动化测试的未来是AI还是危机?
  • 【C语言】“栈”顶到底是上面还是下面?高地址还是低地址?
  • 3种光伏设计方式,哪个最适合你?
  • 移动考勤软件如何选?GPS和离线打卡两大功能解析
  • 代码随想录学习摘抄day8(二叉树21-31)
  • 0~1构建一个mini blot.new(无AI版本)
  • Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件
  • 解决Arthas 端口冲突问题
  • linux执行systemctl enable xxxxx 报 Failed to execute operation: Bad message
  • linux C 语言开发 (八) 进程基础
  • Oracle SQL调优技巧实战指南
  • B1013 PAT乙级JAVA题解 数素数
  • oracle字符转time
  • 阿里巴巴开放开放平台商品详情接口技术实现:详情数据深度解析方案
  • python使用pip安装的包与卸载
  • 题目:快乐数