当前位置: 首页 > news >正文

开始 ComfyUI 的 AI 绘图之旅-Qwen-Image(十一)

文章标题

  • 一、Qwen-Image
    • 1.ComfyOrg Qwen-Image live stream
    • 2.Qwen-Image 原生工作流示例
      • 2.1 工作流文件
      • 2.2 模型下载(通过aria2下载所有模型文件)
      • 2.3 工作流使用说明
    • 3.Qwen Image InstantX ControlNet 工作流
      • 3.1 工作流及输入图片
      • 3.2 模型链接(上面都下载完了)
      • 3.3 工作流说明
    • 4.Qwen Image ControlNet DiffSynth-ControlNets Model Patches 工作流
      • 4.1 工作流及输入图片
      • 4.2 模型链接(上面都下载完了)
      • 4.3 工作流使用说明
        • 4.3.1 Canny 模型 ControlNet 使用说明
        • 4.3.2 Inpaint 模型 ControlNet 使用说明
    • 5.Qwen Image union ControlNet LoRA 工作流
      • 5.1 工作流及输入图片
      • 5.2 模型链接(上面都下载完了)
      • 5.3 工作流说明

一、Qwen-Image

Qwen-Image 是一个拥有 20B 参数的 MMDiT(多模态扩散变换器)模型,基于 Apache 2.0 许可证开源。

Qwen-Image 是阿里巴巴通义千问团队发布的首个图像生成基础模型,这是一个拥有 20B 参数的 MMDiT(多模态扩散变换器)模型,基于 Apache 2.0 许可证开源。该模型在复杂文本渲染精确图像编辑方面取得了显著进展,无论是英语还是中文等多种语言都能实现高保真输出。

模型亮点

  • 卓越的多语言文本渲染:支持英语、中文、韩语、日语等多种语言的高精度文本生成,保持字体细节和布局一致性
  • 多样化艺术风格:从照片级真实到印象派绘画,从动漫美学到极简设计,流畅适应各种创意提示

相关链接*:

  • GitHub
  • Hugging Face
  • ModelScope

另外目前 Qwen-Image 有多种 ControlNet 支持

  • Qwen-Image-DiffSynth-ControlNets/model_patches: 包括 canny、depth、inpaint 三个模型
  • qwen_image_union_diffsynth_lora.safetensors: 图像结构控制lora 支持 canny、depth、pose、lineart、softedge、normal、openpose
  • instanX ControlNet: 待更新

1.ComfyOrg Qwen-Image live stream

Qwen-Image in ComfyUI - Lightning & LoRAs

Qwen-Image ControlNet in ComfyUI - DiffSynth

2.Qwen-Image 原生工作流示例

请确保你的 ComfyUI 已经更新。
  • ComfyUI 下载
  • ComfyUI 更新教程

本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到,可能是 ComfyUI 没有更新。

如果加载工作流时有节点缺失,可能原因有:

  1. 你用的不是最新开发版(nightly)。
  2. 你用的是稳定版或桌面版(没有包含最新的更新)。
  3. 启动时有些节点导入失败。

在本篇文档所附工作流中使用的不同模型有三种

  1. Qwen-Image 原版模型 fp8_e4m3fn
  2. 8步加速版: Qwen-Image 原版模型 fp8_e4m3fn 使用 lightx2v 8步 LoRA,
  3. 蒸馏版:Qwen-Image 蒸馏版模型 fp8_e4m3fn

显存使用参考
GPU: RTX4090D 24GB

使用模型VRAM Usage首次生成第二次生成
fp8_e4m3fn86%≈ 94s≈ 71s
fp8_e4m3fn 使用 lightx2v 8步 LoRA86%≈ 55s≈ 34s
蒸馏版 fp8_e4m3fn86%≈ 69s≈ 36s

2.1 工作流文件

更新 ComfyUI 后你可以从模板中找到工作流文件,或者将下面的工作流拖入 ComfyUI 中加载
Qwen-image 文生图工作流
或在 ComfyUI 的 workflow template 中加载工作流
在这里插入图片描述

2.2 模型下载(通过aria2下载所有模型文件)

你可以在 ComfyOrg 仓库找到的版本

  • Qwen-Image_bf16 (40.9 GB)
  • Qwen-Image_fp8 (20.4 GB)
  • 蒸馏版本 (非官方,仅需 15 步)

所有模型均可在 Huggingface 或者 魔搭 找到

Diffusion model

  • qwen_image_fp8_e4m3fn.safetensors

Qwen_image_distill

  • qwen_image_distill_full_fp8_e4m3fn.safetensors
  • qwen_image_distill_full_bf16.safetensors
- 蒸馏版本原始作者建议在 15 步 cfg 1.0 - 经测试该蒸馏版本在 10 步 cfg 1.0 下表现良好,根据你想要的图像类型选择 euler 或 res\_multistep

LoRA

  • Qwen-Image-Lightning-8steps-V1.0.safetensors

Text encoder

  • qwen_2.5_vl_7b_fp8_scaled.safetensors

VAE

  • qwen_image_vae.safetensors

安装aria2快速下载模型,几乎能将我家1000M的宽带跑满,每秒80~90M,接下来的介绍模型都会给出安装命令。

apt install aria2
aria2c https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/diffusion_models/qwen_image_fp8_e4m3fn.safetensors -o ComfyUI/models/diffusion_models/qwen_image_fp8_e4m3fn.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/non_official/diffusion_models/qwen_image_distill_full_fp8_e4m3fn.safetensors -o ComfyUI/models/diffusion_models/qwen_image_distill_full_fp8_e4m3fn.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/non_official/diffusion_models/qwen_image_distill_full_bf16.safetensors -o ComfyUI/models/diffusion_models/qwen_image_distill_full_bf16.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/lightx2v/Qwen-Image-Lightning/resolve/main/Qwen-Image-Lightning-8steps-V1.0.safetensors -o ComfyUI/models/loras/Qwen-Image-Lightning-8steps-V1.0.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/text_encoders/qwen_2.5_vl_7b_fp8_scaled.safetensors -o ComfyUI/models/text_encoders/qwen_2.5_vl_7b_fp8_scaled.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/vae/qwen_image_vae.safetensors -o ComfyUI/models/vae/qwen_image_vae.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image-InstantX-ControlNets/resolve/main/split_files/controlnet/Qwen-Image-InstantX-ControlNet-Union.safetensors -o ComfyUI/models/controlnet/Qwen-Image-InstantX-ControlNet-Union.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/lotus/resolve/main/lotus-depth-d-v1-1.safetensors -o ComfyUI/models/diffusion_models/lotus-depth-d-v1-1.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/stabilityai/sd-vae-ft-mse-original/resolve/main/vae-ft-mse-840000-ema-pruned.safetensors -o ComfyUI/models/vae/vae-ft-mse-840000-ema-pruned.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image-DiffSynth-ControlNets/resolve/main/split_files/model_patches/qwen_image_canny_diffsynth_controlnet.safetensors -o ComfyUI/models/model_patches/qwen_image_canny_diffsynth_controlnet.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image-DiffSynth-ControlNets/resolve/main/split_files/model_patches/qwen_image_depth_diffsynth_controlnet.safetensors -o ComfyUI/models/model_patches/qwen_image_depth_diffsynth_controlnet.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image-DiffSynth-ControlNets/resolve/main/split_files/model_patches/qwen_image_inpaint_diffsynth_controlnet.safetensors -o ComfyUI/models/model_patches/qwen_image_inpaint_diffsynth_controlnet.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image-DiffSynth-ControlNets/blob/main/split_files/loras/qwen_image_union_diffsynth_lora.safetensors -o ComfyUI/models/loras/qwen_image_union_diffsynth_lora.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image-InstantX-ControlNets/resolve/main/split_files/controlnet/Qwen-Image-InstantX-ControlNet-Inpainting.safetensors
-o ComfyUI/models/controlnet/Qwen-Image-InstantX-ControlNet-Inpainting.safetensors --auto-file-renaming=false --allow-overwrite=false

小技巧:你要是打不开https://huggingface.co,可以将其换成为https://hf-mirror.com/试一试
模型保存位置

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   ├── qwen_image_fp8_e4m3fn.safetensors
│   │   └── qwen_image_distill_full_fp8_e4m3fn.safetensors ## 蒸馏版
│   ├── 📂 loras/
│   │   └── Qwen-Image-Lightning-8steps-V1.0.safetensors   ## 8步加速 LoRA 模型
│   ├── 📂 vae/
│   │   └── qwen_image_vae.safetensors
│   └── 📂 text_encoders/
│       └── qwen_2.5_vl_7b_fp8_scaled.safetensors

2.3 工作流使用说明

在这里插入图片描述

  1. 确保 Load Diffusion Model节点加载了qwen_image_fp8_e4m3fn.safetensors
  2. 确保 Load CLIP节点中加载了qwen_2.5_vl_7b_fp8_scaled.safetensors
  3. 确保 Load VAE节点中加载了qwen_image_vae.safetensors
  4. 确保 EmptySD3LatentImage节点中设置好了图片的尺寸
  5. CLIP Text Encoder节点中设置好提示词,目前经过测试目前至少支持:英语、中文、韩语、日语、意大利语等
  6. 如果需要启用 lightx2v 的 8 步加速 LoRA ,请选中后用 Ctrl + B 启用该节点,并按 序号8 处的设置参数修改 Ksampler 的设置设置
  7. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来运行工作流
  8. 对于不同版本的模型和工作流的对应 KSampler 的参数设置
蒸馏版模型和 lightx2v 的 8 步加速 LoRA 似乎并不兼容,你可以测试具体的组合参数来验证组合使用的方式是否可行

3.Qwen Image InstantX ControlNet 工作流

这是一个 ControlNet 模型

3.1 工作流及输入图片

下载下面的图片并拖入 ComfyUI 以加载工作流
workflow
或在 ComfyUI 的 workflow template 中加载工作流
在这里插入图片描述

下载下面的图片作为输入
input

3.2 模型链接(上面都下载完了)

  1. InstantX Controlnet

下载 Qwen-Image-InstantX-ControlNet-Union.safetensors 并保存到 ComfyUI/models/controlnet/ 文件夹下

  1. Lotus Depth model
你也可以使用类似 [comfyui\_controlnet\_aux](https://github.com/Fannovel16/comfyui_controlnet_aux) 等自定义节点来完成各种类型图像的预处理

Lotus Depth 模型

我们将使用这个模型来生成图像的深度图,它需要安装以下两个模型:

Diffusion Model

  • lotus-depth-d-v1-1.safetensors

VAE Model

  • vae-ft-mse-840000-ema-pruned.safetensors 或者任意的 SD1.5 的 VAE 都可以使用
ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └─── lotus-depth-d-v1-1.safetensors
│   └── vae/
│       └──  lvae-ft-mse-840000-ema-pruned.safetensors

3.3 工作流说明

在这里插入图片描述

  1. 确保 Load ControlNet Model 节点正确加载了 Qwen-Image-InstantX-ControlNet-Union.safetensors 模型
  2. 上传输入图像
  3. 这里是一个子图,这里是 ComfyUI 支持的 lotus Depth 模型,你可以在模板中找到 Lotus Depth 或者编辑对应子图了解对应工作流,请确保所有模型都正确加载
  4. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来运行工作流

4.Qwen Image ControlNet DiffSynth-ControlNets Model Patches 工作流

这个模型实际上并不是一个 controlnet,而是一个 Model patch, 支持 canny、depth、inpaint 三种不同的控制模式

原始模型地址:DiffSynth-Studio/Qwen-Image ControlNet
Comfy Org rehost 地址: Qwen-Image-DiffSynth-ControlNets/model_patches

4.1 工作流及输入图片

下载下面的图片拖入 ComfyUI 中以加载对应的工作流
workflow

或在 ComfyUI 的 workflow template 中加载工作流
在这里插入图片描述

下载下面的图片作为输入图片:

input

4.2 模型链接(上面都下载完了)

其它模型与 Qwen-Image 基础工作流一致,你只需下载下面的模型并保存到 ComfyUI/models/model_patches 文件夹中

  • qwen_image_canny_diffsynth_controlnet.safetensors
  • qwen_image_depth_diffsynth_controlnet.safetensors
  • qwen_image_inpaint_diffsynth_controlnet.safetensors

4.3 工作流使用说明

目前 diffsynth 有三个 patch 的模型: Canny、Detph、Inpaint 三个模型

如果你是第一次使用 ControlNet 相关的工作流,你需要了解的是,用于控制的图片需要预处理成受支持的图像才可以被模型使用和识别

在这里插入图片描述

  • Canny: 处理后的 canny , 线稿轮廓
  • Detph: 预处理后的深度图,体现空间关系
  • Inpaint: 需要用 Mask 标记需要重绘的部分

由于这个 patch 模型分为了三个不同的模型,所以你需要在输入时选择正确的预处理类型来保证图像的正确预处理

4.3.1 Canny 模型 ControlNet 使用说明

在这里插入图片描述

  1. 确保对应 qwen_image_canny_diffsynth_controlnet.safetensors 已被加载
  2. 上传输入图片,用于后续处理
  3. Canny 节点是原生的预处理节点,它将按照你设置的参数,将输入图像进行预处理,控制生成
  4. 如果需要可以修改 QwenImageDiffsynthControlnet 节点的 strength 强度来控制线稿控制的强度
  5. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来运行工作流

对于 qwen_image_depth_diffsynth_controlnet.safetensors 使用,需要将图像预处理成 detph 深度图,替换掉 image proccessing 图,对于这部分的使用,请参考本篇文档中 InstantX 的处理方法,其它部分与 Canny 模型的使用类似

4.3.2 Inpaint 模型 ControlNet 使用说明

在这里插入图片描述

对于 Inpaint 模型,它需要使用 蒙版编辑器,来绘制一个蒙版然后作为输入控制条件

  1. 确保 ModelPatchLoader 加载的是 qwen_image_inpaint_diffsynth_controlnet.safetensors 模型
  2. 上传图片,并使用蒙版编辑器 绘制蒙版,你需要将对应 Load Image节点的 mask 输出连接到 QwenImageDiffsynthControlnetmask 输入才能保证对应的蒙版被加载
  3. 使用 Ctrl-B 快捷键,将原本工作流中的 Canny 设置为绕过模式,来使得对应的 Canny 节点处理不生效
  4. CLIP Text Encoder 输入你需要将蒙版部分修改成样式
  5. 如需要可以修改 QwenImageDiffsynthControlnet 节点的 strength 强度来控制对应的控制强度
  6. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来运行工作流

5.Qwen Image union ControlNet LoRA 工作流

原始模型地址:DiffSynth-Studio/Qwen-Image-In-Context-Control-Union
Comfy Org reshot 地址: qwen_image_union_diffsynth_lora.safetensors: 图像结构控制lora 支持 canny、depth、post、lineart、softedge、normal、openpose

5.1 工作流及输入图片

下载下面的图片并拖入 ComfyUI 以加载工作流
workflow

或在 ComfyUI 的 workflow template 中加载工作流
在这里插入图片描述

下载下面的图片作为输入图片

workflow

5.2 模型链接(上面都下载完了)

下载下面的模型,由于这是一个 LoRA 模型,所以需要保存到 ComfyUI/models/loras/ 文件夹下

  • qwen_image_union_diffsynth_lora.safetensors: 图像结构控制lora 支持 canny、depth、post、lineart、softedge、normal、openpose

5.3 工作流说明

这个模型是一个统一的控制 LoRA, 支持 canny、depth、pose、lineart、softedge、normal、openpose 等控制, 由于许多的图像预处理原生节点并未完全支持,所以你应该需要类似 comfyui_controlnet_aux 来完成其它图像的预处理

在这里插入图片描述

  1. 确保 LoraLoaderModelOnly 正确加载了 qwen_image_union_diffsynth_lora.safetensors 模型
  2. 上传输入图像
  3. 如需要你可以调整 Canny 节点的参数,由于不同的输入图像需要不同的参数设置来获得更好的图像预处理结果,你可以尝试调整对应的参数值来获得更多/更少细节
  4. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来运行工作流

其它类型的类型的控制,也是需要将图像处理的部分替换


文章转载自:

http://205nui7o.xtyyg.cn
http://IffxBFPZ.xtyyg.cn
http://dMD0NfMv.xtyyg.cn
http://G89ee1qw.xtyyg.cn
http://WcLQhGSm.xtyyg.cn
http://OrQDDbwm.xtyyg.cn
http://QY4Ev7PA.xtyyg.cn
http://oyCUTjW5.xtyyg.cn
http://Br32DwpQ.xtyyg.cn
http://vnCb2X5q.xtyyg.cn
http://AwsLoni2.xtyyg.cn
http://0veNi4gn.xtyyg.cn
http://FSpeUgUI.xtyyg.cn
http://UvUbe6gF.xtyyg.cn
http://rZ83AKSU.xtyyg.cn
http://rftlIm7I.xtyyg.cn
http://plZF3lUK.xtyyg.cn
http://5fuQv2hE.xtyyg.cn
http://9isBADBF.xtyyg.cn
http://HWUlIGyw.xtyyg.cn
http://wbKPYb02.xtyyg.cn
http://ecTkqna2.xtyyg.cn
http://VrWKoFPp.xtyyg.cn
http://19jBjnuJ.xtyyg.cn
http://Cw1DCR9Y.xtyyg.cn
http://4QyaXkts.xtyyg.cn
http://9jaPu8nk.xtyyg.cn
http://aVhOWCJc.xtyyg.cn
http://csO7glY5.xtyyg.cn
http://kE6PP686.xtyyg.cn
http://www.dtcms.com/a/382027.html

相关文章:

  • python根据路径获取文件后缀名
  • c++雾里探花-静态多态
  • Java基础知识(十五)
  • 2025.9.14英语红宝书
  • Easy系列PLC枚举变量类型(为什么可以不实例化直接使用)
  • python全栈-自动化office
  • smartctl_exporter smartctl 统计信息
  • 软件测试常见Bug清单
  • 大数据电商流量分析项目实战:可视化 数据分析(九)
  • Kafka核心概念深入浅出:消费者组(Consumer Group)机制全解析
  • ZYNQ PS读写PL BRAM
  • [数据结构] 队列 (Queue)
  • Git : 基本操作
  • Vue模板中传递对象或数组时,避免直接使用字面量[]和{}
  • 26考研——内存管理_虚拟内存管理(3)
  • FastAPI如何用契约测试确保API的「菜单」与「菜品」一致?
  • PDFgear:免费全能的PDF处理工具
  • 贪心算法应用:K-Means++初始化详解
  • Linux相关概念和易错知识点(43)(数据链路层、ARP、以太网、交换机)
  • 交换机数据管理
  • 【Redis#11】Redis 在 C++ 客户端下的安装使用流程(一条龙服务)
  • leetcode 315 计算右侧小于当前元素的个数
  • MYSQL端口号3306被占用
  • Python核心技术开发指南(062)——静态方法
  • [Windows] 整容脸比对系统
  • C语言:指针从入门到精通(上)
  • 【MySQL】--- 表的约束
  • SpringBoot 轻量级一站式日志可视化与JVM监控
  • Java零基础学习Day10——面向对象高级
  • JavaScript中ES模块语法详解与示例