开始 ComfyUI 的 AI 绘图之旅-Qwen-Image(十一)
文章标题
- 一、Qwen-Image
- 1.ComfyOrg Qwen-Image live stream
- 2.Qwen-Image 原生工作流示例
- 2.1 工作流文件
- 2.2 模型下载(通过aria2下载所有模型文件)
- 2.3 工作流使用说明
- 3.Qwen Image InstantX ControlNet 工作流
- 3.1 工作流及输入图片
- 3.2 模型链接(上面都下载完了)
- 3.3 工作流说明
- 4.Qwen Image ControlNet DiffSynth-ControlNets Model Patches 工作流
- 4.1 工作流及输入图片
- 4.2 模型链接(上面都下载完了)
- 4.3 工作流使用说明
- 4.3.1 Canny 模型 ControlNet 使用说明
- 4.3.2 Inpaint 模型 ControlNet 使用说明
- 5.Qwen Image union ControlNet LoRA 工作流
- 5.1 工作流及输入图片
- 5.2 模型链接(上面都下载完了)
- 5.3 工作流说明
一、Qwen-Image
Qwen-Image 是一个拥有 20B 参数的 MMDiT(多模态扩散变换器)模型,基于 Apache 2.0 许可证开源。
Qwen-Image 是阿里巴巴通义千问团队发布的首个图像生成基础模型,这是一个拥有 20B 参数的 MMDiT(多模态扩散变换器)模型,基于 Apache 2.0 许可证开源。该模型在复杂文本渲染和精确图像编辑方面取得了显著进展,无论是英语还是中文等多种语言都能实现高保真输出。
模型亮点:
- 卓越的多语言文本渲染:支持英语、中文、韩语、日语等多种语言的高精度文本生成,保持字体细节和布局一致性
- 多样化艺术风格:从照片级真实到印象派绘画,从动漫美学到极简设计,流畅适应各种创意提示
相关链接*:
- GitHub
- Hugging Face
- ModelScope
另外目前 Qwen-Image 有多种 ControlNet 支持
- Qwen-Image-DiffSynth-ControlNets/model_patches: 包括 canny、depth、inpaint 三个模型
- qwen_image_union_diffsynth_lora.safetensors: 图像结构控制lora 支持 canny、depth、pose、lineart、softedge、normal、openpose
- instanX ControlNet: 待更新
1.ComfyOrg Qwen-Image live stream
Qwen-Image in ComfyUI - Lightning & LoRAs
Qwen-Image ControlNet in ComfyUI - DiffSynth
2.Qwen-Image 原生工作流示例
请确保你的 ComfyUI 已经更新。- ComfyUI 下载
- ComfyUI 更新教程
本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到,可能是 ComfyUI 没有更新。
如果加载工作流时有节点缺失,可能原因有:
- 你用的不是最新开发版(nightly)。
- 你用的是稳定版或桌面版(没有包含最新的更新)。
- 启动时有些节点导入失败。
在本篇文档所附工作流中使用的不同模型有三种
- Qwen-Image 原版模型 fp8_e4m3fn
- 8步加速版: Qwen-Image 原版模型 fp8_e4m3fn 使用 lightx2v 8步 LoRA,
- 蒸馏版:Qwen-Image 蒸馏版模型 fp8_e4m3fn
显存使用参考
GPU: RTX4090D 24GB
使用模型 | VRAM Usage | 首次生成 | 第二次生成 |
---|---|---|---|
fp8_e4m3fn | 86% | ≈ 94s | ≈ 71s |
fp8_e4m3fn 使用 lightx2v 8步 LoRA | 86% | ≈ 55s | ≈ 34s |
蒸馏版 fp8_e4m3fn | 86% | ≈ 69s | ≈ 36s |
2.1 工作流文件
更新 ComfyUI 后你可以从模板中找到工作流文件,或者将下面的工作流拖入 ComfyUI 中加载
或在 ComfyUI 的 workflow template 中加载工作流
2.2 模型下载(通过aria2下载所有模型文件)
你可以在 ComfyOrg 仓库找到的版本
- Qwen-Image_bf16 (40.9 GB)
- Qwen-Image_fp8 (20.4 GB)
- 蒸馏版本 (非官方,仅需 15 步)
所有模型均可在 Huggingface 或者 魔搭 找到
Diffusion model
- qwen_image_fp8_e4m3fn.safetensors
Qwen_image_distill
- qwen_image_distill_full_fp8_e4m3fn.safetensors
- qwen_image_distill_full_bf16.safetensors
LoRA
- Qwen-Image-Lightning-8steps-V1.0.safetensors
Text encoder
- qwen_2.5_vl_7b_fp8_scaled.safetensors
VAE
- qwen_image_vae.safetensors
安装aria2快速下载模型,几乎能将我家1000M的宽带跑满,每秒80~90M
,接下来的介绍模型都会给出安装命令。
apt install aria2
aria2c https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/diffusion_models/qwen_image_fp8_e4m3fn.safetensors -o ComfyUI/models/diffusion_models/qwen_image_fp8_e4m3fn.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/non_official/diffusion_models/qwen_image_distill_full_fp8_e4m3fn.safetensors -o ComfyUI/models/diffusion_models/qwen_image_distill_full_fp8_e4m3fn.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/non_official/diffusion_models/qwen_image_distill_full_bf16.safetensors -o ComfyUI/models/diffusion_models/qwen_image_distill_full_bf16.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/lightx2v/Qwen-Image-Lightning/resolve/main/Qwen-Image-Lightning-8steps-V1.0.safetensors -o ComfyUI/models/loras/Qwen-Image-Lightning-8steps-V1.0.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/text_encoders/qwen_2.5_vl_7b_fp8_scaled.safetensors -o ComfyUI/models/text_encoders/qwen_2.5_vl_7b_fp8_scaled.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/vae/qwen_image_vae.safetensors -o ComfyUI/models/vae/qwen_image_vae.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image-InstantX-ControlNets/resolve/main/split_files/controlnet/Qwen-Image-InstantX-ControlNet-Union.safetensors -o ComfyUI/models/controlnet/Qwen-Image-InstantX-ControlNet-Union.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/lotus/resolve/main/lotus-depth-d-v1-1.safetensors -o ComfyUI/models/diffusion_models/lotus-depth-d-v1-1.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/stabilityai/sd-vae-ft-mse-original/resolve/main/vae-ft-mse-840000-ema-pruned.safetensors -o ComfyUI/models/vae/vae-ft-mse-840000-ema-pruned.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image-DiffSynth-ControlNets/resolve/main/split_files/model_patches/qwen_image_canny_diffsynth_controlnet.safetensors -o ComfyUI/models/model_patches/qwen_image_canny_diffsynth_controlnet.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image-DiffSynth-ControlNets/resolve/main/split_files/model_patches/qwen_image_depth_diffsynth_controlnet.safetensors -o ComfyUI/models/model_patches/qwen_image_depth_diffsynth_controlnet.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image-DiffSynth-ControlNets/resolve/main/split_files/model_patches/qwen_image_inpaint_diffsynth_controlnet.safetensors -o ComfyUI/models/model_patches/qwen_image_inpaint_diffsynth_controlnet.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image-DiffSynth-ControlNets/blob/main/split_files/loras/qwen_image_union_diffsynth_lora.safetensors -o ComfyUI/models/loras/qwen_image_union_diffsynth_lora.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/Qwen-Image-InstantX-ControlNets/resolve/main/split_files/controlnet/Qwen-Image-InstantX-ControlNet-Inpainting.safetensors
-o ComfyUI/models/controlnet/Qwen-Image-InstantX-ControlNet-Inpainting.safetensors --auto-file-renaming=false --allow-overwrite=false
小技巧:你要是打不开https://huggingface.co
,可以将其换成为https://hf-mirror.com/
试一试
模型保存位置
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ ├── qwen_image_fp8_e4m3fn.safetensors
│ │ └── qwen_image_distill_full_fp8_e4m3fn.safetensors ## 蒸馏版
│ ├── 📂 loras/
│ │ └── Qwen-Image-Lightning-8steps-V1.0.safetensors ## 8步加速 LoRA 模型
│ ├── 📂 vae/
│ │ └── qwen_image_vae.safetensors
│ └── 📂 text_encoders/
│ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
2.3 工作流使用说明
- 确保
Load Diffusion Model
节点加载了qwen_image_fp8_e4m3fn.safetensors
- 确保
Load CLIP
节点中加载了qwen_2.5_vl_7b_fp8_scaled.safetensors
- 确保
Load VAE
节点中加载了qwen_image_vae.safetensors
- 确保
EmptySD3LatentImage
节点中设置好了图片的尺寸 - 在
CLIP Text Encoder
节点中设置好提示词,目前经过测试目前至少支持:英语、中文、韩语、日语、意大利语等 - 如果需要启用 lightx2v 的 8 步加速 LoRA ,请选中后用
Ctrl + B
启用该节点,并按 序号8
处的设置参数修改 Ksampler 的设置设置 - 点击
Run
按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)
来运行工作流 - 对于不同版本的模型和工作流的对应 KSampler 的参数设置
3.Qwen Image InstantX ControlNet 工作流
这是一个 ControlNet 模型
3.1 工作流及输入图片
下载下面的图片并拖入 ComfyUI 以加载工作流
或在 ComfyUI 的 workflow template 中加载工作流
下载下面的图片作为输入
3.2 模型链接(上面都下载完了)
- InstantX Controlnet
下载 Qwen-Image-InstantX-ControlNet-Union.safetensors 并保存到 ComfyUI/models/controlnet/
文件夹下
- Lotus Depth model
Lotus Depth 模型
我们将使用这个模型来生成图像的深度图,它需要安装以下两个模型:
Diffusion Model
- lotus-depth-d-v1-1.safetensors
VAE Model
- vae-ft-mse-840000-ema-pruned.safetensors 或者任意的 SD1.5 的 VAE 都可以使用
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └─── lotus-depth-d-v1-1.safetensors
│ └── vae/
│ └── lvae-ft-mse-840000-ema-pruned.safetensors
3.3 工作流说明
- 确保
Load ControlNet Model
节点正确加载了Qwen-Image-InstantX-ControlNet-Union.safetensors
模型 - 上传输入图像
- 这里是一个子图,这里是 ComfyUI 支持的 lotus Depth 模型,你可以在模板中找到 Lotus Depth 或者编辑对应子图了解对应工作流,请确保所有模型都正确加载
- 点击
Run
按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)
来运行工作流
4.Qwen Image ControlNet DiffSynth-ControlNets Model Patches 工作流
这个模型实际上并不是一个 controlnet,而是一个 Model patch, 支持 canny、depth、inpaint 三种不同的控制模式
原始模型地址:DiffSynth-Studio/Qwen-Image ControlNet
Comfy Org rehost 地址: Qwen-Image-DiffSynth-ControlNets/model_patches
4.1 工作流及输入图片
下载下面的图片拖入 ComfyUI 中以加载对应的工作流
或在 ComfyUI 的 workflow template 中加载工作流
下载下面的图片作为输入图片:
4.2 模型链接(上面都下载完了)
其它模型与 Qwen-Image 基础工作流一致,你只需下载下面的模型并保存到 ComfyUI/models/model_patches
文件夹中
- qwen_image_canny_diffsynth_controlnet.safetensors
- qwen_image_depth_diffsynth_controlnet.safetensors
- qwen_image_inpaint_diffsynth_controlnet.safetensors
4.3 工作流使用说明
目前 diffsynth 有三个 patch 的模型: Canny、Detph、Inpaint 三个模型
如果你是第一次使用 ControlNet 相关的工作流,你需要了解的是,用于控制的图片需要预处理成受支持的图像才可以被模型使用和识别
- Canny: 处理后的 canny , 线稿轮廓
- Detph: 预处理后的深度图,体现空间关系
- Inpaint: 需要用 Mask 标记需要重绘的部分
由于这个 patch 模型分为了三个不同的模型,所以你需要在输入时选择正确的预处理类型来保证图像的正确预处理
4.3.1 Canny 模型 ControlNet 使用说明
- 确保对应
qwen_image_canny_diffsynth_controlnet.safetensors
已被加载 - 上传输入图片,用于后续处理
- Canny 节点是原生的预处理节点,它将按照你设置的参数,将输入图像进行预处理,控制生成
- 如果需要可以修改
QwenImageDiffsynthControlnet
节点的strength
强度来控制线稿控制的强度 - 点击
Run
按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)
来运行工作流
对于 qwen_image_depth_diffsynth_controlnet.safetensors 使用,需要将图像预处理成 detph 深度图,替换掉
image proccessing
图,对于这部分的使用,请参考本篇文档中 InstantX 的处理方法,其它部分与 Canny 模型的使用类似
4.3.2 Inpaint 模型 ControlNet 使用说明
对于 Inpaint 模型,它需要使用 蒙版编辑器,来绘制一个蒙版然后作为输入控制条件
- 确保
ModelPatchLoader
加载的是qwen_image_inpaint_diffsynth_controlnet.safetensors
模型 - 上传图片,并使用蒙版编辑器 绘制蒙版,你需要将对应
Load Image
节点的mask
输出连接到QwenImageDiffsynthControlnet
的mask
输入才能保证对应的蒙版被加载 - 使用
Ctrl-B
快捷键,将原本工作流中的 Canny 设置为绕过模式,来使得对应的 Canny 节点处理不生效 - 在
CLIP Text Encoder
输入你需要将蒙版部分修改成样式 - 如需要可以修改
QwenImageDiffsynthControlnet
节点的strength
强度来控制对应的控制强度 - 点击
Run
按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)
来运行工作流
5.Qwen Image union ControlNet LoRA 工作流
原始模型地址:DiffSynth-Studio/Qwen-Image-In-Context-Control-Union
Comfy Org reshot 地址: qwen_image_union_diffsynth_lora.safetensors: 图像结构控制lora 支持 canny、depth、post、lineart、softedge、normal、openpose
5.1 工作流及输入图片
下载下面的图片并拖入 ComfyUI 以加载工作流
或在 ComfyUI 的 workflow template 中加载工作流
下载下面的图片作为输入图片
5.2 模型链接(上面都下载完了)
下载下面的模型,由于这是一个 LoRA 模型,所以需要保存到 ComfyUI/models/loras/
文件夹下
- qwen_image_union_diffsynth_lora.safetensors: 图像结构控制lora 支持 canny、depth、post、lineart、softedge、normal、openpose
5.3 工作流说明
这个模型是一个统一的控制 LoRA, 支持 canny、depth、pose、lineart、softedge、normal、openpose 等控制, 由于许多的图像预处理原生节点并未完全支持,所以你应该需要类似 comfyui_controlnet_aux 来完成其它图像的预处理
- 确保
LoraLoaderModelOnly
正确加载了qwen_image_union_diffsynth_lora.safetensors
模型 - 上传输入图像
- 如需要你可以调整
Canny
节点的参数,由于不同的输入图像需要不同的参数设置来获得更好的图像预处理结果,你可以尝试调整对应的参数值来获得更多/更少细节 - 点击
Run
按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)
来运行工作流
其它类型的类型的控制,也是需要将图像处理的部分替换