阿里Qwen-Image本地部署详细指南
Qwen-Image是阿里通义千问团队开源的20B参数图像生成模型,支持复杂文本渲染(尤其是中文)和图像编辑功能。
核心部署方法
根据您的硬件和需求,选择以下方案:
- diffsynth-studio方案(最低4G显存,简单高效)
- ComfyUI方案(原生支持,需8-16G显存)
- Hugging Face Diffusers方案(适合开发者)
1. diffsynth-studio方案(推荐低显存用户)
- 适用场景:显存≥4G(如RTX 3050),支持Windows/Linux/MacOS。
- 步骤:
- 安装依赖:
bash
git clone https://github.com/modelscope/diffsynth-studio.git cd diffsynth-studio pip install -e .
- 下载模型(自动或手动):
- 模型地址:Qwen-Image on ModelScope
- 运行推理(示例代码):
python
from diffsynth.pipelines.qwen_image import QwenImagePipeline, ModelConfig import torch# 低显存模式(4G显存) pipe = QwenImagePipeline.from_pretrained(torch_dtype=torch.bfloat16,device="cuda",model_configs=[ModelConfig(model_id="qwen/qwen-image", origin_file_pattern="transformer/diffusion_pytorch_model*.safetensors", offload_device="cpu"),ModelConfig(model_id="qwen/qwen-image", origin_file_pattern="text_encoder/model*.safetensors", offload_device="cpu"),ModelConfig(model_id="qwen/qwen-image", origin_file_pattern="vae/diffusion_pytorch_model.safetensors", offload_device="cpu"),],tokenizer_config=ModelConfig(model_id="qwen/qwen-image", origin_file_pattern="tokenizer/"), ) pipe.enable_vram_management() # 启用显存优化# 生成图像 prompt = "精致肖像,水下少女,蓝裙飘逸,发丝轻扬,光影透澈,气泡环绕。" image = pipe(prompt, seed=0, num_inference_steps=40) image.save("output.jpg")
- 安装依赖:
- 关键参数:
num_inference_steps
:推理步数(默认40步,质量高但较慢;可减至20步加速)。offload_device="cpu"
:将部分模型加载到CPU,显存占用降至4G。
- 效果:生成速度约2-4分钟/图(依赖硬件),支持中英文提示词。
2. ComfyUI方案(原生支持,适合进阶用户)
- 适用场景:显存≥8G(如RTX 3060),需ComfyUI环境。
- 步骤:
- 安装ComfyUI:
- 下载最新便携版:ComfyUI Windows Portable。
- 下载模型文件(放置到指定目录):
文件 下载地址 存放路径 qwen_image_fp8_e4m3fn.safetensors
Hugging Face ComfyUI/models/diffusion_models/
qwen_2.5_vl_7b_fp8_scaled.safetensors
Hugging Face ComfyUI/models/text_encoders/
qwen_image_vae.safetensors
Hugging Face ComfyUI/models/vae/
- 启动工作流:
- 运行ComfyUI,选择 Workflow > Browse Templates > Image > Qwen-Image Text to Image。
- 输入提示词(如
中国古风小镇街道,中药铺匾额“回春堂”
),点击生成。
- 安装ComfyUI:
- 显存优化:
- 使用
fp8
精度模型(16G显存可流畅运行)。 - 生成速度:4090显卡约1分钟/图,4060显卡约4分钟/图。
- 使用
- 第三方插件(显存8G可用):
- 安装:qwenimage-comfyui。
- 设置
vram_optimization=highram_lowvram
降低显存占用。
3. Hugging Face Diffusers方案(开发者友好)
- 适用场景:熟悉Python开发,显存≥16G(如RTX 3080)。
- 步骤:
- 安装依赖:
bash
pip install torch torchvision accelerate diffusers
- 运行推理:
python
from diffusers import DiffusionPipeline import torchpipe = DiffusionPipeline.from_pretrained("qwen/qwen-image", torch_dtype=torch.float16) pipe.to("cuda") image = pipe(prompt="中国古典庭院,阳光明媚,高清写实").images[0] image.save("output.png")
- 安装依赖:
- 注意:
- 模型下载约20GB,首次运行需较长时间。
- 显存不足时,降低图像分辨率(如512x512)。
关键注意事项
-
硬件要求:
- 最低配置:4G显存(diffsynth-studio方案)。
- 推荐配置:16G显存+RTX 3080(平衡速度与质量)。
- 显存不足可使用蒸馏加速模型:Qwen-Image-Distill,速度提升5倍。
-
模型选择:
- 基础模型:20B参数,高质量但较慢。
- 蒸馏模型:速度快,适合实时生成。