当前位置：首页 > news >正文

大模型实战：通义万相2.1-文生视频-1.3B

news 2025/9/25 14:29:46

通义万相2.1-文生视频-1.3B-480P效果演示

一、Wan2.1-T2V-1.3B

1、简介

通义万相2.1是阿里巴巴达摩院推出的多模态AI模型，专注于文本到视频（Text-to-Video）生成任务。1.3B版本是其参数规模为13亿的轻量级模型，旨在高效生成符合文本描述的短视频片段。

2、核心功能

文生视频：通过输入自然语言描述（如“一只猫在草地上奔跑”），模型自动生成与之匹配的动态视频内容，支持分辨率、时长等参数调整。
多风格适配：可生成写实、卡通、水墨等不同艺术风格的视频。
语义理解：对复杂场景和动作描述（如“夕阳下海浪拍打礁石”）具有较高还原能力。

3、技术特点

模型架构：基于扩散模型（Diffusion Model）与Transformer结合，优化了视频帧间连贯性。
训练数据：使用大规模视频-文本对数据集，涵盖多样化场景和物体。
轻量化设计：1.3B参数规模在消费级GPU上可部署，推理速度较快。

4、应用场景

短视频内容创作
广告与营销素材生成
游戏及影视行业预可视化

5、推理示例

输入文本：“星空下的旋转木马”
输出视频：生成5秒、720p视频，包含闪烁星空与缓慢旋转的木马，光影效果自然。

注：实际效果可能受文本描述具体性和硬件配置影响。

二、克隆仓库

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

三、安装依赖项

# Ensure torch >= 2.4.0
pip install -r requirements.txt

四、下载模型

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B

五、模型推理

(1) 无提示扩展

单 GPU 推理

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果遇到 OOM（内存不足）问题，可以使用 --offload_model True 和 --t5_cpu 选项来减少 GPU 内存使用：

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果使用的是 T2V-1.3B 模型，建议设置参数 --sample_guide_scale 6。--sample_shift 参数可以根据性能在 8 到 12 的范围内进行调整。

运行效果：在当前目录下生成 mp4 视频

在这里插入图片描述

视频效果：

通义万相2.1-文生视频-1.3B-480P效果演示

使用 FSDP + xDiT USP 进行多 GPU 推理

pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --dit_fsdp --t5_fsdp --ulysses_size 8 --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

(2) 使用提示扩展

使用本地模型进行扩展。
- 默认情况下，使用 HuggingFace 上的 Qwen 模型进行此扩展。当然也可以根据 GPU 内存大小进行模型选择。
- 对于文生视频任务，可以使用 Qwen/Qwen2.5-14B-Instruct、Qwen/Qwen2.5-7B-Instruct 和 Qwen/Qwen2.5-3B-Instruct 等模型。
- 较大的模型通常提供更好的扩展结果，但需要更多的 GPU 内存。
- 参数 --prompt_extend_model 指定使用本地模型路径或 Hugging Face 模型。

例如：

modelscope download --model Qwen/Qwen2.5-3B-Instruct

在这里插入图片描述

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'en' --prompt_extend_model '/home/sam/.cache/modelscope/hub/models/Qwen/Qwen2.5-3B-Instruct'

运行效果：

INFO: Input prompt: Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage
[2025-09-24 12:56:49,202] INFO: Extending prompt ...
[2025-09-24 12:56:54,503] INFO: Extended prompt: CG fantasy digital art, two anthropomorphic cats with expressive fur textures, each in comfortable boxing gear and bright gloves, fiercely engage in an intense fight on a spotlighted stage. The cats have vividly colored eyes and fur, with dynamic poses and muscular builds. The stage is adorned with colorful banners and a raised circular platform in the center. The lighting highlights the cats' movements, casting dramatic shadows. The background features a bustling magical forest setting with glowing mushrooms and mystical creatures. The cats' fur shimmers under the stage lights, adding to their animated expressions. The scene captures a high-energy, dynamic action moment. Close-up, mid-shot, and wide shots capturing the entire fight.
[2025-09-24 12:56:54,503] INFO: Creating WanT2V pipeline.
[2025-09-24 12:57:17,372] INFO: loading ./Wan2.1-T2V-1.3B/models_t5_umt5-xxl-enc-bf16.pth
[2025-09-24 12:57:27,278] INFO: loading ./Wan2.1-T2V-1.3B/Wan2.1_VAE.pth
[2025-09-24 12:57:27,738] INFO: Creating WanModel from ./Wan2.1-T2V-1.3B
[2025-09-24 12:57:30,428] INFO: Generating video ...
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [05:48<00:00,  6.97s/it]
[2025-09-24 13:03:38,770] INFO: Saving generated video to t2v-1.3B_832*480_1_1_CG_fantasy_digital_art,_two_anthropomorphic_cats_w_20250924_130338.mp4
[2025-09-24 13:03:39,541] INFO: Finished.

在这里插入图片描述

注意prompt_extend_target_lang使用的语言是英语，日志中对应优化后的提示词 Extended prompt 也是英语。

显存占用：10GB+

在这里插入图片描述

通义万相2.1-文生视频-1.3B-480P效果演示

使用 Dashscope API 进行扩展。
- 提前申请 dashscope.api_key 。
- 配置环境变量 DASH_API_KEY 来指定 Dashscope API 密钥。
- 使用参数 --prompt_extend_model 修改用于扩展的模型。

注册登录百炼平台：https://bailian.console.aliyun.com/#/home，进入模型服务-密钥管理创建API-KEY：

在这里插入图片描述

然后选择一个模型，注意查看使用额度或者token费用：

在这里插入图片描述

这里复制模型名字：qwen3-max

在这里插入图片描述

文生视频指令：

DASH_API_KEY='your_key' python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh' --prompt_extend_model 'qwen3-max'

运行效果：

2025-09-24 13:26:13,819] INFO: Input prompt: Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage
[2025-09-24 13:26:13,819] INFO: Extending prompt ...
[2025-09-24 13:26:17,304] INFO: Extended prompt: 写实风格数字插画，两只拟人化猫咪身穿舒适贴身的拳击装备，在聚光灯照亮的擂台上激烈对战。它们毛色分明，肌肉紧绷，戴着鲜艳醒目的拳击手套，眼神专注凶猛，正挥拳交错。舞台背景昏暗，唯有中央光束聚焦在它们身上，营造出紧张动感的格斗氛围。动态捕捉镜头，中景仰视视角，强调动作张力与光影对比。
[2025-09-24 13:26:17,305] INFO: Creating WanT2V pipeline.
[2025-09-24 13:26:42,043] INFO: loading ./Wan2.1-T2V-1.3B/models_t5_umt5-xxl-enc-bf16.pth
[2025-09-24 13:26:52,264] INFO: loading ./Wan2.1-T2V-1.3B/Wan2.1_VAE.pth
[2025-09-24 13:26:52,724] INFO: Creating WanModel from ./Wan2.1-T2V-1.3B
[2025-09-24 13:26:55,558] INFO: Generating video ...
100%|██████████████████████████████████████████████████████████████████████████████████████| 50/50 [06:00<00:00,  7.20s/it]
[2025-09-24 13:33:16,598] INFO: Saving generated video to t2v-1.3B_832*480_1_1_写实风格数字插画，两只拟人化猫咪身穿舒适贴身的拳击装备，在聚光灯照亮的擂台上激烈对战。它们毛色分明，_20250924_133316.mp4
[2025-09-24 13:33:17,365] INFO: Finished.

在这里插入图片描述

注意prompt_extend_target_lang使用的语言是中文，日志中对应优化后的提示词 Extended prompt 也是中文。

通义万相2.1-文生视频-1.3B-480P效果演示

(3) 运行本地 gradio

进入gradio目录：

cd gradio

在这里插入图片描述

使用本地模型进行扩展。

# if one uses a local model for prompt extension
python t2v_1.3B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ../Wan2.1-T2V-1.3B --prompt_extend_model '/home/sam/.cache/modelscope/hub/models/Qwen/Qwen2.5-3B-Instruct'

在这里插入图片描述

使用 Dashscope API 进行扩展。

# if one uses dashscope’s API for prompt extension
DASH_API_KEY='your_key' python t2v_1.3B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ../Wan2.1-T2V-1.3B --prompt_extend_model 'qwen3-max'

在这里插入图片描述

Step1: Init prompt_expander...done
Step2: Init 1.3B t2v model...done
* Running on local URL:  http://0.0.0.0:7860
* To create a public link, set `share=True` in `launch()`.

此时打开网页：