大模型实战:通义万相2.1-文生视频-1.3B
通义万相2.1-文生视频-1.3B-480P效果演示
一、Wan2.1-T2V-1.3B
1、简介
通义万相2.1是阿里巴巴达摩院推出的多模态AI模型,专注于文本到视频(Text-to-Video)生成任务。1.3B版本是其参数规模为13亿的轻量级模型,旨在高效生成符合文本描述的短视频片段。
2、核心功能
文生视频:通过输入自然语言描述(如“一只猫在草地上奔跑”),模型自动生成与之匹配的动态视频内容,支持分辨率、时长等参数调整。
多风格适配:可生成写实、卡通、水墨等不同艺术风格的视频。
语义理解:对复杂场景和动作描述(如“夕阳下海浪拍打礁石”)具有较高还原能力。
3、技术特点
模型架构:基于扩散模型(Diffusion Model)与Transformer结合,优化了视频帧间连贯性。
训练数据:使用大规模视频-文本对数据集,涵盖多样化场景和物体。
轻量化设计:1.3B参数规模在消费级GPU上可部署,推理速度较快。
4、应用场景
- 短视频内容创作
- 广告与营销素材生成
- 游戏及影视行业预可视化
5、推理示例
输入文本:“星空下的旋转木马”
输出视频:生成5秒、720p视频,包含闪烁星空与缓慢旋转的木马,光影效果自然。
注:实际效果可能受文本描述具体性和硬件配置影响。
二、克隆仓库
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
三、安装依赖项
# Ensure torch >= 2.4.0
pip install -r requirements.txt
四、下载模型
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B
五、模型推理
(1) 无提示扩展
- 单 GPU 推理
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
如果遇到 OOM(内存不足)问题,可以使用 --offload_model True
和 --t5_cpu
选项来减少 GPU
内存使用:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
如果使用的是 T2V-1.3B 模型,建议设置参数 --sample_guide_scale 6
。--sample_shift
参数 可以根据性能在 8 到 12 的范围内进行调整。
运行效果:在当前目录下生成 mp4 视频
视频效果:
通义万相2.1-文生视频-1.3B-480P效果演示
- 使用 FSDP + xDiT USP 进行多 GPU 推理
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --dit_fsdp --t5_fsdp --ulysses_size 8 --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
(2) 使用提示扩展
- 使用本地模型进行扩展。
- 默认情况下,使用
HuggingFace
上的Qwen
模型进行此扩展。当然也可以根据 GPU 内存大小进行模型选择。 - 对于文生视频任务,可以使用 Qwen/Qwen2.5-14B-Instruct、Qwen/Qwen2.5-7B-Instruct 和 Qwen/Qwen2.5-3B-Instruct 等模型。
- 较大的模型通常提供更好的扩展结果,但需要更多的 GPU 内存。
- 参数
--prompt_extend_model
指定使用本地模型路径或Hugging Face
模型。
- 默认情况下,使用
例如:
modelscope download --model Qwen/Qwen2.5-3B-Instruct
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'en' --prompt_extend_model '/home/sam/.cache/modelscope/hub/models/Qwen/Qwen2.5-3B-Instruct'
运行效果:
INFO: Input prompt: Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage
[2025-09-24 12:56:49,202] INFO: Extending prompt ...
[2025-09-24 12:56:54,503] INFO: Extended prompt: CG fantasy digital art, two anthropomorphic cats with expressive fur textures, each in comfortable boxing gear and bright gloves, fiercely engage in an intense fight on a spotlighted stage. The cats have vividly colored eyes and fur, with dynamic poses and muscular builds. The stage is adorned with colorful banners and a raised circular platform in the center. The lighting highlights the cats' movements, casting dramatic shadows. The background features a bustling magical forest setting with glowing mushrooms and mystical creatures. The cats' fur shimmers under the stage lights, adding to their animated expressions. The scene captures a high-energy, dynamic action moment. Close-up, mid-shot, and wide shots capturing the entire fight.
[2025-09-24 12:56:54,503] INFO: Creating WanT2V pipeline.
[2025-09-24 12:57:17,372] INFO: loading ./Wan2.1-T2V-1.3B/models_t5_umt5-xxl-enc-bf16.pth
[2025-09-24 12:57:27,278] INFO: loading ./Wan2.1-T2V-1.3B/Wan2.1_VAE.pth
[2025-09-24 12:57:27,738] INFO: Creating WanModel from ./Wan2.1-T2V-1.3B
[2025-09-24 12:57:30,428] INFO: Generating video ...
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [05:48<00:00, 6.97s/it]
[2025-09-24 13:03:38,770] INFO: Saving generated video to t2v-1.3B_832*480_1_1_CG_fantasy_digital_art,_two_anthropomorphic_cats_w_20250924_130338.mp4
[2025-09-24 13:03:39,541] INFO: Finished.
注意prompt_extend_target_lang
使用的语言是英语,日志中对应优化后的提示词 Extended prompt
也是英语。
显存占用:10GB+
通义万相2.1-文生视频-1.3B-480P效果演示
- 使用
Dashscope API
进行扩展。- 提前申请
dashscope.api_key
。 - 配置环境变量
DASH_API_KEY
来指定Dashscope API
密钥。 - 使用参数
--prompt_extend_model
修改用于扩展的模型。
- 提前申请
注册登录百炼平台:https://bailian.console.aliyun.com/#/home,进入模型服务-密钥管理
创建API-KEY
:
然后选择一个模型,注意查看使用额度或者token费用:
这里复制模型名字:qwen3-max
文生视频指令:
DASH_API_KEY='your_key' python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh' --prompt_extend_model 'qwen3-max'
运行效果:
2025-09-24 13:26:13,819] INFO: Input prompt: Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage
[2025-09-24 13:26:13,819] INFO: Extending prompt ...
[2025-09-24 13:26:17,304] INFO: Extended prompt: 写实风格数字插画,两只拟人化猫咪身穿舒适贴身的拳击装备,在聚光灯照亮的擂台上激烈对战。它们毛色分明,肌肉紧绷,戴着鲜艳醒目的拳击手套,眼神专注凶猛,正挥拳交错。舞台背景昏暗,唯有中央光束聚焦在它们身上,营造出紧张动感的格斗氛围。动态捕捉镜头,中景仰视视角,强调动作张力与光影对比。
[2025-09-24 13:26:17,305] INFO: Creating WanT2V pipeline.
[2025-09-24 13:26:42,043] INFO: loading ./Wan2.1-T2V-1.3B/models_t5_umt5-xxl-enc-bf16.pth
[2025-09-24 13:26:52,264] INFO: loading ./Wan2.1-T2V-1.3B/Wan2.1_VAE.pth
[2025-09-24 13:26:52,724] INFO: Creating WanModel from ./Wan2.1-T2V-1.3B
[2025-09-24 13:26:55,558] INFO: Generating video ...
100%|██████████████████████████████████████████████████████████████████████████████████████| 50/50 [06:00<00:00, 7.20s/it]
[2025-09-24 13:33:16,598] INFO: Saving generated video to t2v-1.3B_832*480_1_1_写实风格数字插画,两只拟人化猫咪身穿舒适贴身的拳击装备,在聚光灯照亮的擂台上激烈对战。它们毛色分明,_20250924_133316.mp4
[2025-09-24 13:33:17,365] INFO: Finished.
注意prompt_extend_target_lang
使用的语言是中文,日志中对应优化后的提示词 Extended prompt
也是中文。
通义万相2.1-文生视频-1.3B-480P效果演示
(3) 运行本地 gradio
进入gradio
目录:
cd gradio
- 使用本地模型进行扩展。
# if one uses a local model for prompt extension
python t2v_1.3B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ../Wan2.1-T2V-1.3B --prompt_extend_model '/home/sam/.cache/modelscope/hub/models/Qwen/Qwen2.5-3B-Instruct'
- 使用
Dashscope API
进行扩展。
# if one uses dashscope’s API for prompt extension
DASH_API_KEY='your_key' python t2v_1.3B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ../Wan2.1-T2V-1.3B --prompt_extend_model 'qwen3-max'
Step1: Init prompt_expander...done
Step2: Init 1.3B t2v model...done
* Running on local URL: http://0.0.0.0:7860
* To create a public link, set `share=True` in `launch()`.
此时打开网页:
http://127.0.0.1:7860/
参考文档
- https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-1.3B