当前位置: 首页 > news >正文

大模型实战:通义万相2.1-文生视频-1.3B

通义万相2.1-文生视频-1.3B-480P效果演示

一、Wan2.1-T2V-1.3B

1、简介

通义万相2.1是阿里巴巴达摩院推出的多模态AI模型,专注于文本到视频(Text-to-Video)生成任务。1.3B版本是其参数规模为13亿的轻量级模型,旨在高效生成符合文本描述的短视频片段。

2、核心功能

文生视频:通过输入自然语言描述(如“一只猫在草地上奔跑”),模型自动生成与之匹配的动态视频内容,支持分辨率、时长等参数调整。
多风格适配:可生成写实、卡通、水墨等不同艺术风格的视频。
语义理解:对复杂场景和动作描述(如“夕阳下海浪拍打礁石”)具有较高还原能力。

3、技术特点

模型架构:基于扩散模型(Diffusion Model)与Transformer结合,优化了视频帧间连贯性。
训练数据:使用大规模视频-文本对数据集,涵盖多样化场景和物体。
轻量化设计:1.3B参数规模在消费级GPU上可部署,推理速度较快。

4、应用场景

  • 短视频内容创作
  • 广告与营销素材生成
  • 游戏及影视行业预可视化

5、推理示例

输入文本:“星空下的旋转木马”
输出视频:生成5秒、720p视频,包含闪烁星空与缓慢旋转的木马,光影效果自然。

注:实际效果可能受文本描述具体性和硬件配置影响。

二、克隆仓库

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

三、安装依赖项

# Ensure torch >= 2.4.0
pip install -r requirements.txt

四、下载模型

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B

五、模型推理

(1) 无提示扩展

  • 单 GPU 推理
python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果遇到 OOM(内存不足)问题,可以使用 --offload_model True--t5_cpu 选项来减少 GPU 内存使用:

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果使用的是 T2V-1.3B 模型,建议设置参数 --sample_guide_scale 6--sample_shift 参数 可以根据性能在 8 到 12 的范围内进行调整。

运行效果:在当前目录下生成 mp4 视频

在这里插入图片描述

视频效果:

通义万相2.1-文生视频-1.3B-480P效果演示

  • 使用 FSDP + xDiT USP 进行多 GPU 推理
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --dit_fsdp --t5_fsdp --ulysses_size 8 --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

(2) 使用提示扩展

  • 使用本地模型进行扩展。
    • 默认情况下,使用 HuggingFace 上的 Qwen 模型进行此扩展。当然也可以根据 GPU 内存大小进行模型选择。
    • 对于文生视频任务,可以使用 Qwen/Qwen2.5-14B-Instruct、Qwen/Qwen2.5-7B-Instruct 和 Qwen/Qwen2.5-3B-Instruct 等模型。
    • 较大的模型通常提供更好的扩展结果,但需要更多的 GPU 内存。
    • 参数 --prompt_extend_model 指定使用本地模型路径或 Hugging Face 模型。

例如:

modelscope download --model Qwen/Qwen2.5-3B-Instruct

在这里插入图片描述

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'en' --prompt_extend_model '/home/sam/.cache/modelscope/hub/models/Qwen/Qwen2.5-3B-Instruct'

运行效果:

INFO: Input prompt: Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage
[2025-09-24 12:56:49,202] INFO: Extending prompt ...
[2025-09-24 12:56:54,503] INFO: Extended prompt: CG fantasy digital art, two anthropomorphic cats with expressive fur textures, each in comfortable boxing gear and bright gloves, fiercely engage in an intense fight on a spotlighted stage. The cats have vividly colored eyes and fur, with dynamic poses and muscular builds. The stage is adorned with colorful banners and a raised circular platform in the center. The lighting highlights the cats' movements, casting dramatic shadows. The background features a bustling magical forest setting with glowing mushrooms and mystical creatures. The cats' fur shimmers under the stage lights, adding to their animated expressions. The scene captures a high-energy, dynamic action moment. Close-up, mid-shot, and wide shots capturing the entire fight.
[2025-09-24 12:56:54,503] INFO: Creating WanT2V pipeline.
[2025-09-24 12:57:17,372] INFO: loading ./Wan2.1-T2V-1.3B/models_t5_umt5-xxl-enc-bf16.pth
[2025-09-24 12:57:27,278] INFO: loading ./Wan2.1-T2V-1.3B/Wan2.1_VAE.pth
[2025-09-24 12:57:27,738] INFO: Creating WanModel from ./Wan2.1-T2V-1.3B
[2025-09-24 12:57:30,428] INFO: Generating video ...
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [05:48<00:00,  6.97s/it]
[2025-09-24 13:03:38,770] INFO: Saving generated video to t2v-1.3B_832*480_1_1_CG_fantasy_digital_art,_two_anthropomorphic_cats_w_20250924_130338.mp4
[2025-09-24 13:03:39,541] INFO: Finished.

在这里插入图片描述

注意prompt_extend_target_lang使用的语言是英语,日志中对应优化后的提示词 Extended prompt 也是英语。

显存占用:10GB+

在这里插入图片描述

通义万相2.1-文生视频-1.3B-480P效果演示

  • 使用 Dashscope API 进行扩展。
    • 提前申请 dashscope.api_key
    • 配置环境变量 DASH_API_KEY 来指定 Dashscope API 密钥。
    • 使用参数 --prompt_extend_model 修改用于扩展的模型。

注册登录百炼平台:https://bailian.console.aliyun.com/#/home,进入模型服务-密钥管理创建API-KEY

在这里插入图片描述

在这里插入图片描述

然后选择一个模型,注意查看使用额度或者token费用:

在这里插入图片描述

这里复制模型名字:qwen3-max

在这里插入图片描述

文生视频指令:

DASH_API_KEY='your_key' python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh' --prompt_extend_model 'qwen3-max'

运行效果:

2025-09-24 13:26:13,819] INFO: Input prompt: Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage
[2025-09-24 13:26:13,819] INFO: Extending prompt ...
[2025-09-24 13:26:17,304] INFO: Extended prompt: 写实风格数字插画,两只拟人化猫咪身穿舒适贴身的拳击装备,在聚光灯照亮的擂台上激烈对战。它们毛色分明,肌肉紧绷,戴着鲜艳醒目的拳击手套,眼神专注凶猛,正挥拳交错。舞台背景昏暗,唯有中央光束聚焦在它们身上,营造出紧张动感的格斗氛围。动态捕捉镜头,中景仰视视角,强调动作张力与光影对比。
[2025-09-24 13:26:17,305] INFO: Creating WanT2V pipeline.
[2025-09-24 13:26:42,043] INFO: loading ./Wan2.1-T2V-1.3B/models_t5_umt5-xxl-enc-bf16.pth
[2025-09-24 13:26:52,264] INFO: loading ./Wan2.1-T2V-1.3B/Wan2.1_VAE.pth
[2025-09-24 13:26:52,724] INFO: Creating WanModel from ./Wan2.1-T2V-1.3B
[2025-09-24 13:26:55,558] INFO: Generating video ...
100%|██████████████████████████████████████████████████████████████████████████████████████| 50/50 [06:00<00:00,  7.20s/it]
[2025-09-24 13:33:16,598] INFO: Saving generated video to t2v-1.3B_832*480_1_1_写实风格数字插画,两只拟人化猫咪身穿舒适贴身的拳击装备,在聚光灯照亮的擂台上激烈对战。它们毛色分明,_20250924_133316.mp4
[2025-09-24 13:33:17,365] INFO: Finished.

在这里插入图片描述

注意prompt_extend_target_lang使用的语言是中文,日志中对应优化后的提示词 Extended prompt 也是中文。

通义万相2.1-文生视频-1.3B-480P效果演示

(3) 运行本地 gradio

进入gradio目录:

cd gradio

在这里插入图片描述

  • 使用本地模型进行扩展。
# if one uses a local model for prompt extension
python t2v_1.3B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ../Wan2.1-T2V-1.3B --prompt_extend_model '/home/sam/.cache/modelscope/hub/models/Qwen/Qwen2.5-3B-Instruct'

在这里插入图片描述

  • 使用 Dashscope API 进行扩展。
# if one uses dashscope’s API for prompt extension
DASH_API_KEY='your_key' python t2v_1.3B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ../Wan2.1-T2V-1.3B --prompt_extend_model 'qwen3-max'

在这里插入图片描述

Step1: Init prompt_expander...done
Step2: Init 1.3B t2v model...done
* Running on local URL:  http://0.0.0.0:7860
* To create a public link, set `share=True` in `launch()`.

此时打开网页:

http://127.0.0.1:7860/

在这里插入图片描述

参考文档

  • https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-1.3B
http://www.dtcms.com/a/403396.html

相关文章:

  • 【C语言】统计二进制中1的个数:三种方法的比较与分析
  • C语言:数组元素逆序存放
  • C++(day1)
  • 如何让百度抓取网站wordpress 免费插件
  • 无人机无线电测距模块技术要点与难点
  • 逻辑回归中的成本损失函数全解析:从数学推导到实际应用
  • 组件化思维(下):表单与交互组件,倾听用户的心声
  • 机器学习——逻辑回归详解
  • wordpress做英文站最打动人心的广告语
  • 支持向量机深度解析:从数学原理到工程实践的完整指南——流式在线学习、增量 SVM 与万亿参数时代的挑战
  • 时间复杂度与空间复杂度系统梳理与实战
  • 三轴正交磁力矩器输出力矩计算原理及实现
  • 小组网站建设方案书网站seo优化关键词快速排名上首页
  • 淘宝cms建站wordpress调取某页面
  • STM32的HAL库驱动ADS124S08进行PT100温度采集
  • 软件报错处理合集,大部分情况需要下载Webview2、.NET4.8、获取C盘管理员权限等
  • Jakarta EE 实验 — Web 聊天室(过滤器、监听器版)进阶
  • 腾讯风铃怎么做网站wordpress添加百度统计代码
  • JMeter的取样器
  • LSTM自然语言处理情感分析项目(一)构建词汇表
  • 门户网站建设ppt方案企业网站建设教程pdf
  • 搭建网站的企业淘客帝国 wordpress
  • HarmonyOS 5 网络编程与数据存储实战:从RESTful API到本地持久化
  • Vue.js 生命周期详解
  • 云手机远程控制的作用
  • Vue3》》vite》》 vue-router 和文件路由
  • 个人网站搭建详细步骤线上做汉语教师网站
  • GUIAgent:大模型驱动的浏览器自动化助手
  • Ubuntu gdb attach 权限问题
  • 做设计一般用的素材网站是什么asp 做网站的好处