AI大模型:(二)1.3 linux本地部署通义万相2.1+deepseek视频生成
2025年2 月 26 日,阿里巴巴深夜重磅开源了视频生成大模型——Wan 2.1( 通义万相 2.1)。此次开源采用 Apache 2.0 协议,当前全球开发者可通过GitHub(https://github.com/Wan-Video/Wan2.1)、HuggingFace(https://huggingface.co/Wan-AI )平台直接下载并上手体验。"通义万相"(Tongyi Wanxiang)是阿里巴巴达摩院推出的一款AI绘画工具,基于先进的生成式人工智能技术,能够根据用户输入的文本描述(Prompt)自动生成高质量的图像、插画或设计作品。提供14B和1.3B参数版本,支持中英文视频生成及特效(如粒子效果、物理模拟),其14B在VBench榜单以86.22%得分登顶。Wan2.1 Prompt可以根据deepseek模型进一步优化,耳熟能详的手机app即梦AI也是这么个玩法,通过deepseek的优化可以将模糊需求细化为具体场景描述,能显著提升视频细节与场景丰富度。
1.部署要求
模型参数 | CPU要求 | 内存要求 | 显存要求 | 硬盘要求 |
---|---|---|---|---|
1.5B | 最低4核,推荐8核 | 8GB+ | 8GB+(如RTX 3060) | 10GB+ SSD |
14B | 最低8核,推荐16核 | 16GB+ | 16GB+(如RTX 4090) | 20GB+ SSD |
2.下载地址
Models | Download Link | Notes |
---|---|---|
T2V-14B | 🤗 Huggingface 🤖 ModelScope | Supports both 480P and 720P |
I2V-14B-720P | 🤗 Huggingface 🤖 ModelScope | Supports 720P |
I2V-14B-480P | 🤗 Huggingface 🤖 ModelScope | Supports 480P |
T2V-1.3B | 🤗 Huggingface 🤖 ModelScope | Supports 480P |
3.安装
我们使用python虚拟环境做隔离,防止包冲突:
python -m venv wan2.1 # 创建名为 wan2.1 的虚拟环境
source wan2.1/bin/activate # 激活环境(Linux/macOS)
下载wan2.1 repo:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
安装依赖:
# Ensure torch >= 2.4.0
pip install -r requirements.txt
安装过程错误解决:
- 如果是阿里云安装遇到ssl报错后找不到ninja:
pip install --trusted-host mirrors.cloud.aliyuncs.com ninja #跳过 SSL 验证安装
- 安装flash-attn卡住移步github下载、安装
windows: https://github.com/kingbri1/flash-attention/releases
Linux: https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp311-cp311-linux_x86_64.whl
下载完后安装:
pip install flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp311-cp311-linux_x86_64.whl
下载模型(这里用魔搭下载,魔搭比huggingface快):
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B
4.运行生成视频
运行:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ../Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "变形金刚入侵地球."
如上视频已经生成好了,下载看看效果:
变形金刚入侵地球-原
5. DeepSeek丰富后Wan2.1
5.1 deepseek构建场景
从生成的视频来看,场景还是略显单调。那么我们的国货之光DeepSeek就该上场了,可以用它对文本描述(Prompt)进行丰富。
我们用deepseek丰富下文本:
例如这样问deepseek:我需要使用AI工具生成一个5秒钟的视频,我想象的场景:变形金刚入侵地球,但我感觉比较空洞,帮我扩充下场景,使其更加丰满。50字以内。
5.2 重新生成
使用deepseek生成场景描述文本重新生成:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ../Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "深夜,城市天际线被猩红警报撕裂,赛博坦巨影从云层压境。擎天柱在燃烧的街道上变形起身,金属关节摩擦出火花,身后人类四散奔逃。威震天的炮管在月球轮廓前充能,一道等离子光束贯穿摩天楼群,玻璃幕墙如冰晶崩塌。汽车人编队从硝烟中冲出,轮胎碾过坠落的军机残骸,5秒内定格地球文明存亡瞬间。"
效果如下:
变形金刚-优
6. 效果对比
不同的prompt生成时间基本一致,这里因为我们描述的场景太多,视频太短,效果不是那么明显。目前wan2.1只能生成3~5秒的视频,我们可以描述单一场景,效果对比就很明显。后续也可以借助一些工具可以生成长视频。这里主要告诉大家我们可以借助deepseek强大的自然语言能力丰富场景,然后根据deepseek生成的文本描述(Prompt)一种玩法,效果会更好。就像即梦AI的玩法类似。