当前位置: 首页 > news >正文

AI大模型:(二)1.3 linux本地部署通义万相2.1+deepseek视频生成

       2025年2 月 26 日,阿里巴巴深夜重磅开源了视频生成大模型——Wan 2.1( 通义万相 2.1)。此次开源采用 Apache 2.0 协议,当前全球开发者可通过GitHub(https://github.com/Wan-Video/Wan2.1)、HuggingFace(https://huggingface.co/Wan-AI )平台直接下载并上手体验。"通义万相"(Tongyi Wanxiang)是阿里巴巴达摩院推出的一款AI绘画工具,基于先进的生成式人工智能技术,能够根据用户输入的文本描述(Prompt)自动生成高质量的图像、插画或设计作品。提供14B和1.3B参数版本,支持中英文视频生成及特效(如粒子效果、物理模拟),其14B在VBench榜单以86.22%得分登顶。Wan2.1 Prompt可以根据deepseek模型进一步优化,耳熟能详的手机app即梦AI也是这么个玩法,通过deepseek的优化可以将模糊需求细化为具体场景描述,能显著提升视频细节与场景丰富度。

1.部署要求

模型参数CPU要求内存要求显存要求硬盘要求
1.5B最低4核,推荐8核‌8GB+‌8GB+(如RTX 3060)‌10GB+ SSD‌
14B最低8核,推荐16核‌16GB+‌16GB+(如RTX 4090)‌20GB+ SSD‌

2.下载地址 

ModelsDownload LinkNotes
T2V-14B🤗 Huggingface 🤖 ModelScopeSupports both 480P and 720P
I2V-14B-720P🤗 Huggingface 🤖 ModelScopeSupports 720P
I2V-14B-480P🤗 Huggingface 🤖 ModelScopeSupports 480P
T2V-1.3B🤗 Huggingface 🤖 ModelScopeSupports 480P

3.安装

  我们使用python虚拟环境做隔离,防止包冲突:

python -m venv wan2.1    # 创建名为 wan2.1 的虚拟环境
source wan2.1/bin/activate  # 激活环境(Linux/macOS)

 下载wan2.1 repo:

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

安装依赖:

# Ensure torch >= 2.4.0
pip install -r requirements.txt

 安装过程错误解决:

  1. 如果是阿里云安装遇到ssl报错后找不到ninja:
    pip install --trusted-host mirrors.cloud.aliyuncs.com ninja   #跳过 SSL 验证安装
  2. 安装flash-attn卡住移步github下载、安装

          windows: https://github.com/kingbri1/flash-attention/releases

          Linux: https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp311-cp311-linux_x86_64.whl

下载完后安装:

pip install flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp311-cp311-linux_x86_64.whl

下载模型(这里用魔搭下载,魔搭比huggingface快):

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B

 4.运行生成视频

 运行:

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ../Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "变形金刚入侵地球."

如上视频已经生成好了,下载看看效果:

变形金刚入侵地球-原

 5. DeepSeek丰富后Wan2.1

5.1 deepseek构建场景

从生成的视频来看,场景还是略显单调。那么我们的国货之光DeepSeek就该上场了,可以用它对文本描述(Prompt)进行丰富。

我们用deepseek丰富下文本:

例如这样问deepseek:我需要使用AI工具生成一个5秒钟的视频,我想象的场景:变形金刚入侵地球,但我感觉比较空洞,帮我扩充下场景,使其更加丰满。50字以内。

5.2 重新生成

 使用deepseek生成场景描述文本重新生成:

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ../Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "深夜,城市天际线被猩红警报撕裂,赛博坦巨影从云层压境。擎天柱在燃烧的街道上变形起身,金属关节摩擦出火花,身后人类四散奔逃。威震天的炮管在月球轮廓前充能,一道等离子光束贯穿摩天楼群,玻璃幕墙如冰晶崩塌。汽车人编队从硝烟中冲出,轮胎碾过坠落的军机残骸,5秒内定格地球文明存亡瞬间。"

 

效果如下:

变形金刚-优

6. 效果对比

不同的prompt生成时间基本一致,这里因为我们描述的场景太多,视频太短,效果不是那么明显。目前wan2.1只能生成3~5秒的视频,我们可以描述单一场景,效果对比就很明显。后续也可以借助一些工具可以生成长视频。这里主要告诉大家我们可以借助deepseek强大的自然语言能力丰富场景,然后根据deepseek生成的文本描述(Prompt)一种玩法,效果会更好。就像即梦AI的玩法类似。

http://www.dtcms.com/a/111754.html

相关文章:

  • ARM Cortex-A7 处理器支持的汇编指令集全面总结
  • 【Cursor】打开Vscode设置
  • 【nacos安装指南】
  • 关于termux运行pc交叉编译的aarch64 elf的问题
  • Leetcode hot100(day 5)
  • 【学Rust写CAD】30 Alpha256结构体补充方法(alpha256.rs)
  • 人工智能在前端开发中的应用探索
  • php8 ?-> nullsafe 操作符 使用教程
  • YOLO目标检测系列
  • 指令补充+样式绑定+计算属性+监听器
  • 鸿蒙 —— 系统图标大全
  • NLP高频面试题(三十六)——深入理解思维链(Chain-of-Thought)提示方法
  • Obsidian按下三个横线不能出现文档属性
  • 鸿蒙 —— 关系型数据库
  • 本节课课堂总结
  • Linux系统编程:进程管理、内存对比与树莓派应用
  • 【AI学习】MCP的简单快速理解
  • 解决backtrader框架下日志ValueError: I/O operation on closed file.报错(jupyternotebook)
  • el-table固定表头,动态计算高度
  • 基础IO(linux)
  • 公司论坛数据构建情感标注数据集思考
  • 使用minio客户端mc工具迁移指定文件到本地
  • C++设计模式-策略模式:从基本介绍,内部原理、应用场景、使用方法,常见问题和解决方案进行深度解析
  • [GN] Python3基本数据类型 -- 与C的差异
  • 灭火器离位检测:智能视觉守护安全
  • Java异步编程实战:线框-管道模型的设计与实现
  • LabVIEW 中数字转字符串常用汇总
  • MoE Align Sort在医院AI医疗领域的前景分析(代码版)
  • Linux错误(6)X64向量指令访问地址未对齐引起SIGSEGV
  • 光流 | Farneback、Horn-Schunck、Lucas-Kanade、Lucas-Kanade DoG四种光流算法对比(附matlab源码)