通义万相环境搭建推理测试
引子
2月25日,阿里云旗下视觉生成基座模型万相 2.1(Wan)重磅开源,此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务。ds的火热,都快把这则消息掩盖了。作为长期关注大模型,多模态的blogger,我还是不能错误,我一直认为阿里开源的大模型是业界良心。OK,让我们开始吧。
一、模型介绍
在人工智能视频生成领域,万相模型近期展现出突破性进展。其最新发布的万相 2.1 模型在权威评测集 VBench 中以 86.22% 的总分斩获榜首,大幅超越 Sora、Luma、Pika 等国内外主流模型。值得关注的是,其轻量化版本万相 1.3B 不仅性能超越同量级开源模型,甚至逼近部分闭源产品,同时实现了 8.2GB 显存的消费级显卡部署能力,为二次开发和学术研究提供了重要支撑。这一成果印证了国产 AI 技术在视频生成领域的后发优势,此前业界曾认为国产模型难以追赶 Sora 等国际标杆,而万相团队的突破标志着技术追赶周期的大幅缩短。
在算法层面,万相模型构建了创新的技术架构体系:
(1)采用 DiT 架构与线性噪声轨迹 Flow Matching 范式为核心框架
(2)研发因果 3D VAE 技术实现无限长视频处理:
创新特征缓存机制替代端到端编解码
支持 1080P 分辨率无限时长视频生成
通过空间降采样压缩优化,推理内存占用降低 29%
(3)开发可扩展预训练策略,实现模型性能的持续迭代
实验数据显示,该模型在 14 个核心维度和 26 个子维度评测中全面领先,尤其在动态表现领域实现质的飞跃:
复杂运动生成:支持人体旋转、跳跃、翻滚等 20 余种高难度动作
物理规律建模:精准还原碰撞、反弹、流体力学等 5 大类物理现象
多目标交互:可同时处理 8 个以上动态对象的协同运动
视觉质量优化:在色彩还原度、细节保留率等指标上提升 17%
这些技术突破不仅重塑了视频生成领域的性能基准,更构建了具有自主知识产权的技术生态,为影视制作、虚拟现实等领域提供了全新解决方案。PS:早期也有博主分析为啥中国抄不动Sora,那分析的是头头是道。。。呃,在我看来没超过只是时间未到。
下面我们可以看下万相 2.1 的实际生成效果。
输入 Prompt:
体育摄影风格,骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服,头戴安全帽,表情专注而坚定,双手紧握缰绳,双腿夹紧马腹,与马匹完美配合。马匹腾空跃起,动作连贯且准确,四蹄有力地踏过每一个障碍物,保持速度和平衡。背景是自然的草地和蓝天,画面充满动感和紧张感。4K, 高清画质, 动作完整。
生成图片:
二、环境搭建
模型下载
modelscope download --model Wan-AI/Wan2.1-T2V-1.3B --local_dir ./
代码下载
git clone https://github.com/Wan-Video/Wan2.1.git
环境安装
docker run -it -v /datas/work/zzq/:/workspace --gpus=all pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel bash
cd /workspace/Wan/Wan2.1-main
pip install -r requirements.txt -i Simple Index
三、推理测试
python generate.py --task t2v-1.3B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."