当前位置：首页 > news >正文

通义万相环境搭建推理测试

news 2025/10/9 12:09:26

引子

2月25日，阿里云旗下视觉生成基座模型万相 2.1（Wan）重磅开源，此次开源采用最宽松的 Apache2.0 协议，14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源，同时支持文生视频和图生视频任务。ds的火热，都快把这则消息掩盖了。作为长期关注大模型，多模态的blogger，我还是不能错误，我一直认为阿里开源的大模型是业界良心。OK，让我们开始吧。

一、模型介绍

在人工智能视频生成领域，万相模型近期展现出突破性进展。其最新发布的万相 2.1 模型在权威评测集 VBench 中以 86.22% 的总分斩获榜首，大幅超越 Sora、Luma、Pika 等国内外主流模型。值得关注的是，其轻量化版本万相 1.3B 不仅性能超越同量级开源模型，甚至逼近部分闭源产品，同时实现了 8.2GB 显存的消费级显卡部署能力，为二次开发和学术研究提供了重要支撑。这一成果印证了国产 AI 技术在视频生成领域的后发优势，此前业界曾认为国产模型难以追赶 Sora 等国际标杆，而万相团队的突破标志着技术追赶周期的大幅缩短。

在算法层面，万相模型构建了创新的技术架构体系：

（1）采用 DiT 架构与线性噪声轨迹 Flow Matching 范式为核心框架

（2）研发因果 3D VAE 技术实现无限长视频处理：

创新特征缓存机制替代端到端编解码

支持 1080P 分辨率无限时长视频生成

通过空间降采样压缩优化，推理内存占用降低 29%

（3）开发可扩展预训练策略，实现模型性能的持续迭代

实验数据显示，该模型在 14 个核心维度和 26 个子维度评测中全面领先，尤其在动态表现领域实现质的飞跃：

复杂运动生成：支持人体旋转、跳跃、翻滚等 20 余种高难度动作

物理规律建模：精准还原碰撞、反弹、流体力学等 5 大类物理现象

多目标交互：可同时处理 8 个以上动态对象的协同运动

视觉质量优化：在色彩还原度、细节保留率等指标上提升 17%

这些技术突破不仅重塑了视频生成领域的性能基准，更构建了具有自主知识产权的技术生态，为影视制作、虚拟现实等领域提供了全新解决方案。PS：早期也有博主分析为啥中国抄不动Sora，那分析的是头头是道。。。呃，在我看来没超过只是时间未到。

下面我们可以看下万相 2.1 的实际生成效果。

输入 Prompt：

体育摄影风格，骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服，头戴安全帽，表情专注而坚定，双手紧握缰绳，双腿夹紧马腹，与马匹完美配合。马匹腾空跃起，动作连贯且准确，四蹄有力地踏过每一个障碍物，保持速度和平衡。背景是自然的草地和蓝天，画面充满动感和紧张感。4K, 高清画质, 动作完整。

生成图片：

二、环境搭建

模型下载

modelscope download --model Wan-AI/Wan2.1-T2V-1.3B --local_dir ./

代码下载

git clone https://github.com/Wan-Video/Wan2.1.git

环境安装

docker run -it -v /datas/work/zzq/:/workspace --gpus=all pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel bash

cd /workspace/Wan/Wan2.1-main

pip install -r requirements.txt -i Simple Index

三、推理测试

python generate.py --task t2v-1.3B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

查看全文

http://www.dtcms.com/a/110843.html