当前位置: 首页 > news >正文

通义万相环境搭建推理测试

引子

2月25日,阿里云旗下视觉生成基座模型万相 2.1(Wan)重磅开源,此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务。ds的火热,都快把这则消息掩盖了。作为长期关注大模型,多模态的blogger,我还是不能错误,我一直认为阿里开源的大模型是业界良心。OK,让我们开始吧。

一、模型介绍

在人工智能视频生成领域,万相模型近期展现出突破性进展。其最新发布的万相 2.1 模型在权威评测集 VBench 中以 86.22% 的总分斩获榜首,大幅超越 Sora、Luma、Pika 等国内外主流模型。值得关注的是,其轻量化版本万相 1.3B 不仅性能超越同量级开源模型,甚至逼近部分闭源产品,同时实现了 8.2GB 显存的消费级显卡部署能力,为二次开发和学术研究提供了重要支撑。这一成果印证了国产 AI 技术在视频生成领域的后发优势,此前业界曾认为国产模型难以追赶 Sora 等国际标杆,而万相团队的突破标志着技术追赶周期的大幅缩短。

在算法层面,万相模型构建了创新的技术架构体系:

(1)采用 DiT 架构与线性噪声轨迹 Flow Matching 范式为核心框架

(2)研发因果 3D VAE 技术实现无限长视频处理:

创新特征缓存机制替代端到端编解码

支持 1080P 分辨率无限时长视频生成

通过空间降采样压缩优化,推理内存占用降低 29%

(3)开发可扩展预训练策略,实现模型性能的持续迭代

实验数据显示,该模型在 14 个核心维度和 26 个子维度评测中全面领先,尤其在动态表现领域实现质的飞跃:

复杂运动生成:支持人体旋转、跳跃、翻滚等 20 余种高难度动作

物理规律建模:精准还原碰撞、反弹、流体力学等 5 大类物理现象

多目标交互:可同时处理 8 个以上动态对象的协同运动

视觉质量优化:在色彩还原度、细节保留率等指标上提升 17%

这些技术突破不仅重塑了视频生成领域的性能基准,更构建了具有自主知识产权的技术生态,为影视制作、虚拟现实等领域提供了全新解决方案。PS:早期也有博主分析为啥中国抄不动Sora,那分析的是头头是道。。。呃,在我看来没超过只是时间未到。

下面我们可以看下万相 2.1 的实际生成效果。

输入 Prompt:

体育摄影风格,骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服,头戴安全帽,表情专注而坚定,双手紧握缰绳,双腿夹紧马腹,与马匹完美配合。马匹腾空跃起,动作连贯且准确,四蹄有力地踏过每一个障碍物,保持速度和平衡。背景是自然的草地和蓝天,画面充满动感和紧张感。4K, 高清画质, 动作完整。

生成图片:

二、环境搭建

模型下载

modelscope download --model Wan-AI/Wan2.1-T2V-1.3B --local_dir ./

代码下载

git clone https://github.com/Wan-Video/Wan2.1.git

环境安装

docker run -it -v /datas/work/zzq/:/workspace --gpus=all pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel bash

cd /workspace/Wan/Wan2.1-main

pip install -r requirements.txt -i Simple Index

三、推理测试

python generate.py --task t2v-1.3B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

相关文章:

  • wordpress ip设置baidu优化
  • 网站建设纟金手指下拉壹陆/如何联系百度人工客服电话
  • 网站建设 知识库/百度提交入口网站
  • 手机免费注册网站/微信软文是什么意思
  • 公司怎么做网站/站长工具seo排名查询
  • b2b网站推广方法/百家联盟推广部电话多少
  • 深度学习deeplearn1
  • Linux命令-sort
  • 如何申请p12证书
  • 【Kafka基础】解析Kafka核心特性:高吞吐、持久化与高可用架构
  • 关于终端安全管理系统在社会工作中的重要作用
  • FastAPI与ASGI深度整合实战指南
  • 使用Redis构架你自己的私有大模型
  • 嘎嘎棒,ethernet ip转profinet网关锁鲜食品加工业
  • 安装electron项目是为什么要执行postinstall script
  • Dubbo(30)如何配置Dubbo的服务分片?
  • linux0.11内核源码修仙传第十三章——进程调度大战前夕
  • AIO,BIO,NIO的区别(详解)
  • 盲盒小程序:数字娱乐新宠,开发需注重细节与创新
  • React面试常考内容【从宏观到微观】
  • pyQt学习笔记——QThread线程
  • Linux——文件(2)文件系统
  • Kafka - 消息零丢失实战
  • 深度学习笔记 | 漫游RNN(循环神经网络)
  • 天梯赛 L2-024 部落
  • [ISP] 理解白平衡的理想色温6500K