当前位置: 首页 > news >正文

阿里开源通义万相Wan2.1-VACE-14B:用于视频创建和编辑的一体化模型

Wan2.1:开放且先进的大规模视频生成模型

一、引入与概述

Wan2.1是一个全面且开放的视频基础模型套件,旨在突破视频生成的边界。该模型在多个基准测试中持续超越现有的开源模型和商业解决方案的性能。Wan2.1支持多种任务,包括文本到视频、图像到视频、视频编辑、文本到图像和视频到音频,推动了视频生成领域的发展。此外,Wan2.1还具备生成中英文文本的能力,极大增强了其实际应用价值。

二、模型版本与性能

Wan2.1提供了多种模型版本,包括1.3B和14B参数规模的模型,支持480P和720P两种分辨率。其中,T2V-1.3B模型仅需8.19GB显存,可在RTX 4090显卡上大约4分钟内生成5秒的480P视频。即使在未进行量化优化等技术处理的情况下,其性能也能与一些闭源模型相媲美。Wan2.1的多个版本在不同GPU上的计算效率也得到了详细测试和展示。

三、技术创新

(一)3D因果变分自编码器(Wan-VAE)

Wan2.1提出了专为视频生成设计的3D因果VAE架构——Wan-VAE。该架构通过多种策略结合,提高了时空压缩效率,降低了显存占用,并确保了时间因果性。与其它开源VAE相比,Wan-VAE在性能效率上具有显著优势。它可以对任意长度的1080P视频进行编码和解码,且不会丢失历史时间信息,非常适合视频生成任务。

(二)扩散变换器(DiT)

Wan2.1基于主流的扩散变换器范式设计,采用T5编码器对多语言文本输入进行编码,并在每个变换器块中使用交叉注意力将文本嵌入模型结构。此外,还采用了带有线性层和SiLU层的MLP来处理输入时间嵌入,并分别预测六个调制参数。该MLP在所有变换器块中共享,每个块学习不同的偏置参数。这种设计在相同参数规模下显著提升了性能。

(三)数据集构建

Wan2.1团队策划并去重了一个包含大量图像和视频数据的候选数据集。在数据策划过程中,设计了四步数据清洗流程,重点关注基础维度、视觉质量和运动质量。通过稳健的数据处理流程,可以轻松获得高质量、多样化且大规模的图像和视频训练集。

四、模型架构与参数

(一)1.3B模型

  • 输入维度:1536

  • 输出维度:16

  • 前馈维度:8960

  • 频率维度:256

  • 注意力头数:12

  • 层数:30

(二)14B模型

  • 输入维度:5120

  • 输出维度:16

  • 前馈维度:13824

  • 频率维度:256

  • 注意力头数:40

  • 层数:40

五、应用场景与集成

Wan2.1已经集成到多个平台和框架中,包括Diffusers、ComfyUI等。它支持多种视频生成任务,如文本到视频、图像到视频、首尾帧到视频等,并提供了相应的推理代码和权重。此外,Wan2.1还支持通过多种策略(如Ulysses策略和Ring策略)进行多GPU推理,以提高生成效率。

六、评估与比较

通过人工评估,使用Wan2.1生成的结果在提示扩展后优于闭源和开源模型。团队还对图像到视频模型进行了广泛的人工评估,并将结果以表格形式呈现,清晰地表明Wan2.1在性能上超越了二者。此外,团队还比较了Wan2.1与领先的开源和闭源模型的性能,并使用精心设计的1035个内部提示进行了测试,涵盖了14个主要维度和26个子维度,结果显示Wan2.1具有优越的性能。

七、许可与致谢

Wan2.1模型采用Apache 2.0许可证,用户可以自由使用生成的内容,但必须遵守许可证的规定。团队对SD3、Qwen、umt5xxl、diffusers和HuggingFace等仓库的贡献者表示感谢,感谢他们的开放研究。

八、未来展望

Wan2.1团队持续更新和改进模型,发布了多个版本和功能,如Wan2.1 VACE、FLF2V等,并欢迎社区的反馈和贡献。团队计划进一步更新集成提示扩展和多GPU版本的Diffusers。

九、核心技术汇总表格

在这里插入图片描述

相关文章:

  • 什么是TCP协议?它存在哪些安全挑战?
  • docker 命令操作大全
  • 【寻找Linux的奥秘】第五章:认识进程
  • window 显示驱动开发-命令和 DMA 缓冲区简介
  • 生成式AI在编程中的应用场景:从代码生成到安全检测
  • Java转Go日记(三十六):简单的分布式
  • LeetCode 热题 100 437. 路径总和 III
  • Day118 | 灵神 | 二叉树 | 删点成林
  • 详解 Zephyr RTOS:架构、功能与开发指南
  • Makefile 在 Go 项目中的实践
  • 养生:打造健康生活的四大支柱
  • 和为target问题汇总
  • 低分辨率运行安卓模拟器:
  • 商业架构 2.0 时代:ZKmall开源商城前瞻性设计如何让 B2B2C 平台领先同行 10 年?
  • mock 数据( json-server )
  • 【Spring Cloud Gateway】Nacos整合遇坑记:503 Service Unavailable
  • 【上位机——WPF】App.xml和Application类简介
  • 【微服务】SpringBoot + Docker 实现微服务容器多节点负载均衡详解
  • 【FileZilla】Client端的线程模型 (一)
  • python-修改图片背景色
  • 最高检公布一起离婚纠纷典型案例:推动离婚经济补偿制度落实
  • 媒体评欧阳娜娜遭民进党当局威胁:艺人表达国家认同是民族大义
  • 独家 |《苏州河》上海上演,编剧海飞:上海的风能吹透我
  • 远洋集团:今年前4个月销售80.9亿元,同比增加13.62%
  • 《求是》杂志发表习近平总书记重要文章《锲而不舍落实中央八项规定精神,以优良党风引领社风民风》
  • 光明日报:家长孩子共同“息屏”,也要保证高质量陪伴