当前位置: 首页 > news >正文

AI视频生成进入多镜头叙事时代!字节发布 Waver 1.:一句话生成 10 秒 1080p 多风格视频,创作轻松“一键”达!

字节提出的 Waver 1.0 是用于统一图像和视频生成的下一代通用基础模型系列,它基于整流变压器构建,专为实现工业级性能而设计。

  • 一体化模型:在单一集成框架内同时支持文本到视频 (T2V)、图像到视频 (I2V) 和文本到图像 (T2I) 生成。

  • 1080p 分辨率和灵活长度:支持高达 1080p 的高分辨率图像和视频生成,具有灵活的分辨率、宽高比和视频长度(2-10 秒)。

  • SOTA 性能:在人工分析的T2V 排行榜和I2V 排行榜上均排名前三名,始终优于现有的开源模型,并达到或超过最先进的商业解决方案。

  • 卓越的运动建模:擅长捕捉复杂的运动,在视频合成中实现卓越的运动幅度和时间一致性。

相关链接

  • 论文:https://arxiv.org/pdf/2508.15761

  • 主页:http://www.waver.video/

  • 代码:https://github.com/FoundationVision/Waver

Waver1.0 简介

Waver1.0是一款一体化视频生成模型,擅长文本转视频 (T2V)、图像转视频 (I2V) 和文本转图像 (T2I) 生成。它提供灵活的分辨率和宽高比,支持任意长度的视频,并且易于扩展,可控制视频生成。

模型架构

使用Wan-VAE获取压缩视频潜在特征,以提高其效率。采用flan-t5-xxl和Qwen2.5-32B-Instruct提取文本特征。DiT 模型基于整流 Transformer 构建。视频和文本模态采用双流 + 单流方法融合,其中两种类型的块数分别为 M 和 N。我们通过修改输入通道,在单个模型中实现了 T2V 和 I2V 的联合训练,视频标记通道为 16,图像(第一帧)标记通道为 16,任务掩码通道为 4。在 T2V 和 I2V 的联合训练中,我们以 20% 的概率加入图像潜在特征。

用于 1080P 生成的级联精炼器

Waver-Refiner采用 DiT 架构,并使用流匹配方法进行训练。我们首先将低分辨率视频(480p 或 720p)上采样至 1080p,然后为其添加噪声。Refiner 将带噪声的低分辨率视频作为输入,并输出高质量的 1080p 视频。Refiner 采用窗口注意力机制,将推理步骤数量减少了一半,显著提升了推理速度。具体而言,与直接生成 1080p 相比,720p→1080p 的推理时间缩短了约 40%,480p→1080p 的推理时间缩短了约 60%。

训练策略

作者发现低分辨率视频训练对于学习运动至关重要。因此投入了大量计算资源在 192p 视频上进行训练,然后逐渐将分辨率提高到 480p 和 720p。遵循SD3中的光流匹配训练设置,在 480p 和 720p 视频上训练时逐渐增加 sigma shift 的值。对于 720p 训练,我们在训练中将 sigma shift 设置为 3.0,在推断中设置为 7.0。对于 T2I,我们使用 lognorm(0.5, 1) 概率密度函数进行时间步长的采样。对于 T2V 和 I2V,我们使用 mode(1.29)。根据经验,我们发现使用 mode 采样策略在视频生成任务中可以带来更佳的运动效果。

提示标记

采用提示标记方法来区分不同类型的训练数据。根据视频风格和视频质量为训练数据分配不同的标签。在训练期间会在字幕前添加一个描述视频风格的提示。对于质量会在训练字幕末尾附加一个描述视频质量的提示。在推理过程中会将描述不良质量(例如低清晰度或慢动作)的提示合并到负面提示中。对于特定的风格要求(例如动漫风格),会使用提示重写技术将相应的描述性提示添加到整体提示之前。

以下视频展示了同一提示“夜晚,一个男人和一个女人手牵手走在熙熙攘攘的城市街道上”的 6 种不同风格:真实的、吉卜力风格的 2D 动画、3D 动画、体素风格的 3D 动画、迪士尼动画电影风格、卡通图画书风格的 2D 动画。

推理优化

将APG扩展到视频生成,以增强真实感并减少伪影。APG 将 CFG 中的更新项分解为并行和正交分量,并降低并行分量的权重,从而实现高质量生成且不会过饱和。从 [C, H, W] 维度对潜在向量进行归一化比从 [C, T, H, W] 维度对潜在向量进行归一化可以减少伪影。对于超参数发现归一化阈值 27 和指导尺度 8 在真实感和伪影之间取得了良好的平衡。

http://www.dtcms.com/a/423254.html

相关文章:

  • 怎样创建网站吉洋大鼓免费广告发布平台
  • 【Python3教程】Python3高级篇之集成MongoDB
  • MongoDB源码分析慢日志:从配置到实现的完整解析
  • Bootloader核心原理与简单实现:从零写一个bootloader
  • MongoDB到关系型数据库:JSON字段如何高效转换?
  • 网站排名优化原理一个公司能备案多个网站吗
  • 苏大团队联合阿丘科技发表异常生成新方法:创新双分支训练法,同步攻克异常图像生成、分割及下游模型性能提升难题。
  • wordpress如何使用百度主动推送seo短视频网页入口引流下载
  • Docker 镜像加速安装MySQL操作步骤
  • 量子计算技术全景:从硬件路线到AI融合
  • 人工智能-机器学习day1
  • 济南网站制作企业建设部标准定额网站
  • 微服务组件-Eureka 技术详解
  • ARM架构下I/O内存映射全面技术分析
  • 大学网站建设管理办法岳阳市网站建设推广
  • Java 操作 XML 及动态生成报告:从解析到实战
  • 网络配置config.xml的android.mk解析
  • 网站导读怎么做wordpress二级目录创建
  • 分布式限流
  • ES-DE 前端模拟器最新版 多模拟器游戏启动器 含游戏ROM整合包 最新版
  • 【Linux网络】TCP协议
  • 分布式排行榜系统设计方案
  • 西双版纳住房和城乡建设局网站上海手机网站建设价格
  • oracle多租户环境CDB与PDB操作
  • 超市营销型网站建设策划书手机网站建站用哪个软件好
  • 使用宏实现高效的分页查询功能
  • 从语言到向量:自然语言处理中的核心转换技术与实践
  • 申请一个网站需要多少钱网站怎么添加统计代码
  • 基于机器学习的异常流量检测系统的设计与实现(原创)
  • 网站建设人员组成做网上商城网站