当前位置: 首页 > news >正文

【字节拥抱开源】字节团队开源视频模型 ContentV: 有限算力下的视频生成模型高效训练

本项目提出了ContentV框架,通过三项关键创新高效加速基于DiT的视频生成模型训练:

  • 极简架构设计,最大化复用预训练图像生成模型进行视频合成
  • 系统化的多阶段训练策略,利用流匹配技术提升效率
  • 经济高效的人类反馈强化学习框架,无需额外人工标注即可提升生成质量

我们开源的80亿参数模型(基于Stable Diffusion 3.5 Large和Wan-VAE)仅用4周时间在256×64GB NPU上训练,就取得了VBench评测85.14分的业界最佳成绩。

在这里插入图片描述

在这里插入图片描述

⚡ 快速开始

推荐PyTorch版本
  • GPU版本:torch >= 2.3.1 (CUDA >= 12.2)
  • NPU版本:torch和torch-npu >= 2.1.0 (CANN >= 8.0.RC2)。请参考昇腾PyTorch扩展安装torch-npu。
安装步骤
git clone https://github.com/bytedance/ContentV.git
cd ContentV
pip3 install -r requirements.txt

文生视频

## For GPU
python3 demo.py
## For NPU
USE_ASCEND_NPU=1 python3 demo.py

24GB消费级显卡可以使用,建议开启model offload。

📊 VBench

ModelTotal ScoreQuality ScoreSemantic ScoreHuman ActionSceneDynamic DegreeMultiple ObjectsAppear. Style
Wan2.1-14B86.2286.6784.4499.2061.2494.2686.5921.59
ContentV (Long)85.1486.6479.1296.8057.3883.0571.4123.02
Goku†84.8585.6081.8797.6057.0876.1179.4823.08
Open-Sora 2.084.3485.4080.1295.4052.7171.3977.7222.98
Sora†84.2885.5179.3598.2056.9579.9170.8524.76
ContentV (Short)84.1186.2375.6189.6044.0279.2674.5821.21
EasyAnimate 5.183.4285.0377.0195.6054.3157.1566.8523.06
Kling 1.6†83.4085.0076.9996.2055.5762.2263.9920.75
HunyuanVideo83.2485.0975.8294.4053.8870.8368.5519.80
CogVideoX-5B81.6182.7577.0499.4053.2070.9762.1124.91
Pika-1.0†80.6982.9271.7786.2049.8347.5043.0822.26
VideoCrafter-2.080.4482.2073.4295.0055.2942.5040.6625.13
AnimateDiff-V280.2782.9069.7592.6050.1940.8336.8822.42
OpenSora 1.279.2380.7173.3085.8042.4747.2258.4123.89

❤️ 感谢

  • Stable Diffusion 3.5 Large
  • Wan2.1
  • Diffusers
  • HuggingFace

相关文章:

  • PostgreSQL 对 IPv6 的支持情况
  • FastAPI核心解密:深入“路径操作”与HTTP方法,构建API的坚实骨架
  • 前端antd,后端fastapi,实现运行系统指令,并打印运行日志
  • Mac如何配置ZSH并使用Oh-my-zsh?让你的终端更加实用、美观
  • 初学 pytest 记录
  • 解决Excel词典(xllex.dll)文件丢失或损坏问题的终极指南:从基础到高级修复技巧
  • 在 JavaScript中编写 Appium 测试(入门)
  • Java求职者面试指南:Spring、Spring Boot、Spring MVC与MyBatis技术解析
  • Spring Boot 与 Kafka 的深度集成实践(一)
  • PHP:Web 开发的经典利器
  • 「混合开发」H5与原生App交互流程方案全面解析
  • Tomcat Jetty 和 UnderTow 的粗略对比
  • 动手学深度学习13.3. 目标检测和边界框-笔记练习(PyTorch)
  • nodejs安装
  • (Note)基于Pytorch手搓RNN参考
  • 轻量级关键点 blaze pose 2025
  • 旋量理论:刚体运动的几何描述与机器人应用
  • 统计学(第8版)——假设检验学习笔记(考试用)
  • 树突状细胞与肿瘤
  • MAZANOKE结合内网穿透技术实现跨地域图像优化服务的远程访问过程
  • 电商网站建设思维导图/seo网站优化方法
  • 那个网站的公众后推广做的好/重庆seo教程
  • 杭州认证网站建设/上海最专业的seo公司
  • 商城网页设计html和css代码/windows优化大师怎么彻底删除
  • 政府网站cms/百度seo关键词工具
  • 怎么做淘宝网站赚钱吗/企业站seo价格