当前位置：首页 > news >正文

【字节拥抱开源】字节团队开源视频模型 ContentV: 有限算力下的视频生成模型高效训练

news 2025/9/29 12:17:08

本项目提出了ContentV框架，通过三项关键创新高效加速基于DiT的视频生成模型训练：

极简架构设计，最大化复用预训练图像生成模型进行视频合成
系统化的多阶段训练策略，利用流匹配技术提升效率
经济高效的人类反馈强化学习框架，无需额外人工标注即可提升生成质量

我们开源的80亿参数模型（基于Stable Diffusion 3.5 Large和Wan-VAE）仅用4周时间在256×64GB NPU上训练，就取得了VBench评测85.14分的业界最佳成绩。

在这里插入图片描述

在这里插入图片描述

⚡ 快速开始

推荐PyTorch版本

GPU版本：torch >= 2.3.1 (CUDA >= 12.2)
NPU版本：torch和torch-npu >= 2.1.0 (CANN >= 8.0.RC2)。请参考昇腾PyTorch扩展安装torch-npu。

安装步骤

git clone https://github.com/bytedance/ContentV.git
cd ContentV
pip3 install -r requirements.txt

文生视频

## For GPU
python3 demo.py
## For NPU
USE_ASCEND_NPU=1 python3 demo.py

24GB消费级显卡可以使用，建议开启model offload。

📊 VBench

Model	Total Score	Quality Score	Semantic Score	Human Action	Scene	Dynamic Degree	Multiple Objects	Appear. Style
Wan2.1-14B	86.22	86.67	84.44	99.20	61.24	94.26	86.59	21.59
ContentV (Long)	85.14	86.64	79.12	96.80	57.38	83.05	71.41	23.02
Goku†	84.85	85.60	81.87	97.60	57.08	76.11	79.48	23.08
Open-Sora 2.0	84.34	85.40	80.12	95.40	52.71	71.39	77.72	22.98
Sora†	84.28	85.51	79.35	98.20	56.95	79.91	70.85	24.76
ContentV (Short)	84.11	86.23	75.61	89.60	44.02	79.26	74.58	21.21
EasyAnimate 5.1	83.42	85.03	77.01	95.60	54.31	57.15	66.85	23.06
Kling 1.6†	83.40	85.00	76.99	96.20	55.57	62.22	63.99	20.75
HunyuanVideo	83.24	85.09	75.82	94.40	53.88	70.83	68.55	19.80
CogVideoX-5B	81.61	82.75	77.04	99.40	53.20	70.97	62.11	24.91
Pika-1.0†	80.69	82.92	71.77	86.20	49.83	47.50	43.08	22.26
VideoCrafter-2.0	80.44	82.20	73.42	95.00	55.29	42.50	40.66	25.13
AnimateDiff-V2	80.27	82.90	69.75	92.60	50.19	40.83	36.88	22.42
OpenSora 1.2	79.23	80.71	73.30	85.80	42.47	47.22	58.41	23.89

❤️ 感谢

Stable Diffusion 3.5 Large
Wan2.1
Diffusers
HuggingFace

http://www.dtcms.com/a/239973.html

相关文章：

PostgreSQL 对 IPv6 的支持情况

FastAPI核心解密：深入“路径操作”与HTTP方法，构建API的坚实骨架

前端antd，后端fastapi，实现运行系统指令，并打印运行日志

Mac如何配置ZSH并使用Oh-my-zsh？让你的终端更加实用、美观

初学 pytest 记录

解决Excel词典(xllex.dll)文件丢失或损坏问题的终极指南：从基础到高级修复技巧

在 JavaScript中编写 Appium 测试（入门）

Java求职者面试指南：Spring、Spring Boot、Spring MVC与MyBatis技术解析

Spring Boot 与 Kafka 的深度集成实践（一）

PHP：Web 开发的经典利器

「混合开发」H5与原生App交互流程方案全面解析

Tomcat Jetty 和 UnderTow 的粗略对比

动手学深度学习13.3. 目标检测和边界框-笔记练习（PyTorch）

nodejs安装

（Note）基于Pytorch手搓RNN参考

轻量级关键点 blaze pose 2025

旋量理论：刚体运动的几何描述与机器人应用

统计学（第8版）——假设检验学习笔记（考试用）

树突状细胞与肿瘤

MAZANOKE结合内网穿透技术实现跨地域图像优化服务的远程访问过程

华为云上的K8S怎么使用对象存储配置pod文件持久化。

claude3.7高阶玩法，生成系统架构图，国内直接使用

centos 7 部署awstats 网站访问检测

AWS中国云的定时任务（AWS EventBridge+AWS Lambda）

HBase学习：通俗易懂的实例解析

AWS EKS 集群日志上报观测云实践

HTML(一)

如何控制electron的应用在指定的分屏上打开[特殊字符]

MFE(微前端) Module Federation：Webpack.config.js文件中每个属性的含义解释

HTML 标签