当前位置: 首页 > news >正文

(论文速读)OpenHumanVid:用于增强以人为中心的视频生成的大规模高质量数据集

论文题目:OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation(OpenHumanVid:用于增强以人为中心的视频生成的大规模高质量数据集)

会议:CVPR2025

摘要:视觉生成技术的最新进展显著增加了视频数据集的规模和可用性,这对于训练有效的视频生成模型至关重要。然而,严重缺乏高质量的、以人为中心的视频数据集对这一领域的进展提出了挑战。为了弥补这一差距,我们介绍了OpenHumanVid,这是一个大规模和高质量的以人类为中心的视频数据集,其特征是精确和详细的字幕,包括人类的外观和运动状态,以及补充的人类运动条件,包括骨骼序列和语音音频。为了验证该数据集和相关训练策略的有效性,我们提出了现有经典扩散转换器架构的扩展,并在提出的数据集上对我们的模型进行了进一步的预训练。我们的研究结果产生了两个关键的见解:首先,大规模、高质量数据集的结合大大增强了对生成的人类视频的评估指标,同时保持了一般视频生成任务的性能。其次,文本与人体外观、人体运动和面部运动的有效对齐对于产生高质量的视频输出至关重要。基于这些见解和相应的方法,在提出的数据集上训练的简单扩展网络在生成以人为中心的视频方面表现出明显的改进。

源代码和数据集可从https://fudan-generativevision.github.io/OpenHumanVid获得。


OpenHumanVid:重塑人类中心视频生成的里程碑

随着AI视频生成技术的飞速发展,Sora、MovieGen等模型让我们看到了视频生成的无限可能。但当涉及到生成包含人物的视频时,现有技术仍面临诸多挑战——人物外观不一致、动作不自然、表情僵硬等问题层出不穷。来自复旦大学、百度等机构的研究团队在CVPR 2025上发表的论文《OpenHumanVid》,为解决这些问题提供了一个系统性的方案。

为什么需要OpenHumanVid?

想象一下,你想用AI生成一段视频:一位女士穿着蓝色连衣裙,在公园里微笑着挥手。现有的视频生成模型可能会给你这样的结果:

  • 人物的脸在不同帧之间看起来像不同的人
  • 挥手动作僵硬不自然
  • 微笑的表情时有时无
  • 有时甚至会出现六根手指的"恐怖谷"效果

这些问题的根源在于:缺乏高质量、大规模的人类中心训练数据

虽然WebVid-10M、Panda-70M等大规模视频数据集已经存在,但它们主要关注通用场景,人物相关的数据占比较小,且缺乏细粒度的人物描述和动作控制信号。现有的人类视频数据集如UCF-101、NTU RGB+D等,又主要针对特定任务(如动作识别、舞蹈生成),无法满足通用视频生成模型的需求。

OpenHumanVid的三大亮点

1. 海量高质量数据

OpenHumanVid包含:

  • 52.3百万原始人类视频片段
  • 70.6K小时总时长
  • 经过严格过滤后的13.2百万高质量视频
  • 720P-1080P的高分辨率

数据来源于134,000部电影、电视剧和纪录片,涵盖动作、冒险、喜剧、犯罪、纪录片、剧情等15个类别,时间跨度从1920年代至今,包含58种语言。

2. 丰富的多模态标注

每个视频片段都配备了:

📝 三种文本提示格式:

  • 短提示(20-30词):简洁描述
  • 长提示:详细叙述
  • 结构化提示:分别描述人物外观、动作、面部表情和环境

🦴 人体骨骼序列: 使用DWPose提取的高精度骨骼数据,可用于姿态控制

🎤 语音音频: 配套的语音轨道,并通过SyncNet确保唇形同步

3. 精细的文本-视频对齐

论文创新性地提出了三个维度的对齐评估:

  • 外观对齐:确保生成的人物外观与文本描述一致
  • 动作对齐:保证身体动作符合文本指示
  • 表情对齐:让面部表情与情感描述匹配

数据是如何炼成的?

OpenHumanVid的数据处理流程堪称业界标杆,包含四个精心设计的阶段:

第一阶段:视频预处理

  • 统一编码标准(H.264)
  • 智能裁剪字幕和黑边
  • 场景自动分割
  • 时长标准化(2-20秒)

第二阶段:视频质量过滤

评估多个维度:

  • 亮度是否适中
  • 画面是否清晰
  • 美学质量如何
  • 运动是否流畅
  • 整体技术质量

第三阶段:多模态标注生成

  • 使用MiniCPM和CogVLM生成视频描述
  • 通过BLIP2投票选择最佳描述
  • 用LLaMA 3.1重组为不同格式
  • 提取骨骼和音频数据

第四阶段:人物质量过滤

这是OpenHumanVid的独特之处——专门针对人物的高级过滤:

  • 评估人物外观描述与视频的匹配度
  • 检查动作描述与实际动作的一致性
  • 验证表情描述与面部表情的对应关系

实验结果令人惊艳

研究团队基于CogVideoX架构,使用LoRA技术进行模型扩展,在OpenHumanVid上进行训练后,取得了显著提升:

关键发现1:帧率很重要

将训练数据的帧率从8 FPS提升到24 FPS,显著改善了:

  • 面部一致性提升2.5%
  • 身体一致性提升1%
  • 动作和表情更加自然流畅

关键发现2:对齐是关键

三种文本-视频对齐策略各有奇效:

  • 外观对齐让面部一致性暴涨到86.74%
  • 动作对齐让身体语义得分提高到48.66%
  • 表情对齐显著改善面部表情的准确性

关键发现3:规模产生质变

使用完整的6.55K小时数据集训练后,所有指标全面超越基线:

  • 面部一致性:71.08% → 74.18%
  • 身体语义:41.66% → 43.33%
  • 图像质量:65.30% → 66.62%
  • 运动平滑度:99.05% → 99.48%

视觉对比更是一目了然:基线模型生成的人物经常出现面部模糊、手部变形等问题,而使用OpenHumanVid训练的模型生成的视频,人物外观一致、动作自然、表情生动。

对行业的意义

OpenHumanVid的发布具有深远影响:

🎬 对内容创作者: 更好的AI工具意味着更高效的视频制作流程,特别是在需要大量人物镜头的场景中。

🔬 对研究社区: 提供了一个高质量的benchmark,推动人类中心视频生成技术的发展。论文承诺将数据集和代码开源,这将极大促进相关研究。

🤖 对AI开发者: 证明了数据质量和数据对齐策略对模型性能的关键作用,为后续模型开发提供了重要参考。

🎯 潜在应用场景:

  • 电影和电视制作
  • 虚拟主播和数字人
  • 游戏角色动画
  • 虚拟试衣和时尚展示
  • 教育培训视频
  • 元宇宙内容生成

未来展望

尽管OpenHumanVid已经取得了令人瞩目的成果,但人类中心视频生成仍有广阔的探索空间:

  1. 长视频生成:如何在保持人物一致性的同时生成更长的视频?
  2. 多人互动:如何处理多个人物之间的互动和遮挡?
  3. 实时生成:如何在保证质量的同时提升生成速度?
  4. 个性化定制:如何让用户能够轻松定制特定人物的外观和风格?

结语

OpenHumanVid不仅仅是一个数据集,更是对视频生成领域的系统性贡献。通过提供大规模、高质量、多模态的人类中心数据,以及精心设计的数据处理和训练策略,它为解决当前人物视频生成中的核心挑战铺平了道路。

随着数据集和代码的开源,我们有理由期待,在不久的将来,AI生成的人物视频将变得更加真实、自然,真正实现"以假乱真"的效果。这不仅是技术的进步,更是人工智能向着理解和模拟人类行为迈出的重要一步。

http://www.dtcms.com/a/542320.html

相关文章:

  • 扁平化网站设计教程外贸建站的公司
  • 谷歌镜像网站怎么做个人养老金制度相关细则
  • 数据结构——三十一、最小生成树(王道408)
  • MySQL | Windows中mysql的卸载
  • 学前端什么网站好松滋市住房和城乡建设局网站
  • 国际网站排名查询seo运营推广
  • springboot接入企业微信群机器人消息推送
  • 杭州做绒毛鉴定网站wordpress怎么添加导航分类
  • 建设企业网站怎么样公司注册资金500万实缴多少
  • 成都做网站建设公司hdsyscms企业建站系统
  • esp32学习随笔文档1
  • 化妆品网站设计开题报告整站优化快速排名
  • 高端网站建设好的公司设计网站app
  • LLM和智能体的区别
  • End-To-End之于推荐-快手OneRec系列三(OneRec-Think)
  • 做游戏模板下载网站有哪些网站建设策划稿
  • 《投资-143》如何实现“过去思维”向“未来思维”的转变?
  • 做网站的开发软件企业网站 备案 网站名称
  • 企业网站seo实四川建筑培训考试网
  • 石家庄哪里做微网站宁夏自治区住房与城乡建设厅网站
  • 把文件删除了怎么恢复,8个文件恢复方案找回误删除的文件
  • 做会计题目的网站酒店网站建设哪家好
  • 响应式mvc企业网站源码苏州高端网站设计机构
  • java面试-0312-ThreadLocal理解?场景?原理?
  • Go与Python在AI大模型开发中的深度对比分析
  • 大丰哪家专业做网站重庆云阳网站建设
  • BETAFLIGHT固件如何更改陀螺仪引脚适配自己画的板子,带有教程实例
  • QtQuick3D入门(6):3D粒子系统
  • MySQL窗口函数精髓:ROW_NUMBER()详解与实战指南
  • css优先级、继承、经典问题