当前位置：首页 > news >正文

Back to the Features:附录B

news 2025/11/14 7:43:44

B Datasets

Pre-training datasets

为了便于复现我们的结果，我们报告了用于预训练视频世界模型的无标签视频数据集的关键统计信息。具体而言，表6比较了我们数据集与Cityscapes [58]和Something-Something V2 (SSv2) [59]的数据集大小、每秒帧数（FPS）和分辨率。此外，图4中的直方图总结了我们数据集中高度与宽度（宽高比）以及帧数与时长的分布情况。我们数据集中的视频内容多样，涵盖了从烹饪教程到户外场景等广泛的活动。

表6：预训练数据集统计信息。我们报告了用于预训练视频世界模型的数据集的视频数量、时长、每秒帧数（FPS）和分辨率。

领域	视频数量	时长（秒）	FPS	分辨率（(H \times W)）
Cityscapes	驾驶	2,975	约2	16
SSv2	物体操作	168,913	2 - 6	12
我们的	通用	6600万	5 - 60	10 - 60

![图4相关内容（由于无法直接呈现图片，以文字描述代替结构）]：图4展示了预训练数据集统计信息。对于我们的6600万视频数据集，我们报告了高度与宽度的联合直方图，并突出了宽高比16:9、1:1和9:16，以及帧数与时长的分布，并突出了10、30、60 FPS。

图表和素材

图2（顶部）和图5（底部）中的出租车视频来自作者的私人收藏。图2（底部）描绘了来自IntPhys [21]的合成视频，该视频也用于图5（底部）。在表4的顶部，三张图片代表了规划环境PushT [68]、Wall [18]和PointMaze [69]的示例。本文可视化所用的所有其他视频均来自授权视频数据集。在所有情况下，用于可视化的视频均不属于预训练数据集的一部分。

预训练数据集总体说明

该部分主要围绕用于预训练视频世界模型的无标签视频数据集展开，旨在提供数据集的关键信息，以便他人复现实验结果。

表6详细解读

对比数据集：将自有的数据集与Cityscapes和Something-Something V2这两个常用数据集进行对比。
统计指标：
- 视频数量：Cityscapes有2975个驾驶相关视频，SSv2有168,913个物体操作相关视频，而自有数据集包含6600万个通用视频，规模远大于前两者。
- 时长：Cityscapes视频时长约2秒，SSv2视频时长在2 - 6秒之间，自有数据集视频时长范围为5 - 60秒，时长跨度更大。
- FPS：三个数据集的FPS有所不同，自有数据集FPS在10 - 60之间，能提供更丰富的帧率选择。
- 分辨率：各数据集分辨率各异，自有数据集标注为“Misc.”（杂项），说明其分辨率具有多样性。