Back to the Features:附录B
B Datasets
Pre-training datasets
为了便于复现我们的结果,我们报告了用于预训练视频世界模型的无标签视频数据集的关键统计信息。具体而言,表6比较了我们数据集与Cityscapes [58]和Something-Something V2 (SSv2) [59]的数据集大小、每秒帧数(FPS)和分辨率。此外,图4中的直方图总结了我们数据集中高度与宽度(宽高比)以及帧数与时长的分布情况。我们数据集中的视频内容多样,涵盖了从烹饪教程到户外场景等广泛的活动。
表6:预训练数据集统计信息。我们报告了用于预训练视频世界模型的数据集的视频数量、时长、每秒帧数(FPS)和分辨率。
领域 | 视频数量 | 时长(秒) | FPS | 分辨率((H \times W)) |
---|---|---|---|---|
Cityscapes | 驾驶 | 2,975 | 约2 | 16 |
SSv2 | 物体操作 | 168,913 | 2 - 6 | 12 |
我们的 | 通用 | 6600万 | 5 - 60 | 10 - 60 |
![图4相关内容(由于无法直接呈现图片,以文字描述代替结构)]:图4展示了预训练数据集统计信息。对于我们的6600万视频数据集,我们报告了高度与宽度的联合直方图,并突出了宽高比16:9、1:1和9:16,以及帧数与时长的分布,并突出了10、30、60 FPS。
图表和素材
图2(顶部)和图5(底部)中的出租车视频来自作者的私人收藏。图2(底部)描绘了来自IntPhys [21]的合成视频,该视频也用于图5(底部)。在表4的顶部,三张图片代表了规划环境PushT [68]、Wall [18]和PointMaze [69]的示例。本文可视化所用的所有其他视频均来自授权视频数据集。在所有情况下,用于可视化的视频均不属于预训练数据集的一部分。
预训练数据集总体说明
该部分主要围绕用于预训练视频世界模型的无标签视频数据集展开,旨在提供数据集的关键信息,以便他人复现实验结果。
表6详细解读
- 对比数据集:将自有的数据集与Cityscapes和Something-Something V2这两个常用数据集进行对比。
- 统计指标:
- 视频数量:Cityscapes有2975个驾驶相关视频,SSv2有168,913个物体操作相关视频,而自有数据集包含6600万个通用视频,规模远大于前两者。
- 时长:Cityscapes视频时长约2秒,SSv2视频时长在2 - 6秒之间,自有数据集视频时长范围为5 - 60秒,时长跨度更大。
- FPS:三个数据集的FPS有所不同,自有数据集FPS在10 - 60之间,能提供更丰富的帧率选择。
- 分辨率:各数据集分辨率各异,自有数据集标注为“Misc.”(杂项),说明其分辨率具有多样性。
图4说明
图4通过直方图的形式展示了自有6600万视频数据集的一些分布特征:
- 高度与宽度联合直方图:突出了宽高比16:9、1:1和9:16,这些宽高比是视频常见的显示比例,反映了数据集中视频在画面比例上的分布情况。
- 帧数与时长分布:突出了10、30、60 FPS,展示了不同帧率下视频帧数与时长的关系,有助于了解数据集中视频的动态特性。
图表和素材说明
- 特定视频来源:图2(顶部)和图5(底部)中的出租车视频是作者的私人收藏,图2(底部)的合成视频来自IntPhys,且该视频也用于图5(底部)。
- 规划环境示例:表4顶部的三张图片展示了PushT、Wall和PointMaze这三个规划环境的示例。
- 授权与预训练数据集区分:强调可视化所用的其他视频均来自授权视频数据集,且这些用于可视化的视频不属于预训练数据集的一部分,避免了数据混淆。