当前位置: 首页 > news >正文

【深度估计 Depth Estimation】数据集介绍

文章目录

  • 总览
    • 1. KITTI Depth Completion
      • 1.1. 来源
      • 1.2. 采集场景
      • 1.3. 数据集内容
      • 1.4. 标注内容
      • 1.5. 任务目标
      • 1.6. 样本量
      • 1.7. 下载链接
    • 2. KITTI Stereo Evaluation 2015
      • 2.1. 来源
      • 2.2. 采集场景
      • 2.3. 数据集内容
      • 2.4. 标注内容
      • 2.5. 任务目标
      • 2.6. 样本量
      • 2.7. 下载链接
    • 3. Virtual KITTI2
      • 3.1. 来源
      • 3.2. 采集场景
      • 3.3. 数据集内容
      • 3.4. 标注内容
      • 3.5. 任务目标
      • 3.6. 样本量
      • 3.7. 下载链接
    • 4. NYU Depth V2
      • 4.1. 来源
      • 4.2. 采集场景
      • 4.3. 数据集内容
      • 4.4. 标注内容
      • 4.5. 任务目标
      • 4.6. 样本量
      • 4.7. 下载链接
    • 5. Middlebury Stereo 2021
      • 5.1. 来源
      • 5.2. 采集场景
      • 5.3. 数据集内容
      • 5.4. 标注内容
      • 5.5. 任务目标
      • 5.6. 样本量
      • 5.7. 下载链接

总览

数据集发布年份任务数据模态样本/场景数量划分 (Train / Val / Test)说明
KITTI Depth Completion2017深度补全、单目深度预测RGB 图像 + 稀疏 LiDAR 深度93 000 训练;1 000 验证;1 000 测试93 000/1 000/1 000将稀疏 LiDAR 投影生成半密集深度图,用于训练深度补全模型
KITTI Stereo Evaluation 20152015立体匹配、光流、场景流校正双目图像200 训练场景;200 测试场景200/–/200提供像素级视差和光流指标,以坏像素比评价算法性能
Virtual KITTI 22020跟踪、语义/实例分割、深度、光流合成 RGB、深度、分割、光流、场景流21 260 对双目立体图像无固定划分基于真实 KITTI 场景的合成克隆,支持多种天气和摄像机变体
NYU-Depth V22012室内场景分割、深度估计RGB + 深度(Kinect)1 449 标注对;407 024 未标注帧;464 场景795/654/–使用 Kinect 捕获的室内视频序列,标注包含密集语义与实例标签
Middlebury 20212021立体匹配高分辨率立体图像11 场景 × 多视图 × 多光照/曝光(约20–22 对)无固定划分实验室环境拍摄,提供结构光获取的精确真值视差

1. KITTI Depth Completion

1.1. 来源

由 Karlsruhe Institute of Technology 与 Toyota Technological Institute 发布于 KITTI Vision Benchmark Suite∶Depth Completion 基准

1.2. 采集场景

使用配备双目摄像头与 Velodyne HDL-64E 激光雷达的 Annieway 自动驾驶平台,在德国卡尔斯鲁厄市区街景中采集

1.3. 数据集内容

  • 稀疏深度图:原始 LiDAR 点云投影到相机平面,约 5% 像素有深度值;
  • RGB 图像:对应同步采集的高分辨率彩色图像。

1.4. 标注内容

  • 半密集深度:官方提供的注释深度图(annotated depth maps),对应于 LiDAR 与多张相机视图融合后生成的“半密集” ground truth。

1.5. 任务目标

  • 深度补全(Depth Completion):从稀疏深度与(可选)RGB 引导图生成密集深度图;
  • 单图深度预测(Depth Prediction):仅利用单张 RGB 图像预测深度。

1.6. 样本量

  • 训练集:≈93 000 张;
  • 验证集:1 000 张;
  • 测试集:1 000 张。

1.7. 下载链接

  • 官方基准主页:https://www.cvlibs.net/datasets/kitti/eval_depth.php?benchmark=depth_completion

2. KITTI Stereo Evaluation 2015

2.1. 来源

同属 KITTI Vision Benchmark Suite 下的 Stereo / Flow / Scene Flow 2015 基准,由 Andreas Geiger 等人维护

2.2. 采集场景

与 Depth Completion 同平台采集,但专门选择含动态行人、车辆的街区路段,用于评测运动物体场景流

2.3. 数据集内容

  • 图像对:200 个训练场景与 200 个测试场景,每场景 4 幅 PNG 无损图(左/右两帧×两时刻);
  • 多帧扩展:可选 20 帧/场景的多视图扩展。

2.4. 标注内容

  • 视差图:D1/D2 两时刻视差;
  • 光流(Fl)场景流(SF)
  • 标定文件:内外参 calib.txt。

2.5. 任务目标

  • 双目视差估计
  • 光流
  • 场景流联合评测(要求视差与光流精度同时满足阈值)。

2.6. 样本量

  • 训练集:200 场景;
  • 测试集:200 场景。

2.7. 下载链接

  • 官方基准主页:https://www.cvlibs.net/datasets/kitti/eval_scene_flow.php?benchmark=stereo

3. Virtual KITTI2

3.1. 来源

由 Naver Labs Europe 提供的合成数据集 Virtual KITTI 2,基于 Unity 引擎重建 KITTI 跟踪序列

3.2. 采集场景

克隆 KITTI Tracking 基准的 5 条序列(Scene01、Scene02、Scene06、Scene18、Scene20),并引入不同天气(雾、雨)与相机旋转(±15°)变体

3.3. 数据集内容

  • RGB 图像深度图
  • 语义分割实例分割
  • 光流场景流
  • 相机参数车辆位姿

3.4. 标注内容

  • 自动生成:所有标注通过模拟环境直接导出,精度高且无人工误差。

3.5. 任务目标

支持多种计算机视觉任务,如深度估计目标检测多目标跟踪光流场景流

3.6. 样本量

  • 基础序列:21 260 帧(与 VKITTI1 相当);
  • 含变体:总帧数达 ∼100 000 级。

3.7. 下载链接

  • 官方主页:https://europe.naverlabs.com/research/computer-vision/proxy-virtual-worlds-vkitti-2/

4. NYU Depth V2

4.1. 来源

由 NYU(Nathan Silberman 等)基于 Microsoft Kinect 发布的室内 RGB-D 数据集

4.2. 采集场景

同步采集自 3 个城市的 464 个不同室内场景(公寓、办公室、走廊等),20–30 FPS 视频序列。

4.3. 数据集内容

  • 密集标注对:1 449 对对齐 RGB(640×480) 与深度图;
  • 原始视频帧:407 024 未标注帧;
  • 加速度计数据时间戳

4.4. 标注内容

  • 类别/实例标签:每个物体标注类别及实例编号(cup1、cup2…);
  • 填补深度图:用色彩化方法修复丢失深度值。

4.5. 任务目标

  • 室内深度估计
  • 语义与实例分割
  • 场景理解与支持关系推理

4.6. 样本量

  • 标注对:1449 张;
  • 未标注帧:407024 帧;
  • 场景数:464 个。

4.7. 下载链接

  • 官方主页:https://cs.nyu.edu/~fergus/datasets/nyu_depth_v2.html

5. Middlebury Stereo 2021

5.1. 来源

由 Middlebury College Computer Vision Lab 发布的高精度立体匹配基准(Scenes2021)

5.2. 采集场景

11 个场景(Artroom、Bandsaw、Chess、Curule、Octogons、Pendulum、Skates、Skiboots、Traproom、Ladder、Podium),每场景 1–3 个视角;多种环境光照与曝光(Flash、Lighting、Torch)

5.3. 数据集内容

  • 左右视图:多曝光下的 PNG 图像;
  • 20% 分辨率预览及完整版多兆像素图;
  • PFM 格式视差图 disp0.pfm/disp1.pfm。

5.4. 标注内容

  • 亚像素级视差:由结构化光系统获取的高精度 ground truth;
  • calib.txt:相机内外参标定。

5.5. 任务目标

立体匹配精度评测,重点考察复杂几何与光照条件下算法鲁棒性。

5.6. 样本量

  • 场景数:11;
  • 视角数:1–3;
  • 曝光/光照条件:多种。

5.7. 下载链接

  • 官方数据页:https://vision.middlebury.edu/stereo/data/scenes2021/

相关文章:

  • 静态方法和实例方法的区别
  • NVIDIA GPU 性能调优与诊断完全指南
  • PortgreSQL常用操作
  • shell脚本总结3
  • 网络安全管理之钓鱼演练应急预案
  • Python 训练营打卡 Day 31
  • Dirsearch 深度使用教程:从基础扫描到携带 Cookie 探索网站
  • Java—— IO流 第二期
  • PCB设计实践(二十三)什么是阻抗匹配,需要做啥
  • springboot链接nacos测试
  • 项目执行中缺乏风险管理,如何预防潜在问题?
  • 惠斯通电桥测量 数据采集模块 支持恒压/恒流的24位ADC电桥测量
  • PCB设计教程【入门篇】——电路分析基础-元件数据手册
  • 设计模式介绍
  • 解除diffusers库的prompt长度限制(SDXL版)
  • vue原生table表格实现动态添加列,一行添加完换行继续添加。el-select输入框背景颜色根据所选内容不同而改变
  • 深入解读RTP协议:RFC 3550的技术分析与应用
  • 在线地图瓦片URL
  • Spring Framework 的 spring-core 和 Spring Security 兼容版本
  • springboot3+vue3融合项目实战-大事件文章管理系统-自定义校验
  • 现在企业需要建设网站吗/网上如何推广自己的产品
  • 企业手机网站建设讯息/商品推广
  • 网站开发分类/seo外包公司报价