第3节:深度学习常用数据集介绍
目录
1. MNIST
2. CIFAR-10 & CIFAR-100
3. ImageNet
4. COCO (Common Objects in Context)
5. PASCAL VOC
6. CelebA
7. SVHN (Street View House Numbers)
8. 其他重要数据集
数据集选择建议
公开数据集平台
1. MNIST
-
概述:手写数字数据集,包含0-9的灰度图像,是深度学习最经典的入门数据集。
-
数据规模:
-
训练集:60,000张图像
-
测试集:10,000张图像
-
-
图像格式:28×28像素,单通道(灰度),像素值0-255。
-
类别:10类(数字0-9)。
-
特点:
-
简单、易于训练,适合验证算法基础性能。
-
数据分布均匀,各类样本数量平衡。
-
-
局限性:过于简单,现代算法易达到99%+准确率,已不具挑战性。
-
衍生数据集:
-
Fashion-MNIST:替代MNIST的10类时尚物品数据集(T恤、鞋子等),难度略高。
-
EMNIST:扩展版,包含字母和数字。
-
2. CIFAR-10 & CIFAR-100
-
概述:由Alex Krizhevsky等收集的小型彩色图像数据集,广泛用于图像分类基准测试。
-
数据规模:
-
CIFAR-10:60,000张图像(50,000训练 + 10,000测试)。
-
CIFAR-100:同数量图像,但类别更细。
-
-
图像格式:32×32像素,RGB三通道。
-
类别:
-
CIFAR-10:10大类(飞机、汽车、鸟、猫等),每类6,000张。
-
CIFAR-100:100类(含更细粒度,如“鲸鱼”“蜜蜂”),每类600张。
-
-
特点:
-
低分辨率、背景复杂,比MNIST更具挑战性。
-
常用于测试轻量级模型(如ResNet、MobileNet)。
-
-
局限性:图像尺寸过小,难以迁移到真实场景。
3. ImageNet
-
概述:大规模视觉数据集,推动深度学习革命(如AlexNet在2012年突破)。
-
数据规模:
-
ImageNet-1K(常用版本):120万训练图像,5万验证图像,1,000类。
-
完整版(ImageNet-21K):2.1万类,1,400万图像。
-
-
图像格式:高分辨率(可变尺寸,通常缩放至224×224或256×256)。
-
类别:涵盖日常物体、动物、场景等(如“金毛犬”“咖啡杯”)。
-
特点:
-
数据多样性高,需复杂模型(如CNN、Transformer)才能取得好效果。
-
每年举办ImageNet挑战赛(ILSVRC),推动模型创新(如ResNet、EfficientNet)。
-
-
局限性:
-
需大量计算资源训练。
-
部分类别存在标注噪声或偏见。
-
4. COCO (Common Objects in Context)
-
概述:微软发布的复杂场景数据集,支持多任务(检测、分割、描述生成)。
-
数据规模:
-
训练集:118,000张图像
-
验证集:5,000张图像
-
测试集:41,000张图像
-
-
标注内容:
-
80类物体边界框和实例分割掩码。
-
每图平均7.5个实例,包含小目标和遮挡场景。
-
附加图像描述(Captioning任务)。
-
-
特点:
-
场景复杂,适合评估模型鲁棒性。
-
是目标检测(YOLO、Faster R-CNN)和分割(Mask R-CNN)的基准。
-
5. PASCAL VOC
-
概述:早期计算机视觉基准数据集,涵盖分类、检测、分割任务。
-
数据规模:
-
VOC2012(常用版本):11,530张图像,20类。
-
-
标注内容:
-
物体边界框(检测)、像素级分割掩码。
-
-
特点:
-
数据量较小,适合快速验证算法。
-
逐渐被COCO取代,但仍用于迁移学习测试。
-
6. CelebA
-
概述:人脸属性数据集,用于人脸识别、生成等任务。
-
数据规模:
-
202,599张名人面部图像,10,177个身份。
-
-
标注内容:
-
40种二元属性(如“微笑”“戴眼镜”)、5个关键点位置。
-
-
应用:
-
人脸属性编辑(GANs如StarGAN)、检测(MTCNN)。
-
7. SVHN (Street View House Numbers)
-
概述:谷歌街景门牌号数据集,真实场景中的数字识别。
-
数据规模:
-
训练集:73,257张图像
-
测试集:26,032张图像
-
-
图像格式:32×32彩色图像,含数字0-9(可能多数字同框)。
-
特点:
-
背景复杂(如模糊、光照变化),比MNIST更接近实际应用。
-
8. 其他重要数据集
-
KITTI:自动驾驶数据集,含激光雷达、摄像头数据,用于3D检测、里程计。
-
Waymo Open Dataset:更大规模的自动驾驶数据集。
-
UCF101 & Kinetics:视频动作识别数据集(分别含101/400类动作片段)。
-
LibriSpeech:语音识别数据集,含1,000小时英语音频。
数据集选择建议
-
入门学习:MNIST → Fashion-MNIST → CIFAR-10。
-
图像分类:CIFAR-10/100 → ImageNet。
-
目标检测/分割:PASCAL VOC → COCO。
-
人脸相关:CelebA → LFW(人脸识别)。
-
实际应用:优先选择与任务场景匹配的数据集(如医疗图像用CheXpert)。
公开数据集平台
-
Kaggle:提供多种竞赛数据集(如Dogs vs Cats)。
-
Google Dataset Search:数据集搜索引擎。
-
Hugging Face Datasets:支持自然语言和视觉数据集。
这些数据集为深度学习模型的研究、开发和性能评估提供了标准化基础,选择时需权衡规模、复杂度和任务相关性。