当前位置: 首页 > news >正文

深度学习数据集

1 huggingface datasets

需要先安装 datasets库

pip install datasets

用coco数据集举例,我们可以搜索coco,然后通过页面右侧的use this dataset或者是 clone respository来获取数据集

https://huggingface.co/datasets/phiyodr/coco2017


huggingface的dataset数据类型

from datasets import load_dataset

ds = load_dataset("phiyodr/coco2017")
print(ds)

Generating train split: 100%|██████████| 118287/118287 [00:00<00:00, 1413307.31 examples/s]
Generating validation split: 100%|██████████| 5000/5000 [00:00<00:00, 1229064.06 examples/s]
DatasetDict({
    train: Dataset({
        features: ['license', 'file_name', 'coco_url', 'height', 'width', 'date_captured', 'flickr_url', 'image_id', 'ids', 'captions'],
        num_rows: 118287
    })
    validation: Dataset({
        features: ['license', 'file_name', 'coco_url', 'height', 'width', 'date_captured', 'flickr_url', 'image_id', 'ids', 'captions'],
        num_rows: 5000
    })
})

可以通过上述地址看到,coco数据集用.arrow格式储存了

pandas dataFrame格式

import pandas as pd

splits = {'train': 'data/train-00000-of-00001-0084e041f1902997.parquet', 'validation': 'data/validation-00000-of-00001-e3c37e369512a3aa.parquet'}
df = pd.read_parquet("hf://datasets/phiyodr/coco2017/" + splits["train"])
print(df)

git下载

右侧点击 clone repository

2 kaggle datasets

Find Open Datasets and Machine Learning Projects | KaggleDownload Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion.https://www.kaggle.com/datasets

3 通过迅雷下载

需要自行获取数据集下载地址

coco

COCO2017 训练数据:http://images.cocodataset.org/zips/train2017.zip
http://images.cocodataset.org/annotations/annotations_trainval2017.zip
COCO2017验证数据:http://images.cocodataset.org/zips/val2017.zip
http://images.cocodataset.org/annotations/stuff_annotations_trainval2017.zip
COCO2017测试数据集:http://images.cocodataset.org/zips/test2017.zip
http://images.cocodataset.org/annotations/image_info_test2017.zip

4 经典数据集介绍

WIT

huggingface

https://huggingface.co/datasets/google/withttps://huggingface.co/datasets/google/witgithub

GitHub - google-research-datasets/wit: WIT (Wikipedia-based Image Text) Dataset is a large multimodal multilingual dataset comprising 37M+ image-text sets with 11M+ unique images across 100+ languages.WIT (Wikipedia-based Image Text) Dataset is a large multimodal multilingual dataset comprising 37M+ image-text sets with 11M+ unique images across 100+ languages. - google-research-datasets/withttps://github.com/google-research-datasets/wit数据集论文地址

https://arxiv.org/pdf/2103.01913https://arxiv.org/pdf/2103.01913

相关文章:

  • 【YOLOv10改进[注意力]】引入ACmix机制(享有自注意力和卷积的优势) | CVPR 2021
  • 数据包在客户端和服务端,以及网络设备间如何传输的?
  • Golang | 每日一练 (3)
  • 虚拟地址与物理地址
  • 如何在简历中巧妙展现你的兴趣爱好
  • JavaScript数组常用的方法有哪些?map、filter、reduce 的区别和使用场景是什么?
  • 【Quest开发】全身跟踪(一)
  • 内置函数用法
  • 求两个正整数最大公约数的三种算法
  • Linux下 <用户名> is not in the sudoers file
  • 《晶体管电路设计》 第三章 增强输出的电路
  • 【Python项目】基于Python的Web漏洞挖掘系统
  • 超级详细,知识图谱系统的理论详解+部署过程
  • 全局错误处理如何与Vue Router集成?
  • JavaScript中的symbol类型的意义和使用
  • ssm-day06 ssm整合
  • SpringBoot 项目配置动态数据源
  • 【C++篇】树影摇曳,旋转无声:探寻AVL树的平衡之道
  • Apache Logic4j 库反序列化漏洞复现与深度剖析
  • 【蓝桥杯集训·每日一题2025】 AcWing 6135. 奶牛体检 python
  • 学校网站页面设计/免费关键词搜索引擎工具
  • WordPress会员中心模板/临沂网站seo
  • 牡丹区建设局网站/免费发布信息网平台
  • 培训机构网站建设/北京网络网站推广
  • 网站建设 模仿阿里云官网/b站推广入口2023mmm无病毒
  • 网站seo优化很好徐州百度网络点赞/推广码怎么填