当前位置: 首页 > news >正文

经典机器学习深度学习领域数据集介绍

1、iris(鸢尾花)

是一类多重变量分析的数据集,包含 3 个类,每个类 50 个元素,每个元素有 5 个属性,用来代表不同的鸢尾花。它是 UCI 机器学习数据库中的经典数据集,可通过 Scikit-learn 库直接加载,使用from sklearn.datasets import load_iris,然后通过load_iris()函数即可载入数据。

2、葡萄酒质量数据集(winequality-red、winequality-white)

葡萄酒质量数据集是机器学习和数据分析领域中广泛使用的经典数据集。它由Paulo Cortez等人于2009年发布,数据来源于葡萄牙的Vinho Verde葡萄酒产区,包含1599个红葡萄酒样本与4898个白葡萄酒样本。每个样本有11个物理化学特征,如固定酸度、挥发性酸度、酒精含量等,还有一个由专家品鉴得出的质量评分,范围为0到10。该数据集可用于回归任务和分类任务,常用于评估回归和分类算法的性能,也适用于特征选择、降维技术以及不平衡数据处理等研究。

3、乳腺癌数据集

乳腺癌数据集通常指UCI乳腺癌数据集(Breast Cancer Wisconsin Dataset),它是一个经典的二分类数据集。该数据集包含569个样本,每个样本有30个数值型特征,这些特征是从乳腺癌细针抽吸图像中提取的,描述了细胞核的几何和纹理属性等。数据集中良性样本有357个,恶性样本有212个,目标分类为0(恶性)和1(良性),主要用于区分乳腺癌样本的良恶性,在医学研究和机器学习领域有着广泛的应用。

3、MNIST(手写板)

由手写数字的图像组成,训练集包含 60,000 张图像,测试集包含 10,000 张图像,是图像识别领域的经典数据集。

MNIST数据集(Modified National Institute of Standards and Technology database)是机器学习与计算机视觉领域的经典手写数字识别数据集,由美国国家标准与技术研究院整理发布。它包含70000个28×28像素的灰度图像样本,其中60000个为训练集、10000个为测试集,图像内容是0-9共10个阿拉伯数字的手写体,每个样本对应一个明确的数字类别标签。该数据集结构简单、标注清晰,无需复杂预处理,常作为入门级任务的基准数据集,广泛用于验证图像分类算法(如神经网络、支持向量机等)的性能,也是深度学习领域初学者学习图像识别的基础数据。

4、共享单车数据集bike+sharing+dataset

BlueBIkes 是一种自行车共享系统,于 2011 年 7 月在波士顿地铁诞生。多年来,它呈指数级增长。 系统很简单。用户可以在任何车站码头拿起自行车,骑一定的时间,然后返回到任何车站重新对接。

共享单车数据集是用于研究共享单车相关问题的重要数据资源,常见的有 UCI 机器学习仓库中的 Bike Sharing Dataset、Kaggle 平台上的共享单车数据集等。以 UCI 的数据集为例,其包含了小时级别和天级别的共享单车租赁记录,字段涵盖日期、时间、季节、天气状况、温度、湿度、风速等,还区分了注册用户和非注册用户的骑行记录。此外,还有如 CityBikes 全球共享单车网络数据集,涵盖 796 条全球共享单车系统记录,16 个核心指标,包括系统标识、地理信息、运营信息、数字化接口等,可用于城市交通分析、运营布局规划与地理可视化等

5、penguins(企鹅数据集)

Penguins 数据集是由 Palmer 企鹅研究项目提供的经典机器学习数据集,包含 Adélie、Chinstrap 和 Gentoo 三种企鹅的体重、鳍长、喙长等生理测量数据及物种、栖息地等标签,常用于分类、回归和数据可视化等任务的练习。

6、wine(葡萄酒数据集)

葡萄酒数据集Wine是UCI机器学习仓库中的经典数据集。它包含178个样本,每个样本有13个特征,这些特征是意大利同一地区三种不同品种葡萄酒的化学属性,如酒精含量、苹果酸含量、镁含量等。数据集的目标是根据这些化学特征区分葡萄酒的品种,其中类别标签用0、1、2或class_0、class_1、class_2表示,分别代表三个不同的品种。该数据集常用于机器学习的分类任务,可帮助研究人员评估和比较不同分类算法的性能。

7、VGG - Face2 数据集

是一个人脸图像数据集,包含共计 9131 个人的 331 万张面部图像,图像均来自 Google 的图片搜索 下载地址: https://hyper.ai/cn/datasets/5711

VGGFace2是牛津大学于2018年推出的大规模人脸识别数据集。它包含9131个个体的331万张图像,平均每个个体有362.6张图像,图像均从谷歌图像搜索下载,在姿势、年龄、光照、种族和职业等方面具有高度多样性。数据集分为训练集和测试集,训练集有8631个类,测试集有500个类。除了身份信息外,还包括人脸周围经过人类验证的边界框、五个基准关键点,以及估算的姿态和表观年龄信息。该数据集常用于人脸识别技术的研究和模型训练,能有效提升模型在不同姿势和年龄下的识别性能。

8、波士顿住房数据集(BostonHousing)

该数据集包含美国人口普查局收集的美国马萨诸塞州波士顿住房价格的有关信息, 数据集很小,只有506个案例。

BostonHousing数据集(波士顿房价数据集)是机器学习领域经典的回归任务基准数据集,最初源于1978年美国人口普查局对波士顿地区 housing 市场的调研数据,后被收录于UCI机器学习仓库。该数据集包含506个样本,每个样本对应波士顿不同郊区的住房相关信息,涵盖13个特征变量与1个目标变量(房屋中位数价值,单位为千美元)。13个特征包括犯罪率、住宅用地比例、非零售商业用地比例、是否临近查尔斯河、一氧化氮浓度、平均房间数、旧房比例、到就业中心的加权距离、高速公路可达性、财产税率、 pupil-teacher 师生比、黑人比例、低地位人口比例等,全面反映了区域社会、经济、环境等因素对房价的影响。该数据集结构清晰、特征与目标关联性强,无需复杂预处理,广泛用于回归算法(如线性回归、决策树、随机森林等)的性能验证,也是初学者学习特征分析、回归建模的入门级数据。

9、MovieLens 数据集(电影推荐)

用于人工智能通识课的movielens-latest-small数据集。MovieLens-latest-small数据集包含用户电影评分、标签与影片信息,体量小巧,适合教学演示推荐系统原理,在人工智能通识课中便于学生快速理解与实验。

10、aclImdb数据集(电影评论)

AclImdb – v1 Dataset 是用于二进制情绪分类的大型电影评论数据集,其中有 25,000 条电影评论用于训练,25,000 条用于测试,还有其他未经标记的数据可供使用,该数据集包含原始文本和已处理的单词格式包。

11、糖尿病数据集(diabetes)

该数据集最初来自美国国立糖尿病与消化与肾脏疾病研究所。数据集的目的是基于数据集中包含的某些诊断测量值来诊断预测患者是否患有糖尿病。从较大的数据库中选择这些实例受到一些限制。特别是,这里的所有患者均为皮马印第安人血统至少21岁的女性,该数据集由几个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数,其BMI,胰岛素水平,年龄等。

12、cal_housing(加利福尼亚房价)

California Housing数据集。该数据集包含20000多条记录,涵盖了八个数值特征和一个目标房价中值。 特征名称及含义 ‌longitude‌(经度):房屋所在地的经度坐标 ‌latitude‌(纬度):房屋所在地的纬度坐标 ‌bedrooms‌(卧室数量):房屋的卧室数量 ‌rooms‌(房间数量):房屋的房间总数 ‌households‌(家庭数量):居住人口数量 ‌population‌(人口):房屋所在区域的人口总数 ‌median_age‌(房屋平均年龄):房屋的平均建造年份 ‌MedHouseVal‌(房价中位数):目标变量,表示房屋价格的中位数(单位为千美元) ‌

13、20 newsgroups 文本数据集

20news-19997.tar.gz - Original 20 Newsgroups data set 20news-18828.tar.gz - 20 Newsgroups; duplicates removed, only "From" and "Subject" headers (18828 documents) 20 newsgroups数据集18000多篇新闻文章,一共涉及到20种话题,所以称作20newsgroups text dataset,分为两部分:训练集和测试集,通常用来做文本分类,均匀分为20个不同主题的新闻组集合。20newsgroups数据集是被用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。一些新闻组的主题特别相似(e.g. comp.sys.ibm.pc.hardware/ comp.sys.mac.hardware),还有一些却完全不相关 (e.g misc.forsale /soc.religion.christian)。

15、毒蘑菇数据集(mushroom)

毒蘑菇数据集包含8124个样本,每个样本有23个特征,其中22个是描述蘑菇属性的字符型特征,1个是目标变量(蘑菇是否可食用)。

16、海伦约会数据集

海伦约会配对是一款基于兴趣爱好和个性特点进行匹配的约会平台。用户填写详细资料后,系统会根据算法为其匹配最合适的约会对象,提高约会成功率。海伦约会配对平台还提供专业的咨询服务,帮助用户提升约会技巧和沟通能力。

17、spambase_csv.csv(垃圾邮件数据集)

我们收集的非垃圾邮件来自归档的工作和个人电子邮件,因此,“乔治”一词和区域代码“ 650”表示非垃圾邮件。这些在构建个性化垃圾邮件过滤器时很有用。人们要么必须掩盖此类非垃圾邮件指标,要么必须收集大量非垃圾邮件来生成通用垃圾邮件过滤器。

18、kaggle猫狗大战

猫狗大战数据集是Kaggle上著名的“猫狗分类”竞赛的数据集。该数据集由Kaggle在2013年提供,包含25000张彩色训练图像,其中猫和狗各12500张,测试数据包含12500张猫和狗的图片。其图像在姿势、大小、背景和光照条件等方面具有多样性,且部分图像质量不均匀。该数据集主要用于训练和评估深度学习模型,以实现猫和狗的图像识别分类任务,是计算机视觉和深度学习领域中一个非常流行的入门级数据集。

通过网盘分享的文件: 链接: https://pan.baidu.com/s/1EfNt60rAeNP0RFE93Zg58Q?pwd=ectd 提取码: ectd 复制这段内容后打开百度网盘手机App,操作更方便哦

19、Fashion-MNIST数据集

Fashion MNIST 是一个用于机器学习和计算机视觉领域的入门级图像分类数据集,包含 10 个类别(如 T 恤、裤子、鞋子等)的 70000 张 28x28 像素灰度服装图像,常作为 MNIST 手写数字数据集的替代,用于训练和测试图像识别模型。 标签: 0 T-shirt/top 1 Trouser 2 Pullover 3 Dress 4 Coat 5 Sandal 6 Shirt 7 Sneaker 8 Bag 9 Ankle boot

20、CIFAR-10数据集

概述:CIFAR-10是一个用于图像识别的数据集,包含60000张32x32像素的彩色图像,分为10个类别,每个类别6000张图像。这些类别包括飞机、汽车、鸟类、猫、狗等。 特点:图像内容丰富,类别多样,适合用于图像分类和目标检测等任务。 应用场景:图像分类、目标检测、计算机视觉入门研究。 数据集下载地址: 通过网盘分享的文件:cifar-10-python.tar.gz 链接: https://pan.baidu.com/s/1cjUmXGI5-jyRkXkrS5SM4w?pwd=guk5 提取码: guk5

21、HIGGS数据集

HIGGS 数据集是来源于欧洲核子研究中心(CERN)大型强子对撞机(LHC)实验,包含超过一千万条记录,每条记录有 28 个输入特征和 1 个用于区分希格斯粒子事件和其他粒子事件的二分类输出的高能物理领域数据集。

通过网盘分享的文件:HIGGS.csv.gz 链接: https://pan.baidu.com/s/1N_RRPi9fzH_mXGxWTYRSfA?pwd=krx8 提取码: krx8 --来自百度网盘超级会员v10的分享

22、machinelearninginaction

《机器学习实战》源码和数据集的下载

23、MS-COCO

COCO是一个规模大且丰富的物体检测,分割和字幕数据集。330K图像,80个物体类别,每幅图像5个字幕,250,000个有关键点的人。

官网地址: http://cocodataset.org/#download 下载方式: MSCOCO数据集较大,可以使用Google gsutil工具搭配命令行下载 sudo apt-get install aria2 aria2c -c <url> <url>即为官网下载地址 train2017:http://images.cocodataset.org/zips/train2017.zip val2017:http://images.cocodataset.org/zips/val2017.zip train2014:http://images.cocodataset.org/zips/train2014.zip val2014:http://images.cocodataset.org/zips/val2014.zip

24、Adult 数据集

Adult数据集(即“人口普查收入”数据集),由美国人口普查数据集库 抽取而来,其中共包含48842条记录,年收入大于50k美元的占比23.93%,年收入小于50k美元的占比76.07%,并且已经划分为训练数据32561条和测试数据16281条。 该数据集类变量为年收入是否超过50k美元,属性变量包括年龄、工种、学历、职业等 14类重要信息,其中有8类属于类别离散型变量,另外6类属于数值连续型变量。该数据集是一个分类数据集,用来预测年收入是否超过50k美元。

官网地址: https://archive.ics.uci.edu/ml/machine-learning-databases/adult/

25、ImageNet

ImageNet 是一个大型视觉识别基准数据集,包含超过 1400 万张标注图像,涵盖 2 万多个类别,常用于训练和评估深度学习图像分类、目标检测等模型(如 AlexNet 曾基于此数据集推动深度学习在计算机视觉领域的突破)。 大家熟悉的ImageNet,女神李飞飞参与创建,同名比赛影响整个计算机视觉界。 https://image-net.org/download.php

26、水下声源定位-深海垂直阵-数据集

本数据集利用深海垂直阵估计声源距离和深度。5000m 平底及 Munk 声速剖面环境,垂直阵含 35 阵元,采样率 4410Hz。声源特定 CW 信号,含动态场景参数。附数据、环境、代码文件,助研究距离 1 - 20km、深度 1 - 50m 定位。

27、电离层数据集

这也是一个经典数据集。它实际上起源于 1989 年,但它确实很有趣。该数据集包含由拉布拉多鹅湾的雷达系统收集的数据。该系统由 16 个高频天线的相控阵列组成,旨在检测电离层中的自由电子。一般来说,电离层有两种类型的结构:“好”和“坏”。这些雷达会检测这些结构并传递信号。数据集中有 34 个自变量和 1 个因变量,总共有 351 个观测值。 下载地址: http://ftp.aiub.unibe.ch/CODE/

28、Amazon Alexa Reviews(亚马逊评论数据集)

该数据集包含将近3000个Amazon客户评论(输入文本),星级,评论日期,各种Amazon Alexa产品(如Alexa Echo,Echo点,Alexa Firesticks等)的变体和反馈,以学习如何训练机器进行情绪分析。

29、YouTube-8M 数据集

YouTube-8M 是由谷歌研究院创建的大规模多标签视频分类数据集,包含约 826 万个 YouTube 视频,总时长超过 50 万小时,标注了 4800 个视觉实体,旨在推动视频理解和表示学习的发展。 下载地址: YouTube-8M 数据集(1T多,复制磁链到浏览器或迅雷) https://orion.hyper.ai/tracker/magnet?torrent=7175

30、垃圾短信分类器数据集

该文件包含了1万多条中文短信数据。每条短信都经过标记,其中垃圾短信标记为1,正常短信标记为0。

31、Sentiment140 dataset with 1.6 million tweets(Twitter 情绪分析和 Sentiment140 数据集)

该数据集包含了1,600,000条从推特爬取的推文,可用于情感分析相关的训练。 该数据集包含两个数据文件:测试集(test)和训练集(training) 数据文件没有包含heading,从左到右分别是: (1)推文标注(polarity): 0 = 负面,2 = 中立,4 = 正面 (2)推文的id (3)时间:Sat May 16 23:58:44 UTC 2009 (4)Query (lyx),如果没有query,数值为NO_QUERY. (5)发推的用户:robotickilldozr (6)推文内容

32、Wheat Seeds Dataset.txt(小麦种子数据集)

样本信息:数据集中每条记录代表一个单独的小麦种子,可能有编号以便追踪。

物理特性:如种子的尺寸(长度、宽度、厚度)、重量、形状指标(圆度、椭圆度)等,这些可以通过显微镜测量得到。

生物特性:可能包括种子的品种、发芽率、含水量、蛋白质含量等,这些都是影响小麦生长的重要因素。

环境条件:收集种子时的气候条件、土壤类型等,这些因素可能影响种子的生长潜力。

生长表现:如果进行了后续的生长实验,可能还包括成株的高度、产量等实际生长数据。 标签“数据集”表明这是一组结构化的信息,适合进行统计分析和建模。数据集通常分为训练集、验证集和测试集,用于模型训练、参数调整和最终性能评估。 文件“Wheat Seeds Dataset.txt”是一个文本文件,很可能包含了数据集的CSV(逗号分隔值)格式,其中每行代表一个样本,列则对应不同的特征。打开这个文件,我们可以看到诸如种子的各个属性值,以及可能的类别标签(如果这是一个分类问题)。

33、RMB_data(纸币验证数据集)

人民币1元的一百张,人民币100元的一百张,用于分类任务,可用于深度学习,图片为对纸币的扫描。全都是图片,zip包里有两个文件夹。

34、LabelMe 数据集

Labelme Dataset 是用于目标识别的图像数据集,涵盖 1000 多个完全注释和 2000 个部分注释的图像。 下载地址: 通过网盘分享的文件:Labelme Dataset 链接: https://pan.baidu.com/s/1kK_o4NDl-V5vVF16EM0MQA?pwd=eiua 提取码: eiua

http://www.dtcms.com/a/477479.html

相关文章:

  • 个人网站怎么做才能值钱优设网页设计
  • 【Unity】MMORPG游戏开发(一)身份认证
  • 竞价网站与竞价网站之间做友情链接建邺区住房 建设 网站
  • Django视图与路由全解析:从URL到页面,一篇讲透
  • 推荐系统实战:python新能源汽车智能推荐(两种协同过滤+Django 全栈项目 源码)计算机专业✅
  • 数据结构二叉树——层序遍历 扩展二叉树的左视图
  • .NET Core + Nginx服务器零基础部署全流程(附资源)
  • 吴江区经济开发区规建设局网站手机app如何开发制作
  • excel中关联word邮件合并使用
  • const string getWord() ;和 string getWord() const ;是一样的效果吗
  • 语音控制 APP 开发:唤醒率 99% 的实现
  • Linux操作系统-进程(三)
  • electron中进程线程之间通信方式
  • wordpress 原图查看贵港seo
  • idea生成数据集调研
  • 深圳网站制作就找兴田德润安徽省建设厅网站资料下载
  • Java外功精要(3)——配置文件和mybatis
  • 2024年最新技术趋势分析:AI、前端与后端开发新动向
  • kanass入门到实战(20) - 项目负责人如何使用kanass驾驭项目
  • 无需公网 IP:神卓 K900 实现海康摄像头异地观看的两种简单方法
  • (19)100天python从入门到拿捏《多线程》
  • KVM-QEMU 的完整工作流程案例解析
  • 【LeetCode】69. x 的平方根
  • C语言入门教程(第6讲):函数——让程序学会“分工合作”的魔法
  • 福建定制网站开发泰安一级的企业建站公司
  • 公司要建立网站要怎么做太原优化型网站建设
  • 开源 C++ QT QML 开发(十七)进程--LocalSocket
  • 2.CSS3.(3).html
  • 【MQ】RabbitMQ:架构、工作模式、高可用与流程解析
  • 零基础学AI大模型之大模型修复机制:OutputFixingParser解析器