当前位置: 首页 > news >正文

数据集获取

sklearn数据集

sklearn有四部分数据。其中sklearn的数据集有两部分真实的数据,一部分嵌入到了sklearn库中,即安装好sklearn后就自带了一部分数据,这些数据的规模比较小称为small toy datasets ,还有一部分数据是需要在网上下载的,sklearn提供了下载的api接口,这些数据规模比较大。其中获取内嵌的数据的api接口统称为The dataset loaders,获取需要下载的数据的api统称为The dataset fetchers,并且这些api都是函数,目前我还没有发现sklearn中的数据用类来表示的api。第三部分数据是人造的数据集,它可以调用接口来生成。第四部分数据归为其他数据

真实数据集

官网中描述了有哪些数据,部分如下图(可以在官网的User Guide中找到)。

以鸢尾花数据为例,它的api是load_iris(),它的介绍信息可以在sklearn官网中的User Guide中找到,部分介绍如下图。

相关文章:

  • C 语言 第五章 指针(4)
  • Polymer入门指南:从零开始构建、组织、管理Web Component
  • 【机器学习-分类算法】
  • 老知识:OpenGL 的 glu这个库已被弃用,改用glm了
  • 【Azure 架构师学习笔记】- Azure Networking(1) -- Service Endpoint 和 Private Endpoint
  • 操作系统的概念、功能和目标
  • 耘想Docker版Linux NAS的安装说明
  • 存算一体与存算分离:架构设计的深度解析与实现方案
  • Linux文件操作笔记
  • 手撕算法之`vector` 扩容、`string` 分割、链表翻转
  • 头歌实训--Pandas合并数据集--第1关:Concat与Append操作
  • vue使用element-ui自定义样式思路分享【实操】
  • freeswitch(在呼叫失败的情况下如何播放语⾳提⽰)
  • 【音视频开发】第三章 FFmpeg 命令实战
  • Java遍历魔法
  • 嵌入式笔记 | 正点原子STM32F103ZET6 3 | 时钟系统
  • 【MySQL】基本查询(第一弹)
  • P10045 [CCPC 2023 北京市赛] 线段树
  • docker部署dify
  • VNA操作使用学习-14 再测晶振特性
  • 美国4月CPI同比上涨2.3%低于预期,为2021年2月来最小涨幅
  • 中国女足将于5月17日至6月2日赴美国集训并参加邀请赛
  • 港股持续拉升:恒生科技指数盘中涨幅扩大至6%,恒生指数涨3.3%
  • 非洲雕刻艺术有着怎样的“变形之美”
  • 为发期刊,高校学者偷贩涉密敏感数据!国安部披露间谍案细节
  • 巴基斯坦总理:希望通过和平对话方式解决与印方问题