当前位置: 首页 > news >正文

数据挖掘常用公开数据集

数据挖掘的公开数据集资源非常丰富,覆盖多个领域(金融、医疗、社交网络、图像、文本等)。以下是一些方便实用且广泛认可的公开数据集平台和经典数据集,适合快速验证模型和项目实践:


一、综合数据集平台

  1. Kaggle Datasets
    🔗 Find Open Datasets and Machine Learning Projects | Kaggle

    • 特点:社区活跃,数据集附带代码案例(Notebooks),适合初学者。

    • 实用数据集

      • Titanic(分类预测)

      • House Prices(回归预测)

      • COVID-19 Open Research Dataset(文本挖掘)

  2. UCI Machine Learning Repository
    🔗 UCI Machine Learning Repository

    • 特点:学术经典,覆盖分类、回归、聚类等任务。

    • 实用数据集

      • Iris(分类,150条花卉数据)

      • Wine(分类,葡萄酒成分)

      • Adult(二分类,收入预测)

  3. Google Dataset Search
    🔗 https://datasetsearch.research.google.com

    • 特点:搜索引擎式查找,聚合全网开放数据集。


二、领域专项数据集

1. 金融与经济
  • Yahoo Finance
    🔗 https://finance.yahoo.com

    • 股票、加密货币历史价格(支持API下载)。

  • World Bank Open Data
    🔗 https://data.worldbank.org

    • 全球国家经济、人口、环境指标。

2. 社交网络与图数据
  • Stanford Large Network Dataset Collection
    🔗 Stanford Large Network Dataset Collection

    • 实用数据集:

      • Facebook Social Circles(社交关系图)

      • Amazon Product Co-purchasing(商品关联图)

3. 文本与 NLP
  • IMDB Movie Reviews
    🔗 Kaggle链接

    • 5万条电影评论(情感分析经典)。

  • Common Crawl(海量网页文本)
    🔗 https://commoncrawl.org

4. 图像与视频
  • CIFAR-10/100
    🔗 官方下载

    • 6万张10类/100类小尺寸图像(物体识别)。

  • MNIST(手写数字识别)

    • 入门必用,集成在sklearn/TensorFlow中。

5. 时间序列
  • Air Passengers

    • 经典航空乘客数据(1949-1960),内置在Python库statsmodels中。

  • M4 Competition Data
    🔗 https://github.com/Mcompetitions/M4-methods

    • 10万条时间序列(预测竞赛数据)。


三、政府与组织开放数据

  1. 中国政府开放数据平台
    🔗 https://data.stats.gov.cn(国家统计局)

    • 经济、人口、区域统计数据。

  2. NASA Open Data
    🔗 https://data.nasa.gov

    • 卫星影像、气候数据。

  3. European Union Open Data Portal

        🔗 https://data.europa.eu

四、实用建议

  1. 选数据集看三点

    • 数据质量(是否清洗过)

    • 任务匹配度(分类/回归/聚类)

    • 数据规模(小样本练手 vs 大数据挑战)

  2. 快速调用方式

             Python库直接加载(示例):

from sklearn.datasets import load_iris, fetch_california_housing
iris = load_iris()  # 鸢尾花数据集
housing = fetch_california_housing()  # 加州房价数据集

附:5个最适合练手的经典数据集

数据集名称领域任务类型数据量获取方式
Iris生物多分类150sklearn.datasets.load_iris
Titanic用户行为二分类891Kaggle
MNIST图像多分类70ktorchvision.datasets.MNIST
Wine Quality食品科学回归/分类4.9kUCI 或 Kaggle
Spam SMSNLP文本分类5.5kKaggle链接

提示:优先选择预处理较完整的数据集(如Kaggle),避免时间浪费在数据清洗上。进阶场景可挑战非结构化数据(如爬虫获取的原始文本/图像)。

http://www.dtcms.com/a/328872.html

相关文章:

  • [爬虫实战] 基于半自动化的cookie池更新逻辑讲解
  • 数据分析总结
  • MyBatis 中 XML 与 DAO 接口的位置关系及扫描机制详解
  • 把 Linux 装进“小盒子”——边缘计算场景下的 Linux 裁剪、启动与远程运维全景指南
  • 关于Google Pixel,或者安卓16,状态栏颜色无法修改的解决方案
  • 双屏加固笔记本电脑C156-2:坚固与高效的完美融合
  • FPGA+护理:跨学科发展的探索(四)
  • 在CentOS 7上配置Android USB网络共享方式的方法
  • MacOS字体看起来比在 Windows 上更好?
  • HTTPS与CA证书:安全通信全解析
  • CA+https+动态WEB页面部署
  • JavaWeb核心:HttpServletRequest与HttpServletResponse详解
  • Linux 服务部署:自签 CA 证书构建 HTTPS 及动态 Web 集成
  • OpenBMC中观察者模式架构与实现全解析
  • http与https协议区别;vue3本地连接https地址接口报500
  • 解惑rust中的 Send/Sync(译)
  • 什么是费曼学习法?
  • 机器学习-Cluster
  • Jenkins一直无法启动,怎么办?
  • C# winform 调用 OPC UA C# WinForm 的批量订阅方法
  • Java19 Integer 位操作精解:compress与expand《Hacker‘s Delight》(第二版,7.4节)
  • 向长波红外成像图注入非均匀噪声
  • 【嵌入式电机控制#31】FOC:霍尔安装误差的补偿
  • Unity:GUI笔记(二)——工具栏和选择网格、滚动列表和分组、窗口、自定义皮肤样式、自动布局
  • Linux系统有何特点?linux系统组成如何?
  • NTUSER.DAT是什么文件
  • 华为云之Redis部署及基础语法
  • 遨游通讯推出两款三防平板,满足“危急特”场景定制化需求
  • 《AVL树的原理与C++实现:详解平衡二叉搜索树的高效构建与操作》
  • ACL 可以限制哪些流量?入方向和出方向怎么判断?