什么是算法样本数据集?样本数据分享
一、算法样本数据集
算法样本数据集 特指为训练、测试和验证特定算法(尤其是机器学习和人工智能算法) 而精心准备的数据集合。
它不仅仅是原始数据的堆砌,而是包含了数据和预期结果的结构化组合。我们可以把它想象成给算法使用的“教科书”和“考试试卷”。
一个典型的算法样本数据集通常包含以下核心要素:
样本/实例:每一条独立的数据记录。例如,一张图片、一段音频、一封邮件、一条用户交易记录。
特征:描述每个样本的各个方面或属性。这些是算法学习的“输入”。
例如,在房价预测数据集中,特征可以是:房屋面积、卧室数量、地理位置、房龄等。
在一张图片数据集中,特征可以是每个像素的RGB值。
标签/目标变量:我们希望算法预测的“正确答案”或“输出”。
在监督学习中,这是必不可少的。例如,房价数据集中的“实际售价”(回归问题),或猫狗图片数据集中的“猫”或“狗”标签(分类问题)。
在无监督学习中,数据没有标签,算法的任务是从数据本身发现结构(如聚类)。
二、样本数据资源
土地利用和土地覆盖样本数据集
Gaofen Image Dataset(GID)是一个用于土地利用和土地覆盖(LULC)分类的大型数据集。它包含来自中国60多个不同城市的150幅高质量高分二号(GF-2)图像,这些图像覆盖的地理区域超过了5万km² 数据大小:15.27GB 发布时间:2018 年 分辨率:0.8~ 10m
场景分类卫星图像样本数据集
WHU-RS19 是从 Google Earth 导出的一组卫星图像,可提供长达 0.5 m 的高分辨率卫星图像。下图显示了数据库的一些示例。它包含高分辨率卫星图像中的 19 类有意义的场景,包括机场、海滩、桥梁、商业、沙漠、农田、足球场、森林、工业、草地、山脉、公园、停车场、池塘、港口、火车站、住宅、河流和高架桥。对于每个类,大约有 50 个样本。值得注意的是,同一类图像样本是从不同分辨率的卫星图像中的不同区域收集的,然后可能具有不同的比例、方向和照明。
数据大小:97.68MB 发布时间:2011 年 分辨率:0.5m
更多样本资源路径
打开“星图云开放平台”,选择“服务与支持”,点击“数据资源”,筛选“样本资源”