【R语言编程绘图-mlbench】
mlbench库简介
mlbench是一个用于机器学习的R语言扩展包,主要用于提供经典的基准数据集和工具,常用于算法测试、教学演示或研究场景。该库包含多个知名数据集,涵盖分类、回归、聚类等任务。
包含的主要数据集
-
BostonHousing
波士顿房价数据集,包含506条记录和14个特征,用于回归任务。目标变量为房屋中位数价格。 -
BreastCancer
威斯康星州乳腺癌数据集(原始版),包含699个样本和10个特征,用于二分类任务(良性/恶性)。 -
DNA
人工合成的DNA序列分类数据集,包含3186条序列,用于多分类任务(3个类别)。 -
Glass
玻璃化学成分数据集,包含214个样本和10个特征,用于多分类任务(6种玻璃类型)。 -
Ionosphere
电离层雷达信号数据集,包含351个样本和34个特征,用于二分类任务(信号是否显示结构)。 -
PimaIndiansDiabetes
皮马印第安人糖尿病数据集,包含768个样本和8个特征,用于二分类任务(是否患糖尿病)。 -
Satellite
遥感卫星图像数据集,包含6435个样本和36个特征,用于多分类任务(6种土地类型)。 -
Sonar
声纳信号数据集,包含208个样本和60个特征,用于二分类任务(金属/岩石目标)。 -
Vehicle
车辆轮廓数据集,包含846个样本和18个特征,用于多分类任务(4种车辆类型)。
安装与调用方法
在R中安装并加载mlbench:
install.packages("mlbench")
library(mlbench)
加载数据集示例(以BostonHousing为例):
data(BostonHousing)
head(BostonHousing)
特点与用途
- 数据集经过标准化处理,可直接用于建模。
- 涵盖多种任务类型,适合算法对比实验。
- 部分数据集包含缺失值,需预处理(如
PimaIndiansDiabetes
)。
注意:mlbench的数据集通常较小,适合快速验证模型,不适用于大规模训练场景。