当前位置: 首页 > news >正文

python鸢尾花

鸢尾花数据集(Iris dataset)是一个经典的多变量数据集,最早由英国统计学家和生物学家 Ronald A. Fisher 在1936年引入,用于演示线性判别分析。该数据集包含150条记录,每条记录有四个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度)以及一个目标变量(花的种类)。这些数据来自三种鸢尾花(Iris setosa、Iris versicolor 和 Iris virginica),每种50个样本。

### 数据集的来源和生成方式
- **来源**:这些数据最初是由 Edgar Anderson 收集的,Fisher 在其论文中使用这些数据来展示如何使用线性判别分析来区分不同种类的鸢尾花。
- **生成方式**:数据集中的特征是通过实际测量鸢尾花的花萼长度、花萼宽度、花瓣长度和花瓣宽度得到的。这些测量值以厘米为单位记录下来,并附上了对应的鸢尾花种类标签。

### 数据集的结构
- **特征**:
  - Sepal.Length(花萼长度):连续变量,测量单位为厘米。
  - Sepal.Width(花萼宽度):连续变量,测量单位为厘米。
  - Petal.Length(花瓣长度):连续变量,测量单位为厘米。
  - Petal.Width(花瓣宽度):连续变量,测量单位为厘米。
- **目标变量**:
  - Species(花的种类):类别变量,取值为三个类别之一(setosa、versicolor、virginica)。

### 数据集的特点
- **简洁且丰富的特征**:Iris数据集的四个特征简单明了,但却足够丰富,能够很好地展示多变量数据分析的各种技术和方法。
- **适中的规模**:数据集包含150条记录,规模适中,便于初学者进行探索性数据分析和机器学习模型的构建与验证。
- **多分类问题**:Iris数据集是一个多分类问题,包含三个不同的类别,适合用于演示分类算法(如k-近邻、决策树、朴素贝叶斯、支持向量机等)。

### 数据集的应用
Iris数据集因其简单性和代表性,被广泛用于机器学习和数据分析的教育和研究中。它常被用于演示数据预处理、特征选择、模型训练和评估等基本概念。

鸢尾花数据集(Iris dataset)是一个**固定的**数据集,而不是随机生成的。它包含实际测量的鸢尾花样本数据,具有以下特点:

### 1. **数据来源**
- **实际测量**:Iris数据集中的数据是通过对真实鸢尾花样本进行测量得到的。这些数据最初由植物学家 Edgar Anderson 收集,并在1936年被统计学家 Ronald A. Fisher 用于演示线性判别分析。
- **固定样本**:数据集中的150个样本是固定的,每个样本包含4个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度)和一个类别标签(鸢尾花的种类)。

### 2. **数据结构**
- **样本数量**:数据集中有150个样本,每种鸢尾花(Setosa、Versicolor、Virginica)各有50个样本。
- **特征**:
  - Sepal length(花萼长度)
  - Sepal width(花萼宽度)
  - Petal length(花瓣长度)
  - Petal width(花瓣宽度)
- **类别标签**:每个样本都有一个类别标签,表示其所属的鸢尾花种类。

### 3. **数据的固定性**
- **固定样本**:Iris数据集中的样本是固定的,每次加载数据集时,样本的特征值和类别标签都不会改变。
- **非随机生成**:数据集不是随机生成的,而是基于实际测量的真实数据。因此,它具有实际的生物学意义和统计学价值。

### 示例:加载Iris数据集
以下代码展示了如何使用`scikit-learn`加载Iris数据集,并查看其内容:

```python
from sklearn.datasets import load_iris
import pandas as pd

# 加载Iris数据集
iris = load_iris()
X = iris.data  # 特征数据
y = iris.target  # 类别标签
feature_names = iris.feature_names  # 特征名称
target_names = iris.target_names  # 类别名称

# 将数据转换为DataFrame以便查看
iris_df = pd.DataFrame(X, columns=feature_names)
iris_df['species'] = pd.Categorical.from_codes(y, target_names)

# 查看数据的前几行
print(iris_df.head())
```

输出:
```
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm) species
0                5.1               3.5                1.4               0.2  setosa
1                4.9               3.0                1.4               0.2  setosa
2                4.7               3.2                1.3               0.2  setosa
3                4.6               3.1                1.5               0.2  setosa
4                5.0               3.6                1.4               0.2  setosa
```

### 总结
Iris数据集是一个固定的、基于实际测量的数据集。它不是随机生成的,每次加载时都会返回相同的样本和特征值。这种固定性使得Iris数据集成为机器学习和数据分析领域中一个非常受欢迎的基准数据集。

---

### 参考资料
: Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. *Annals of Eugenics*, 7(2), 179-188.
: Dua, D., & Graff, C. (2019). UCI Machine Learning Repository. University of California, Irvine, School of Information and Computer Sciences. [http://archive.ics.uci.edu/ml](http://archive.ics.uci.edu/ml)

相关文章:

  • 基于java的ssm+JSP+MYSQL的九宫格日志网站(含LW+PPT+源码+系统演示视频+安装说明)
  • 每天一道面试题-两数之和
  • SpatialLM尝鲜版
  • JavaEE的知识记录
  • Python第六章03:列表的常用操作
  • 【AI知识】常见的优化器及其原理:梯度下降、动量梯度下降、AdaGrad、RMSProp、Adam、AdamW
  • 线程池学习
  • 如何在Linux中实现scp命令自动输入密码
  • 使用Trae 生成的React版的贪吃蛇
  • 算法刷题记录——LeetCode篇(2) [第101~200题](持续更新)
  • android MutableLiveData setValue 响应速速 postValue 快
  • Collection系列集合的小结+集合并发修改异常问题
  • storeToRefs
  • 【C#】合理使用DeepSeek相关AI应用为我们提供强有力的开发工具,在.net core 6.0框架下使用JsonNode动态解析json字符串,如何正确使用单问号和双问号做好空值处理
  • 基于分类算法的学习失败预警(下)
  • 函数的介绍
  • 降低时间复杂度---特殊方程的正整数解(双指针)
  • java八股文之常见的集合
  • DeepSeek 模型的成本效益深度解析:低成本、高性能的AI新选择
  • 深入理解【双指针】:从基础概念到实际例题
  • 马云再次现身阿里打卡创业公寓“湖畔小屋”,鼓励员工坚持创业精神
  • 西安机场回应航站楼“水帘洞”事件:屋面排水系统被冰雹堵塞
  • 北外滩集团21.6亿元摘上海虹口地块,为《酱园弄》取景地
  • 虚假认定实质性重组、高估不良债权价值,原中国华融资产重庆分公司被罚180万元
  • 75岁亚当·费舍尔坐镇,再现80分钟马勒《第九交响曲》
  • 绍兴柯桥:用一块布托起中国制造的新经纬