当前位置：首页 > news >正文

Scikit-learn：从零开始构建你的第一个机器学习模型

news 2025/9/14 14:11:39

Scikit-learn：从零开始构建你的第一个机器学习模型

导语：你是否对机器学习充满好奇，却不知从何下手？作为 Python 中最受欢迎的机器学习库，Scikit-learn 以其简洁的 API 和丰富的功能，成为无数开发者入门和实践的首选。本文将手把手带你走完从数据准备到模型训练、评估的全过程，让你轻松构建属于自己的第一个机器学习模型。

在这里插入图片描述

✅ 1. 准备工作：环境与安装

在开始之前，请确保你的电脑已经安装了 Python 和 pip。我们的第一个任务就是安装 Scikit-learn 以及数据处理常用的库 numpy 和 pandas。

打开你的终端或命令行，输入以下命令：

pip install scikit-learn numpy pandas

安装成功后，我们就拥有了进入机器学习世界的“三剑客”。

🚀 2. 实战开始：构建你的第一个分类模型

我们将使用一个非常经典的数据集——鸢尾花（Iris）数据集。这是一个入门级的多分类问题，我们的目标是根据花朵的四个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）来判断它属于哪个鸢尾花种类。

2.1. 加载数据

Scikit-learn 内置了鸢尾花数据集，我们可以用一行代码轻松加载。

from sklearn.datasets import load_iris# 加载数据集
iris = load_iris()# iris 是一个类字典对象，我们看看里面有什么
print(iris.keys())
# 输出: dict_keys(['''data''', '''target''', '''frame''', '''target_names''', '''DESCR''', '''feature_names''', '''filename''', '''data_module'''])

data: 包含了花朵的四个特征数据（一个 n x 4 的数组）。
target: 包含了每朵花对应的类别（一个长度为 n 的数组，用 0, 1, 2 表示不同种类）。
feature_names: 特征的名称。
target_names: 类别的名称。

为了更直观地观察数据，我们通常会使用 pandas 将其转换为 DataFrame。

import pandas as pd# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['''target'''] = iris.target# 查看前 5 行数据
print(df.head())

输出结果：

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  target
0                5.1               3.5                1.4               0.2       0
1                4.9               3.0                1.4               0.2       0
2                4.7               3.2                1.3               0.2       0
3                4.6               3.1                1.5               0.2       0
4                5.0               3.6                1.4               0.2       0

2.2. 划分训练集与测试集

为了评估模型的泛化能力，我们需要将数据分为两部分：一部分用于训练模型（训练集），另一部分用于测试模型的表现（测试集）。这就像学生备考，一部分题用来学习，另一部分题用来模拟考试。

Scikit-learn 的 train_test_split 函数可以轻松完成这个任务。

from sklearn.model_selection import train_test_split# X 是特征数据，y 是目标标签
X = df.drop('''target''', axis=1)
y = df['''target''']# 划分数据集，80% 用于训练，20% 用于测试
# random_state 是为了保证每次划分结果都一样，便于复现
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)print(f"训练集大小: {X_train.shape}")
print(f"测试集大小: {X_test.shape}")

2.3. 选择并训练模型

对于初学者，K-近邻（K-Nearest Neighbors, KNN） 是一个非常直观且容易理解的算法。它的核心思想是：一个样本的类别由其最近的 K 个邻居的类别决定。

from sklearn.neighbors import KNeighborsClassifier# 创建一个 KNN 分类器实例，我们选择 3 个邻居
knn = KNeighborsClassifier(n_neighbors=3)# 使用训练数据来“喂养”模型
knn.fit(X_train, y_train)print("✅ 模型训练完成！")

fit 方法是 Scikit-learn 中所有模型训练的入口，只需一行代码，模型就从训练数据中学会了如何分类。

2.4. 进行预测

模型训练好后，我们就可以用它来对测试集进行预测，看看它在新数据上的表现如何。

# 对测试集进行预测
y_pred = knn.predict(X_test)# 打印预测结果和真实结果的对比
print("预测结果:", y_pred)
print("真实结果:", y_test.values)

2.5. 评估模型

预测结果出来了，但模型做得好不好呢？我们需要一个量化的指标。准确率（Accuracy） 是最常用的评估指标之一，它表示模型预测正确的样本占总样本的比例。

from sklearn.metrics import accuracy_score, classification_report# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy:.4f}")# 查看更详细的分类报告（精确率、召回率、F1-score）
print("
分类报告:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))

输出结果：

模型准确率: 1.0000分类报告:precision    recall  f1-score   supportsetosa       1.00      1.00      1.00        10versicolor       1.00      1.00      1.00         9virginica       1.00      1.00      1.00        11accuracy                           1.00        30macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

惊人的 100% 准确率！这在真实世界的复杂问题中很少见，但对于简单的鸢尾花数据集，KNN 表现得非常出色。