当前位置：首页 > news >正文

Sklearn安装使用教程

news 2025/7/4 9:56:05

一、scikit-learn 简介

scikit-learn 是基于 Python 的机器学习工具包，构建在 NumPy、SciPy 和 matplotlib 之上。它提供了丰富的机器学习算法接口，包括分类、回归、聚类、降维、模型选择和预处理等功能，适用于科研与工业应用。

二、安装 scikit-learn

2.1 使用 pip 安装（推荐方式）

pip install scikit-learn

2.2 使用 conda 安装（适合 Anaconda 用户）

conda install scikit-learn

2.3 验证安装

import sklearn
print(sklearn.__version__)

三、scikit-learn 核心模块概览

模块	说明
`sklearn.datasets`	数据集加载
`sklearn.model_selection`	数据划分与交叉验证
`sklearn.preprocessing`	特征预处理
`sklearn.linear_model`	线性模型
`sklearn.ensemble`	集成模型（随机森林、梯度提升）
`sklearn.svm`	支持向量机
`sklearn.metrics`	模型评估
`sklearn.pipeline`	模型流水线构建

四、使用示例：分类任务

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score# 加载数据
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 训练模型
clf = RandomForestClassifier()
clf.fit(X_train, y_train)# 预测与评估
y_pred = clf.predict(X_test)
print("准确率:", accuracy_score(y_test, y_pred))

五、数据预处理示例

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
X_scaled = scaler.fit_transform(X_train)

六、交叉验证与模型选择

from sklearn.model_selection import cross_val_scorescores = cross_val_score(clf, X, y, cv=5)
print("交叉验证平均准确率:", scores.mean())

七、构建完整机器学习流程

from sklearn.pipeline import Pipelinepipeline = Pipeline([('scaler', StandardScaler()),('clf', RandomForestClassifier())
])pipeline.fit(X_train, y_train)
print("流水线模型准确率:", pipeline.score(X_test, y_test))