Sklearn安装使用教程
一、scikit-learn 简介
scikit-learn 是基于 Python 的机器学习工具包,构建在 NumPy、SciPy 和 matplotlib 之上。它提供了丰富的机器学习算法接口,包括分类、回归、聚类、降维、模型选择和预处理等功能,适用于科研与工业应用。
二、安装 scikit-learn
2.1 使用 pip 安装(推荐方式)
pip install scikit-learn
2.2 使用 conda 安装(适合 Anaconda 用户)
conda install scikit-learn
2.3 验证安装
import sklearn
print(sklearn.__version__)
三、scikit-learn 核心模块概览
模块 | 说明 |
---|---|
sklearn.datasets | 数据集加载 |
sklearn.model_selection | 数据划分与交叉验证 |
sklearn.preprocessing | 特征预处理 |
sklearn.linear_model | 线性模型 |
sklearn.ensemble | 集成模型(随机森林、梯度提升) |
sklearn.svm | 支持向量机 |
sklearn.metrics | 模型评估 |
sklearn.pipeline | 模型流水线构建 |
四、使用示例:分类任务
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score# 加载数据
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 训练模型
clf = RandomForestClassifier()
clf.fit(X_train, y_train)# 预测与评估
y_pred = clf.predict(X_test)
print("准确率:", accuracy_score(y_test, y_pred))
五、数据预处理示例
from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
X_scaled = scaler.fit_transform(X_train)
六、交叉验证与模型选择
from sklearn.model_selection import cross_val_scorescores = cross_val_score(clf, X, y, cv=5)
print("交叉验证平均准确率:", scores.mean())
七、构建完整机器学习流程
from sklearn.pipeline import Pipelinepipeline = Pipeline([('scaler', StandardScaler()),('clf', RandomForestClassifier())
])pipeline.fit(X_train, y_train)
print("流水线模型准确率:", pipeline.score(X_test, y_test))
八、常见问题
Q1: 报错 No module named ‘sklearn’?
请检查 pip 是否正确安装:
pip install scikit-learn
确保 Python 环境一致,推荐使用虚拟环境(venv 或 conda)。
Q2: 模块不兼容或冲突?
使用以下方式升级:
pip install --upgrade scikit-learn
或清理环境后重新安装。
九、学习资源推荐
- scikit-learn 官方文档
- Kaggle 学习路线
- sklearn 中文教程
- 《Python 机器学习》Sebastian Raschka 著
本文由“小奇Java面试”原创发布,转载请注明出处。
可以搜索【小奇JAVA面试】第一时间阅读,回复【资料】获取福利,回复【项目】获取项目源码,回复【简历模板】获取简历模板,回复【学习路线图】获取学习路线图。