当前位置: 首页 > news >正文

python:非常流行和重要的Python机器学习库scikit-learn 介绍

scikit-learn 是如此重要,是Python 机器学习的瑞士军刀,以至于我们需要单独对它进行一些介绍。scikit- learn 包含众多顶级机器学习算法,它主要有六大类的基本功能,分别是分类、回归、聚类、数据降维、模型选择和数据预处理。

Scikit-learn 核心模块给大家统计如下。

1. 数据预处理与特征工程
功能类别主要函数/类关键参数应用场景版本增强
标准化缩放StandardScalerwith_mean, with_std高斯分布数据预处理0.12+
MinMaxScalerfeature_range神经网络输入归一化0.13+
RobustScalerquantile_range含异常值数据0.17+
编码转换OneHotEncoderdrop, sparse_output类别特征转换0.20+ 增强
OrdinalEncodercategories有序类别编码0.20+
LabelEncoder-目标变量编码初始版本
缺失值处理SimpleImputerstrategy, fill_value缺失值填补0.20+ 重构
KNNImputern_neighbors, weights基于近邻的缺失值填补0.22+
特征生成PolynomialFeaturesdegree, interaction_only特征多项式扩展0.10+
FunctionTransformerfunc, inverse_func自定义特征转换0.17+
特征选择SelectKBestscore_func, k基于统计检验的特征选择0.13+
RFE (递归特征消除)estimator, n_features_to_select包裹式特征选择0.16+
2.分类算法
算法类型实现类关键超参数时间复杂度适用数据规模
线性模型LogisticRegressionC, penalty, solverO(n_samples * n_features)10^6样本
Perceptronpenalty, alphaO(n_samples * n_features)10^6样本
支持向量机SVCC, kernel, gammaO(n_samples^2 * n_features)10^4样本
NuSVCnu, kernelO(n_samples^2 * n_features)10^4样本
决策树DecisionTreeClassifiermax_depth, criterionO(n_samples * n_features * log(n_samples))10^5样本
集成方法RandomForestClassifiern_estimators, max_depthO(n_estimators * n_samples * n_features * log(n_samples))10^6样本
GradientBoostingClassifierlearning_rate, max_depthO(n_estimators * n_samples * n_features)10^5样本
AdaBoostClassifiern_estimators, algorithmO(n_estimators * n_samples * n_features)10^5样本
神经网络MLPClassifierhidden_layer_sizes, activationO(n_samples * n_features * hidden_units)10^5样本
朴素贝叶斯GaussianNBvar_smoothingO(n_classes * n_features)10^6样本
MultinomialNBalphaO(n_classes * n_feature

3.回归算法

4.聚类算法

算法类型实现类关键超参数适用场景创新版本
划分聚类KMeansn_clusters, init球形簇、均匀大小0.23+ 优化
MiniBatchKMeansbatch_size大规模数据0.13+
密度聚类DBSCANeps, min_samples任意形状簇、噪声识别初始版本
层次聚类AgglomerativeClusteringn_clusters, linkage簇层次结构分析0.14+
谱聚类SpectralClusteringn_clusters, affinity图结构数据0.15+
高斯混合GaussianMixturen_components概率软聚类0.18+
5.降维与流形学习
算法类型实现类关键超参数降维能力计算复杂度
矩阵分解PCAn_components, svd_solver线性降维O(n_samples^2 * n_features)
TruncatedSVDn_components, algorithm稀疏数据降维O(n_samples * n_features)
流形学习TSNEperplexity, learning_rate可视化降维O(n_samples^2 * n_features)
Isomapn_neighbors, n_components非线性降维O(n_samples^2 * n_features)
特征选择FactorAnalysisn_components, svd_method隐变量提取O(n_samples^2 * n_fe
6.模型验证
工具类主要功能关键参数输出类型
cross_val_score自动交叉验证评分scoring, cv评分数组
cross_validate多指标交叉验证scoring, return_train_score结果字典
learning_curve生成学习曲线数据train_sizes, cv训练/验证得分
7.超参数优化
工具类优化策略适用场景并行能力
GridSearchCV网格搜索小参数空间全并行
RandomizedSearchCV随机搜索大参数空间全并行
HalvingGridSearchCV连续减半搜索大规模参数空间部分并行
8.评估指标
指标类型分类指标回归指标聚类指标
基础指标accuracy_scoremean_squared_erroradjusted_rand_score
概率指标roc_auc_scorer2_scoresilhouette_score
多类别指标f1_score (average=macro)explained_variance_scorecalinski_harabasz_score
不平衡数据balanced_accuracy_scoremean_absolute_percentage_errordavies_bouldin_sco

伙伴们可以保存使用。

请大家点赞 、收藏和加关注吧。

http://www.dtcms.com/a/317663.html

相关文章:

  • STM32学习笔记3-GPIO输入部分
  • WMS及UI渲染底层原理学习
  • 【STM32 LWIP配置】STM32H723ZG + Ethernet +LWIP 配置 cubemx
  • 无人机图传的得力助手:5G 便携式多卡高清视频融合终端的协同应用
  • 中宇联5G云宽带+4G路由器:解锁企业办公高效协同与门店体验升级
  • 图解 Claude Code 子智能体 Sub-agent
  • [ java GUI ] 图形用户界面
  • 【软考系统架构设计师备考笔记4】 - 英语语法一篇通
  • ctfshow_vip题目限免-----SVN漏洞,git泄露
  • Git Cherry-Pick 指南
  • Leetcode——菜鸟笔记1
  • Git 分支管理:从新开发分支迁移为主分支的完整指南
  • 鸿蒙app 开发中 全局弹窗类的封装 基于PromptAction
  • C#之基础语法
  • 机器学习之朴素贝叶斯
  • Suno API V5模型 php源码 —— 使用灵感模式进行出创作
  • 基于PHP的论坛社交网站系统开发与设计
  • 排序算法详解
  • 媒体资产管理系统和OCR文字识别的结合
  • Ethereum: L1 与 L2 的安全纽带, Rollups 技术下的协作与区别全解析
  • 解决启动docker报错Cannot connect to the Docker daemon问题
  • 阿里 Qwen-Image:开源 20B 模型引领图像生成新纪元,中文渲染超越 GPT-4o!
  • 数据结构与算法的认识
  • 手动开发一个TCP服务器调试工具(二):无界面 TCP 通信服最小实现
  • ETF期权分仓的风险如何管理?
  • 基于Hadoop的股票大数据分析可视化及多模型的股票预测研究与实现
  • 四十、【高级特性篇】接口用例数据驱动:引入随机变量与动态数据生成
  • 生成式模型 ?判别式模型?用【猫狗分类器】帮助理解!
  • 【网络安全】入侵检测系统 Suricata 概述 | IDS
  • 2025年大语言模型与多模态生成工具全景指南(V2.0)