当前位置：首页 > news >正文

数据科学每日总结--Day13--数据挖掘

news 2025/11/8 10:14:22

树模型

M5P

作用：构建“模型树”，即在树的每个叶节点用线性回归方程来预测数值。适合回归任务。
优点：
- 能处理复杂的非线性关系，同时在每个叶节点用线性模型细化预测，精度高。
- 解释性较好，可以看到分裂规则和线性方程。
缺点：
对噪声敏感，树结构可能较复杂。
训练速度比简单树慢。
侧重点：既能分群，又能在群内拟合线性关系，适合数据有明显分段线性特征时。

REPTree

作用：快速构建决策树，支持回归和分类。采用信息增益/方差减少分裂，剪枝防止过拟合。
优点：
- 速度快，适合大数据集。
- 剪枝机制减少过拟合。
缺点：
- 解释性一般，树结构可能不如M5P细致。
- 对异常值敏感。
侧重点：快速建模，适合初步探索数据结构。

DecisionStump

作用：只分裂一次的“单层树”，即只用一个属性做一次分裂。常用于集成学习的基学习器。
优点：
- 极其简单，速度快。
- 在集成方法中（如Bagging、Boosting）表现好。
缺点：
- 单独使用时预测能力极弱。
- 不能捕捉复杂关系。
侧重点：作为集成学习的“弱学习器”，单独分析时仅能做最粗略的分群。

RandomTree

作用：构建随机决策树，每次分裂只考虑部分属性。是RandomForest的基础。
优点：
- 能处理高维数据，抗过拟合。
- 速度快，适合大数据。
缺点：
- 单棵树不稳定，结果波动大。
- 解释性较差。
侧重点：用于集成（如RandomForest），单独用时适合探索数据多样性。

DecisionTable

作用：基于属性组合的查找表，适合分类和回归。通过属性子集选择和查找表预测。
优点：
- 解释性好，能清楚看到哪些属性组合影响结果。
- 对缺失值有一定容忍度。
缺点：
- 对高维数据不友好，表太大时效率低。
- 不能捕捉复杂非线性关系。
侧重点：适合属性较少、组合关系明显的数据。

元学习模型

meta.AdditiveRegression

作用：集成方法，类似Boosting。通过多轮训练，每轮拟合前一轮的残差，最终将多个弱学习器加权组合。
优点：
- 能显著提升弱学习器的性能。
- 对复杂关系拟合能力强。
缺点：
- 对噪声敏感，容易过拟合。
- 训练时间长。
侧重点：提升回归模型精度，适合模型基础能力一般时。

meta.Bagging

作用：集成方法，通过对数据多次有放回采样，训练多个模型，最终结果取平均（回归）或投票（分类）。
优点：
- 降低方差，提升稳定性。
- 抗过拟合能力强。
缺点：
- 解释性差，难以理解整体模型逻辑。
- 训练资源消耗大。
侧重点：提升模型稳定性，适合基础模型波动大时。

meta.RandomCommittee

作用：集成方法，训练多个基础模型（通常是随机树），结果取平均。
优点：
- 提升预测精度，抗过拟合。
- 适合高维数据。
缺点：
- 解释性差。
- 训练时间长。
侧重点：提升模型泛化能力，适合复杂数据。

meta.RandomizableFilteredClassifier

作用：集成和预处理结合，先对数据做过滤（如特征选择、变换），再用可随机化的分类器训练。
优点：
- 能自动处理数据预处理和建模。
- 灵活性高。
缺点：
- 配置复杂，解释性一般。
- 依赖过滤器和基础模型性能。
侧重点：适合需要自动化预处理和建模的场景。

meta.RandomSubSpace

作用：集成方法，每个基础模型只用部分特征子集训练，结果集成。
优点：
- 提升模型多样性，抗过拟合。
- 适合高维数据。
缺点：
- 解释性差。
- 训练时间长。
侧重点：适合特征很多、模型容易过拟合的数据。

meta.RegressionByDiscretization

作用：将回归问题转化为分类问题（通过离散化目标变量），再用分类器预测，最后将分类结果映射回数值。
优点：
- 能用强大的分类器解决回归问题。
- 适合目标变量分布不均时。
缺点：
- 精度受离散化影响，解释性一般。
- 可能损失连续性信息。
侧重点：适合目标变量分布特殊、分类器强于回归器时。

懒惰学习

lazy.IBK

作用：K近邻算法（KNN），预测时查找最近的K个样本，取平均（回归）或投票（分类）。
优点：
- 无需训练，模型简单。
- 能捕捉局部模式。
缺点：
- 对数据规模和噪声敏感，预测慢。
- 不能解释全局规律。
侧重点：适合数据量不大、局部规律明显时。

lazy.LWL

作用：局部加权学习，每次预测时在邻域内训练一个模型（如线性回归），用加权方式预测。
优点：
- 能捕捉复杂的局部非线性关系。
- 灵活性高。
缺点：
- 预测慢，计算量大。
- 解释性差。
侧重点：适合数据分布复杂、局部模式强烈时。

查看全文

http://www.dtcms.com/a/582063.html

Acetylcysteine (NAC) 别名：N-Acetyl-L-cysteine； NAC；乙酰半胱氨酸（AbMole）

大模型学习3

武警部队电子沙盘和数字沙盘的地磁方位指示器系统

Coze搭建企业客服智能体

BI需求分析的双层陷阱

鸿蒙三方库httpclient使用

网站开发的发展历史及趋势做网络平台的网站

私有云盘远程用！FileRise+cpolar 让异地存取文件超简单

借助Dify工作流构建AI测试智能体，效率提升可达500%

php网站建设与管理游客可进的直播

5种有效增加网站流量沈阳企业网站制作公司

mak/Makefile和进度条

ip数据报传输过程梳理

2.1 NLP 核心概念回顾：从词袋到 Transformer

做网站的公司经营范围2017年到2018年建设的网站

东莞网站建设光龙wordpress 目录模板下载

时序数据库系列（六）：物联网监控系统实战

迁移学习基础知识——迁移学习的问题形式化

java基础-ArrayList集合

做网站运营优质做网站价格

【双机位A卷】华为OD笔试之【哈希表】双机位A-采购订单【Py/Java/C++/C/JS/Go六种语言】【欧弟算法】全网注释最详细分类最全的华子OD真题题解

第十章、GPT1：Improving Language Understanding by Generative Pre-Training（代码部分）

2025全球生成式人工智能AIGC产业全景与行业应用研究报告|附900+份报告PDF、数据、可视化模板汇总下载

网站广告销售怎们做网站开发确认书

常见的模型性能评估图表案例解读

网站推广服务网站连锁金融网站怎么做

从协议中成长

⚡️2025-11-07GitHub日榜Top5｜AI舆情分析系统

云建站淘宝客网页设计教程表单

石河子农八师建设兵团社保网站餐饮营销方案

树模型

M5P

REPTree

DecisionStump

RandomTree

DecisionTable

元学习模型

meta.AdditiveRegression

meta.Bagging

meta.RandomCommittee

meta.RandomizableFilteredClassifier

meta.RandomSubSpace

meta.RegressionByDiscretization

懒惰学习

lazy.IBK

lazy.LWL

相关文章：