数据科学每日总结--Day13--数据挖掘
树模型
M5P
作用:构建“模型树”,即在树的每个叶节点用线性回归方程来预测数值。适合回归任务。
- 优点:
能处理复杂的非线性关系,同时在每个叶节点用线性模型细化预测,精度高。
解释性较好,可以看到分裂规则和线性方程。
缺点:
对噪声敏感,树结构可能较复杂。
训练速度比简单树慢。
侧重点:既能分群,又能在群内拟合线性关系,适合数据有明显分段线性特征时。
REPTree
作用:快速构建决策树,支持回归和分类。采用信息增益/方差减少分裂,剪枝防止过拟合。
- 优点:
速度快,适合大数据集。
剪枝机制减少过拟合。
- 缺点:
解释性一般,树结构可能不如M5P细致。
对异常值敏感。
侧重点:快速建模,适合初步探索数据结构。
DecisionStump
作用:只分裂一次的“单层树”,即只用一个属性做一次分裂。常用于集成学习的基学习器。
- 优点:
极其简单,速度快。
在集成方法中(如Bagging、Boosting)表现好。
- 缺点:
单独使用时预测能力极弱。
不能捕捉复杂关系。
侧重点:作为集成学习的“弱学习器”,单独分析时仅能做最粗略的分群。
RandomTree
作用:构建随机决策树,每次分裂只考虑部分属性。是RandomForest的基础。
- 优点:
能处理高维数据,抗过拟合。
速度快,适合大数据。
- 缺点:
单棵树不稳定,结果波动大。
解释性较差。
侧重点:用于集成(如RandomForest),单独用时适合探索数据多样性。
DecisionTable
作用:基于属性组合的查找表,适合分类和回归。通过属性子集选择和查找表预测。
- 优点:
解释性好,能清楚看到哪些属性组合影响结果。
对缺失值有一定容忍度。
- 缺点:
对高维数据不友好,表太大时效率低。
不能捕捉复杂非线性关系。
侧重点:适合属性较少、组合关系明显的数据。
元学习模型
meta.AdditiveRegression
作用:集成方法,类似Boosting。通过多轮训练,每轮拟合前一轮的残差,最终将多个弱学习器加权组合。
- 优点:
能显著提升弱学习器的性能。
对复杂关系拟合能力强。
- 缺点:
对噪声敏感,容易过拟合。
训练时间长。
侧重点:提升回归模型精度,适合模型基础能力一般时。
meta.Bagging
作用:集成方法,通过对数据多次有放回采样,训练多个模型,最终结果取平均(回归)或投票(分类)。
- 优点:
降低方差,提升稳定性。
抗过拟合能力强。
- 缺点:
解释性差,难以理解整体模型逻辑。
训练资源消耗大。
侧重点:提升模型稳定性,适合基础模型波动大时。
meta.RandomCommittee
作用:集成方法,训练多个基础模型(通常是随机树),结果取平均。
- 优点:
提升预测精度,抗过拟合。
适合高维数据。
- 缺点:
解释性差。
训练时间长。
侧重点:提升模型泛化能力,适合复杂数据。
meta.RandomizableFilteredClassifier
作用:集成和预处理结合,先对数据做过滤(如特征选择、变换),再用可随机化的分类器训练。
- 优点:
能自动处理数据预处理和建模。
灵活性高。
- 缺点:
配置复杂,解释性一般。
依赖过滤器和基础模型性能。
侧重点:适合需要自动化预处理和建模的场景。
meta.RandomSubSpace
作用:集成方法,每个基础模型只用部分特征子集训练,结果集成。
- 优点:
提升模型多样性,抗过拟合。
适合高维数据。
- 缺点:
解释性差。
训练时间长。
侧重点:适合特征很多、模型容易过拟合的数据。
meta.RegressionByDiscretization
作用:将回归问题转化为分类问题(通过离散化目标变量),再用分类器预测,最后将分类结果映射回数值。
- 优点:
能用强大的分类器解决回归问题。
适合目标变量分布不均时。
- 缺点:
精度受离散化影响,解释性一般。
可能损失连续性信息。
侧重点:适合目标变量分布特殊、分类器强于回归器时。
懒惰学习
lazy.IBK
作用:K近邻算法(KNN),预测时查找最近的K个样本,取平均(回归)或投票(分类)。
- 优点:
无需训练,模型简单。
能捕捉局部模式。
- 缺点:
对数据规模和噪声敏感,预测慢。
不能解释全局规律。
侧重点:适合数据量不大、局部规律明显时。
lazy.LWL
作用:局部加权学习,每次预测时在邻域内训练一个模型(如线性回归),用加权方式预测。
- 优点:
能捕捉复杂的局部非线性关系。
灵活性高。
- 缺点:
预测慢,计算量大。
解释性差。
侧重点:适合数据分布复杂、局部模式强烈时。
