集成算法概述与分类
集成算法概述
核心思想:综合多个模型(“多个专家”)的判断,以获得比单一模型更好的预测效果。
常见结合策略:
简单平均法
加权平均法
投票法(少数服从多数)
集成算法的分类
根据个体学习器之间的依赖关系和生成方式,集成学习分为三类:
1. Bagging(Bootstrap Aggregation)
特点:并行训练多个基学习器,彼此之间无强依赖。
代表算法:随机森林(Random Forest)
通过数据采样随机和特征选择随机构建多棵决策树。
分类任务使用投票法,回归任务使用平均法。
优势:
处理高维数据,无需特征选择。
可评估特征重要性。
支持并行化,训练速度快。
可可视化分析。
2. Boosting
特点:串行训练多个弱学习器,根据前一轮结果调整样本权重。
代表算法:AdaBoost
步骤:
1. 初始化样本权重。
2. 训练弱分类器,调整错分样本权重。
3. 组合多个弱分类器,按准确率赋予不同权重。
思想:逐步强化模型,重点关注难分的样本。
3. Stacking
特点:堆叠多种不同类型的模型,分阶段训练。
第一阶段:多个基模型独立预测。
第二阶段:使用第一阶段结果训练一个元模型(meta-model)进行最终预测。
可融合多种模型:如KNN、SVM、随机森林等。