当前位置：首页 > news >正文

集成学习算法简介

news 2025/9/4 9:37:33

学习⽬标

了解什么是集成学习

知道机器学习中的两个核⼼任务

了解集成学习中的boosting和bagging

什么是集成学习

集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预

测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。

集成学习中boosting和Bagging

只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的

Bagging和随机森林

学习⽬标

知道Bagging集成原理

知道随机森林构造过程

知道什么是包外估计

知道RandomForestClassifier的使⽤

了解baggind集成的优点

Bagging集成原理

⽬标：把下⾯的圈和⽅块进⾏分类

实现过程：

1) 采样不同数据集

2)训练分类器

3)平权投票，获取最终结果

4)主要实现过程⼩结

2 随机森林构造过程

在机器学习中，随机森林是⼀个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数⽽定。

随机森林 = Bagging + 决策树

例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个树的结果是False, 那么最终投票结果就是True

随机森林够造过程中的关键步骤(M表示特征数⽬)：

1)⼀次随机选出⼀个样本，有放回的抽样，重复N次(有可能出现重复的样本)

2) 随机去选出m个特征, m <<M，建⽴决策树

思考

1.为什么要随机抽样训练集？

如果不进⾏随机抽样，每棵树的训练集都⼀样，那么最终训练出的树分类结果也是完全⼀样的

2.为什么要有放回地抽样？

如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是“有偏的”，都是绝对“⽚⾯的”(当然这样说可能不对)，也就是说每棵树训练出来都是有很⼤的差异的；⽽随机森林最后分类取决于多棵树(弱分类器)的投票表决。

包外估计 (Out-of-Bag Estimate)

在随机森林构造过程中，如果进⾏有放回的抽样，我们会发现，总是有⼀部分样本我们选不到。

这部分数据，占整体数据的⽐重有多⼤呢？

这部分数据有什么⽤呢

包外估计的定义

随机森林的 Bagging 过程，对于每⼀颗训练出的决策树 g ，与数据集 D 有如下关系：

由于基分类器是构建在训练样本的⾃助抽样集上的，只有约 63.2％原样本集出现在中，⽽剩余的 36.8％的数据作为包

外数据，可以⽤于基分类器的验证集。

经验证，包外估计是对集成分类器泛化误差的⽆偏估计.

在随机森林算法中数据集属性的重要性、分类器集强度和分类器间相关性计算都依赖于袋外数据。

包外估计的⽤途

当基学习器是决策树时，可使⽤包外样本来辅助剪枝，或⽤于估计决策树中各结点的后验概率以辅助对零训练样

本结点的处理；

当基学习器是神经⽹络时，可使⽤包外样本来辅助早期停⽌以减⼩过拟合。

随机森林api介绍

sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True,

random_state=None, min_samples_split=2)

n_estimators：integer，optional(default = 10)森林⾥的树⽊数量120,200,300,500,800,1200

在利⽤最⼤投票数或平均值来预测之前，你想要建⽴⼦树的数量。

Criterion：string，可选(default =“gini”)

分割特征的测量⽅法

max_depth：integer或None，可选(默认=⽆)

树的最⼤深度 5,8,15,25,30

max_features="auto”,每个决策树的最⼤特征数量

If "auto", then max_features=sqrt(n_features) .

If "sqrt", then max_features=sqrt(n_features) (same as "auto").

If "log2", then max_features=log2(n_features) .

If None, then max_features=n_features .

bootstrap：boolean，optional(default = True)

是否在构建树时使⽤放回抽样

min_samples_split 内部节点再划分所需最⼩样本数

这个值限制了⼦树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择

最优特征来进⾏划分，默认是2。

如果样本量不⼤，不需要管这个值。如果样本量数量级⾮常⼤，则推荐增⼤这个值。

min_samples_leaf 叶⼦节点的最⼩样本数

这个值限制了叶⼦节点最少的样本数，如果某叶⼦节点数⽬⼩于样本数，则会和兄弟节点⼀起被剪枝，

默认是1。

叶是决策树的末端节点。较⼩的叶⼦使模型更容易捕捉训练数据中的噪声。

⼀般来说，我更偏向于将最⼩叶⼦节点数⽬设置为⼤于50。

min_impurity_split: 节点划分最⼩不纯度

这个值限制了决策树的增⻓，如果某节点的不纯度(基于基尼系数，均⽅差)⼩于这个阈值，则该节点不再

⽣成⼦节点。即为叶⼦节点。

⼀般不推荐改动默认值1e-7。

上⾯决策树参数中最重要的包括

最⼤特征数max_features，

最⼤深度max_depth，

内部节点再划分所需最⼩样本数min_samples_split

叶⼦节点最少样本数min_samples_leaf。

随机森林预测案例

实例化随机森林

# 随机森林去进⾏预测

rf = RandomForestClassifier()

定义超参数的选择列表

param = {"n_estimators": [120,200,300,500,800,1200], "max_depth": [5, 8, 15, 25, 30]}

使⽤GridSearchCV进⾏⽹格搜索

# 超参数调优
gc = GridSearchCV(rf, param_grid=param, cv=2)
gc.fit(x_train, y_train)
print("随机森林预测的准确率为：", gc.score(x_test, y_test))

注意

随机森林的建⽴过程

树的深度、树的个数等需要进⾏超参数调优

bagging集成优点

Bagging + 决策树/线性回归/逻辑回归/深度学习… = bagging集成学习⽅法

经过上⾯⽅式组成的集成学习⽅法:

1. 均可在原有算法上提⾼约2%左右的泛化正确率

2. 简单, ⽅便, 通⽤

6 ⼩结

bagging集成过程【知道】

1.采样 — 从所有样本⾥⾯，采样⼀部分

2.学习 — 训练弱学习器

3.集成 — 使⽤平权投票

随机森林介绍【知道】

随机森林定义

随机森林 = Bagging + 决策树

流程：

1.随机选取m条数据

2.随机选取k个特征

3.训练决策树

4.重复1-3

5.对上⾯的若决策树进⾏平权投票

注意：

1.随机选取样本，且是有放回的抽取

2.选取特征的时候吗，选择m<<M

M是所有的特征数

包外估计

如果进⾏有放回的对数据集抽样，会发现，总是有⼀部分样本选不到；

api

sklearn.ensemble.RandomForestClassifier()

Bagging + 决策树/线性回归/逻辑回归/深度学习… = bagging集成学习⽅法【了解】

bagging的优点【了解】

1.均可在原有算法上提⾼约2%左右的泛化正确率

2.简单, ⽅便, 通⽤

bagging集成与boosting集成的区别：

区别⼀:数据⽅⾯

Bagging：对数据进⾏采样训练；

Boosting：根据前⼀轮学习结果调整数据的重要性。

区别⼆:投票⽅⾯

Bagging：所有学习器平权投票；

Boosting：对学习器进⾏加权投票。

区别三:学习顺序

Bagging的学习是并⾏的，每个学习器没有依赖关系；

Boosting学习是串⾏，学习有先后顺序。

区别四:主要作⽤

Bagging主要⽤于提⾼泛化性能（解决过拟合，也可以说降低⽅差）

Boosting主要⽤于提⾼训练精度（解决⽋拟合，也可以说降低偏差）

AdaBoost介绍

4.1 构造过程细节

步骤⼀：初始化训练数据权重相等，训练第⼀个学习器。

该假设每个训练样本在基分类器的学习中作⽤相同，这⼀假设可以保证第⼀步能够在原始数据上学习基

本分类器H (x)

步骤⼆：AdaBoost反复学习基本分类器，在每⼀轮m = 1, 2, ..., M顺次的执⾏下列操作：

（a）在权值分布为D 的训练数据上，确定基分类器；

（b）计算该学习器在训练数据中的错误率：

ε = P(h (x ) ≠ y )

（c）计算该学习器的投票权重：

将下⼀轮学习器的注意⼒集中在错误数据上

重复执⾏a到d步，m次；

步骤三：对m个学习器进⾏加权投票

关键点剖析

如何确认投票权重？

如何调整数据分布？

查看全文

http://www.dtcms.com/a/365484.html

水资源论证方法与报告编制技术及实际案例分析

ruoyi vue element 实现点击、返回首页收起已经展开的菜单栏

CI/CD流水线驱动自动化流程深度解析：选型、竞品、成本与资源消耗

Java项目打包成EXE全攻略

企业内网安全守护全面指南：从基础防护到智能管理的一站式解决方案

vue3前端开发的基础教程——快速上手

BERT实战|推理与微调

如何从PDF中高效提取表格数据

Top 10 Kali Linux Tools for Hacking 2025.2

Flutter + Web：深度解析双向通信的混合应用开发实践

深入解析 MySQL 存储引擎架构

智能制造——解读71页装备制造集团SCM集成计划体系顶层设计方案【附全文阅读】

超低延迟RTSP播放器的技术挑战与跨平台实现之道

AWK文本处理工具

【Python练习题】Python小白必练100题答案-第81-97题

采暖系统误区汇总！80%家庭中招，这样用才省电又健康

特斯拉“宏图4.0”计划定调AI革命，相关巨头入局人形机器人赛道竞速升级！

做 DevOps 还在被动救火？这篇让你把监控玩成 “运维加速器”！

【FastDDS】Layer DDS之Domain ( 03-DomainParticipantListener)

GEO服务商推荐：移山科技以划时代高精尖技术引领AI搜索优化新纪元

淘宝京东拼多多爬虫实战：反爬对抗、避坑技巧与数据安全要点

非力扣100原题

力扣hot100:螺旋矩阵（边界压缩，方向模拟）（54）

2 XSS

PLSQL导入excel数据的三种方法

GitHub 宕机自救指南技术文章大纲

模板进阶

Python/JS/Go/Java同步学习(第二篇)四语言数据基本类型对照表: 老板让我统一系统数据类型？（附源码/截图/参数表/老板沉默术）

GitLab Milestones 深度解析：选型、竞品、成本与资源消耗

本地Merge-github有新的远程提交与本地新修改