当前位置: 首页 > news >正文

机器学习-决策树(下)

多个决策树:

前面讨论提到的所有决策树都是只有单个决策树,而实际上如果样本数据存在一些微小的变化,决策树却有可能发生很大的变动,因为每一个节点的选择都与样本息息相关。因此这样的决策树对数据变动非常敏感,为了增强稳健性我们可以一次构造多个决策树。

为了构造多个决策树,我们需要对原始的样本进行处理,已得到多批训练样本,因此引入有放回抽样的概念,即在每一次随机抽取后,将抽取到的样本重新放回,再进行下一次抽样。有放回抽样可以创建与原训练集类似但又不同的新训练集。

袋装决策树:

假设原训练集共有m个样本,那么一共进行B轮,每一轮都进行m次有放回抽样,我们就得到了B个不同的训练集(每个训练集样本个数都是m,且每一个训练集中都可能存在样本重复),也就可以训练B个决策树(一般B取64-128)。

随机森林:

假设样本共有n个特征,在每一棵树每一个节点进行实际节点决策时,规定从k<n的k个特征中,根据最大信息增益来选择特征作为节点,当n的取值较大时,一般取k=\sqrt{n}。这样做可以增强森林的多样性,降低树与树之间的相关性,从而提升模型的泛化能力。

假设k=n,那么在所有特征中,总有一个或多个特征是比较具有判别力的,因此在节点选择时每一棵树都会倾向于选择这些特征作为顶部节点进行分裂,也就导致了树具有较高的相似性,树与树之间高度相关。因此这样更有可能导致模型过拟合、泛化能力差

由于每次分裂时可用的特征不同,每棵树被迫去寻找不同的、可能不那么明显但仍有用的分裂方式。这大大增加了森林中树的多样性。不同的树使用不同的特征集,使得它们犯的错误也不同,从而得到更稳定、更准确的总体预测。

XGBoost:

与袋装决策树的独立随机抽样不同,此时我们不再进行完全的随机抽样,而是增加在已构造的树集合中表现得较差的样本的被抽取到的概率,也就是说,我们在后续决策树的构造中,会更多地关注前面的树中表现不好的样本,尽可能地学习好每一个训练样本,也就增强了模型的泛化能力。可以类比此时的决策树是“串行”的,每一个树(模型)都在尽量地修正前面的树(模型)的错误。

决策树与神经网络:

两者作为有效地机器学习方法,各自适用的范围并不一致。

对于决策树,根据其构造过程可知,其更适用于结构化的数据(也就是可以用表格形式展示的数据),而对于非结构化的图像、音频或文本,则表现不好。同时,其训练速度较快。

对于神经网络,其可以适用于所有类型的数据,不过相应的训练速度较慢,但可以于迁移学习结合,也可以多个神经网络串联。


文章转载自:

http://rNv7il4y.dqrpz.cn
http://Q65dlFIb.dqrpz.cn
http://UA1AVHNl.dqrpz.cn
http://rWzKuYlm.dqrpz.cn
http://69Vu5xZJ.dqrpz.cn
http://GXXHLrT6.dqrpz.cn
http://gpDSbSG4.dqrpz.cn
http://KHSzcOvO.dqrpz.cn
http://4PNwD1Fy.dqrpz.cn
http://E81WgjtR.dqrpz.cn
http://AifrnX3S.dqrpz.cn
http://Yxl2gTWV.dqrpz.cn
http://ZlfqXS4q.dqrpz.cn
http://zzoKzKBq.dqrpz.cn
http://nsjbuSYG.dqrpz.cn
http://rPZZYqBP.dqrpz.cn
http://gWZSJw2g.dqrpz.cn
http://zZAPPmk6.dqrpz.cn
http://sXcm3Bm4.dqrpz.cn
http://GlXqL5K3.dqrpz.cn
http://hjL8lF9y.dqrpz.cn
http://aUzNxUgx.dqrpz.cn
http://LsS0455B.dqrpz.cn
http://6AZkHecN.dqrpz.cn
http://GcL5cqqe.dqrpz.cn
http://UzeaWZTq.dqrpz.cn
http://M18jnSiP.dqrpz.cn
http://nWsZD6oq.dqrpz.cn
http://BgBjcLuB.dqrpz.cn
http://RL2yJWAP.dqrpz.cn
http://www.dtcms.com/a/367943.html

相关文章:

  • 如何将视频从 iPhone 转移到 Mac
  • 基于Echarts+HTML5可视化数据大屏展示-旅游智慧中心
  • AI API Tester体验:API测试工具如何高效生成接口测试用例、覆盖异常场景?
  • 四六级学习资料管理系统的设计与实现(代码+数据库+LW)
  • (3)Seata AT 模式的事务一致性保证机制
  • MySQL主从同步--主从复制进阶
  • VisionMaster 4.2.0安装
  • FastVLM-0.5B 模型解析
  • 球坐标系下调和函数的构造:多项式边界条件的求解方法
  • 基于SpringBoot的旅游管理系统的设计与实现(代码+数据库+LW)
  • 【面试】框架常见面试(追问)
  • Android/Java 中接口(Interface)的使用场景、用途和方法
  • android 读取cpu+m1类型的nfc卡片,设置只读写m1的内容
  • 扫描件、PDF、图片都能比对!让文档差异无所遁形
  • 【FastDDS】Discovery ( 05-Discovery Server Settings)
  • 嵌入式第四十六天(51单片机(通信))
  • 通过Gen AI SDK调用gemini 2.5 pro,单独上传pdf文件 | ai agent 开发笔记 2025.9.2 Day 2
  • Linux服务器暴走,用Netdata+cpolar轻松驯化
  • Node.js 做 Web 后端优势为什么这么大?
  • Windows 文件资源管理器无法预览文件内容word、ppt、excel、pdf
  • android 四大组件—BroadcastReceiver
  • 聊一聊 .NET 中的 CancellationTokenSource
  • Ubuntu 22 redis集群搭建
  • 开发环境 之 编辑器、编译器、IDE梳理
  • adobe acrobat 安装到使用再到PDF编辑【适合小白,只看一篇就够!!!】
  • [VF2] Boot Ubuntu和Debian发行版
  • 模型剪枝----ResNet18剪枝实战
  • CSS Position 属性
  • 【Android】制造一个ANR并进行简单分析
  • 《sklearn机器学习——回归指标1》