当前位置: 首页 > news >正文

【22.2 增强决策树】

1、增强决策树 XGBoost

除了随机森林,还有一种更好的算法,XGBoost。

迄今为止,最常用的实现决策树的算法是,XGBoost,运行速度快,开源,易用。

回顾上部分的随机森林算法,从原始样本集n中有放回的取一部分样本集k个,用k个样本来训练决策树,然后重复取k个,训练决策树,直到达到停止标准。(重复B次)

当每次重复这个循环时,改变的一点是,在抽样时,不是以相同的概率选择每个训练样本,而是以更高的概率去选择那些在目前构建的树集合中表现较差的样本(那些被决策树错误分类的样本,有更高的概率被选中)。

image.png

在教育和培训中,有刻意练习的概念,重点放在那些会搞错,自己尚未掌握的知识点上。

这和 boosting 的想法一致。找到那些目前被决策树分类错误的样本,然后再训练一次,这次新构建的决策树,在这些被分类错误的样本上,很可能会有更好的表现。关注那些尚未处理好(错误分类)的例子集上,而不是关注于整个样本集,这对于学习更高效。

具体来说,检查刚刚构建好的决策树,并回到原始训练集(注意是原始全部训练集,而非抽取的部分样本),检查这个决策树对原始训练集的预测结果。

在第二次循环中,使用有放回抽样来重新生成训练集,每次选取样本时,那些被错误分类的样本有更大的概率会被选中,这会让第二棵树以类似于刻意练习的方式关注这些被分类错误的样本示例。

这种提升过程将总被执行B次。

在每次迭代中,我们会检查第一棵树、第二棵树…第B-1棵树的训练出错的样本,在构建第B棵树的训练集时,这些样本有更大的概率被选中。

(在数学上,如何实现增加某个样本相对于其他样本的被选中的概率,具体实现比较复杂)

在各种实现提升的方法中,XGBoost 被广泛使用,代表极端梯度提升 Extreme Gradient Boosting。这是一个快速、高效、且开源的提升树实现。

image.png

区别于有放回抽样,XGBoost会为不同的训练样本分配不通的权重,所以它实际上不需要生成大量随机选择的训练集,这使得它比使用有放回抽样要高效。

XGBoost的实现细节比较复杂,但可以使用它的开源库,使用算法做分类和回归的区别在于:分类是有限的离散点;回归是无限的连续点。

image.png

2、何时使用决策树/神经网络

优缺点

决策树和树集合:

优点:

1、通常在表格数据上(结构化数据)表现良好;

示例:基于房屋特征预测房屋价格的数据集。存储在电子表格中的数据;无论是分类还是回归,预测离散值或连续值时;

并不推荐在非结构化数据上使用决策树,比如图片,音频,文本(不以电子表格形式存储的)。

2、决策树和集成树的训练速度特别快;

3、小的决策树(如几十个节点),可以被人为理解分析;

集成树:

比单个决策树计算成本略高;

(除非个人预算非常有限的情况下,一般推荐使用集成树,使用XGBoost算法)

神经网络:

(适合处理非结构化数据任务;)

优点:

在所有类型的数据上都表现良好,包括结构化和非结构化数据,以及混合类型的数据。

可以与迁移学习(transfer learning)结合。 当数据集很小时,无法基于私有的数据集来训练出良好表现的模型,就不得不使用迁移学习(即,将在别的大量数据上预训练过的模型,拿来在自己的数据集上做微调)。

技术实现上,将多个神经网络串联使用是容易的,以构建一个更大的机器学习系统。

基本原因是,神经网络将输出y计算为输入x的平滑或连续函数,因此,即使你串联了很多不同的模型,这些不同模型的输出本身也是可微分的(differentiable),所以你可以同时使用梯度下降算法来训练它们。

若要构建由多个机器学习模型协同工作的系统,串联和训练多个神经网络比多个决策树更容易。而决策树一次只能训练一棵树。

缺点:

计算成本要比决策树要高,训练时间较长。

image.png

监督学习需要带有标签Y的训练集数据,另外,还有一类非常强大的算法叫做无监督学习算法,它们并不需要标签Y也能找出非常有趣的模式并处理。

http://www.dtcms.com/a/461116.html

相关文章:

  • ComfyUI进行游戏制作需要的算力?
  • 一夜暴富!程序员都热衷炒股吗?
  • 哪些品牌的茶含片比较受欢迎?
  • 前端jquery框架
  • PostIn入门到实战(9) - 如何通过接口场景测试来验证业务场景的正确性
  • 网站联系方式修改个人个体工商户查询
  • 服务商和OEM解耦的汽车网络安全密钥管理方案
  • LLM时代基于unstructured解析非结构化html
  • 混合动力汽车MATLAB建模实现方案
  • 到底什么是智能网联汽车??第四期——汽车通信系统应用及开发
  • 【开题答辩全过程】以 百宝汽配汽车维修智能管理系统为例,包含答辩的问题和答案
  • ASM1042芯片在汽车BCM项目的工程化应用探索
  • 【工具变量】国家智慧城市试点名单DID数据(2000-2024年)
  • 手机网站设计费用衡水网站建设培训学校
  • 专业网站建设市场网站开发时app打开很慢
  • 悟空AI CRM15版本 客户标签 功能
  • 【开题答辩实录分享】以《面向农业领域的智能灌溉系统》为例进行答辩实录分享
  • JVM 永久代垃圾回收深度解析
  • 什么是电迁移?
  • 编程记录五
  • 【硬核配置】MySQL配置文件my.cnf/ini全参数深度解析:从入门到高可用架构调优
  • QEM算法原理与实现 (QEM Algorithm Explained)
  • 网站建设都有哪些宁德市住房和城乡建设局网站打不开
  • 嘉兴网络建站模板网站建设选择题
  • Apple M3 MacOS arm64 编译QGroundControl5.0.8(base on Qt 6.8.3)
  • web socket消息推送
  • MyBatis入门指南:从零掌握数据库操作
  • OpenTiny TinyVue组件有哪些常用组件?
  • 马鞍山市住房和城乡建设部网站软件公司宣传册设计样本
  • kafka3.9集群部署-kraft模式