当前位置: 首页 > news >正文

Day21_【机器学习—决策树(2)—ID3树 、C4.5树、CART树】

一、ID3 决策树

1. 核心思想

使用信息增益(Information Gain)作为特征选择的标准,递归地构建决策树。

2. 特征选择标准

  • 信息增益(IG)

               

  • 选择使信息增益最大的特征进行划分。

3. 优点

  • 算法简单,易于理解。
  • 能够生成可解释性强的规则。

4. 缺点

  • 只能处理离散(分类)特征,不能直接处理连续特征。
  • 偏向于选择取值较多的特征(因为信息增益会偏高)。

5. 适用任务

仅支持分类任务


二、C4.5 决策树

1. 核心思想

在 ID3 基础上改进,使用信息增益率(Gain Ratio)来克服信息增益的偏向性。

2. 特征选择标准

  • 信息增益率(Gain Ratio)

                    ​​​​​​​      

  • 使用增益率可以惩罚取值较多的特征,减少偏向。

3. 改进点(相比 ID3)

  • ✅ 支持连续特征:通过二分法寻找最佳分割点。
  • ✅ 支持缺失值处理:使用概率分布分配样本。
  • ✅ 引入剪枝(后剪枝):提高泛化能力。
  • ✅ 支持不同代价的误分类(代价敏感学习)。

4. 优点

  • 适用于真实世界复杂数据。

5. 缺点

  • 对噪声敏感。
  • 可能产生较多小分支。

7. 适用任务

仅支持分类任务


三、CART 决策树

1. 核心思想

使用基尼指数(分类)或平方误差(回归)作为划分标准,构建二叉树结构。

2. 特征选择标准

  • 分类任务:使用基尼指数(Gini Impurity)

  • 回归任务:使用最小平方误差(MSE),选择使子集方差最小的划分。

3. 树的结构

  • 必须是二叉树:每个节点只分裂为两个子节点。
  • 对离散特征:相当于进行“是/否”判断。
  • 对连续特征:寻找最优分割阈值。

4. 优点

  • 支持分类和回归两种任务。
  • 输出结果稳定,易于实现。
  • 支持剪枝,防止过拟合。

5. 缺点

  • 二叉树可能导致树较深。
  • 对数据变化敏感(小变化可能导致树结构大变)。

6. 适用任务

✅ 支持分类回归任务。

四、对比

五、小结

信息增益(ID3)、信息增益率值越大(C4.5),则说明优先选择该特征。

基尼指数值越小(cart),则说明优先选择该特征。


文章转载自:

http://6LCu5W6f.thrgp.cn
http://pXPGqhWP.thrgp.cn
http://iXEgZzgF.thrgp.cn
http://tnfwZmwY.thrgp.cn
http://VdZUWWGz.thrgp.cn
http://L3kjqX96.thrgp.cn
http://FVYh7SpX.thrgp.cn
http://hO6gAst8.thrgp.cn
http://edNZOrH3.thrgp.cn
http://CfESbIAW.thrgp.cn
http://WevoPO70.thrgp.cn
http://olpIYA9W.thrgp.cn
http://d7p68J1y.thrgp.cn
http://2Tz6TkqV.thrgp.cn
http://tDTuCkwe.thrgp.cn
http://N25UwX63.thrgp.cn
http://Cpow241R.thrgp.cn
http://13KiN2sV.thrgp.cn
http://eLHK6uYS.thrgp.cn
http://yhrFTyLJ.thrgp.cn
http://z68zZU6H.thrgp.cn
http://ht4lfa6p.thrgp.cn
http://gcmOfDUd.thrgp.cn
http://ID4rOgyY.thrgp.cn
http://ApDmp6Ge.thrgp.cn
http://2ifBCJo9.thrgp.cn
http://hBakjcAL.thrgp.cn
http://2djixBg0.thrgp.cn
http://DtXzDzxa.thrgp.cn
http://pqUuSyef.thrgp.cn
http://www.dtcms.com/a/369246.html

相关文章:

  • std::complex
  • 深度解读:PSPNet(Pyramid Scene Parsing Network) — 用金字塔池化把“场景理解”装进分割网络
  • 【WRF-Chem】SYNMAP 土地覆盖数据概述及处理(二进制转geotiff)
  • 怎么快速构建一个deep search模型呢
  • Dify基础应用
  • 日语学习-日语知识点小记-构建基础-JLPT-N3阶段(26):文法+单词第8回3 复习 +考え方6
  • Screen 三步上手
  • Pspice仿真电路:(三十六)变压器仿真
  • pydantic定义llm response数据模型
  • 开学信息收集不再愁,这个工具太省心
  • 豆包 arraylist顺序会变么
  • 软考最稳定的一个科目,你认同吗?
  • 【问题解决】mac笔记本遇到鼠标无法点击键盘可响应处理办法?(Command+Option+P+R)
  • 介电常数何解?
  • VMwaer虚拟机安装完Centos后无法联网问题
  • 【阿里存储桶OSS】桶ACL解释
  • Beetle RP2350开发板使用指南之【环境搭建 / 点灯】
  • Y3垂起标准配置文件解析()
  • JSON转义
  • Kaggle - LLM Science Exam 大模型做科学选择题
  • CSS定位与浮动:脱离常规流的艺术
  • C/C++ 与 Lua 互相调用详解
  • mysq集群高可用架构之组复制MGR(单主复制-多主复制)
  • PyInstaller完整指南:将Python程序打包成可执行文件
  • SQL工具30年演进史:从Oracle到Navicat、DBeaver,再到Web原生SQLynx
  • Linux 综合练习
  • 详解iOS应用如何成功上架App Store:从准备到发布与优化
  • 2025.09.05 用队列实现栈 有效的括号 删除字符串中的所有相邻重复项
  • Unity学习----【进阶】Addressables(二)--加载资源与打包及更新
  • 变频器【简易PLC】功能中的时间问题