当前位置: 首页 > news >正文

决策树-信息增益(第二十三节课内容总结)

决策树

从根节点开始一步步走到叶子节点(决策), 所有的数据最终都会落到叶子节点,既可以做分类也可以做回归

用于衡量数据集的不确定性或混乱程度

熵的计算公式如下:

其中

H(D) 是数据集 D 的熵

pi​ 是数据集中第 i 类样本所占的比例

n 是数据集中类别的总数

熵的值越高,表示数据集的不确定性越大

信息增益

通过选择某个属性来分割数据集

其中:

IG(D,A) 是属性 A 对数据集 D 的信息增益

H(D) 是数据集 D 的熵

H(D∣A) 是在属性 A 的条件下,数据集 D 的条件熵

条件熵 H(D∣A) 的计算公式如下

其中:

Values(A) 是属性 A 所有可能的取值。

Dv​ 是在属性 A 取值为 v 时,数据集 D 的子集。

∣Dv​∣ 是子集 Dv​ 中样本的数量。

∣D∣ 是数据集 D 中样本的总数。

计算信息增益实例:

计算信息增益:

数据集中有5个样本,其中2个属于鱼类(是),3个不属于鱼类(否)

熵的计算公式为:

其中 pi​ 是第 i 类的概率。

对于这个数据集:

2. 计算每个属性的条件熵

属性1:不浮出水面是否可以生存

是:3个样本,其中2个是鱼类,1个不是

否:2个样本,都不是鱼类

条件熵 H(D∣A) 计算如下:

其中 H(D1​) 和 H(D2​) 分别是“是”和“否”条件下的熵。

属性2:是否有脚蹼

是:4个样本,其中2个是鱼类,2个不是

否:1个样本,不是鱼类

3. 计算信息增益

信息增益 IG(A) 和 IG(B) 分别为:

IG(A)=H(D)−H(D∣A)=0.971−0.551=0.420

IG(B)=H(D)−H(D∣B)=0.971−0.8=0.171

综上所述:属性“不浮出水面是否可以生存”的信息增益最大,为0.420

http://www.dtcms.com/a/337632.html

相关文章:

  • 上网行为安全管理与组网方案
  • 第四十天(Vue)
  • 【VUE】解决Vue路由重复导航报错
  • 嵌入式软件开发笔试题练习
  • 微算法科技(NASDAQ: MLGO)研究分片技术:重塑区块链可扩展性新范式
  • 智能代码助手革新开发效率
  • 【VUE】用EmailJS自动发送邮件到网易邮箱
  • JVM学习笔记-----类加载
  • 【深度学习4】神经网络-激活函数
  • 最短路spfa和多层图(P1073 [NOIP 2009 提高组] 最优贸易)题解
  • Linux系统等保三级安全加固执行手册(ReahtCentosKylin)
  • mq存量消息如何处理
  • STM32G4 Park及反Park变换(一)matlab建模
  • Spark 运行流程核心组件(三)任务执行
  • C语言基础:变量与进制详解
  • 直播美颜SDK架构揭秘:动态贴纸功能的实现原理与性能优化
  • 计算机网络技术-交换机配置(Day.2)
  • 戴尔易安信 PowerEdge R540服务器系统安装教程
  • 深度学习篇---卷积
  • 远程访问公司内网电脑怎么操作?3个简单通用的跨网异地连接管理计算机方法
  • IoT/透过oc_lwm2m和at源码,分析NB-IoT通信模组和主板MCU之间的通信过程
  • 自建K8s集群无缝集成阿里云RAM完整指南
  • 重温 K8s 基础概念知识系列五(存储、配置、安全和策略)
  • Kubernetes(K8s)常用命令全解析:从基础到进阶
  • kubeadm方式部署k8s集群
  • 备考国央企-算法笔记-01链表
  • HakcMyVM-Friendly
  • MongoDB Windows 系统实战手册:从配置到数据处理入门
  • Esp32基础(③旋转编码器)
  • 用一个label控件随便显示一些字(用矢量字库),然后用anim动画动态设置lable位置