当前位置: 首页 > news >正文

决策树简单实战

一、数据集长这样

有 5 条样本,2 个特征(不浮出水面是否可以生存、是否有脚蹼 ),标签是 属于鱼类,数据如下:

样本不浮出水面是否可以生存是否有脚蹼属于鱼类
1
2
3
4
5

二、核心思路:用 “熵” 找最佳分类特征

决策树靠熵(混乱度)选特征,熵越大数据越乱。我们要找 “分完类后,标签混乱度降最多” 的特征,这一步叫信息增益。

先算 “标签(属于鱼类)” 的熵

标签里  出现 2 次, 出现 3 次,总样本 5 条。
熵公式:H=−∑(pi​×log2​pi​),其中 pi​ 是类别占比。
计算得:属于鱼类(具体计算看之前的步骤,记住这是初始混乱度!)

算特征的 “条件熵”(分完类后的混乱度)

特征 1:不浮出水面是否可以生存

特征值 = :包含样本 1、2、3(共 3 条),标签里  占 2/3, 占 1/3,条件熵 H1​≈0.918。

特征值 = :包含样本 4、5(共 2 条),标签全是 ,条件熵 H2​=0(纯混乱度为 0 )。

条件熵整体:属于鱼类不浮出水面

特征 2:是否有脚蹼

特征值 = :包含样本 1、2、4、5(共 4 条),标签里  占 2/4, 占 2/4,条件熵 H1​=1。

特征值 = :包含样本 3(共 1 条),标签是 ,条件熵 H2​=0。

条件熵整体:属于鱼类是否有脚蹼

特征 “不浮出水面”:0.971−0.551=0.42

特征 “是否有脚蹼”:0.971−0.8=0.171

“不浮出水面是否可以生存” 信息增益更大。

三、总结

决策树靠 “熵” 选特征,一步步把混乱数据分类。核心逻辑就是“找大当家和各个小当家”

把复杂问题拆成简单判断!

下期再见!

http://www.dtcms.com/a/337300.html

相关文章:

  • 【github-action 如何为github action设置secrets/environment】
  • 《软件工程导论》实验报告六 设计建模工具的使用(二)
  • 蓝牙AOA定位技术在智慧仓储中的优势与挑战
  • Python 面向对象三大特性详解(与 C++ 对比)
  • (nice!!!)(LeetCode 每日一题) 679. 24 点游戏 (深度优先搜索)
  • 华曦达港股IPO观察丨以创新研发为笔,构建AI Home智慧生活新蓝图
  • 图形自动化:pynput实现Win11系统动作点击录制与回放
  • 【HarmonyOS】应用设置全屏和安全区域详解
  • 广州曼顿智能断路器:让用电更聪明,生活更安心!
  • Java面试宝典:Redis高级特性和应用(发布 订阅、Stream)
  • Redis面试精讲 Day 25:Redis实现分布式Session与购物车
  • Redis---持久化策略
  • SSM-组件的批量扫描
  • 时、分、秒、倒计时组件
  • Redis 客户端安装方法
  • Spring Boot + Spring Kafka 集成
  • 深层语义知识图谱:提升NLP文本预处理效果的关键技术
  • 《基于改进 MobileNetV2 的轻量化茶叶病虫害检测方法》论文解析
  • Redis--day8--黑马点评--分布式锁(一)
  • HTML应用指南:利用POST请求获取全国华为旗舰店门店位置信息
  • Python函数:装饰器
  • c++最长上升子序列长度
  • 雷卯针对香橙派Orange Pi 5 Plus开发板防雷防静电方案
  • JavaWeb 请求与响应乱码问题全面解决方案
  • React diff——差异协调算法简介
  • 算法-决策树
  • 从决策树基础到熵与信息增益
  • 网络间的通用语言TCP/IP-网络中的通用规则1
  • 本地文件上传到gitee仓库的详细步骤
  • sem_post函数的定义及作用