当前位置：首页 > news >正文

决策树简单实战

news 2025/8/20 20:00:24

一、数据集长这样

有 5 条样本，2 个特征（不浮出水面是否可以生存、是否有脚蹼），标签是属于鱼类，数据如下：

样本	不浮出水面是否可以生存	是否有脚蹼	属于鱼类
1	是	是	是
2	是	是	是
3	是	否	否
4	否	是	否
5	否	是	否

二、核心思路：用 “熵” 找最佳分类特征

决策树靠熵（混乱度）选特征，熵越大数据越乱。我们要找 “分完类后，标签混乱度降最多” 的特征，这一步叫信息增益。

先算 “标签（属于鱼类）” 的熵

标签里 是 出现 2 次，否 出现 3 次，总样本 5 条。
熵公式：H=−∑(pi×log2pi)，其中 pi 是类别占比。
计算得：属于鱼类（具体计算看之前的步骤，记住这是初始混乱度！）

算特征的 “条件熵”（分完类后的混乱度）

特征 1：不浮出水面是否可以生存

特征值 = 是：包含样本 1、2、3（共 3 条），标签里 是 占 2/3，否 占 1/3，条件熵 H1≈0.918。

特征值 = 否：包含样本 4、5（共 2 条），标签全是 否，条件熵 H2=0（纯混乱度为 0 ）。

条件熵整体：属于鱼类不浮出水面

特征 2：是否有脚蹼

特征值 = 是：包含样本 1、2、4、5（共 4 条），标签里 是 占 2/4，否 占 2/4，条件熵 H1=1。

特征值 = 否：包含样本 3（共 1 条），标签是 否，条件熵 H2=0。

条件熵整体：属于鱼类是否有脚蹼

特征 “不浮出水面”：0.971−0.551=0.42

特征 “是否有脚蹼”：0.971−0.8=0.171

“不浮出水面是否可以生存” 信息增益更大。

三、总结

决策树靠 “熵” 选特征，一步步把混乱数据分类。核心逻辑就是“找大当家和各个小当家”

把复杂问题拆成简单判断！

下期再见!

查看全文

http://www.dtcms.com/a/337300.html

【github-action 如何为github action设置secrets/environment】

《软件工程导论》实验报告六设计建模工具的使用（二）

蓝牙AOA定位技术在智慧仓储中的优势与挑战

Python 面向对象三大特性详解（与 C++ 对比）

(nice!!!)(LeetCode 每日一题) 679. 24 点游戏（深度优先搜索）

华曦达港股IPO观察丨以创新研发为笔，构建AI Home智慧生活新蓝图

图形自动化：pynput实现Win11系统动作点击录制与回放

【HarmonyOS】应用设置全屏和安全区域详解

广州曼顿智能断路器：让用电更聪明，生活更安心！

Java面试宝典：Redis高级特性和应用(发布订阅、Stream)

Redis面试精讲 Day 25：Redis实现分布式Session与购物车

Redis---持久化策略

SSM-组件的批量扫描

时、分、秒、倒计时组件

Redis 客户端安装方法

Spring Boot + Spring Kafka 集成

深层语义知识图谱：提升NLP文本预处理效果的关键技术

《基于改进 MobileNetV2 的轻量化茶叶病虫害检测方法》论文解析

Redis--day8--黑马点评--分布式锁（一）

HTML应用指南：利用POST请求获取全国华为旗舰店门店位置信息

Python函数:装饰器

c++最长上升子序列长度

雷卯针对香橙派Orange Pi 5 Plus开发板防雷防静电方案

JavaWeb 请求与响应乱码问题全面解决方案

React diff——差异协调算法简介

算法-决策树

从决策树基础到熵与信息增益

网络间的通用语言TCP/IP-网络中的通用规则1

本地文件上传到gitee仓库的详细步骤

sem_post函数的定义及作用

一、数据集长这样

二、核心思路：用 “熵” 找最佳分类特征

三、总结

相关文章：