当前位置: 首页 > news >正文

决策树总结

1. 决策树的基本概念
  • 定义:决策树是一种树形结构的机器学习模型,从根节点开始,通过特征的分支选择一步步走到叶子节点,最终完成分类或回归任务。

  • 组成

    • 根节点:第一个特征选择点。

    • 非叶子节点与分支:中间的特征切分过程。

    • 叶子节点:最终的决策结果。

2. 决策树的训练与测试
  • 训练阶段:从训练数据中构造决策树,核心在于如何选择特征进行切分。

  • 测试阶段:根据构造好的决策树,对新数据进行分类或回归预测。

3. 特征切分的关键问题
  • 目标:选择能够最好地切分数据的特征,使得分类效果最优。

  • 方法:通过衡量标准(如熵和信息增益)来选择最佳特征。

4. 衡量标准:熵
  • 熵(Entropy):表示随机变量的不确定性,公式为:

    H(X)=−∑pilog⁡piH(X)=−∑pi​logpi​
    • 熵值越大,不确定性越高。

    • 当类别完全确定(p=0p=0或p=1p=1)时,熵为0;当类别完全不确定(p=0.5p=0.5)时,熵最大。

5. 信息增益
  • 定义:表示特征XX使得类别YY的不确定性减少的程度。

  • 作用:选择信息增益最大的特征作为节点,使得分类后的数据尽可能“纯净”(同类在一起)。

  • 计算步骤

    1. 计算原始数据的熵。

    2. 按某特征切分后,计算各子集的熵的加权和。

    3. 信息增益 = 原始熵 - 切分后的熵。

6. 决策树构造实例
  • 数据:14天打球情况,特征包括天气(Outlook)等。

  • 步骤

    1. 计算原始熵(如打球和不打球的分布)。

    2. 对每个特征(如Outlook)计算切分后的熵和信息增益。

    3. 选择信息增益最大的特征作为根节点,递归构造子树。

7. 关键点总结
  • 核心思想:通过递归选择最优特征切分数据,构建树形模型。

  • 难点:如何选择特征切分点?——使用信息增益等衡量标准。

  • 优点:模型直观,易于理解和解释;适用于分类和回归任务。

  • 缺点:容易过拟合,需通过剪枝等方法优化。

8. 应用场景
  • 分类问题(如是否打球)。

  • 回归问题(如预测数值型目标)。

决策树是机器学习中基础而强大的工具,理解其原理和构造过程对掌握更复杂的模型(如随机森林、梯度提升树)至关重要

http://www.dtcms.com/a/337792.html

相关文章:

  • 视觉语言导航(9)——位置编码 VLNBERT与HAMT 记忆模块 3.3后半段
  • 如何简单实现排行榜功能
  • 【数模国奖冲刺】备赛过程中的常见问题
  • Tomcat Engine 原理深度解析
  • python的电影院座位管理可视化数据分析系统
  • 宋红康 JVM 笔记 Day05|运行时数据区内部结构、JVM中的线程说明、程序计数器
  • linux系统查看ip命令
  • 【自动化测试】Selenium详解-WebUI自动化测试
  • 【智慧工地源码】智慧工地云平台系统,涵盖安全、质量、环境、人员和设备五大管理模块,实现实时监控、智能预警和数据分析。
  • 《清华级防护,了解一下?》
  • 局域网视频软件BeeWorks,内网顺畅沟通
  • FPGA学习笔记——IIC协议简介
  • ​​​​​​​专精特新企业数据(附参考文献, 2013-2023)
  • [openvela] Hello World :从零开始的完整实践与问题复盘
  • linux-高级IO(中)
  • Python数据容器(列表,元组,字典) 从入门到精通
  • 基于Python的就业信息推荐系统 Python+Django+Vue.js
  • 封装,继承,多态
  • 【CV 目标检测】Fast RCNN模型③——模型训练/预测
  • day44_2025-08-18
  • iOS 性能监控全流程实践,从开发到上线的多工具组合方案
  • RabbitMQ ,消息进入死信交换机
  • QT 字节大小端转序方法
  • Qt5基础控件详细讲解
  • VSCode REST Client 使用总结
  • 【力扣-轮转数组 Java / Python】
  • leetcode415. 字符串相加
  • 【论文阅读】-《HopSkipJumpAttack: A Query-Efficient Decision-Based Attack》
  • Jenkins全链路教程——Jenkins调用Maven构建项目
  • 北京朝阳公园——夏日清凉来袭