当前位置: 首页 > news >正文

机器学习(决策树)

一、决策树与随机森林基础概念:

决策树定义:从根节点逐步分裂至叶子节点的树形结构,数据最终落在叶子节点上。支持分类和回归任务。
随机森林:由多棵决策树组成的集成学习模型,继承决策树的分类/回归能力。属于集成学习方法(如Bagging)。

二、决策树构建关键点:

节点类型:根节点:初始未分割的完整数据集。
分支节点:通过特征条件分裂的子集。
叶子节点:不再分裂的最终节点,需保证同类数据纯度(如鸢尾花分类中单节点仅含一种花)。
数据结构类比:节点关系(根、父、子、兄弟)与二叉树概念一致。
训练与测试流程
训练阶段:从根节点开始选择最优特征进行切分,递归构建树结构。
测试阶段:根据训练好的树模型,从根节点向下遍历至叶子节点,完成分类/回归预测。

三、特征选择与信息增益:

根节点选择:需选取最能区分数据的特征(如西瓜案例中“声音响亮”对好瓜的判断力强)。
信息增益:熵(H):衡量数据集不确定性,熵越小纯度越高(如集合A={1,1,1,2}比B={1,2,3,4}更纯净)。
计算方式:信息增益 = 分裂前熵 - 分裂后熵,增益越大特征越优。
熵的计算公式:H = -Σ(p_i * log_a(p_i)),其中底数a通常取2,特殊情况需根据场景调整(a ∈ (1, +∞))。熵值越小表示数据越纯净(不确定性低),信息增益则是原始熵与划分后熵的差值,差值越大说明划分效果越好。
示例:当P=0.5时,通过代入公式验证熵值为1,底数取2可简化计算(log₂(1/2) = -1)。
熵的极值:当某类别概率pᵢ趋近0或1时,熵趋近0(确定性高);当各类别概率均等(如二分类中p=0.5)时熵最大。
对数函数性质:logₐ1=0(任何底数a),因此pᵢ=1时熵项为0。

注意事项:

决策树终止条件:叶子节点需达到完全分类(如鸢尾花节点仅含单一类别)。
特征排列组合:实际应用中需避免穷举所有特征顺序(计算量大),优先选择信息增益高的特征。

关键问题:

  1. 决策树的组成部分及其作用是什么?
    答案:决策树由根节点、非叶子节点与分支、叶子节点组成。根节点是第一个选择点,为特征选择起点;非叶子节点与分支是决策中间过程,用于进一步切分数据;叶子节点是最终的决策结果。

  2. 熵的含义及关键特性是什么?
    答案:熵是衡量随机变量不确定性的度量,公式为H(X)=−∑pi​⋅logpi​。关键特性:不确定性越大,熵值越大;当p=0或p=1时,熵为 0(无不确定性);当p=0.5时,熵为 1(不确定性最大)。

  3. 信息增益在决策树构造中的作用是什么?请结合实例说明。
    答案:信息增益用于衡量特征使类不确定性减少的程度,是选择最优特征作为节点的依据。实例中,14 天打球数据的初始熵为 0.940,分析 outlook 特征时,其加权熵为 0.693,信息增益为 0.247,通过比较各特征信息增益,可选择最大的作为根节点,逐步构造决策树。

http://www.dtcms.com/a/337121.html

相关文章:

  • pytest的前置与后置
  • 决策树:机器学习中的直观分类与回归工具
  • CPTS---Active 复现
  • Python netifaces 库详解:跨平台网络接口与 IP 地址管理
  • Alma Linux 8 中解决掉 Failed to set locale, defaulting to C.UTF-8
  • vue3入门-v-model、ref和reactive讲解
  • Flink Stream API - 源码开发需求描述
  • Apache IoTDB集群部署实战:1C2D架构的高性能时序数据库搭建与优化指南
  • Claude Code 代理商汇总:2025年最新评测
  • 【Vivado TCL教程】从零开始掌握Xilinx Vivado TCL脚本编程(一)
  • 【Jenkins】03 - 自动构建和docker构建
  • 在 CentOS 7 上使用 LAMP 架构部署 WordPress
  • 制作全流程对比:侗家灰水粽VS布依族草灰粽的8道工序差异
  • 大厂 | 华为半导体业务部2026届秋招启动
  • scikit-learn/sklearn学习|弹性网络ElasticNet解读
  • 机器学习-决策树:从原理到实战的机器学习入门指南
  • 大模型的底层运算线性代数
  • 实现自学习系统,输入excel文件,能学习后进行相应回答
  • 香港服务器是否支持RAID磁盘阵列?
  • RTSP 播放器 vs RTMP 播放器:延迟对比与技术实践
  • HAProxy使用方法以及和LVS区别
  • 【数据库】Navicat 导入 Excel 数据乱码问题的解决方法
  • NY291NY297美光固态闪存NY298NY303
  • Jina Embeddings:高性能多模态向量模型的演进之路
  • Minitab AI 加持的头脑风暴法,破解企业改进难题
  • 驱动开发系列64 - glCompileShader实现之 GLSL normalize 精度优化
  • Linux 中断机制深度分析
  • SpatialLLM,SpatialReasoner,SpatialLM论文解读
  • 云原生事件驱动引擎(RocketMQ-EventBridge)应用场景与技术解析
  • 01数据结构-交换排序