当前位置: 首页 > news >正文

机器学习sklearn:不纯度与决策树构建

不纯度与决策树构建

  1. 不纯度概念

    • 决策树通过不纯度指标来选择最佳分割节点和分枝方式

    • 不纯度衡量节点中样本类别的混杂程度

    • 不纯度越低,节点中样本类别越纯净,拟合效果越好

  2. 常用不纯度指标

    • 信息熵(Entropy):基于信息论的概念,衡量不确定性(这个比基尼系数让树的生长更加细腻,拟合程度高)

    • 基尼系数(Gini Index):计算随机抽样时分类错误的概率(默认是这个)

  3. 节点分裂原则

    • 选择使子节点不纯度降低最多的特征进行分裂

    • 子节点的不纯度总是低于父节点

    • 叶子节点的不纯度是最低的

剪枝与防止过拟合

  1. 过拟合风险

    • 完全生长的决策树会对训练数据拟合得非常好(不纯度很低)

    • 但可能导致树结构过于复杂,泛化能力差

  2. 剪枝方法

    • 预剪枝:在树完全生长前限制

      • 限制最大深度(max_depth)

      • 设置最小样本分裂数(min_samples_split)

      • 设置叶子节点最小样本数(min_samples_leaf)

    • 后剪枝:先让树完全生长,然后剪去不重要的分支

  3. 剪枝效果

    • 减少树的复杂度

    • 提高模型泛化能力

    • 防止对训练数据的过度拟合

http://www.dtcms.com/a/302348.html

相关文章:

  • 数据中心入门学习(四):服务器概述与PCIe总线
  • 【学习笔记】AD7708/18(1)-理解官网的参考代码
  • python每日一题
  • 如何在 Apache Ignite 中创建和使用自定义 SQL 函数(Custom SQL Functions)
  • 生物信息学数据技能-学习系列001
  • 牛客网之华为机试题:坐标移动
  • 利用径向条形图探索华盛顿的徒步旅行
  • 数据分析干货| 衡石科技可视化创作之仪表盘控件如何设置
  • 开源智能体-JoyAgent集成ollama私有化模型
  • 【docker】DM8达梦数据库的docker-compose以及一些启动踩坑
  • 攻防世界-引导-Web_php_unserialize
  • Kafka单机如何多Broker实例集群搭建?
  • Python----大模型(基于Fastapi+gradio的对话机器人)
  • 降低焊接机器人保护气体消耗的措施
  • 递归算法的一些具体应用
  • 开发避坑短篇(6):Vue+window.print()打印实践
  • vue如何在data里使用this
  • android-屏幕-刷新流程
  • .NET AI从0开始入门 SemanticKernel 从基础到实践
  • 【GIS数据分享】建筑矢量数据带高度
  • 数据链路层 和 ARP协议
  • 最大连续子数组
  • Makefile if语句用法
  • 【传奇开心果系列】Flet纵向瀑布流本地图片布局排列自定义模板
  • 【硬件】LVGL
  • 15-C语言:第15天笔记
  • keepalived原理及实战部署
  • 【数据库】时序数据库选型指南:从大数据视角看IoTDB的核心优势
  • 张 LLama 多语言语义相似度计算全解析:不同语言 同义词的相似度计算
  • idea启动java应用报错