当前位置: 首页 > news >正文

【22-决策树】

决策树和树集成 decisiontrees and tree ensembles

决策树定义

决策树的工作原理

例子:猫分类,在一家猫咪收留中心,需要训练一个分类器快速地识别一个动物是否是猫;

输入特征:耳朵形状(尖的pointy 耷拉的floppy);脸形状;胡须whiskers;输出:是否是猫;

image.png

什么是决策树?

使用决策树学习算法对数据集进行训练后得到的模型,看起来像一棵树;树最顶端的叫根节点;椭圆型的叫决策节点,矩形框叫叶节点,用作输出预测结果;

image.png

除了示例的决策树,实际上还存在其他很多种决策树,它们根据每种特征的值做不同的选择,走不同的分支;这些决策树有些在测试数据集上表现地好,有些表现地差。

所以决策树学习算法的任务是,从所有可能的决策树中,选择一个在训练集上表现最好,并且泛化能力较强的决策树。

image.png

如何让算法根据训练集学习一个特定的决策树?

决策树的训练

构建决策树

对于给定一个训练集,构建决策树有几个步骤

1、决定在根节点使用哪个特征,选择在子节点使用哪个特征,然后尽可能将示例数据集全部分开(cat & not cat);

如何选择特征来拆分数据集;选择那些尽可能能将猫和其他动物区分开来的特征;区分之后的纯度尽可能高;

决策树学习算法必须在耳朵形状、脸型、胡须之间做选择,

image.png

熵entropy,如何估计杂质以及最小化杂质;

2、何时停止划分?

当一个节点全部为猫/非猫;

当拆分节点会导致树达到最大深度;节点的深度:从根节点到达该节点所需的步数;

当提高纯度得分超过了阈值;

当节点的示例数量低于某阈值;

限制树的深度:确保树不会太大,便于管理;保持小规模,以避免过拟合;

在一个节点上如何划分

熵,entropy,描述节点不纯度的一种说法;

一组数据全是猫/全不是猫,则纯度很高;

p1:一组中猫占的比例;

当p1 = 0.5时,即一半一半时,不纯度最高;

http://www.dtcms.com/a/331996.html

相关文章:

  • 若依前后端分离版学习笔记(十)——数据权限
  • 机器人伴侣的智能升级:Deepoc具身智能模型如何重塑成人伴侣体验
  • Linux 内核参数:drop_caches
  • buildroot 简单介绍
  • 搭建局域网yum源仓库全流程
  • C/C++ 进阶:深入解析 GCC:从源码到可执行程序的魔法四步曲
  • QT中ARGB32转ARGB4444优化4K图像性能的实现方案(完整源码)
  • 从理论到落地:分布式事务全解析(原理 + 方案 + 避坑指南)
  • ACCESS多个时间段查询,只取整点,30分数据
  • 第1节:多模态大模型入门(多模态大模型基础教程)
  • 二、Java方法对应练习
  • 护照监伪的方式
  • 为什么Integer缓存-128 ~ 127
  • Linux常用命令(下)
  • 机器学习知识总结
  • PyTorch 2025全解析:从基础到前沿,深度学习框架的技术演进与实战指南
  • 嵌入式开发学习———Linux环境下网络编程学习(一)
  • 一步到位!经纬度批量转CGCS2000坐标系
  • sql的关键字 limit 和offset
  • 开源数据发现平台:Amundsen 快速上手指南
  • LeetCode 37.解数独:回溯法在二维网格中的应用与剪枝策略
  • AAAI论文速递 | Transformer如何听声辨物,实现像素级分割新突破!
  • Mybatis 源码解读-SqlSession 会话源码和Executor SQL操作执行器源码
  • 明远智睿SSD2351:以技术突破重构嵌入式市场格局
  • AI重构职场:岗位消亡与组织重塑
  • 【MATLAB技巧】已知平面上的一些点,拟合得到一个圆的例程,给出最小二乘与非线性迭代两种解法,附下载链接
  • ROS机器人云实践设计十年-2025-2015-
  • 速通 OpenPI 本地部署(远端推理)简易实现 —— WSL2 + Ubuntu 24.04 环境完整指南
  • 会议系统完整流程简版解析:创建会议、加入会议与消息转发
  • 【框架】跨平台开发框架自用整理