当前位置: 首页 > news >正文

决策树1.2

决策树算法概述


决策树是一种常用的机器学习分类与回归方法,通过树形结构对数据进行划分,模拟人类决策过程。

主要算法及其划分准则

1. ID3算法
核心准则:信息增益(Information Gain)
定义:信息增益表示使用某属性进行划分后,数据集“纯度”提升的程度。
特点:信息增益越大,划分效果越好。
缺点:对取值较多的属性有偏好(如“编号”),容易导致过拟合。

2. C4.5算法
改进:使用**信息增益率**(Gain Ratio)作为划分准则。
计算方式:信息增益 ÷ 自身熵(Intrinsic Value)
优点:缓解了ID3对多值属性的偏好问题。

3. CART算法
适用于分类与回归
分类准则:基尼指数(Gini Index)
定义:从数据集中随机抽取两个样本,其类别不一致的概率。
Gini(D)越小,数据集纯度越高。
回归准则:最小二乘法(未在PPT中展开)

连续值处理


决策树也可处理连续型特征,常用方法是二分法(CART中常用),但PPT中未详细展开。

决策树剪枝策略

1. 为什么要剪枝?
决策树容易过拟合,尤其在深度深、节点多的情况下。

 剪枝可提升模型泛化能力。

2. 预剪枝(Pre-pruning)
在构建过程中提前停止生长。
常用限制条件:树的最大深度、叶子节点最小样本数、信息增益阈值等。
优点:训练速度快,实用性强。

先构建完整决策树,再自底向上剪枝。
常用损失函数:  
\[
\text{最终损失} = \text{GINI系数} + \alpha \times \text{叶子节点数量}
\]
-α的作用:
α越大,模型越简单,抗过拟合能力强,但可能欠拟合。
α越小,模型越复杂,拟合能力强,但易过拟合。

http://www.dtcms.com/a/340743.html

相关文章:

  • Flink学习
  • 数据安全事件分级
  • 嵌入式的各个要点总结(不断更新)
  • Building Systems with the ChatGPT API 使用 ChatGPT API 搭建系统(第二章学习笔记及总结)
  • idea maven 设置代理
  • SSM从入门到实战:2.1 MyBatis框架概述与环境搭建
  • 【STM32】HAL库中的实现(六):DAC (数模转换)
  • 调用海康威视AI开放平台接口实现人体关键点检测
  • Java毕业设计选题推荐 |基于SpringBoot+Vue的知识产权管理系统设计与实现
  • langchain-ds的报告生成提示词
  • 如何低比特量化算法的工程实战与落地优化
  • 从零开始的云计算生活——第四十七天,细水长流,kubernetes模块之ingress资源对象
  • 开源 AR 眼镜怎么选?OpenGlass ,OSSG,cheApR 分析推荐
  • 无需驱动!单文件实现键盘按键禁用的技术方案
  • 通用物联网接口调用完整解决方案2
  • Ubuntu_22.04安装文档
  • k8s--Discuz论坛lnmp平台部署
  • 软件可视化与前端、后端技术开发的关系
  • WPF MVVM进阶系列教程(四、ViewModel通信)
  • std::map 的插入元素方式
  • 下拉组件Tag支持自定义背景颜色,图片组支持设置刷新频率,DataEase开源BI工具v2.10.12 LTS版本发布
  • iOS 应用上架常见问题与解决方案,多工具组合的实战经验
  • 深入解析RAGFlow六阶段架构
  • iOS 应用迭代与上架节奏管理 从测试包到正式发布的全流程实践
  • 操作系统:资源竞争或者同步问题;锁、信号量等机制
  • Mac 上安装并使用 frpc(FRP 内网穿透客户端)指南
  • MacBook Pro M1升级Burp Suite2025.8
  • Mac电脑上虚拟机共享文件夹权限问题
  • 数据挖掘笔记:点到线段的距离计算
  • 5.3 包管理工具 npm yarn pnpm 对比