当前位置：首页 > news >正文

决策树1.2

news 2025/8/21 8:04:54

决策树算法概述

决策树是一种常用的机器学习分类与回归方法，通过树形结构对数据进行划分，模拟人类决策过程。

主要算法及其划分准则

1. ID3算法
核心准则：信息增益（Information Gain）
定义：信息增益表示使用某属性进行划分后，数据集“纯度”提升的程度。
特点：信息增益越大，划分效果越好。
缺点：对取值较多的属性有偏好（如“编号”），容易导致过拟合。

2. C4.5算法
改进：使用**信息增益率**（Gain Ratio）作为划分准则。
计算方式：信息增益 ÷ 自身熵（Intrinsic Value）
优点：缓解了ID3对多值属性的偏好问题。

3. CART算法
适用于分类与回归
分类准则：基尼指数（Gini Index）
定义：从数据集中随机抽取两个样本，其类别不一致的概率。
Gini(D)越小，数据集纯度越高。
回归准则：最小二乘法（未在PPT中展开）

连续值处理

决策树也可处理连续型特征，常用方法是二分法（CART中常用），但PPT中未详细展开。

决策树剪枝策略

1. 为什么要剪枝？
决策树容易过拟合，尤其在深度深、节点多的情况下。

剪枝可提升模型泛化能力。

2. 预剪枝（Pre-pruning）
在构建过程中提前停止生长。
常用限制条件：树的最大深度、叶子节点最小样本数、信息增益阈值等。
优点：训练速度快，实用性强。

先构建完整决策树，再自底向上剪枝。
常用损失函数：
\[
\text{最终损失} = \text{GINI系数} + \alpha \times \text{叶子节点数量}
\]
-α的作用：
α越大，模型越简单，抗过拟合能力强，但可能欠拟合。
α越小，模型越复杂，拟合能力强，但易过拟合。

查看全文

http://www.dtcms.com/a/340743.html

Flink学习

数据安全事件分级

嵌入式的各个要点总结(不断更新)

Building Systems with the ChatGPT API 使用 ChatGPT API 搭建系统(第二章学习笔记及总结)

idea maven 设置代理

SSM从入门到实战：2.1 MyBatis框架概述与环境搭建

【STM32】HAL库中的实现（六）：DAC （数模转换）

调用海康威视AI开放平台接口实现人体关键点检测

Java毕业设计选题推荐 |基于SpringBoot+Vue的知识产权管理系统设计与实现

langchain-ds的报告生成提示词

如何低比特量化算法的工程实战与落地优化

从零开始的云计算生活——第四十七天，细水长流，kubernetes模块之ingress资源对象

开源 AR 眼镜怎么选？OpenGlass ，OSSG，cheApR 分析推荐

无需驱动！单文件实现键盘按键禁用的技术方案

通用物联网接口调用完整解决方案2

Ubuntu_22.04安装文档

k8s--Discuz论坛lnmp平台部署

软件可视化与前端、后端技术开发的关系

WPF MVVM进阶系列教程（四、ViewModel通信）

std::map 的插入元素方式

下拉组件Tag支持自定义背景颜色，图片组支持设置刷新频率，DataEase开源BI工具v2.10.12 LTS版本发布

iOS 应用上架常见问题与解决方案，多工具组合的实战经验

深入解析RAGFlow六阶段架构

iOS 应用迭代与上架节奏管理从测试包到正式发布的全流程实践

操作系统：资源竞争或者同步问题；锁、信号量等机制

Mac 上安装并使用 frpc（FRP 内网穿透客户端）指南

MacBook Pro M1升级Burp Suite2025.8

Mac电脑上虚拟机共享文件夹权限问题

数据挖掘笔记：点到线段的距离计算

5.3 包管理工具 npm yarn pnpm 对比

决策树算法概述

主要算法及其划分准则

连续值处理

决策树剪枝策略

相关文章：