当前位置：首页 > news >正文

决策树总结

news 2025/8/19 9:17:05

1. 决策树的基本概念

定义：决策树是一种树形结构的机器学习模型，从根节点开始，通过特征的分支选择一步步走到叶子节点，最终完成分类或回归任务。
组成：
- 根节点：第一个特征选择点。
- 非叶子节点与分支：中间的特征切分过程。
- 叶子节点：最终的决策结果。

2. 决策树的训练与测试

训练阶段：从训练数据中构造决策树，核心在于如何选择特征进行切分。
测试阶段：根据构造好的决策树，对新数据进行分类或回归预测。

3. 特征切分的关键问题

目标：选择能够最好地切分数据的特征，使得分类效果最优。
方法：通过衡量标准（如熵和信息增益）来选择最佳特征。

4. 衡量标准：熵

熵（Entropy）：表示随机变量的不确定性，公式为：
H(X)=−∑pilog⁡piH(X)=−∑pilogpi
- 熵值越大，不确定性越高。
- 当类别完全确定（p=0p=0或p=1p=1）时，熵为0；当类别完全不确定（p=0.5p=0.5）时，熵最大。

5. 信息增益

定义：表示特征XX使得类别YY的不确定性减少的程度。
作用：选择信息增益最大的特征作为节点，使得分类后的数据尽可能“纯净”（同类在一起）。
计算步骤：
1. 计算原始数据的熵。
2. 按某特征切分后，计算各子集的熵的加权和。
3. 信息增益 = 原始熵 - 切分后的熵。

6. 决策树构造实例

数据：14天打球情况，特征包括天气（Outlook）等。
步骤：
1. 计算原始熵（如打球和不打球的分布）。
2. 对每个特征（如Outlook）计算切分后的熵和信息增益。
3. 选择信息增益最大的特征作为根节点，递归构造子树。

7. 关键点总结

核心思想：通过递归选择最优特征切分数据，构建树形模型。
难点：如何选择特征切分点？——使用信息增益等衡量标准。
优点：模型直观，易于理解和解释；适用于分类和回归任务。
缺点：容易过拟合，需通过剪枝等方法优化。

8. 应用场景

分类问题（如是否打球）。
回归问题（如预测数值型目标）。

决策树是机器学习中基础而强大的工具，理解其原理和构造过程对掌握更复杂的模型（如随机森林、梯度提升树）至关重要

查看全文

http://www.dtcms.com/a/337792.html

视觉语言导航（9）——位置编码 VLNBERT与HAMT 记忆模块 3.3后半段

如何简单实现排行榜功能

【数模国奖冲刺】备赛过程中的常见问题

Tomcat Engine 原理深度解析

python的电影院座位管理可视化数据分析系统

宋红康 JVM 笔记 Day05｜运行时数据区内部结构、JVM中的线程说明、程序计数器

linux系统查看ip命令

【自动化测试】Selenium详解-WebUI自动化测试

【智慧工地源码】智慧工地云平台系统，涵盖安全、质量、环境、人员和设备五大管理模块，实现实时监控、智能预警和数据分析。

《清华级防护，了解一下？》

局域网视频软件BeeWorks，内网顺畅沟通

FPGA学习笔记——IIC协议简介

专精特新企业数据（附参考文献， 2013-2023）

[openvela] Hello World ：从零开始的完整实践与问题复盘

linux-高级IO（中）

Python数据容器(列表，元组，字典) 从入门到精通

基于Python的就业信息推荐系统 Python+Django+Vue.js

封装，继承，多态

【CV 目标检测】Fast RCNN模型③——模型训练/预测

day44_2025-08-18

iOS 性能监控全流程实践，从开发到上线的多工具组合方案

RabbitMQ ，消息进入死信交换机

QT 字节大小端转序方法

Qt5基础控件详细讲解

VSCode REST Client 使用总结

【力扣-轮转数组 Java / Python】

leetcode415. 字符串相加

【论文阅读】-《HopSkipJumpAttack: A Query-Efficient Decision-Based Attack》

Jenkins全链路教程——Jenkins调用Maven构建项目

北京朝阳公园——夏日清凉来袭