当前位置：首页 > news >正文

决策树1.1

news 2025/8/20 13:14:20

决策树基础概念

1. 模型定义
从根节点开始，通过特征判断逐步走到叶子节点完成决策。
功能：支持分类和回归任务，所有数据最终落入叶子节点。

2. 核心结构
根节点：初始特征选择点
非叶子节点 & 分支：中间决策过程
叶子节点：最终决策结果

关键机制：特征选择与分裂

1. 核心问题
如何选择根节点及后续节点的特征？
目标：最大化分类效果，使同类数据尽可能聚集。

2. 衡量标准：熵（Entropy）
定义：表示随机变量的不确定性（混乱程度）。
公式： $$ H(X) = -\sum_{i=1}^{n} p_i \log_2 p_i $$
熵的特性：
不确定性最大时（如各类别均匀分布）：$H(p)=1$
完全确定时（如仅一类）：$H(p)=0$

3. 信息增益（Information Gain）
定义：特征 $X$ 使得类别 $Y$ 不确定性减少的程度。
目标：选择信息增益最大的特征作为节点（优先降低系统熵值）。

决策树构建实例：14天打球预测

1. 数据背景
14天历史数据：9天打球，5天不打球。
初始系统熵值：$H_{\text{初始}} = 0.940$
特征：天气（Outlook）等4种环境因素。

2. 特征分裂计算（以Outlook为例）
Outlook 天数占比子集熵值加权熵贡献
Sunny 5/14 0.971   $0.357$
Overcast    4/14 0   $0$
Rainy    5/14 0.971    $0.357$
分裂后系统熵：$H_{\text{新}} = 0.693$
信息增益：$Gain = 0.940 - 0.693 = 0.247$

3. 节点选择策略
遍历所有特征，选择信息增益最大的特征作为根节点。
递归选择后续节点：在剩余特征中继续选取增益最大者。

决策树训练流程

1. 训练阶段
从根节点开始，基于信息增益选择特征分裂数据。
递归分裂直至满足停止条件（如节点数据纯净或特征用完）。

2. 测试阶段
新数据从根节点向下遍历，根据特征值选择分支，直至到达叶子节点获得预测结果。

http://www.dtcms.com/a/339942.html

相关文章：

设计模式笔记_行为型_解释器模式

集成电路学习：什么是Thresholding阈值处理

PowerBI VS FineBI VS QuickBI实现帕累托分析

Go 并发入门：从 goroutine 到 worker pool

用 C++ 构建高性能测试框架：从原型到生产实战指南

Python 项目里的数据预处理工作（数据清洗步骤与实战案例详解）

在线客服系统访客表的设计与实现-增加最新消息字段

Task01: CAMEL环境配置及第一个Agent

Kubernetes Ingress实战：从环境搭建到应用案例

C语言基础：（十九）数据在内存中的存储

Java线程池参数配置的坑：`corePoolSize=0` + `LinkedBlockingQueue`直接变成串行执行

Python爬虫第二课：爬取HTML静态网页之《某某小说》小说章节和内容完整版

智驾-AEB

羟氯喹通过抑制抗磷脂综合征诱导的绒毛外滋养细胞过度自噬

【模版匹配】基于深度学习

洛谷 P2834 纸币问题 3-普及-

《当 AI 学会 “思考”：大语言模型的逻辑能力进化与隐忧》

centos 总有new mail出现原因

[论文阅读] 软件工程 - 用户体验 | VR应用的无障碍性困局：基于Meta和Steam商店评论的深度剖析

多幅图片拼接算法系统

FIFO通讯速率＞ 30MB/s，CH346保障FPGA与PC的高速通道稳定高效

当GitHub宕机时，我们如何协作

工业4.0时代，耐达讯自动化Profibus转光纤如何重构HMI通信新标准？“

HTML应用指南：利用GET请求获取全国新荣记门店位置信息

【DAB收音机】DAB服务跟随Service Follow功能(三)【FIG 0/24：OE Services】

Browser Use + Playwright到AI Agent：Web自动化如何实现质变？

C++装饰器模式：从“勇勇”例子到实际应用

Day09 Go语言深入学习（1）

单片机编程架构

AttributeError: module ‘ffmpeg‘ has no attribute ‘probe‘