当前位置: 首页 > wzjs >正文

网站做qq发送链接最近三天的新闻大事

网站做qq发送链接,最近三天的新闻大事,wordpress主题iphoto,网络营销的职能一、决策树的核心思想 本质:通过特征判断对数据集递归划分,形成树形结构。目标:生成一组“若-则”规则,使数据划分到叶子节点时尽可能纯净。关键流程: 特征选择:选择最佳分裂特征(如信息增益最…

一、决策树的核心思想

  • 本质:通过特征判断对数据集递归划分,形成树形结构。
  • 目标:生成一组“若-则”规则,使数据划分到叶子节点时尽可能纯净。
  • 关键流程
    1. 特征选择:选择最佳分裂特征(如信息增益最大)。
    2. 节点分裂:根据特征取值划分子节点。
    3. 停止条件:节点样本纯度过高或样本数过少时终止。

二、数学公式与理论

1. 信息熵(Information Entropy)

衡量数据集的混乱程度:

H ( D ) = − ∑ k = 1 K p k log ⁡ 2 p k H(D) = -\sum_{k=1}^{K} p_k \log_2 p_k H(D)=k=1Kpklog2pk

  • K K K:类别总数
  • p k p_k pk:第 k k k 类样本的占比
  • 熵值范围 0 0 0(完全纯净)到 log ⁡ 2 K \log_2 K log2K(完全混乱)
2. 信息增益(Information Gain)

特征 A A A 分裂后熵的减少量:

Gain ( D , A ) = H ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ H ( D v ) \text{Gain}(D, A) = H(D) - \sum_{v=1}^{V} \frac{|D^v|}{|D|} H(D^v) Gain(D,A)=H(D)v=1VDDvH(Dv)

  • D v D^v Dv:特征 A A A 取值为 v v v 的子集
  • 分裂标准:选择信息增益最大的特征
3. 基尼不纯度(Gini Impurity)

另一种纯度衡量指标:

Gini ( D ) = 1 − ∑ k = 1 K p k 2 \text{Gini}(D) = 1 - \sum_{k=1}^{K} p_k^2 Gini(D)=1k=1Kpk2

  • 特点:计算效率比熵高,常用于分类树
4. 回归树的均方误差(MSE)

节点内样本的预测误差:

MSE = 1 N ∑ i = 1 N ( y i − y ˉ ) 2 \text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \bar{y})^2 MSE=N1i=1N(yiyˉ)2

  • y ˉ \bar{y} yˉ:节点样本的均值
  • 分裂目标:最小化分裂后的加权 MSE

三、代码实现(Python)

示例:手动计算基尼系数
import numpy as npdef compute_gini(y):# y: 样本标签数组classes, counts = np.unique(y, return_counts=True)proportions = counts / len(y)gini = 1 - np.sum(proportions ** 2)  # 对应公式 $Gini(D) = 1 - \sum p_k^2$return gini# 示例:计算基尼系数
y = np.array([0, 0, 0, 1, 1, 1, 1])  # 3个0类,4个1类
print("基尼系数:", compute_gini(y))  # 输出:1 - ( (3/7)^2 + (4/7)^2 ) ≈ 0.49
使用 Scikit-learn 实现分类树
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris# 加载数据
data = load_iris()
X, y = data.data, data.target# 创建模型(使用基尼系数,限制树深度)
model = DecisionTreeClassifier(criterion="gini",       # 分裂标准:基尼系数 $Gini(D)$max_depth=3,            # 最大深度防止过拟合min_samples_split=10    # 节点最少10样本才分裂
)
model.fit(X, y)# 查看特征重要性(对应信息增益贡献)
print("特征重要性:", model.feature_importances_)

四、实际应用场景

1. 分类任务
  • 信用卡欺诈检测
    • 特征:交易金额、地点、时间间隔
    • 标签:正常/欺诈
    • 方法:计算特征的信息增益,选择关键特征(如“金额 > 阈值”)
2. 回归任务
  • 房价预测
    • 特征:面积、房间数、地理位置
    • 标签:房价
    • 方法:递归划分区域,使每个区域的房价 MSE 最小
3. 其他领域
  • 医疗诊断:根据症状(特征)判断疾病类型(标签)
  • 工业控制:根据传感器数据(特征)判断设备故障(标签)

五、决策树的优缺点

优点缺点
可解释性强(规则可视化)容易过拟合(需剪枝)
支持类别和数值特征对数据微小变化敏感
无需特征标准化回归任务中预测不够平滑

文章转载自:

http://7X4uSozx.sLtry.cn
http://BwIdK6rn.sLtry.cn
http://vJD9NuuN.sLtry.cn
http://49X1mI2B.sLtry.cn
http://y5JvvQIR.sLtry.cn
http://8lHqThnm.sLtry.cn
http://8yDJZipn.sLtry.cn
http://s7CBqbAR.sLtry.cn
http://UtF8vZrZ.sLtry.cn
http://ycNsriwh.sLtry.cn
http://diWLsPGT.sLtry.cn
http://zD5e83jw.sLtry.cn
http://xJuJjfsj.sLtry.cn
http://LeEAAMqj.sLtry.cn
http://RFZdDawU.sLtry.cn
http://nJwDtVAk.sLtry.cn
http://HAxXKb7v.sLtry.cn
http://Q1g5Uss6.sLtry.cn
http://137br6NM.sLtry.cn
http://CrsYCi5Z.sLtry.cn
http://q4vKnqwU.sLtry.cn
http://RJ0iFosS.sLtry.cn
http://gbTvkWNW.sLtry.cn
http://kkERP6yB.sLtry.cn
http://inv6YfH4.sLtry.cn
http://gkQEwd1k.sLtry.cn
http://r7KL1FKE.sLtry.cn
http://81h5omAE.sLtry.cn
http://moA6zSda.sLtry.cn
http://KZJTl4UF.sLtry.cn
http://www.dtcms.com/wzjs/674637.html

相关文章:

  • 门户网站建设询价公告网络营销专业介绍
  • 网站一年域名费用多少钱网站界面尺寸
  • 做网站会出现什么问题不用流量的地图导航软件
  • 门户网站维护怎么做应用商店app下载安装最新版软件
  • 怎么给网站做404界面wordpress 活动
  • 企业融资渠道和融资方式有哪些网站建设图片如何优化
  • 现在做网站用什么公司网站制作多少钱
  • 青岛网站建设套餐报价wordpress换行不换段落
  • 境外网站做网站涉黄广州网络推广有限公司
  • 建站宝盒v8破解版下载自己做的网站加载速度慢
  • 注册公司是在哪个网站山东淄博网站建设公司
  • 河津市城乡建设局网站wordpress 批量发布器
  • 在大学做网站赚钱吗网站的配置标题
  • 聊城集团网站建设报价市场推广
  • 广州网站快速优化排名网站备案流程多少钱
  • 网站怎么才能被百度收录微信公众号小程序开发多少钱
  • 为什么点不开网站做一个网页难不难
  • 公司网站建设 上海小制作小发明手工简单又漂亮
  • 中国工程建设交易信息网站网站seo优化是什么
  • 沈阳网站优化快站淘客中转页
  • 怎么做网站电影本地网站制作
  • 如何用微信公众号做企业网站如何建设一个自己 的网站
  • 全国送花网站行业网站策划方案
  • 做本地分类信息网站赚钱吗网络系统管理技能大赛教程
  • 营销型网站建设怎么样鹿泉专业网站建设
  • 哪个网站专业做安防石家庄新闻
  • 网站诸多合肥教育平台网站建设
  • 软文发布网站网站被降权会发生什么
  • 网站开发费用如何入账手机网站无响应
  • 网站推广手段十大互联网装修平台排名