当前位置：首页 > wzjs >正文

网站移动端和PC端自适应怎么做广告宣传

wzjs 2025/8/21 7:43:31

网站移动端和PC端自适应怎么做,广告宣传,网站做一样没有侵权吧,营销型网站怎么收费标准1、声明本篇文章只是简单聊聊决策树的基本原理，不涉及详细的计算方法。 2、决策树的基本原理决策树本质上是一种树形结构的模型，可以用来进行分类，回归等任务。当然更常见的还是用作分类预测。比如在西瓜书中的经典例子，使用…

1、声明

本篇文章只是简单聊聊决策树的基本原理，不涉及详细的计算方法。

2、决策树的基本原理

决策树本质上是一种树形结构的模型，可以用来进行分类，回归等任务。当然更常见的还是用作分类预测。比如在西瓜书中的经典例子，使用决策树，根据西瓜的外部特征来判断是好瓜还是坏瓜。

假设现在有一个西瓜，它的外部特征是：纹理清晰、根蒂稍蜷、色泽青绿，问这是一个好瓜还是一个坏瓜？

对于这里的描述：如纹理、根蒂、色泽等，我们称他们为特征/属性；对应的描述如清晰、稍蜷、青绿我们称作：属性的取值。比如，纹理这个特征可以有三种取值，分别为：清晰、稍糊、模糊。

假设现在有一个决策树，如下图所示：

那么机器能够很自然的根据这个树的规则来判断瓜是好瓜还是坏瓜。从上往下开始，因为纹理是清晰的，所以往左走看根蒂的情况；因为根蒂是稍蜷的，所以往中走看色泽的情况；因为色泽是青绿的，所以往左走，于是机器得到结论，这是一个好瓜。

其实上述过程，就是决策树的基本执行过程，只需要构建出这样的一个决策树，那么模型就能够根据构建的决策树规则，根据属性和它的取值情况，做出类别的判断。

那么，一棵决策树是如何构建出来的呢？

3、决策树的构建依据（ID3、C4.5、CART）

在上图的决策树中，方框中的内容如纹理，根蒂等称作决策特征/决策属性。机器判断一个瓜是好瓜还是坏瓜就是根据这些属性来判断的。判断时，从上往下执行，越往上的决策属性优先级越高，说明他们越能直接影响判断瓜的好坏这一件事。

那么，决策树的构建过程中，是如何筛选出这些决策属性的优先级呢？

这里涉及信息论中的一些概念，首先是熵。

在信息论中，熵代表信息的不确定性大小，熵越大，那么不确定度越大。假设天气只有天晴和下雨两个选项，那么这两句话：“明天下雨的概率是0.5”，“明天下雨的概率是1”。显然前者包含的信息不确定性更大，因为明天可能下雨也可能不下雨，而且由于概率是0.5，甚至不能有任何选择倾向。事实上，这句话的熵是非常大的，不确定性很大，某种意义上，这句话也是句废话，说了和没说一样。而后一句话几乎就是一个给定的事实，没有任何不确定性的信息，所以熵很小，为0。

介绍熵的概念除了为了让大家对信息的不确定性度量这一概念有一定理解，也是为了引出接下来的另一个关键概念——信息增益。

在决策树的构建过程中，使用ID3算法的决策树，他的决策属性划分依据就是信息增益。

信息增益通俗来理解就是：它是用来度量某一属性对于降低数据集类别不确定性程度的。它的计算过程和熵相关，但是这里就不详细介绍如何计算了，只是介绍它的含义和对他的理解。

比如在判断宠物类别的问题中，我们通过声音这个属性就能立马判断出这个宠物的类别，而体重、性别、毛色等属性相对来说对确定宠物类别的影响不大。那么，声音的信息增益就会更高，而其他的属性信息增益相对就会更低。

通过信息增益这个指标，我们就能够优先选择出对判断数据集类别作用最大的属性，逐步构建出决策树。使用信息增益这个指标的算法就是ID3算法。

信息增益的计算公式是：

简单理解这个公式就是：信息增益就是划分前的信息熵和划分后的信息熵之差。

通过上面的公式，我们接下来要引出ID3算法的不足。

当某个属性的取值非常多时，比如颜色这个属性，假设它的取值有红、橙、黄、绿...那根据上述公式，就会导致划分后的信息熵更低，也就是 $D^{v}$ 更小，从而导致该属性的信息增益更大。

通俗来理解的话，当一个属性有非常多的取值，如果先以这个属性进行划分，那么就可以得到纯度更高的子集，也就是子集中的样本类别更单一，从而使信息熵更低，使得信息增益更大。得到纯度更高的子集，这也是决策树的最终目的。

所以，ID3算法在选择属性时是有选择倾向的，即倾向于属性取值较多的属性。

为了解决上述问题，C4.5算法应运而生，C4.5算法引入了信息增益率的概念。

属性A的信息增益率GainRatio的计算公式是这样的：

本质上，信息增益率就是在信息增益的基础上引入一个惩罚因子（也就是分母部分）。惩罚因子的取值和属性取值的个数是正相关的，所以就能够抑制ID3算法中的选择倾向问题。

除了上述两个指标，还有一个常用的指标可以用来构建决策树——基尼系数。

下图是基尼系数的计算公式：

基尼系数的含义是：在样本集中随机抽取两个样本类别不同的概率。所以当样本集越不纯（即类别越多）时，基尼系数越大。需要注意的是，基尼系数的曲线变化情况和熵曲线是一样的，只是取值不同。

当基尼系数为0时，意味着样本集完全纯净，所有样本类别一致；

当基尼系数为1时，样本集的不纯度最高，也就是类别分布均匀。

所以在构建决策树时，也可以使用基尼系数这个指标来进行构建。即计算划分前后的基尼系数情况，选择差值较大的属性进行划分；也可以直接计算划分后的基尼系数，选择基尼系数小的属性进行划分。

使用基尼系数作为划分的决策树就是CART决策树。

总之，不管使用何种指标，决策树本质上是通过选择最优的特征，将数据集逐步划分成更纯净的子集。

最后，需要说一点的是，决策树是判别模型，虽然它在构建树的过程中也有非常多的计算，看起来也像朴素贝叶斯算法那样在学习数据的分布，但本质上，决策树是根据每一个节点来进行决策，对于每一个节点来说，每个节点学习的仍是输入X和输出Y之间的映射关系。而且有一点需要注意，决策树中的数据都是真实的。（朴素贝叶斯中数据其实是假的，因为在朴素贝叶斯中有一个重要的假设，就是假设各个特征相互独立，它的数据其实是一种生成假设，所以本质上，朴素贝叶斯模型学习的是数据的生成过程。这也是朴素贝叶斯模型是生成模型的原因。）

查看全文

http://www.dtcms.com/wzjs/427341.html