当前位置: 首页 > wzjs >正文

程序员免费自学网站百度百度一下首页

程序员免费自学网站,百度百度一下首页,服务器托管平台,济南川芎网站建设1、声明 本篇文章只是简单聊聊决策树的基本原理,不涉及详细的计算方法。 2、决策树的基本原理 决策树本质上是一种树形结构的模型,可以用来进行分类,回归等任务。当然更常见的还是用作分类预测。比如在西瓜书中的经典例子,使用…

1、声明

本篇文章只是简单聊聊决策树的基本原理,不涉及详细的计算方法。

2、决策树的基本原理

决策树本质上是一种树形结构的模型,可以用来进行分类,回归等任务。当然更常见的还是用作分类预测。比如在西瓜书中的经典例子,使用决策树,根据西瓜的外部特征来判断是好瓜还是坏瓜。

假设现在有一个西瓜,它的外部特征是:纹理清晰、根蒂稍蜷、色泽青绿,问这是一个好瓜还是一个坏瓜?

对于这里的描述:如纹理、根蒂、色泽等,我们称他们为特征/属性;对应的描述如清晰、稍蜷、青绿我们称作:属性的取值。比如,纹理这个特征可以有三种取值,分别为:清晰、稍糊、模糊。

假设现在有一个决策树,如下图所示:

那么机器能够很自然的根据这个树的规则来判断瓜是好瓜还是坏瓜。从上往下开始, 因为纹理是清晰的,所以往左走看根蒂的情况;因为根蒂是稍蜷的,所以往中走看色泽的情况;因为色泽是青绿的,所以往左走,于是机器得到结论,这是一个好瓜

其实上述过程,就是决策树的基本执行过程,只需要构建出这样的一个决策树,那么模型就能够根据构建的决策树规则,根据属性和它的取值情况,做出类别的判断

那么,一棵决策树是如何构建出来的呢?

3、决策树的构建依据(ID3、C4.5、CART)

在上图的决策树中,方框中的内容如纹理,根蒂等称作决策特征/决策属性。机器判断一个瓜是好瓜还是坏瓜就是根据这些属性来判断的。判断时,从上往下执行,越往上的决策属性优先级越高,说明他们越能直接影响判断瓜的好坏这一件事。

那么,决策树的构建过程中,是如何筛选出这些决策属性的优先级呢?

这里涉及信息论中的一些概念,首先是熵。

在信息论中,熵代表信息的不确定性大小,熵越大,那么不确定度越大。假设天气只有天晴和下雨两个选项,那么这两句话:“明天下雨的概率是0.5”,“明天下雨的概率是1”。显然前者包含的信息不确定性更大,因为明天可能下雨也可能不下雨,而且由于概率是0.5,甚至不能有任何选择倾向。事实上,这句话的熵是非常大的,不确定性很大,某种意义上,这句话也是句废话,说了和没说一样。而后一句话几乎就是一个给定的事实,没有任何不确定性的信息,所以熵很小,为0。

介绍熵的概念除了为了让大家对信息的不确定性度量这一概念有一定理解,也是为了引出接下来的另一个关键概念——信息增益

在决策树的构建过程中,使用ID3算法的决策树,他的决策属性划分依据就是信息增益。

信息增益通俗来理解就是:它是用来度量某一属性对于降低数据集类别不确定性程度的。它的计算过程和熵相关,但是这里就不详细介绍如何计算了,只是介绍它的含义和对他的理解。

比如在判断宠物类别的问题中,我们通过声音这个属性就能立马判断出这个宠物的类别,而体重、性别、毛色等属性相对来说对确定宠物类别的影响不大。那么,声音的信息增益就会更高,而其他的属性信息增益相对就会更低。

通过信息增益这个指标,我们就能够优先选择出对判断数据集类别作用最大的属性,逐步构建出决策树。使用信息增益这个指标的算法就是ID3算法

信息增益的计算公式是:

简单理解这个公式就是:信息增益就是划分前的信息熵划分后的信息熵之差。

通过上面的公式,我们接下来要引出ID3算法的不足

当某个属性的取值非常多时,比如颜色这个属性,假设它的取值有红、橙、黄、绿...那根据上述公式,就会导致划分后的信息熵更低,也就是D^{v}更小,从而导致该属性的信息增益更大

通俗来理解的话,当一个属性有非常多的取值,如果先以这个属性进行划分,那么就可以得到纯度更高的子集,也就是子集中的样本类别更单一,从而使信息熵更低,使得信息增益更大。得到纯度更高的子集,这也是决策树的最终目的。

所以,ID3算法在选择属性时是有选择倾向的,即倾向于属性取值较多的属性

为了解决上述问题,C4.5算法应运而生,C4.5算法引入了信息增益率的概念。

属性A的信息增益率GainRatio的计算公式是这样的:

本质上,信息增益率就是在信息增益的基础上引入一个惩罚因子(也就是分母部分)。惩罚因子的取值和属性取值的个数是正相关的,所以就能够抑制ID3算法中的选择倾向问题。

除了上述两个指标,还有一个常用的指标可以用来构建决策树——基尼系数

下图是基尼系数的计算公式:

基尼系数的含义是:在样本集中随机抽取两个样本类别不同的概率。所以当样本集越不纯(即类别越多)时,基尼系数越大。需要注意的是,基尼系数的曲线变化情况和熵曲线是一样的,只是取值不同

当基尼系数为0时,意味着样本集完全纯净,所有样本类别一致;

当基尼系数为1时,样本集的不纯度最高,也就是类别分布均匀。

所以在构建决策树时,也可以使用基尼系数这个指标来进行构建。即计算划分前后的基尼系数情况,选择差值较大的属性进行划分;也可以直接计算划分后的基尼系数,选择基尼系数小的属性进行划分

使用基尼系数作为划分的决策树就是CART决策树。

总之,不管使用何种指标,决策树本质上是通过选择最优的特征,将数据集逐步划分成更纯净的子集

最后,需要说一点的是,决策树是判别模型,虽然它在构建树的过程中也有非常多的计算,看起来也像朴素贝叶斯算法那样在学习数据的分布,但本质上,决策树是根据每一个节点来进行决策,对于每一个节点来说,每个节点学习的仍是输入X和输出Y之间的映射关系。而且有一点需要注意,决策树中的数据都是真实的。(朴素贝叶斯中数据其实是假的,因为在朴素贝叶斯中有一个重要的假设,就是假设各个特征相互独立,它的数据其实是一种生成假设,所以本质上,朴素贝叶斯模型学习的是数据的生成过程。这也是朴素贝叶斯模型是生成模型的原因。

http://www.dtcms.com/wzjs/53765.html

相关文章:

  • 河北网站建设市面价北京网络网站推广
  • 茶叶建设网站的优势免费seo工具
  • 上海网站建设公司地址长沙网络营销推广公司
  • flash做导航网站东莞网络推广策略
  • 建设银行移动门户网站青岛网站建设微动力
  • 政府网站 目的湖南网站建设营销推广
  • 专门做品牌折扣的网站推广赚钱软件
  • 制作营销网站公司北京百度seo工作室
  • asp.net网站建设ppt南京网站建设
  • 福州网站建设招商网站免费优化
  • 网站建设链接windows优化大师可靠吗
  • 全国建设地产网站郑州官网关键词优化公司
  • 网站建设最新活动上海百度整站优化服务
  • 哪个网站的品牌特卖做的好广州新闻发布
  • 医疗美容医院网站建设深圳搜索排名优化
  • 郑州快速网站优化公司首选百度网站排名优化
  • 手机网站有什么好处百度关键词seo排名优化
  • 淘宝客网站建设分类设计网站都有哪些
  • 可以做网站头像的图片惠州seo管理
  • 做网站用哪里的服务器比较好网络软文写作
  • 大型行业门户网站开发建设百度网盟官网
  • 高权重网站 内页做跳转给新网站河北seo技术交流
  • 网站名称在哪里注册10种营销方法
  • 政务网站安全建设工作计划关键词排名怎么上首页
  • 名师工作室网站建设免费网站alexa排名查询
  • 滦南县建设局网站微信营销推广
  • 长沙市建设工程质量安全监督站官方网站软文发布
  • 机械设备上哪个网站做外贸推广免费自制app软件
  • wordpress文章自动tagseo知名公司
  • 广州做商城网站网站快速收录入口