决策树模型
决策树(TDS)
注意1:决策树有很多种算法,比如:ID3算法,C4.5算法,CART算法,这三个算法的区别是选择最优划分属性的方法不同,第一个是根据信息增益来选;第二个是找出信息增益高于平均水平的属性,再从中选择增益率最高的;第三个是根据基尼指数来选。
注意2:选择最优划分属性的方法有很多,但是有实验表明这些划分方法对决策树泛化性能的影响很有限,也有文献说信息增益和基尼指数仅在2%的情况下会有所不同。有实验表面剪枝方法和剪枝程度会对决策树泛化能力产生很大影响。所以学决策树要重点关注剪枝方法,而不要去特别关注属性划分。决策树构造树结构的方法其实主要是根据选择最优划分属性的方法来构造,所以决策树可研究性不大,但是决策树在工程中应用还是较多的。
思想:决策树是可用于分类和回归任务,它是无参数的监督学习方法。分为单变量决策树和多变量决策树。单变量决策树是在节点处根据最优划分属性来进行划分。多变量决策树在节点处依据多个属性的线性组合进行划分。
涉及的知识:选择最优划分属性的方法,信息熵,信息增益,增益率,基尼指数,预剪枝,后剪枝,二分法,连续值处理,缺失值处理,ID3算法,C4.5算法,CART算法。
核心内容:选择最优划分属性的方法,预剪枝,后剪枝,连续值处理,缺失值处理.