机器学习--决策树算法(筛选病例)
其中一份数据集,覆盖11项检测指标
决策树的工作原理就是模拟一棵树的分叉原理,利用这些检测化验数据,把患有心脏病的病例和心脏完全健康的病例正确的分类

叶子节点下面不会再有分支
算法基于的原理:信息熵
信息熵=0 明天的太阳从东方升起
信息熵=很大 明天的股市会涨

计算公式:

计算全部数据的熵:
这份检测结果的数据只有两个,则n=2 X=ALL
然后选择一个检测指标数据,对全部的病例进行划分
比如,我们用静息心电图的结果来进行划分,分出来三种Normal,ST,LVH,其中病例数分别为552,178,188,可以计算出他们的信息熵的值都为多少。
如果使用静息心电图的检测结果,来划分全部数据,那么全部的检测数据的不确定性(信息熵的值)能降低多少呢
信息增益计算公式:

