6.机器学习性能评估与决策树算法
一.误差指标:
1.精确率、召回率、混淆矩阵:
为评估具有稀有类别的学习算法性能,构建混淆矩阵;

召回率:所有患病人中,可以准确诊断出多少患者确实患病。
- 实例: - 若优先避免 “漏诊”(比如癌症早期诊断),则更看重召回率(尽量把真病人都找出来,哪怕多一些假阳性)。
- 若优先避免 “误诊”(比如普通感冒筛查),则更看重精确度(尽量保证预测患病的人真的患病,哪怕漏诊一些轻症)。
 
2.F1分数:
-    希望算法具有高精确度和高召回率 - 高精度(意味着如果它诊断出某人患有罕见病概率是多少)、高召回率(意味着若患者患罕见病,算法可以正确识别的概率)。
 
【例】若使用逻辑回归进行预测 [ 输出(0,1)之间的数值 ] ,通常会在0.5处对逻辑回归的输出进行阈值处理 [ f(x)>=0.5预测为1,反之预测为0 ] ;通过提高阈值 [ f(x)>=0.7预测为1,f(x)<0.7预测为0 ]
