机器学习中的高准确、低召回
在机器学习、数据挖掘中,高准确(High Precision) 和低召回(Low Recall) 是描述模型性能的两个核心指标,用于衡量分类任务(如判断“是/否”“正/负”)的效果。
先明确基础概念:
在二分类问题中,样本通常被分为两类:
- 正例(Positive):我们关注的目标( 病毒筛查中的 “阳性”、垃圾邮件检测中的“垃圾邮件”)。
- 负例(Negative):非目标样本( 阴性、正常邮件)。
模型的预测结果会产生4种情况:
- TP(True Positive):实际是正例,模型也预测为正例(如感染者正确检测出阳性)。
- FP(False Positive):实际是负例,模型误判为正例(如把健康的人误诊成阳性)。
- TN(True Negative):实际是负例,模型也预测为负例(如健康的人是阴性)。
- FN(False Negative):实际是正例,模型误判为负例(如感染者检验是阴性)。
高准确(High Precision):
准确率(Precision) 的计算公式:
准确率 = TP / (TP + FP)
含义:模型预测为“正例”的结果中,真正是正例的比例。
“高准确”意味着:
模型一旦判断某个样本是“正例”,这个判断的可靠性很高(很少把负例误判为正例)。
例如,在病毒筛查中的 阳性,几乎都是感染者(很少混入 健康人)。
低召回(Low Recall):
召回率(Recall,又称查全率) 的计算公式:
召回率 = TP / (TP + FN)
含义:所有实际是正例的样本中,被模型成功预测为正例的比例。
“低召回”意味着:
模型漏检了很多真实的正例(大量实际是正例的样本,被模型误判为负例)。
例如,在在病毒筛查中“低召回”表示:很多感染者没被检测出来,被检测成了阴性 健康的。
高准确、低召回的综合解读:
这种情况说明模型“保守且苛刻”:
- 对“正例”的判定标准很严格,确保一旦判定就大概率正确(高准确);
- 但代价是“放过了很多真正的正例”,导致大量目标样本被遗漏(低召回)。
举例:
- 垃圾邮件检测中,若模型“高准确、低召回”,则拦截的邮件几乎都是垃圾邮件(很少误删正常邮件),但会有很多垃圾邮件没被拦截(漏检)。
- 病毒筛查中,若模型“高准确、低召回”,则识别出的阳性几乎都是 感染者,但会漏掉很多感染者没有被检测出来。
何时需要这种特性?
通常用于“对误判(FP)的代价很高”的场景:
- 例如医疗诊断中,若“阳性”代表“患病”,高准确可避免“健康人被误诊为患病”(减少不必要的治疗),但低召回却可能漏诊部分患者。
这种情况下,模型优先保证“判断的可靠性”,牺牲了“全面性”。