当前位置: 首页 > news >正文

机器学习中Precision(查准率)和Recall(查全率)

  • TP(True Positive):真正例(实际为正且预测为正)

  • FP(False Positive):假正例(实际为负但预测为正)

  • FN(False Negative):假负例(实际为正但预测为负)

查准率 

Precision=\frac{TP}{TP+FP}

预测为正类的样本中,真实为正类的比例(衡量预测的准确性)。

若模型预测100个样本为正类,其中80个真实为正类(TP),20个为负类(FP),则:

 Precision=\frac{80}{80+20}=0.8

查全率

Recall=\frac{TP}{TP+FN}

真实为正类的样本中,被正确预测为正类的比例(衡量覆盖的全面性)。

若真实有100个正类样本,模型正确预测了75个,漏检25个,则:

Recall=\frac{75}{75+25}=0.75

 两者之间的矛盾

提高查准率可能降低查全率,反之亦然。

举例:

在二分类模型中(如逻辑回归、SVM),调整​​分类阈值​​(Threshold)可以改变预测结果:

  • ​提高阈值​​(如从0.5→0.8):

    • ​Precision↑​​:只有置信度极高的样本被预测为正类,FP减少。

    • ​Recall↓​​:许多真实正类样本因阈值过高被漏掉(FN增加)。

    • 例子:疾病诊断中,仅对高度疑似病例确诊(减少误诊,但可能漏诊轻症患者)。

  • ​降低阈值​​(如从0.5→0.3):

    • ​Recall↑​​:更多真实正类样本被覆盖,FN减少。

    • ​Precision↓​​:许多负类样本被误判为正类(FP增加)。

    • 例子:垃圾邮件过滤中,放宽规则以捕获更多垃圾邮件(但可能误判正常邮件)。

调和指标(F1 Score)​​:综合两者平衡,公式为:

F1=\frac{2\times Precision\times Recall}{Precision\dotplus Recall} 

当两者均为1时,F1=1(理想情况)。

一些场景

更看重Precision的任务:

   减少误报(False Positive, FP)​​,即确保预测为正类的样本尽可能准确。

  • 垃圾邮件分类​​:宁可漏判(Recall低),也不能将正常邮件误判为垃圾邮件(FP代价高)垃圾邮件是正类,非垃圾邮件是负类

  • ​金融风控​​:误将正常交易标记为欺诈(FP)可能导致客户投诉或流失 非正常交易是正类,正常交易是负类

  • ​推荐系统​​:推荐内容必须精准(Precision高),否则用户会失去信任。

更看重Recall的任务​

​   减少漏报(False Negative, FN)​​,即尽可能覆盖所有真实正类样本。

  • 疾病筛查​​:宁可误诊(FP高),也不能漏诊患者(FN代价高,如癌症早期检测)。

  • ​安全监控​​:漏掉真实威胁(FN)比误报警(FP)更危险。

  • ​搜索引擎​​:需尽量返回所有相关结果(Recall高),即使包含部分不相关结果。

需平衡Precision和Recall的任务​

   在误报和漏报之间找到平衡。

  • ​人脸识别​​:既要减少误识别(FP),也要避免漏识别(FN)。

  • ​广告点击预测​​:需平衡精准投放(Precision)和覆盖潜在用户(Recall)。

http://www.dtcms.com/a/283569.html

相关文章:

  • 第2章通用的高并发架构设计——2.3 高并发读场景方案2:本地缓存
  • nftables的配置与使用
  • sqlite3_exec函数练习
  • 多维动态规划题解——最小路径和【LeetCode】记忆化搜索翻译为递推写法
  • # Win11开机卡死?无法进入登录界面?3招强制进安全模式,快速修复系统
  • 亚马逊广告深度优化:如何平衡大词与小词的投放,提升转化率?
  • 初学python的我开始Leetcode题-13
  • webpack将组件vue进行编译混淆,并能正常使用编译之后的文件
  • H3CNE综合实验
  • 2025第二届绿色能源与机电工程国际学术会议(ICGEME 2025)
  • 数据库(five day)——物物而不物于物,念念而不念于念。
  • java基础(day09)
  • Python中的列表list、元组(笔记)
  • BASE64编码通俗介绍
  • 观察者设计模式
  • 嵌入式单片机开发实战指南: 从RISC-V到TinyML全栈技术
  • 测试工作中的质量门禁管理
  • DMC-E 系列总线控制卡----雷赛板卡介绍(十六)
  • ST表及数学归纳法
  • 洛谷 P11247 [GESP202409 六级] 算法学习-普及/提高-
  • IIS网站间歇性打不开暴力解决方法
  • 基于多源时序特征卷积网络(MSTFCN)的光伏功率预测模型
  • 对称二叉树、二叉树直径
  • 云测试提前定位和解决问题 萤火故事屋上架流程
  • LLM指纹底层技术——模型架构
  • IPD核心思想之一:业务与能力并重
  • 专业文档盖章软件,批量处理高效
  • Qt开发环境搭建指南:从零开始构建跨平台应用基石
  • MySQL InnoDB 存储引擎
  • 算法穿上隐身衣:数据交易中数据黑箱与算法透明性的法律义务边界