当前位置: 首页 > news >正文

机器学习-ROC曲线​​ 和 ​​AUC指标

1. 什么是ROC曲线?​

ROC(Receiver Operating Characteristic,受试者工作特征曲线)是用来评估​​分类模型性能​​的一种方法,特别是针对​​二分类问题​​(比如“患病”或“健康”)。

​核心思想​

  • ROC曲线通过改变​​分类阈值​​(即模型预测为“正类”的概率界限),观察模型的​​真正例率(TPR)​​和​​假正例率(FPR)​​的变化。
  • ​TPR(True Positive Rate)​​ = 真正例 / 所有实际正例
    (正确识别出病人的比例)
  • ​FPR(False Positive Rate)​​ = 假正例 / 所有实际负例
    (把健康人误诊为病人的比例)

​例子:医生诊断病人​

假设我们有10个病人,其中​​4个真的患病(正类)​​,​​6个健康(负类)​​。医生(模型)对每个病人给出一个​​患病概率​​(0~1之间的值)。

病人实际状态模型预测概率
1患病0.9
2患病0.8
3患病0.7
4患病0.6
5健康0.55
6健康0.54
7健康0.53
8健康0.52
9健康0.51
10健康0.5

​问题​​:医生应该设置一个阈值(比如0.6),把概率≥0.6的病人判定为“患病”,否则“健康”。但这个阈值选多少最好呢?ROC曲线就帮我们分析不同阈值下的表现。


​2. 如何画ROC曲线?​

我们调整​​阈值​​,计算不同阈值下的​​TPR和FPR​​,然后画出曲线:

阈值预测结果(≥阈值=患病)TPR(真正例率)FPR(假正例率)
0.9[1]1/4 = 0.250/6 = 0
0.8[1,2]2/4 = 0.50/6 = 0
0.7[1,2,3]3/4 = 0.750/6 = 0
0.6[1,2,3,4]4/4 = 1.00/6 = 0
0.55[1,2,3,4,5]4/4 = 1.01/6 ≈ 0.167
0.54[1,2,3,4,5,6]4/4 = 1.02/6 ≈ 0.333
............

​ROC曲线​​就是把所有(FPR, TPR)点连起来:

  • ​横轴(X)​​:FPR(假正例率)
  • ​纵轴(Y)​​:TPR(真正例率)

​理想情况​​:曲线越靠近左上角(TPR高,FPR低),模型越好。


​3. 什么是AUC?​

AUC(Area Under Curve,曲线下面积)是ROC曲线下的面积,范围在​​0~1​​:

  • ​AUC=1​​:完美模型(所有病人都被正确识别,没有误诊)
  • ​AUC=0.5​​:随机猜测(和抛硬币一样,没有区分能力)
  • ​AUC=0​​:完全反了(把病人当成健康,健康当成病人)

​例子​​:

  • 如果AUC=0.9,说明模型很好。
  • 如果AUC=0.6,说明模型一般。
  • 如果AUC=0.5,说明模型和随机猜测差不多。

​4. Python代码实现​

我们用sklearn计算ROC曲线和AUC:

import numpy as np from sklearn.metrics import roc_curve, auc import matplotlib.pyplot as plt # 实际标签(1=患病,0=健康) y_true = np.array([1, 1, 1, 1, 0, 0, 0, 0, 0, 0]) # 模型预测概率 y_scores = np.array([0.9, 0.8, 0.7, 0.6, 0.55, 0.54, 0.53, 0.52, 0.51, 0.5]) # 计算ROC曲线 fpr, tpr, thresholds = roc_curve(y_true, y_scores) # 计算AUC roc_auc = auc(fpr, tpr) # 画图 plt.figure() plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (AUC = {roc_auc:.2f})') plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--') # 随机猜测的线 plt.xlabel('False Positive Rate (FPR)') plt.ylabel('True Positive Rate (TPR)') plt.title('Receiver Operating Characteristic (ROC) Curve') plt.legend(loc="lower right") plt.show()
 

​输出结果​​:

  • 你会看到一条ROC曲线,AUC值会显示在图上(比如AUC=1.0,因为这个例子数据简单)。

​5. 总结​

概念解释
​ROC曲线​不同阈值下的TPR vs FPR曲线
​AUC​ROC曲线下的面积,衡量模型区分能力
​理想情况​AUC接近1,曲线靠近左上角
​随机猜测​AUC=0.5,曲线是45度直线

​适用场景​​:

  • 医学诊断(患病/健康)
  • 垃圾邮件检测(垃圾/正常)
  • 金融风控(欺诈/正常)

希望这个例子能让你轻松理解ROC和AUC!如果有疑问,欢迎继续讨论 😊

相关文章:

  • 【Unity博客节选】Timeline 内部结构 IntervalTree 分析
  • 基于微信小程序的垃圾分类系统
  • 十三、【核心功能篇】测试计划管理:组织和编排测试用例
  • vue-11(命名路由和命名视图)
  • 【小米拥抱AI】小米开源视觉大模型—— MiMo-VL
  • 2,QT-Creator工具创建新项目教程
  • debian12.9或ubuntu,vagrant离线安装插件vagrant-libvirt
  • PHP与MYSQL结合中中的一些常用函数,HTTP协议定义,PHP进行文件编程,会话技术
  • Android第十二次面试-多线程和字符串算法总结
  • 健康检查:在 .NET 微服务模板中优雅配置 Health Checks
  • 基于微信小程序的云校园信息服务平台设计与实现(源码+定制+开发)云端校园服务系统开发 面向师生的校园事务小程序设计与实现 融合微信生态的智慧校园管理系统开发
  • python集成inotify-rsync实现跨服务器文件同步
  • Java对象的内存结构
  • Git仓库大文件清理指南
  • C++测开,自动化测试,业务(第一段实习)
  • 【PyQt5】PyQt5初探 - 一个简单的例程
  • 数据结构-排序-排序的七种算法(2)
  • Google Android 14设备和应用通知 受限制的设置 出于安全考虑......
  • Office办公文档软件安装包2024版
  • Java复习Day25
  • 长沙网站建设方案/东莞网站营销推广
  • 长沙人才招聘网靠谱吗/seo是做什么工作内容
  • 做网站的时候说需求的专业术语/中央广播电视总台
  • 桓台网站/四川全网推网络推广
  • 晋江网站建设/百度热搜榜排名
  • 旅游网站论文/google搜索排名优化