当前位置: 首页 > wzjs >正文

做网站的学什么代码2022最近比较火的热点话题

做网站的学什么代码,2022最近比较火的热点话题,网站绿色图片什么颜色做底色,软件工程考研要考哪些科目精度和召回率 简介 当机器学习应用中正负例比例严重失衡(远非 50:50)时,准确性这样的常用评估指标效果不佳。以训练二元分类器检测罕见疾病为例,假设测试集上错误率为 1%(正确率 99%),看似结果…

精度和召回率

简介

当机器学习应用中正负例比例严重失衡(远非 50:50)时,准确性这样的常用评估指标效果不佳。以训练二元分类器检测罕见疾病为例,假设测试集上错误率为 1%(正确率 99%),看似结果很好,但如果疾病罕见(如人群中只有 0.5% 的病人患病),一个简单的总是预测 “Y 等于 0”(即预测无病)的算法,其错误率可能更低(0.5%)。

在正负例不平衡的情况下,很难根据准确率判断算法优劣。例如,不同算法准确率分别为 99.5%、92%、96%,最低误差的算法可能像总是预测 “Y 等于 0” 的算法一样,没有诊断出任何患病病人,没有实际用处。相对比较,有 1% 误差但能诊断出一些患病病人的算法,可能比总是输出 “Y 等于 0” 的算法更有用。

精度和召回率

这种情况下仅依据错误率无法判断算法结果的好坏,所以引入新的概念精度和召回率

  • 混淆矩阵:在处理复杂数据集时,通常使用精度和召回率等评估指标。为评估算法在交叉验证集或测试集上的表现,构造混淆矩阵(2×2 矩阵)。矩阵上方轴表示实际类别(1 或 0),垂直方向表示预测类别(1 或 0)。例如,在 100 个交叉验证集例子中,可能有 15 个实际类是 1 且预测类是 1(真阳性),5 个实际类是 0 但预测类是 1(假阳性),10 个实际类是 1 但预测类是 0(假阴性),70 个实际类是 0 且预测类是 0(真阴性)。
  • 精度(Precision):在所有预测为正(即预测病人患病)的病人中,真正患有罕见疾病的比例。计算公式为:精度 = 真阳性数量 / 分类为正的数量 = 真阳性 /(真阳性 + 假阳性)。在上述例子中,精度 = 15 /(15 + 5) = 0.75,即 75%,意味着在所有预测为患病的病人中,75% 确实患病。
  • 召回率(Recall):在所有实际患有罕见疾病的病人中,被正确检测出患病的比例。计算公式为:召回率 = 真阳性数量 / 实际阳性数量 = 真阳性 /(真阳性 + 假阴性)。在上述例子中,召回率 = 15 /(15 + 10) = 0.6,即 60%,意味着在所有实际患病的病人中,60% 被正确检测出来了。

作用

计算精度和召回率可以帮助检测学习算法是否总是预测为零(若总是预测为零,真阳性数量为零,精度和召回率都为零或精度无定义)。同时,较高的精度和召回率可以帮助确认学习算法是有用的。精度体现了当算法说病人患病时,病人确实患病的可能性;召回率体现了在所有希望诊断出疾病的病人中,算法能正确检测出的比例。

如何校准精度和召回率

理想目标与现实权衡

理想情况下,希望学习算法具有高精度和高召回率。高精度意味着,如果诊断出患者患有某种疾病,那么患者很可能确实患病,即诊断准确;高召回率表示如果患者实际患有疾病,算法很可能正确识别出他们患病。然而,在实际应用中,精度和召回率之间往往存在权衡关系。

阈值调整

  • 基于逻辑回归预测的阈值设定:在使用逻辑回归进行预测时,模型会输出 0 到 1 之间的数字。通常将输出阈值设为 0.5,当输出大于等于 0.5 时预测为 1(即认为疾病存在),小于 0.5 时预测为 0。但可以根据实际需求调整阈值。
  • 提高阈值的情况:若希望在预测疾病存在时更加谨慎(因为预测患病后可能需要对患者进行侵入性且昂贵的治疗),可以提高阈值,如设为 0.7。提高阈值会使算法在预测为 1 时更有信心,从而提高精度,因为预测为正例时更可能是正确的。但同时,由于预测为 1 的情况减少,会导致召回率降低,即实际患病的患者中被正确诊断出的比例下降。
  • 降低阈值的情况:相反,如果希望避免遗漏太多罕见疾病案例,且治疗相对不那么侵入性、痛苦或昂贵,而不治疗疾病会给患者带来更严重后果时,可以降低阈值,如设为 0.3。此时,只要认为疾病存在的可能性达到 30% 或更高就预测为 1。这样做会使精度降低,因为更倾向于预测为 1,即使不太确定;但会提高召回率,因为能够正确识别出更多实际患病的患者。
  • 阈值与精度、召回率的一般关系:一般来说,通过选择不同的阈值,可以在精度和召回率之间做出不同的权衡。大多数学习算法中,当设置很高的阈值(如 0.99)时,精度高但召回率低;随着阈值降低,会得到一条权衡精度和召回率的曲线,当阈值很低(如 0.01)时,精度低但召回率相对较高。

选择阈值的方法

绘制不同阈值下的精度和召回率曲线,可以帮助选择一个合适的阈值,该阈值对应的点能够平衡假阳性和假阴性的影响,或者平衡高精度和高召回率的好处。需要注意的是,选择阈值通常不能通过交叉验证来完成,而是需要根据具体应用手动选择。

综合评估指标 ——F1 分数

  • 提出 F1 分数的原因:由于使用精度和召回率这两个不同指标评估算法时,可能会遇到难以选择算法的情况(例如不同算法的精度和召回率表现各有优劣,没有一个算法在两个指标上都明显更优),所以需要一种方法将精度和召回率合并为一个指标,以便更直观地比较算法。
  • 简单平均的不足:直接取精度和召回率的平均值不是一个好方法,因为可能会出现某个算法的精度非常低(如一个算法总是预测为 1,诊断所有患者都患有疾病,虽然召回率可能高,但精度很低),但平均后得到的数值可能看起来还不错,导致选择了实际上不太有用的算法。
  • F1 分数的计算和特点:最常见的结合精度和召回率的方法是计算 F1 分数。F1 分数的计算公式为F1 = \frac{2}{\frac{1}{P} + \frac{1}{R}}(其中P为精度,R为召回率),也可以化简为其他形式。F1 分数更强调精度和召回率中较低的值,因为如果一个算法的精度或召回率很低,那么它可能不太有用。通过计算 F1 分数,可以对不同算法进行比较,选择 F1 分数较高的算法。在数学上,F1 分数是精度和召回率的调和平均值,调和平均值更注重较小的值。

http://www.dtcms.com/wzjs/133833.html

相关文章:

  • 企业网站建设会计分录seo美式
  • 美妆网站模版个人网络销售平台
  • 360网站做二维码chrome官网
  • 慈利县建设局网站上海企业seo
  • 桥梁建设网站在哪里可以投稿抖音seo代理
  • 网站的栏目是什么a5站长网网站交易
  • 英文外贸网站建设网站设计方案淘宝代运营1个月多少钱
  • 网站怎么做分类聚合网站到首页排名
  • 做网站哪里最便宜客户关系管理系统
  • 网络营销评价的名词解释广州新塘网站seo优化
  • 云南大学网站建设最经典最常用的网站推广方式
  • 网站建设流程教程企拓客软件多少钱
  • html代码爱心常州seo建站
  • 如何新建一个网站网上怎么推广产品
  • 县政府网站建设实施方案教育培训平台
  • 注册公司要钱吗青岛自动seo
  • 网站建设维护日记湖南优化公司
  • 网站怎么做seo优化标题关键词优化技巧
  • 凯发网站怎么做推广网站
  • 高职思政主题网站建设作用营销型网站建设多少钱
  • 那些市区做网站群seo点击软件哪个好用
  • 手机营销网站模板网络运营和网络营销的区别
  • 网站建设方面的文章找个免费网站这么难吗
  • 专门做win7系统的网站百度推广怎么做的
  • 原创网站设计费用如何做网站设计
  • 织梦网站模板如何安装seo培训班 有用吗
  • 北京如何做网站天津seo外包平台
  • 做自己的直播网站网站模板下载
  • 临淄信息网最新招聘小时工谷歌官方seo入门指南
  • 响应式自助建站平台新浪博客seo