当前位置: 首页 > wzjs >正文

新时代文明实践站模板制作网页的工具软件

新时代文明实践站模板,制作网页的工具软件,wordpress文章子标题,南京网站制作公司在二分类问题中,已知预测概率(如逻辑回归、神经网络输出的概率值)时,阈值的选择直接影响分类结果(正/负样本判定)。 一、实践中的阈值选择方法 1. 基于业务目标的调整 最大化准确率:适用于样…

在二分类问题中,已知预测概率(如逻辑回归、神经网络输出的概率值)时,阈值的选择直接影响分类结果(正/负样本判定)。

一、实践中的阈值选择方法

1. 基于业务目标的调整
  • 最大化准确率:适用于样本均衡且无特殊代价偏好,通常选阈值0.5(默认设置),但需验证是否最优。
  • 最大化召回率(灵敏度):如欺诈检测、疾病筛查,需降低阈值(如0.3),允许更多误报以减少漏报。
  • 最大化精确率:如推荐系统,需提高阈值(如0.7),确保高置信度预测。
2. F1分数最大化

F1分数是精确率和召回率的调和平均,公式为:
F 1 = 2 ⋅ 精确率 ⋅ 召回率 精确率 + 召回率 F1 = 2 \cdot \frac{\text{精确率} \cdot \text{召回率}}{\text{精确率} + \text{召回率}} F1=2精确率+召回率精确率召回率
遍历阈值,找到使F1最大的点,尤其适用于样本不平衡场景。

3. 可视化工具辅助
  • Precision-Recall曲线:观察不同阈值下精确率和召回率的权衡,选择符合业务目标的交点。

二、理论上的最优阈值点

但有时,到甲方做POC时,作为外部的技术人员并不懂它的业务,这时需要先从理论上给出阈值。

1. 贝叶斯决策理论:最小错误率阈值

当误分类代价相等时,根据贝叶斯决策理论,最优阈值应使整体分类错误率最小,对应公式为:
阈值 = P ( 负类 ) P ( 正类 ) = 负类先验概率 正类先验概率 \text{阈值} = \frac{P(\text{负类})}{P(\text{正类})} = \frac{\text{负类先验概率}}{\text{正类先验概率}} 阈值=P(正类)P(负类)=正类先验概率负类先验概率

  • 原理:若预测概率 p ≥ 阈值 p \geq \text{阈值} p阈值,判为正类;否则判为负类。
  • 适用场景:样本均衡(正负类先验概率接近)且误分类成本相同。
2. 约登指数(Youden’s Index)最大化

约登指数定义为 灵敏度(真阳率) + 特异度(真阴率) - 1,其最大值对应的阈值是理论上平衡灵敏度和特异度的最优解:
阈值 = arg ⁡ max ⁡ τ ( TPR ( τ ) + TNR ( τ ) − 1 ) \text{阈值} = \arg\max_{\tau} \left( \text{TPR}(\tau) + \text{TNR}(\tau) - 1 \right) 阈值=argτmax(TPR(τ)+TNR(τ)1)

  • 优势:无需考虑误分类成本,仅基于数据本身的分布,是ROC曲线中离左上角(完美分类点)最近的点。
  • 计算:遍历所有可能的阈值(通常取预测概率的唯一值),计算对应的约登指数并取最大值。
3. 最小化预期误分类成本(Cost-Sensitive)

当正负样本误分类代价不同(如漏诊代价高于误诊),阈值需根据代价矩阵调整:
阈值 = C ( 正类→负类 ) ⋅ P ( 负类 ) C ( 负类→正类 ) ⋅ P ( 正类 ) \text{阈值} = \frac{C(\text{正类→负类}) \cdot P(\text{负类})}{C(\text{负类→正类}) \cdot P(\text{正类})} 阈值=C(负类正类)P(正类)C(正类负类)P(负类)
- C ( 正→负 ) C(\text{正→负}) C():正类误判为负类的代价(如漏判疾病);
- C ( 负→正 ) C(\text{负→正}) C():负类误判为正类的代价(如误报疾病)。

  • 示例:若漏判代价是误报的10倍,阈值应降低以减少漏判。
3. 可视化工具辅助
  • ROC曲线:虽然AUC不直接给出阈值,但ROC曲线上的“拐点”(曲率最大点)常被经验性选为阈值。

三、一个数学推导与几何意义

理论上的“最优点”本质是目标函数的最优解,需根据问题特性(成本、均衡性、业务需求)选择合适的标准,而非单一固定值。

ROC曲线上的“拐点”(曲率最大点)可作为理论上的阈值,有很强的几何意义:它既是约登指数最大的点,又是平行于对角线(过(0,0)和(1,1)的直线与ROC的切点,即:ROC曲线上切线与对角线(斜率1)平行的点,是约登指数最大的点,也是几何上离对角线最远的“拐点”(切点)。
如下从数学角度证明:

1. 对角线的斜率与切线条件

对角线方程为 TPR = FPR \text{TPR} = \text{FPR} TPR=FPR,斜率为1。
设ROC曲线为 TPR = f ( FPR ) \text{TPR} = f(\text{FPR}) TPR=f(FPR),曲线上某点的切线斜率为 f ′ ( FPR ) f'(\text{FPR}) f(FPR)
当切线与对角线平行时,有:
f ′ ( FPR ) = 1 f'(\text{FPR}) = 1 f(FPR)=1

2. 约登指数最大化与切线条件

约登指数 J = f ( FPR ) − FPR J = f(\text{FPR}) - \text{FPR} J=f(FPR)FPR,对 FPR \text{FPR} FPR求导并令导数为0:
d J d FPR = f ′ ( FPR ) − 1 = 0 ⇒ f ′ ( FPR ) = 1 \frac{dJ}{d\text{FPR}} = f'(\text{FPR}) - 1 = 0 \quad \Rightarrow \quad f'(\text{FPR}) = 1 dFPRdJ=f(FPR)1=0f(FPR)=1
这表明约登指数最大的点恰好满足切线斜率为1,即切线与对角线平行。

3. 几何意义:离对角线最远的点

对角线代表“随机分类器”(无区分能力),ROC曲线上任意点 ( FPR , TPR ) (\text{FPR}, \text{TPR}) (FPR,TPR)到对角线的垂直距离为:
d = ∣ TPR − FPR ∣ 2 d = \frac{|\text{TPR} - \text{FPR}|}{\sqrt{2}} d=2 TPRFPR
最大化 d d d等价于最大化 ∣ TPR − FPR ∣ |\text{TPR} - \text{FPR}| TPRFPR。由于ROC曲线中 TPR ≥ FPR \text{TPR} \geq \text{FPR} TPRFPR(模型至少不劣于随机分类器),故等价于最大化 TPR − FPR \text{TPR} - \text{FPR} TPRFPR,即约登指数 J J J
因此,切线平行于对角线的点,正是ROC曲线离对角线最远的点,几何上表现为曲线的“拐点”(曲率较大的切点)。

注:

  • 数学拐点:严格定义为二阶导数变号的点(曲线凹凸性改变的点),与切线斜率无关。
  • 此处“拐点”:实际指约登指数最大的切点,强调几何上离对角线最远、切线斜率为1,而非严格数学拐点。
  • 曲率最大点:通过曲率公式 κ = ∣ f ′ ′ ∣ ( 1 + f ′ 2 ) 3 / 2 \kappa = \frac{|f''|}{(1 + f'^2)^{3/2}} κ=(1+f′2)3/2f′′计算,可能与切线斜率为1的点重合(当二阶导数在此处达到极值时),但二者定义不同。
    • 实际应用中,约登指数最大的点更关注业务意义(平衡TPR和FPR),而非纯数学曲率。

实例验证
假设某模型的ROC曲线方程为 TPR = FPR \text{TPR} = \sqrt{\text{FPR}} TPR=FPR (凸曲线),求切线斜率为1的点:

  1. 导数 f ′ ( FPR ) = 1 2 FPR = 1 f'(\text{FPR}) = \frac{1}{2\sqrt{\text{FPR}}} = 1 f(FPR)=2FPR 1=1,解得 FPR = 0.25 \text{FPR} = 0.25 FPR=0.25,对应 TPR = 0.5 \text{TPR} = 0.5 TPR=0.5
  2. 该点切线方程为 TPR = FPR + 0.25 \text{TPR} = \text{FPR} + 0.25 TPR=FPR+0.25,确实平行于对角线,且约登指数 J = 0.5 − 0.25 = 0.25 J = 0.5 - 0.25 = 0.25 J=0.50.25=0.25为最大值。
  3. 几何上,该点到对角线的距离为 0.25 2 \frac{0.25}{\sqrt{2}} 2 0.25,是曲线上的最大距离点。

文章转载自:

http://UfymbsNU.jcffp.cn
http://WAsFKcSb.jcffp.cn
http://pTIUICj2.jcffp.cn
http://iEmH2h72.jcffp.cn
http://Y3LoD0mT.jcffp.cn
http://4teDqYDI.jcffp.cn
http://UE97ssbs.jcffp.cn
http://vJRuqKx9.jcffp.cn
http://aOSy4oDM.jcffp.cn
http://Py97GoJK.jcffp.cn
http://GmlNCLZH.jcffp.cn
http://XQi41P7w.jcffp.cn
http://vBRGZb8E.jcffp.cn
http://sTSIFFs0.jcffp.cn
http://SzJgJKY6.jcffp.cn
http://frLNFniq.jcffp.cn
http://QJsWFFri.jcffp.cn
http://NQZ5TXlp.jcffp.cn
http://DlsONPwZ.jcffp.cn
http://8tXCnek3.jcffp.cn
http://tmg99Nf8.jcffp.cn
http://Xlu9akki.jcffp.cn
http://xMAKbFlu.jcffp.cn
http://KxOSO0pI.jcffp.cn
http://e4221s1S.jcffp.cn
http://BAAV5Ow6.jcffp.cn
http://jOJoC5xc.jcffp.cn
http://84IgUdXQ.jcffp.cn
http://x2dxxVCF.jcffp.cn
http://uEeLSqiF.jcffp.cn
http://www.dtcms.com/wzjs/745905.html

相关文章:

  • 大型网站建设推广福州seo按天扣费
  • 个人建设网站要钱吗短链接生成网址
  • wordpress会员网站怎么开发网页游戏
  • 海南建设银行官方网站网站建设维护公司排名
  • 做美容有哪些网站2022最近比较火的热点话题
  • 单页网站下载263企业邮箱app下载
  • 做网站公司怎么找客户沈阳男科医院在哪里
  • 嘉兴网站建设一薇免费的背景视频素材
  • 做水果网站平台新乡网站建设服务
  • 怎么建设国外网站高端h5网站建设 上海
  • 杭州网站公司怎样写营销策划方案
  • 住房城乡建设部门门户网站贵阳做网站好的公司
  • 服装公司网站网页设计虹口房产网站建设
  • 博客内容跟网站相关吗深圳市设计院排名
  • 一级做爰片a视频网站试看网站信息化建设建议书
  • 做海报图片去哪个网站找 知乎高明网站设计服务
  • 网站主机和空间开发一个外卖app需要多少钱
  • 巴中市平昌县建设局网站广州注册公司网址
  • 公司网站流程做淘宝客网站挣钱
  • 做视频卖给视频网站贵州新闻
  • 武进常州做网站wordpress 插件play
  • 嘉定区网站建设公司建微信网站模板
  • 中州建设有限公司网站互联网营销师
  • 网站中有哪些标签需要优化合肥网络公司行情
  • 宝塔网站做301重定向seo推广公司价格
  • 电子线路板东莞网站建设水利建筑工程网站
  • wordpress中添加登陆页面跳转1688seo优化是什么
  • 菏泽机关建设网站提高学历去哪里报名正规
  • 网站被安全狗拦截php做的网站手机能看到
  • 上海 网站备案系统免费空间最大的网盘