当前位置: 首页 > news >正文

在网站文字上做笔记设计制作中国第一架飞机的人是

在网站文字上做笔记,设计制作中国第一架飞机的人是,录像网站怎么做,t型网站域名和版面KS值(Kolmogorov-Smirnov Statistic) 是信用评分与风控模型的核心评估指标,用于量化模型对好坏样本的区分能力。 本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关…

KS值(Kolmogorov-Smirnov Statistic) 是信用评分与风控模型的核心评估指标,用于量化模型对好坏样本的区分能力

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

一、KS值的本质与定义

1. 数学定义

KS值定义为好坏客户累积分布曲线(CDF)的最大垂直距离
KS = max ⁡ s ∣ CDF Good ( s ) − CDF Bad ( s ) ∣ \text{KS} = \max_{s} \left| \text{CDF}_{\text{Good}}(s) - \text{CDF}_{\text{Bad}}(s) \right| KS=smaxCDFGood(s)CDFBad(s)

  • s s s:模型评分(分数越高表示风险越低)
  • CDF Good ( s ) \text{CDF}_{\text{Good}}(s) CDFGood(s):好客户(如正常还款者)中评分≤ s s s的比例
  • CDF Bad ( s ) \text{CDF}_{\text{Bad}}(s) CDFBad(s):坏客户(如违约者)中评分≤ s s s的比例
2. 直观理解
  • 理想模型:好坏客户分布完全分离 → KS值接近1
  • 随机模型:好坏客户分布重合 → KS值接近0
  • 业务意义:KS值越大,模型越能区分风险高低(如高分段好客户集中,低分段坏客户集中)。

往期文章推荐:

  • 20.XGBoost:梯度提升的终极进化——统治Kaggle的算法之王
  • 19.LightGBM:极速梯度提升机——结构化数据建模的终极武器
  • 18.PAC 学习框架:机器学习的可靠性工程
  • 17.Boosting:从理论到实践——集成学习中的偏差征服者
  • 16.GBDT:梯度提升决策树——集成学习中的预测利器
  • 15.集成学习基础:Bagging 原理与应用
  • 14.随机森林详解:原理、优势与应用实践
  • 13.经济学神图:洛伦兹曲线
  • 12.双生“基尼”:跨越世纪的术语撞车与学科分野
  • 11.CART算法全解析:分类回归双修的决策树之王
  • 10.C4.5算法深度解析:决策树进化的里程碑
  • 9.决策树:化繁为简的智能决策利器
  • 8.深入解析ID3算法:信息熵驱动的决策树构建基石
  • 7.类图:软件世界的“建筑蓝图”
  • 6.饼图:数据可视化的“切蛋糕”艺术
  • 5.用Mermaid代码画ER图:AI时代的数据建模利器
  • 4.ER图:数据库设计的可视化语言 - 搞懂数据关系的基石
  • 3.决策树:被低估的规则引擎,80%可解释性需求的首选方案
  • 2.实战指南:用DataHub管理Hive元数据
  • 1.一键规范代码:pre-commit自动化检查工具实战指南

二、KS值计算全流程(以信用评分卡为例)

步骤1:按模型评分排序样本(从高分到低分)
评分区间好客户数坏客户数累计好客户占比累计坏客户占比累积分布差
[800, 850]150215%1%|15%-1%|=14%
[750, 800)3001045%6%|45%-6%|=39%
[700, 750)2505070%31%|70%-31%|=39%
[650, 700)2008090%71%|90%-71%|=19%
[600, 650)10058100%100%|100%-100%|=0%
步骤2:计算累积分布差,最大值即为KS值

KS = max ⁡ ( 14 % , 39 % , 39 % , 19 % , 0 % ) = 39 % \text{KS} = \max(14\%, 39\%, 39\%, 19\%, 0\%) = 39\% KS=max(14%,39%,39%,19%,0%)=39%


三、KS值的业务解读与评估标准

1. KS值范围与模型能力
KS值范围模型区分能力业务决策建议
<20%无效模型不可用,需重构
20%-30%较弱需优化特征或参数
30%-40%可用满足基础风控要求
40%-50%较强推荐用于信贷审批
>50%极强警惕过拟合或样本偏差

行业基准

  • 消费金融审批模型KS值需≥35%
  • 反欺诈模型KS值需≥45%(因欺诈样本稀少)
2. KS曲线可视化
import matplotlib.pyplot as plt# 示例数据
score_bins = [850, 800, 750, 700, 650]  # 评分分箱
cdf_good = [0.15, 0.45, 0.70, 0.90, 1.00]  # 好客户累积分布
cdf_bad = [0.01, 0.06, 0.31, 0.71, 1.00]   # 坏客户累积分布plt.plot(score_bins, cdf_good, 'b-', label='Good CDF')
plt.plot(score_bins, cdf_bad, 'r-', label='Bad CDF')
plt.vlines(x=750, ymin=0.31, ymax=0.70, colors='k', linestyles='dashed')  # KS值位置
plt.annotate('KS=39%', xy=(745, 0.5), fontsize=12)
plt.xlabel('Credit Score')
plt.ylabel('Cumulative Percentage')
plt.legend()
plt.show()

四、KS值的统计学溯源与学术演进

1. 理论基础:Kolmogorov-Smirnov检验
  • 提出者:苏联数学家Andrey Kolmogorov (1933) 和 Nikolai Smirnov (1939)
  • 原始论文
    • Kolmogorov A. (1933). Sulla determinazione empirica di una legge di distribuzione
    • Smirnov N. (1939). On the estimation of the discrepancy between empirical curves
  • 原用途:检验两个样本是否来自同一分布(零假设 H 0 H_0 H0:分布相同)。
2. 风控领域的应用创新
  • 首次引入者Fair Isaac Corporation (FICO) 在1970年代将其用于评分卡评估
  • 学术论证

    “KS statistic measures the model’s ability to separate goods and bads, which is critical for credit risk management.”
    —— Thomas et al. Credit Scoring and Its Applications (2002, p.102)


五、KS值的优势与局限

优势
  1. 直观可比:单一数值量化模型区分能力,跨模型比较便捷
  2. 业务导向:直接对应风险切分点(KS值对应评分即最佳阈值)
  3. 非参数性:不依赖分布假设,稳健性强
⚠️ 局限与应对
局限风险应对方案
对样本不平衡敏感坏样本少时KS虚高补充AUC/PSI
忽略排序质量高分段混杂坏客户未被惩罚结合Lift Chart分析
不反映校准度概率预测偏差无法检测增加Hosmer-Lemeshow检验

六、KS值在工业场景中的实战应用

1. 确定最佳风控阈值
  • KS值对应评分(如750分)即好坏区分最强的临界点
  • 业务决策
    • 评分>750:自动审批
    • 评分<650:自动拒绝
    • 650–750:人工审核
2. 模型监控与迭代
  • 月度KS值波动:若KS下降>10%,触发模型重训练
  • 跨时间窗对比:比较训练集与验证集KS值差异(需<5%)
3. 与IV值联动分析
特征工程
IV值筛选特征
模型训练
KS值评估
KS>35%?
上线

七、参考

  1. 原始统计理论
    • Kolmogorov A. (1933). Sulla determinazione empirica di una legge di distribuzione. Giornale dell’Istituto Italiano degli Attuari.
  2. 风控应用指南
    • Thomas L. et al. (2002). Credit Scoring and Its Applications. SIAM.
  3. 行业白皮书
    • FICO (2019). Best Practices for Credit Risk Scorecard Validation.

总结:KS值以Kolmogorov-Smirnov检验为理论基础,经FICO工程化为风控核心指标,其值直接决定模型区分风险的能力上限。掌握KS值,意味着掌握了量化风险区分力的金钥匙。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

http://www.dtcms.com/a/524687.html

相关文章:

  • C++ 分治 快速选择算法 堆排序 TopK问题 力扣 215. 数组中的第K个最大元素 题解 每日一题
  • 永磁同步电机无速度算法--基于相位超前校正的LESO
  • 动态 静态 网站地图合肥庐阳区建设局网站
  • JavaEE开篇之计算机是如何工作的
  • 基于python机器学习的农产品价格数据分析与预测的可视化系统
  • 如何通过掌纹识别实现Windows工作站安全登录:从技术原理到企业级落地实践
  • 正则表达式全集
  • 中山手机网站制作哪家好网站管理员登陆后缀
  • K8s高可用:四大核心机制解析
  • 1024勋章发文活动
  • 依托金仓数据库的医疗信创多院区实践与 KingbaseES 操作详解
  • Linux---开发工具2
  • GBase安装部署
  • 4A架构解析:业务、数据、应用、技术架构的区别与联系
  • Redisson与Spring提供的RedisTemplate做一个对比
  • 南京做网站公司地点免费ddns域名注册
  • asp网站开发报告酷站是什么网站
  • [服务部署]京东云部署JavaWeb项目
  • 27、LangChain开发框架(四)-- LangChain接入工具基本流程
  • 找人做网站要准备什么九江网站网站建设
  • 帝可得智能售货机系统实战Day1:从环境搭建到区域管理功能落地 (1)
  • 10.2Web Component
  • 有没有做产品团购的网站wordpress文章页禁止右键
  • Nginx 反向代理解析:从原理到生产级配置实战
  • [理论题] 2025 年 “技耀泉城” 海右技能人才大赛网络安全知识竞赛题目(四)
  • 文化馆网站数字化建设介绍重庆seo网站建设
  • 【Betaflight源码学习】之初始化函数(init.c)
  • STM32H750寄存器操作(硬件I2C)
  • 算法18.0
  • RHCA - DO374 | Day02:管理内容集和执行环境