当前位置: 首页 > news >正文

【菜狗学聚类】聚类的一些评估指标——20250901

🐕1、(调节后的)兰德系数——[-1,1]——越大越好

① RI兰德系数

② ARI调整的兰德系数

🐕2、NMI标准互信息——[0,1]——越大越好

① 互信息 (Mutual Information, MI)​​

② ​​归一化互信息 (NMI)​        

🐕3、Homogeneity / Completeness / V-measure——同质性、完整性——越大越好

🐕4、Fowlkes-Mallows Scores(FMI)—— [0,1]——越接近1越好


🐕1、(调节后的)兰德系数——[-1,1]——越大越好

聚类性能评估-ARI(调兰德指数) - 知乎转载

        ARI取值范围为[-1,1],值越大越好,反映两种划分的重叠程度,使用该度量指标需要数据本身有类别标记。

① RI兰德系数

        用C表示实际的类别划分,K表示聚类结果。定义a 为在C中被划分为同一类,在K中被划分为同一簇的实例对数量定义b为在C中被划分为不同类别,在K中被划分为不同簇的实例对数量。定义Rand Index(兰德系数):

from sklearn.metrics import rand_score
rand_score(y_true,y_predict)

② ARI调整的兰德系数

      Rand Index无法保证随机划分的聚类结果的RI值接近0。于是,提出了Adjusted Rand index(调节的兰德系数):

        为了计算ARI的值,引入contingency table(列联表),反映实例类别划分与聚类划分的重叠程度,表的行表示实际划分的类别,表的列表示聚类划分的簇标记,nij表示重叠实例数量,如下所示:

        有了列联表,即可用它计算ARI:

        这里,显然把max(RI)替换成了mean(RI)。

from sklearn.metrics import adjusted_rand_scoreadjusted_rand_score(y_true,y_predict)

🐕2、NMI标准互信息——[0,1]——越大越好

① 互信息 (Mutual Information, MI)​

        ​​直观理解​​:表示两个随机变量之间​​共享的信息量​​。即,知道其中一个变量后,能减少另一个变量多少不确定性

from sklearn.metrics import mutual_info_scoremutual_info_score(y_true,y_predict)

② ​​归一化互信息 (NMI)​        

        NMI 用于评估​​两个聚类结果(或一个聚类结果与真实标签)之间的一致性​​。它的核心思想是:​如果我知道你的聚类结果,那么我能多大概率猜出它的真实类别?(反之亦然)​

​        这种“信息的增益”就是​​互信息(Mutual Information, MI)​​。如果两个聚类结果越一致,它们共享的“信息”就越多,MI值就越高。

        MI有个问题:它对聚类数量敏感。例如,如果给每个样本都单独分一个簇,MI会很高,但这显然不是一个好的聚类。因此,我们需要将其​​归一化(Normalized)​​,得到一个介于 [0, 1] 之间的值,这就是NMI。

from sklearn.metrics import normalized_mutual_info_scorenormalized_mutual_info_score(y_true,y_predict)

🐕3、Homogeneity / Completeness / V-measure——同质性、完整性——越大越好

聚类算法性能评估_聚类算法评估-CSDN博客

        同质性homogeneity:每个群集只包含单个类的成员。

from sklearn.metrics import homogeneity_scorehomogeneity_score(y_true,y_predict)

        完整性completeness:给定类的所有成员都分配给同一个群集。

from sklearn.metrics import completeness_scorecompleteness_score(y_true,y_predict)

        V-measure:是同质性homogeneity和完整性completeness的调和平均数。

from sklearn.metrics import v_measure_scorev_measure_score(y_true,y_predict)

优点:
        分数明确:从0到1反应出最差到最优的表现;
        解释直观:差的调和平均数可以在同质性和完整性方面做定性的分析;
        对簇结构不作假设:可以比较两种聚类算法如k均值算法和谱聚类算法的结果。

缺点:
        以前引入的度量在随机标记方面没有规范化,这意味着,根据样本数,集群和先验知识,完全随机标签并不总是产生相同的完整性和均匀性的值,所得调和平均值V-measure也不相同。特别是,随机标记不会产生零分,特别是当簇的数量很大时。
        当样本数大于一千,聚类数小于10时,可以安全地忽略该问题。对于较小的样本量或更大数量的集群,使用经过调整的指数(如调整兰德指数)更为安全。


🐕4、Fowlkes-Mallows Scores(FMI)—— [0,1]——越接近1越好

        FMI是Precision(精度)和 Recall(召回)的几何平均数。取值范围为 [0,1],越接近1越好。

from sklearn.metrics import fowlkes_mallows_scorefowlkes_mallows_score(y_true,y_predict)

——小狗照亮每一天

2025.9.1

http://www.dtcms.com/a/360999.html

相关文章:

  • 交互体验升级:Three.js在设备孪生体中的实时数据响应方案
  • 飞牛nas修改crontab计划默认编辑器
  • RPA背后的核心技术有哪些?
  • 【论文阅读】Sparse4D v3:Advancing End-to-End 3D Detection and Tracking
  • 基于Hadoop与层次聚类技术的电子游戏销售分析系统的设计与实现
  • wpf之WrapPanel
  • 了解软件测试之软件测试技能
  • 第六章:健壮Go应用:工程实践与生产就绪之测试
  • Spring Bean生命周期的完全指南
  • 警告:OPENCV_FFMPEG_READ_ATTEMPTS (current value is 4096)
  • Altium Designer中的Net-Tie:解决多网络合并与电气隔离的利器
  • Spring中bean的作用域
  • [Godot] C#使用Json进行数据结构的保存与加载
  • QT中的TCP
  • 摄像头模块的电子集成设计
  • 开发使用mybatis是用混合模式还是全注解模式
  • pprint:美观打印数据结构
  • Spring Boot 和 Spring Cloud 的原理和区别
  • Spring Boot配置优化:Tomcat+数据库+缓存+日志,全场景教程
  • 单例模式
  • Day19_【机器学习—线性回归 (3)—回归模型评估方法】
  • 网站模板源代码 静态网页网站模板
  • VBA数据库解决方案第二十二讲:根据工作表数据生成数据库中数据表
  • 零售行业的 AI 革命:从用户画像到智能供应链,如何让 “精准营销” 不再是口号?
  • 百胜软件获邀出席第七届中国智慧零售大会,智能中台助力品牌零售数智变革
  • 百胜软件×OceanBase深度合作,赋能品牌零售数字化实践降本增效
  • leetcode 面试题17.19 消失的两个数字
  • Java学习笔记-反射(二)
  • 无公网IP,怎么实现远程调试与APP端api 接入?
  • 红楼梦 AI HTML 分析 - 好了歌