当前位置: 首页 > news >正文

机器学习——互信息(超详细)

在机器学习中,Mutual Information(互信息) 是一种用于衡量两个变量之间相关性或依赖性的统计量。它描述了一个变量中包含了多少关于另一个变量的信息,广泛用于特征选择、信息增益计算等任务。

一、互信息的定义

互信息(Mutual Information, MI)基于信息论,衡量随机变量 X 和 Y 的信息共享程度:

I(X;Y) = \sum_{x \in X} \sum_{y \in Y} p(x,y)log\frac{p(x,y)}{p(x)p(y)}

其中:

p(x,y):联合概率分布

p(x):X的边缘分布

p(y):Y的边缘分布

直观解释:

        当 X 和 Y 完全独立时,p(x,y)=p(x)p(y),此时I(X;Y) = 0

        当 X 能完全决定 Y 时,互信息越大

二、直观理解

互信息衡量“减少不确定性”:知道 X 的值后,能减少多少对 Y 的不确定性?

它可以看作是熵(Entropy)的差值:

I(X;Y) = H(Y)-H(Y|X)

其中:

H(Y)Y 的熵(不确定性):

H(Y) = - \sum_{y \in Y} p(y) \log p(y)

H(Y|X):已知 XY 的条件熵(剩余不确定性):

H(Y \mid X) = - \sum_{x \in X} \sum_{y \in Y} p(x,y) \log p(y \mid x)

如果 XY 提供了很多信息,则条件熵会降低,互信息值就大。通俗来讲的话:就是 Y 发生的概率减去在已知 X 发生时 Y 发生的概率。

利用韦恩图表示为:

三、特征选择中的应用

在机器学习中,互信息常用于衡量特征与目标变量之间的关联度,尤其适合非线性关系。

示例:

假设要预测患者是否患病(Y: 0/1),并有以下特征:

  • 年龄(X1

  • 血压(X2

  • 邮编(X3

我们可以计算:

I(X1;Y),I(X2;Y),I(X3;Y)

        如果 I(X3;Y)\approx 0,说明邮编与疾病无关,可以舍弃。

        如果 I(X1;Y) 和 I(X2;Y) 较大,则应保留。

四、与相关系数的区别

相关系数(如皮尔逊相关):只衡量线性关系

互信息:能捕捉任意关系(包括非线性),更通用。

例如:

Y = X^{2} 的情况下,皮尔逊相关系数 ≈ 0(因为非线性),但互信息I(X;Y)(存在强关系)。

五、在Python中计算互信息

Scikit-learn 提供了互信息计算工具:

from sklearn.feature_selection import mutual_info_classif, mutual_info_regression
import pandas as pd
from sklearn.datasets import load_iris# 以鸢尾花数据为例
data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target# 分类问题使用 mutual_info_classif
mi_scores = mutual_info_classif(X, y)
print("互信息分数:", mi_scores)

输出的分数越高,说明该特征与目标变量关系越强。

http://www.dtcms.com/a/308211.html

相关文章:

  • 【物联网】基于树莓派的物联网开发【19】——树莓派搭建MQTT客户端及MQTTX使用
  • Vision Transformer(ViT)模型实例化PyTorch逐行实现
  • 从 MySQL 迁移到 TiDB:使用 SQL-Replay 工具进行真实线上流量回放测试 SOP
  • SpringBoot3.x入门到精通系列:1.2 开发环境搭建
  • 25-vue-photo-preview的使用及使用过程中的问题解决方案
  • 实战教程 ---- Nginx结合Lua实现WAF拦截并可视化配置教程框架
  • 走进computed,了解computed的前世今生
  • 【云故事探索】NO.16:阿里云弹性计算加速精准学 AI 教育普惠落地
  • 谁在托举Agent?阿里云抢滩Agent Infra新赛道
  • 安装 docker compose v2版 笔记250731
  • 对接八大应用渠道
  • Tomcat,WebLogic等中间件漏洞实战解析
  • 大模型流式长链接场景下 k8s 优雅退出 JAVA
  • 用 MyBatis + MySQL 实现高效的批量 Upsert
  • 关于tresos Studio(EB)的MCAL配置之GtmCfg
  • 性能测试篇 :Jmeter监控服务器性能
  • Golang 语言的编程技巧之类型
  • 基础组件(六):网络缓冲区设计 和 定时器方案
  • TTS语音合成|GPT-SoVITS语音合成服务器部署,实现http访问
  • Vue3+Vite项目如何简单使用tsx
  • nl2sql grpo强化学习训练,加大数据量和轮数后,准确率没提升,反而下降了,如何调整
  • PostgreSQL dblink 与 Spring Boot @Transactional 的事务整合
  • Text2SQL 智能问答系统开发-预定义模板(二)
  • docker离线安装mysql镜像
  • 记录几个SystemVerilog的语法——覆盖率
  • 基于MATLAB的GUI来对不同的(彩色或灰色)图像进行图像增强
  • 【国内电子数据取证厂商龙信科技】内存取证
  • 法式基因音响品牌SK(SINGKING AUDIO)如何以硬核科技重塑专业音频版图
  • 防御保护第一次作业
  • AI Gateway 分析:OpenRouter vs Higress