互信息: 揭示变量间“心有灵犀“程度的度量器
互信息: 揭示变量间"心有灵犀"程度的度量器
一、核心结论:互信息是随机变量间"共享秘密"的精确量化
“就像两个朋友之间的默契程度,互信息测量两个变量间共享了多少信息”
二、公式推演与类比解释
1. 核心公式对比表
公式名称 | 数学表达式 | 通俗解释 | 类比场景 |
---|---|---|---|
互信息基本定义 | I ( X ; Y ) = ∑ x , y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) I(X;Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} I(X;Y)=∑x,yp(x,y)logp(x)p(y)p(x,y) | 变量间的共享信息量 | 两人共同了解的秘密数量 |
基于熵的互信息 | I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y) = H(X) - H(X|Y) I(X;Y)=H(X)−H(X∣Y) | 观察Y后X不确定性的减少量 | 了解天气预报后减少的穿衣犹豫度 |
标准化互信息 | N M I ( X , Y ) = I ( X ; Y ) H ( X ) H ( Y ) NMI(X,Y) = \frac{I(X;Y)}{\sqrt{H(X)H(Y)}} NMI(X,Y)=H(X)H(Y)I(X;Y) | 相对共享信息比例 | 朋友间共享秘密占各自知识的比例 |
点互信息 | P M I ( x , y ) = log p ( x , y ) p ( x ) p ( y ) PMI(x,y) = \log \frac{p(x,y)}{p(x)p(y)} PMI(x,y)=logp(x)p(y)p(x,y) | 特定事件对的关联强度 | 特定词汇搭配的罕见程度 |
2. 核心公式详解
公式1:互信息基本定义
I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ( p ( x , y ) p ( x ) p ( y ) ) I(X;Y) = \sum_{x \in X} \sum_{y \in Y} p(x,y) \log \left( \frac{p(x,y)}{p(x)p(y)} \right) I(X;Y)=x∈X∑y∈Y∑p(x,y)log(p(x)p(y)p(x,y))
参数 | 数学符号 | 类比解释 | 取值范围 |
---|---|---|---|
联合概率 | p ( x , y ) p(x,y) p(x,y) | 两个事件同时发生的概率 | [0,1] |
边缘概率 | p ( x ) , p ( y ) p(x),p(y) p(x),p(y) | 单个事件发生的独立概率 | [0,1] |
对数函数 | log \log log | 信息量的度量单位 | 任意实数 |
案例应用:在特征选择中,高互信息表示特征与目标变量强相关,更有预测价值
公式2:基于熵的互信息
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X,Y) I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=H(X)+H(Y)−H(X,Y)
项 | 物理意义 | 类比解释 |
---|---|---|
H ( X ) H(X) H(X) | X的熵(不确定性) | 未知天气时的穿衣困难度 |
H ( X ∣ Y ) H(X|Y) H(X∣Y) | 已知Y后X的条件熵 | 看过天气预报后的穿衣困难度 |
H ( X , Y ) H(X,Y) H(X,Y) | X和Y的联合熵 | 同时预测天气和交通状况的困难度 |
类比说明:互信息像是解锁的钥匙, H ( X ) H(X) H(X)是锁的复杂度, H ( X ∣ Y ) H(X|Y) H(X∣Y)