互信息的定义与公式
互信息
定义公式
-
从条件熵中我们知道,当获取的信息和要研究的食物”有关系时“,这些信息才能帮助我们消除不确定性。如何衡量获取信息和要研究事物“有关系”呢?比如常识告诉我们,一个随机事件“今天深圳下雨”和另一个随机事件“过去24小时深圳空气湿度”相关性很大,但是相关性到底有多大?怎么衡量?再比如“过去24小时深圳空气湿度”似乎就和“北京天气”相关性不大。
-
香农在信息论中提出”互信息“的概念作为两个随机事件“相关性”的量化度量
-
假定有两个随机事件X和Y,他们的互信息定义如下:
I ( X : Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) + H ( Y ) − H ( X , Y ) = H ( X , Y ) − H ( X ∣ Y ) − H ( Y ∣ X ) = ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) \begin{aligned} I(X:Y) &=H(X)-H(X|Y)\\ &=H(Y)-H(Y|X)\\ &=H(X)+H(Y)-H(X,Y)\\ &=H(X,Y)-H(X|Y)-H(Y|X)\\ &= \sum_{x\in X,y\in Y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)} \end{aligned} I(X:Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=H(X)+H(Y)−H(X,Y)=H(X,Y)−H(X∣Y)−H(Y∣X)=x∈X,y∈Y∑p(x,y)logp(x)p(y)p(x,y)
当X和Y完全相同时互信息的取值是H(X),同时H(X)=H(Y);当二者完全无关时互信息取值为0。 -
所谓两个时间相关性的量化度量,就是在了解了其中一个Y的前提下,对消除另一个X不确定性所提供的信息量。
公式推导
-
两种推导公式
-
I ( X : Y ) = H ( X ) − H ( X ∣ Y ) I(X:Y) = H(X)-H(X|Y) I(X:Y)=H(X)−H(X∣Y)
I ( X : Y ) = H ( X ) − H ( X ∣ Y ) = − ∑ x p ( x ) log p ( x ) − ( − ∑ x , y p ( x , y ) log p ( x , y ) ) ∵ p ( x ) = ∑ y p ( x , y ) ∴ = ∑ x , y p ( x , y ) log p ( x ∣ y ) − ∑ x , y p ( x , y ) log p ( x ) = ∑ x , y p ( x , y ) log p ( x ∣ y ) p ( x ) ∵ p ( x ∣ y ) = p ( x , y ) p ( y ) ∴ = ∑ x , y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) \begin{aligned} I(X:Y) &= H(X)-H(X|Y)\\ &=-\sum_{x}p(x)\log p(x)-\left(-\sum_{x,y}p(x,y)\log p(x,y) \right)\\ \because & ~~ p(x)=\sum_y p(x,y) \\ \therefore&=\sum_{x,y}p(x,y)\log p(x|y)-\sum{x,y}p(x,y)\log p(x)\\ &=\sum_{x,y}p(x,y)\log \frac{p(x|y)}{p(x)}\\ \because& ~~ p(x|y) = \frac{p(x,y)}{p(y)} \\ \therefore&=\sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)} \end{aligned} I(X:Y)∵∴∵∴=H(X)−H(X∣Y)=−x∑p(x)logp(x)−(−x,y∑p(x,y)logp(x,y)) p(x)=y∑p(x,y)=x,y∑p(x,y)logp(x∣y)−∑x,yp(x,y)logp(x)=x,y∑p(x,y)logp(x)p(x∣y) p(x∣y)=p(y)p(x,y)=x,y∑p(x,y)logp(x)p(y)p(x,y) -
I ( X : Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X:Y) = H(X)+H(Y)-H(X,Y) I(X:Y)=H(X)+H(Y)−H(X,Y)
I ( X : Y ) = H ( X ) + H ( Y ) − H ( X , Y ) = − ∑ x p ( x ) log p ( x ) − ( − ∑ y p ( y ) log p ( y ) ) − ( − ∑ x , y p ( x , y ) log p ( x , y ) ) = ∑ x , y p ( x , y ) log p ( x , y ) − ( ∑ x p ( x ) log p ( x ) − ∑ y p ( y ) log p ( y ) ) ∵ p ( x ) = ∑ y p ( x , y ) ∴ = ∑ x , y p ( x , y ) log p ( x , y ) − ( ∑ x , y p ( x , y ) log p ( x ) − ∑ x , y p ( x , y ) log p ( y ) ) = ∑ x , y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) \begin{aligned} I(X:Y) &= H(X)+H(Y)-H(X,Y)\\ &=-\sum_{x}p(x)\log p(x)-\left(-\sum_{y}p(y)\log p(y)\right)-\left(-\sum_{x,y}p(x,y)\log p(x,y)\right)\\ &=\sum_{x,y}p(x,y)\log p(x,y)-\left(\sum_{x}p(x)\log p(x)-\sum_{y}p(y)\log p(y)\right)\\ \because & ~~ p(x)=\sum_y p(x,y) \\ \therefore&=\sum_{x,y}p(x,y)\log p(x,y)-\left(\sum_{x,y}p(x,y)\log p(x)-\sum_{x,y}p(x,y)\log p(y)\right)\\ &=\sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)} \end{aligned} I(X:Y)∵∴=H(X)+H(Y)−H(X,Y)=−x∑p(x)logp(x)−(−y∑p(y)logp(y))−(−x,y∑p(x,y)logp(x,y))=x,y∑p(x,y)logp(x,y)−(x∑p(x)logp(x)−y∑p(y)logp(y)) p(x)=y∑p(x,y)=x,y∑p(x,y)logp(x,y)−(x,y∑p(x,y)logp(x)−x,y∑p(x,y)logp(y))=x,y∑p(x,y)logp(x)p(y)p(x,y)