I(X,Y)=∫x∫yP(X,Y)logP(X,Y)P(X)P(Y)=E(ln(P(X,Y)P(X)P(Y))) I ( X , Y ) = ∫ x ∫ y P ( X , Y ) l o g P ( X , Y ) P ( X ) P ( Y ) = E ( l n ( P ( X , Y ) P ( X ) P ( Y ) ) )
P(X)是X的出现概率,P(X,Y)是X,Y的联合概率概率
我们可以对以上进行变形:
I(X,Y)=∫x∫yP(X,Y)logP(X,Y)P(X)−∫X∫YP(X,Y)logP(Y)=∫X∫YP(X,Y)logP(Y|X)−∫X∫YP(X,Y)logP(Y)=∫X∫YP(Y|X)P(X)logP(Y|X)−∫X∫YP(X,Y)logP(Y)=∫XP(X)∫YP(Y|X)logP(Y|X)−∫XP(X,Y)∫YlogP(Y)=−∫XP(X)H(Y|X=x)−P(Y)∫YlogP(Y)=−∫XP(X)H(Y|X=x)−∫YP(Y)logP(Y)=−H(Y|X)+H(Y)=H(Y)−H(Y|X) I ( X , Y ) = ∫ x ∫ y P ( X , Y ) l o g P ( X , Y ) P ( X ) − ∫ X ∫ Y P ( X , Y ) l o g P ( Y ) = ∫ X ∫ Y P ( X , Y ) l o g P ( Y | X ) − ∫ X ∫ Y P ( X , Y ) l o g P ( Y ) = ∫ X ∫ Y P ( Y | X ) P ( X ) l o g P ( Y | X ) − ∫ X ∫ Y P ( X , Y ) l o g P ( Y ) = ∫ X P ( X ) ∫ Y P ( Y | X ) l o g P ( Y | X ) − ∫ X P ( X , Y ) ∫ Y l o g P ( Y ) = − ∫ X P ( X ) H ( Y | X = x ) − P ( Y ) ∫ Y l o g P ( Y ) = − ∫ X P ( X ) H ( Y | X = x ) − ∫ Y P ( Y ) l o g P ( Y ) = − H ( Y | X ) + H ( Y ) = H ( Y ) − H ( Y | X )
同理可得:
I(X,Y)=H(X)−H(X|Y) I ( X , Y ) = H ( X ) − H ( X | Y )
I(X,Y)=H(X,Y)−H(X|Y)−H(Y|X) I ( X , Y ) = H ( X , Y ) − H ( X | Y ) − H ( Y | X )
I(X,Y)=H(X)+H(Y)−H(X,Y) I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y )
a. 由上一行可以得出:互信息可以看作是X,Y两信息熵的交集
其图示如下:
b. 互信息没有数值上的最大最小的界限,但可以依据A,B的互信息与A,B的信息熵相对大小,即用归一化的互信息,来量化A、B的关系强弱,比如常见的归一化方法:
I‘(X,Y)=2⋅I(X,Y)H(X)+H(Y) I ‘ ( X , Y ) = 2 ⋅ I ( X , Y ) H ( X ) + H ( Y )
I‘(X,Y)=I(X,Y)min(H(X),H(Y)) I ‘ ( X , Y ) = I ( X , Y ) m i n ( H ( X ) , H ( Y ) )
I‘(X,Y)=I(X,Y)sqrt(H(X)⋅H(Y)) I ‘ ( X , Y ) = I ( X , Y ) s q r t ( H ( X ) ⋅ H ( Y ) )
c. X,Y完全相关(比如完全线性相关)时,即X,Y之间满足一个函数映射关系,已知X,Y中一个则可以推导出另一个的所有状态及其概率,X,Y互信息最大,此时I(X,Y) = H(X) = H(Y)。 d. 当X,Y相互独立时,H(X|Y) = H(X),I(X,Y)最小,为0.