互信息

互信息1.相关性的描述问题独立性说明两者之间无关系,相关性可以说明两者之间有关系,但这两者之间关系强弱如何度量?我们可以有线性相关系数(皮尔逊积矩相关系数)、卡方检验(此处不谈)和互信息这几个指标来进行量化。使用线性相关系数的前提自变量与因变量是线性关系,取值范围为[-1,1],负数表示负相关:ρx,y=cov(X,Y)σX,σY=E[(X−uX)(Y−uY)]σX,σYρx,y=cov(…

1. 相关性的描述问题

独立性说明两者之间无关系,相关性可以说明两者之间有关系,但这两者之间关系强弱如何度量?我们可以有线性相关系数(皮尔逊积矩相关系数)、卡方检验(此处不谈)和互信息这几个指标来进行量化。

使用线性相关系数的前提自变量与因变量是线性关系,取值范围为[-1,1],负数表示负相关:

ρx,y=cov(X,Y)σX,σY=E[(XuX)(YuY)]σX,σY ρ x , y = c o v ( X , Y ) σ X , σ Y = E [ ( X − u X ) ( Y − u Y ) ] σ X , σ Y



即协方差除以标准差的积。

而互信息是基于信息熵,适用面更广。

2. 信息熵与互信息

2.1 信息熵

信息熵表示要把一个事物弄清楚所需要的信息量的多少。所以,严格意义上来说,熵是表示不确定程度的度量,而非信息量的度量。意思是,熵小的,预测起来更容易。举个例子:一个汉字信息熵大约为8比特,英文的信息熵为4比特,意思是一个汉字所要表达意思的不确定度要大于英文,这说明了英文确实在很多方面表达精确度胜于汉字,因为更容易理解、预测它的意思。相应的,汉字存储压缩度更高,对应的英文原著翻译为中文版往往变薄了许多。

香农指出了信息熵必须满足费复兴,单调性,可加性这三种性质,并给出满足这三条性质的一种定义(当然也是目前唯一大家都用的定义):

H(X)=XP(X)log(P(X)) H ( X ) = − ∫ X P ( X ) l o g ( P ( X ) )



P(X)是X的出现概率,即X分布越离散,X的状态数越多,信息熵越大。

#### 2.2 互信息:
互信息度量知道X,Y这两个变量其中一个,对另一个不确定度减少的程度,其定义为

I(X,Y)=xyP(X,Y)logP(X,Y)P(X)P(Y)=E(ln(P(X,Y)P(X)P(Y))) I ( X , Y ) = ∫ x ∫ y P ( X , Y ) l o g P ( X , Y ) P ( X ) P ( Y ) = E ( l n ( P ( X , Y ) P ( X ) P ( Y ) ) )



P(X)是X的出现概率,P(X,Y)是X,Y的联合概率概率

我们可以对以上进行变形:

I(X,Y)=xyP(X,Y)logP(X,Y)P(X)XYP(X,Y)logP(Y)=XYP(X,Y)logP(Y|X)XYP(X,Y)logP(Y)=XYP(Y|X)P(X)logP(Y|X)XYP(X,Y)logP(Y)=XP(X)YP(Y|X)logP(Y|X)XP(X,Y)YlogP(Y)=XP(X)H(Y|X=x)P(Y)YlogP(Y)=XP(X)H(Y|X=x)YP(Y)logP(Y)=H(Y|X)+H(Y)=H(Y)H(Y|X) I ( X , Y ) = ∫ x ∫ y P ( X , Y ) l o g P ( X , Y ) P ( X ) − ∫ X ∫ Y P ( X , Y ) l o g P ( Y ) = ∫ X ∫ Y P ( X , Y ) l o g P ( Y | X ) − ∫ X ∫ Y P ( X , Y ) l o g P ( Y ) = ∫ X ∫ Y P ( Y | X ) P ( X ) l o g P ( Y | X ) − ∫ X ∫ Y P ( X , Y ) l o g P ( Y ) = ∫ X P ( X ) ∫ Y P ( Y | X ) l o g P ( Y | X ) − ∫ X P ( X , Y ) ∫ Y l o g P ( Y ) = − ∫ X P ( X ) H ( Y | X = x ) − P ( Y ) ∫ Y l o g P ( Y ) = − ∫ X P ( X ) H ( Y | X = x ) − ∫ Y P ( Y ) l o g P ( Y ) = − H ( Y | X ) + H ( Y ) = H ( Y ) − H ( Y | X )



同理可得:


I(X,Y)=H(X)H(X|Y) I ( X , Y ) = H ( X ) − H ( X | Y )




I(X,Y)=H(X,Y)H(X|Y)H(Y|X) I ( X , Y ) = H ( X , Y ) − H ( X | Y ) − H ( Y | X )




I(X,Y)=H(X)+H(Y)H(X,Y) I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y )




a. 由上一行可以得出:互信息可以看作是X,Y两信息熵的交集

其图示如下:


这里写图片描述

b. 互信息没有数值上的最大最小的界限,但可以依据A,B的互信息与A,B的信息熵相对大小,即用归一化的互信息,来量化A、B的关系强弱,比如常见的归一化方法:

I(X,Y)=2I(X,Y)H(X)+H(Y) I ‘ ( X , Y ) = 2 ⋅ I ( X , Y ) H ( X ) + H ( Y )




I(X,Y)=I(X,Y)min(H(X),H(Y)) I ‘ ( X , Y ) = I ( X , Y ) m i n ( H ( X ) , H ( Y ) )




I(X,Y)=I(X,Y)sqrt(H(X)H(Y)) I ‘ ( X , Y ) = I ( X , Y ) s q r t ( H ( X ) ⋅ H ( Y ) )

c. X,Y完全相关(比如完全线性相关)时,即X,Y之间满足一个函数映射关系,已知X,Y中一个则可以推导出另一个的所有状态及其概率,X,Y互信息最大,此时I(X,Y) = H(X) = H(Y)。
d. 当X,Y相互独立时,H(X|Y) = H(X),I(X,Y)最小,为0.

3.附录(信息量,信息熵与物理意义上的熵)

  • 信息量:
    1948年,香农在他著名的《通信的数学原理》论文中指出:“信息是用来消除随机不确定性的东西”,并提出了“信息熵”的概念来解决信息的度量问题。香农用信息熵的概念来描述信源的不确定度。
    所谓某句话信息量大,是指用这些信息来进行预测会使得某事的预测变得更加精准,比如一本中文书比一个中文字的信息量大,因为通过这本书可以比较清晰地预测作者要表达的故事、情感和思想,而单个字却几乎无法预测。
    日常中提到的信息量,可能和传递效率(有人说半天但只是表达了一个意思)、信息质量(比如可信度等)有关,和我们这儿谈到的信息量不同,我们文中谈到的信息量只和可能结果和各个结果之间的概率有关。

  • 物理意义上的熵
    表征某状态、某系统的不确定性的大小。系统越有序则信息熵越低。值越大,表示不确定性越大,系统的稳定性越好。玻尔兹曼给出的参数化和香农给出的参数化很相近,只是差常数因子。在封闭系统下,熵会达到最大值(即稳定状态,比如两种气体混合前总熵最低,混合好后总的熵最高);若使系统的熵减少(使系统更加有序化),必须有外部能量的干预。任何不可逆过程(大部分都是)宏观上会导致熵的增加;或者说微观上有极小概率会导致熵的减少,但到宏观上,就(几乎)不可能导致熵增加。

今天的文章互信息分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/12080.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注