互信息

1. 相关性的描述问题

独立性说明两者之间无关系，相关性可以说明两者之间有关系，但这两者之间关系强弱如何度量？我们可以有线性相关系数（皮尔逊积矩相关系数)、卡方检验（此处不谈）和互信息这几个指标来进行量化。

使用线性相关系数的前提自变量与因变量是线性关系，取值范围为[-1,1]，负数表示负相关:

ρ x, y = c o v ( X , Y ) σ X , σ Y = E [ ( X - u X ) ( Y - u Y ) ] σ X , σ Y

$\rho_{x,y} = \frac{cov(X,Y)}{\sigma_X,\sigma_Y} = \frac {E[(X-u_X)(Y-u_Y)]}{\sigma_X,\sigma_Y}$

即协方差除以标准差的积。

而互信息是基于信息熵，适用面更广。

2. 信息熵与互信息

2.1 信息熵

信息熵表示要把一个事物弄清楚所需要的信息量的多少。所以，严格意义上来说，熵是表示不确定程度的度量，而非信息量的度量。意思是，熵小的，预测起来更容易。举个例子：一个汉字信息熵大约为8比特，英文的信息熵为4比特，意思是一个汉字所要表达意思的不确定度要大于英文，这说明了英文确实在很多方面表达精确度胜于汉字，因为更容易理解、预测它的意思。相应的，汉字存储压缩度更高，对应的英文原著翻译为中文版往往变薄了许多。

香农指出了信息熵必须满足费复兴，单调性，可加性这三种性质，并给出满足这三条性质的一种定义（当然也是目前唯一大家都用的定义）：

H (X) = - \int X P (X) l o g (P (X))

$H(X) = -\int_X P(X)log(P(X))$

P(X)是X的出现概率，即X分布越离散，X的状态数越多，信息熵越大。

#### 2.2 互信息：
互信息度量知道X,Y这两个变量其中一个，对另一个不确定度减少的程度，其定义为

I (X, Y) = \int x \int y P (X, Y) l o g P ( X , Y ) P ( X ) P ( Y ) = E (l n (P ( X , Y ) P ( X ) P ( Y )))

$I(X,Y) = \int_x \int_y P(X,Y)log\frac{P(X,Y)}{P(X)P(Y)} = E(ln(\frac{P(X,Y)}{P(X)P(Y)}))$

P(X)是X的出现概率，P(X，Y)是X,Y的联合概率概率

我们可以对以上进行变形：

I (X, Y) = \int x \int y P (X, Y) l o g P ( X , Y ) P ( X ) - \int X \int Y P (X, Y) l o g P (Y) = \int X \int Y P (X, Y) l o g P (Y | X) - \int X \int Y P (X, Y) l o g P (Y) = \int X \int Y P (Y | X) P (X) l o g P (Y | X) - \int X \int Y P (X, Y) l o g P (Y) = \int X P (X) \int Y P (Y | X) l o g P (Y | X) - \int X P (X, Y) \int Y l o g P (Y) = - \int X P (X) H (Y | X = x) - P (Y) \int Y l o g P (Y) = - \int X P (X) H (Y | X = x) - \int Y P (Y) l o g P (Y) = - H (Y | X) + H (Y) = H (Y) - H (Y | X)

$I(X,Y) = \int_x\int_y P(X,Y)log\frac {P(X,Y)}{P(X)} - \int_X\int_Y P(X,Y)logP(Y) \\= \int_X\int_Y P(X,Y)logP(Y|X) -\int_X\int_Y P(X,Y)logP(Y) \\=\int_X\int_Y P(Y|X)P(X) logP(Y|X) -\int_X\int_Y P(X,Y)logP(Y) \\= \int_X P(X) \int_Y P(Y|X) logP(Y|X) -\int_X P(X,Y)\int_YlogP(Y) \\= -\int_X P(X) H(Y|X=x) -P(Y)\int_YlogP(Y) \\=- \int_X P(X) H(Y|X=x) -\int_YP(Y)logP(Y) \\= -H(Y|X)+H(Y)=H(Y) -H(Y|X)$

同理可得：

I (X, Y) = H (X) - H (X | Y)

$I(X,Y) = H(X) -H(X|Y)$

I (X, Y) = H (X, Y) - H (X | Y) - H (Y | X)

$I(X,Y) = H(X,Y)-H(X|Y) - H(Y|X)$

I (X, Y) = H (X) + H (Y) - H (X, Y)

$I(X,Y) = H(X) + H(Y) -H(X,Y)$

a. 由上一行可以得出：互信息可以看作是X,Y两信息熵的交集

其图示如下：

b. 互信息没有数值上的最大最小的界限，但可以依据A,B的互信息与A,B的信息熵相对大小，即用归一化的互信息，来量化A、B的关系强弱，比如常见的归一化方法：

I ‘ (X, Y) = 2 \cdot I ( X , Y ) H ( X ) + H ( Y )

$I‘(X,Y)=\frac{2 \cdot I(X,Y)}{H(X) + H(Y) }$

I ‘ (X, Y) = I ( X , Y ) m i n ( H ( X ) , H ( Y ) )

$I‘(X,Y)=\frac{I(X,Y)}{min(H(X) , H(Y)) }$

I ‘ (X, Y) = I ( X , Y ) s q r t ( H ( X ) \cdot H ( Y ) )

$I‘(X,Y)=\frac{I(X,Y)}{sqrt(H(X) \cdot H(Y)) }$

c. X,Y完全相关（比如完全线性相关）时，即X,Y之间满足一个函数映射关系，已知X,Y中一个则可以推导出另一个的所有状态及其概率，X,Y互信息最大，此时I(X,Y) = H(X) = H(Y)。
d. 当X,Y相互独立时，H(X|Y) = H(X)，I(X,Y)最小,为0.

3.附录（信息量，信息熵与物理意义上的熵）

信息量：
1948年，香农在他著名的《通信的数学原理》论文中指出：“信息是用来消除随机不确定性的东西”，并提出了“信息熵”的概念来解决信息的度量问题。香农用信息熵的概念来描述信源的不确定度。
所谓某句话信息量大，是指用这些信息来进行预测会使得某事的预测变得更加精准，比如一本中文书比一个中文字的信息量大，因为通过这本书可以比较清晰地预测作者要表达的故事、情感和思想，而单个字却几乎无法预测。
日常中提到的信息量，可能和传递效率（有人说半天但只是表达了一个意思）、信息质量（比如可信度等）有关，和我们这儿谈到的信息量不同，我们文中谈到的信息量只和可能结果和各个结果之间的概率有关。
物理意义上的熵
表征某状态、某系统的不确定性的大小。系统越有序则信息熵越低。值越大，表示不确定性越大，系统的稳定性越好。玻尔兹曼给出的参数化和香农给出的参数化很相近，只是差常数因子。在封闭系统下，熵会达到最大值（即稳定状态，比如两种气体混合前总熵最低，混合好后总的熵最高）；若使系统的熵减少（使系统更加有序化），必须有外部能量的干预。任何不可逆过程（大部分都是）宏观上会导致熵的增加；或者说微观上有极小概率会导致熵的减少，但到宏观上，就（几乎）不可能导致熵增加。

今天的文章互信息分享到此就结束了，感谢您的阅读。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：https://bianchenghao.cn/12080.html

1. 相关性的描述问题

2. 信息熵与互信息

2.1 信息熵

3.附录（信息量，信息熵与物理意义上的熵）

相关推荐

发表回复