举例说明信息熵、互信息的计算过程

举例说明信息熵、互信息的计算过程目录一、计算公式1、信息熵H(X)2、联合熵H(X,Y)3、互信息I(X,Y)4、条件熵H(X|Y)二、举例说明1、信息熵H(X)2、联合熵H(X,Y)3、互信息I(X,Y)4、条件熵H(X|Y)总结一、计算公式在shannon提出信息论到现在已经有70多年的历史。信息论中常用的概念有信息熵、联合熵、条件熵、互信息等概念。1、信息熵H(X)定义:一个离散随机变量X的熵H(X)定义为H…

一、 计算公式

在shannon提出信息论到现在已经有70多年的历史。信息论中常用的概念有信息熵、联合熵、条件熵、互信息等概念。

1、信息熵H(X)

定义:一个离散随机变量X的熵H(X)定义为
H ( X ) = − ∑ x ∈ χ p ( x ) log ⁡ p ( x ) H(X)=-\sum_{x\in \chi}p(x)\log p(x) H(X)=xχp(x)logp(x)

2、联合熵H(X,Y)

定义:对于服从联合分布为p(x,y)的一对离散随机变量(X,Y),其联合熵H(X,Y) (joint entropy)定义为:
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) H(X,Y)=-\sum_{x\in \mathit{X}}\sum_{y\in\mathit{Y}}p(x,y)\log p(x,y) H(X,Y)=xXyYp(x,y)logp(x,y)

3、互信息I(X,Y)

定义:考虑两个随机变量X和Y,他们的联合概率密度函数为p(x,y),其边际概率密度函数分别为p(x)和p(y)。互信息I(X;Y)为联合分布p(x,y)和p(x)p(y)之间的相对熵,即:
I ( X ; Y ) = ∑ x ∈ χ ∑ y ∈ ν p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) I(X;Y)=\sum_{x\in \chi}\sum_{y\in \nu}p(x,y)\log \frac{p(x,y)}{p(x)p(y)} I(X;Y)=xχyνp(x,y)logp(x)p(y)p(x,y)

4、条件熵H(X|Y)

定义:若(X,Y)~p(x,y),条件熵(Conditional entropy) H(Y|X)定义为:
H ( Y ∣ X ) = ∑ x ∈ χ p ( x ) H ( Y ∣ X = x ) = − ∑ x ∈ χ p ( x ) ∑ y ∈ ν p ( y ∣ x ) log ⁡ p ( y ∣ x ) = − ∑ x ∈ χ ∑ y ∈ ν p ( x , y ) log ⁡ ( y ∣ x ) = − E log ⁡ p ( Y ∣ X ) H(Y|X)=\sum_{x\in \chi}p(x)H(Y|X=x)=-\sum_{x\in \chi}p(x)\sum_{y\in \nu }p(y|x)\log p(y|x)\\ =-\sum_{x\in \chi}\sum_{y\in \nu}p(x,y)\log(y|x)=-E\log p(Y|X) H(YX)=xχp(x)H(YX=x)=xχp(x)yνp(yx)logp(yx)=xχyνp(x,y)log(yx)=Elogp(YX)

二、举例说明

为了对以上公式进行更加直观的理解,通过以下例子对信息熵、联合熵、条件熵、互信息、条件互信息进行举例。

1、信息熵H(X)

假设有两个二进制的变量X和Y
x = [1 0 1 1 0]’;
y = [1 1 1 0 0]’;
根据概率
p(x=0)=2/5; p(x=1)=3/5;
p(y=0)=2/5; p(y=1)=3/5;
H ( x ) = − 2 5 ∗ log ⁡ ( 2 5 ) − 3 5 ∗ log ⁡ ( 3 5 ) = 0.9710 H(x)=-\frac{2}{5}*\log(\frac{2}{5})-\frac{3}{5}*\log(\frac{3}{5})=0.9710 H(x)=52log(52)53log(53)=0.9710
同理计算得到 h ( y ) = 0.9710 h(y)=0.9710 h(y)=0.9710

2、联合熵H(X,Y)

要计算H(X,Y),需要先知道P(X,Y)。
联合概率
根据X,Y的值可以得到P(X,Y):
上图绿色标记: p ( x = 0 ; y = 0 ) = 1 / 5 p(x=0;y=0)=1/5 p(x=0;y=0)=1/5
上图红色标记: p ( x = 0 ; y = 1 ) = 1 / 5 p(x=0;y=1)=1/5 p(x=0;y=1)=1/5
上图蓝色标记: p ( x = 1 ; y = 0 ) = 1 / 5 p(x=1;y=0)=1/5 p(x=1;y=0)=1/5
上图黄色标记: p ( x = 1 ; y = 1 ) = 2 / 5 p(x=1;y=1)=2/5 p(x=1;y=1)=2/5
得到(X,Y)的分布律如下:
在这里插入图片描述
最终计算H(X,Y)得到:
H ( X , Y ) = − 1 5 ∗ log ⁡ ( 1 5 ) − 1 5 ∗ log ⁡ ( 1 5 ) − 1 5 ∗ log ⁡ ( 1 5 ) − 2 5 ∗ log ⁡ ( 2 5 ) = 1.9219 \begin{aligned} H(X,Y)=&-\frac{1}{5}*\log(\frac{1}{5})-\frac{1}{5}*\log(\frac{1}{5})\\ \\ &-\frac{1}{5}*\log(\frac{1}{5})-\frac{2}{5}*\log(\frac{2}{5})\\ =&1.9219 \end{aligned} H(X,Y)==51log(51)51log(51)51log(51)52log(52)1.9219

3、互信息I(X,Y)

I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) = 0.9710 + 0.9710 − 1.9219 = 0.02 \begin{aligned} I(X;Y)=&H(X)+H(Y)-H(X,Y)\\ =&0.9710+0.9710-1.9219\\ =&0.02 \end{aligned} I(X;Y)===H(X)+H(Y)H(X,Y)0.9710+0.97101.92190.02

4、条件熵H(X|Y)

根据(X,Y)的分布律可知:
在这里插入图片描述
其中 P ( X = 0 ∣ Y = 0 ) P(X=0|Y=0) P(X=0Y=0)表示在Y=0的情况下X=0的概率,可计算得到:
P ( X = 0 ∣ Y = 0 ) = P ( X = 0 , Y = 0 ) P ( Y = 0 ) = 1 / 5 2 / 5 = 1 / 2 P ( X = 1 ∣ Y = 0 ) = P ( X = 1 , Y = 0 ) P ( Y = 0 ) = 1 / 5 2 / 5 = 1 / 2 P ( X = 0 ∣ Y = 1 ) = P ( X = 0 , Y = 1 ) P ( Y = 1 ) = 1 / 5 3 / 5 = 1 / 3 P ( X = 1 ∣ Y = 1 ) = P ( X = 1 , Y = 1 ) P ( Y = 1 ) = 2 / 5 3 / 5 = 2 / 3 P(X=0|Y=0)=\frac{P(X=0,Y=0)}{P(Y=0)}=\frac{1/5}{2/5}=1/2\\ P(X=1|Y=0)=\frac{P(X=1,Y=0)}{P(Y=0)}=\frac{1/5}{2/5}=1/2\\ P(X=0|Y=1)=\frac{P(X=0,Y=1)}{P(Y=1)}=\frac{1/5}{3/5}=1/3\\ P(X=1|Y=1)=\frac{P(X=1,Y=1)}{P(Y=1)}=\frac{2/5}{3/5}=2/3\\ P(X=0Y=0)=P(Y=0)P(X=0,Y=0)=2/51/5=1/2P(X=1Y=0)=P(Y=0)P(X=1,Y=0)=2/51/5=1/2P(X=0Y=1)=P(Y=1)P(X=0,Y=1)=3/51/5=1/3P(X=1Y=1)=P(Y=1)P(X=1,Y=1)=3/52/5=2/3
通过以上计算可到条件互信息为:
H ( X ∣ Y ) = − ∑ Y P ( Y ) log ⁡ P ( X ∣ Y ) = − P ( Y = 0 ) [ H ( P ( X = 0 ∣ Y = 0 ) + H ( P ( X = 1 ∣ Y = 0 ) ] − P ( Y = 1 ) [ H ( P ( X = 0 ∣ Y = 1 ) + H ( P ( X = 1 ∣ Y = 1 ) ) ] = − ( 2 / 5 ) ∗ [ ( 1 / 2 ) ∗ log ⁡ ( 1 / 2 ) + ( 1 / 2 ) ∗ log ⁡ ( 1 / 2 ) ] − ( 3 / 5 ) ∗ [ ( 1 / 3 ) ∗ log ⁡ ( 1 / 3 ) − ( 2 / 3 ) ∗ log ⁡ ( 2 / 3 ) ] = 0.9510 \begin{aligned} H(X|Y)=&-\sum_Y P(Y)\log P(X|Y)\\ =&-P(Y=0)[H (P(X=0|Y=0)+H (P(X=1|Y=0)]\\ &-P(Y=1)[H (P(X=0|Y=1)+H(P(X=1|Y=1))]\\ =&-(2/5)*[(1/2)*\log(1/2)+(1/2)*\log(1/2)]\\ &-(3/5)*[(1/3)*\log(1/3)-(2/3)*\log(2/3)]\\ = &0.9510 \end{aligned} H(XY)====YP(Y)logP(XY)P(Y=0)[H(P(X=0Y=0)+H(P(X=1Y=0)]P(Y=1)[H(P(X=0Y=1)+H(P(X=1Y=1))](2/5)[(1/2)log(1/2)+(1/2)log(1/2)](3/5)[(1/3)log(1/3)(2/3)log(2/3)]0.9510

也可以通过公式
H ( X ∣ Y ) = H ( X ) − I ( X ; Y ) = 0.9710 − 0.02 = 0.9510 \begin{aligned} H(X|Y)=&H(X)-I(X;Y)\\ =&0.9710-0.02\\ =&0.9510 \end{aligned} H(XY)===H(X)I(X;Y)0.97100.020.9510

总结

通过举例X,Y对信息熵、联合熵、条件熵和互信息进行计算,加深对信息熵等概念的理解。

今天的文章举例说明信息熵、互信息的计算过程分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/12457.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注