信息论 概率_信息处理步骤[通俗易懂]

信息论 概率_信息处理步骤[通俗易懂]文章目录一、概率论基础1.转移概率2.条件概率二、信息论基础1.信息熵2.联合熵3.条件熵4.互信息5.交叉熵三、n元语法模型四、语法模型的性能评价一、概率论基础语言统计中常常会用到概率论知识,常用到的是概率、转移概率

信息论 概率_信息处理步骤[通俗易懂]

一、概率论基础

语言统计中常常会用到概率论知识,常用到的是概率、转移概率、条件概率。概率的概念这里不再描述。

1.转移概率

转移概率是指从一个状态到另一个状态的概率,实际上是一种特殊的条件概率,即规定了邻接顺序的条件概率。
举例说明:
从“中国”转移到“人民”的概率为 P ( W 2 = “ 人 民 ” ∣ W 1 = “ 中 国 ” ) P(W_2=“人民”|W_1=“中国”) P(W2=W1=),可估计为“中国人民”的出现次数除以“中国”的出现次数。
类似地,从名词转移到动词的概率是 P ( T 2 = 动 词 ∣ T 1 = 名 词 ) P(T_2=动词|T_1=名词) P(T2=T1=),可估计为名词和动词相邻出现的次数除以名词出现的次数。

2. 条件概率

条件概率不限于先后发生的事件。
举例说明:
P ( W i = “ 设 计 ” ∣ T i = “ 名 词 ” ) P(W_i=“设计”|T_i=“名词”) P(Wi=Ti=)表示在在某词为名词的条件下,其词形是“设计”的概率,当事件和作为条件的事件是同时发生的,应该看作是条件概率而不是转移概率。求这个条件概率,可以用语料库中作为名词出现的“设计”的出现次数除以所有名词出现的次数。
P ( W i = 名 词 ∣ T i = “ 设 计 ” ) P(W_i=名词|T_i=“设计”) P(Wi=Ti=)表示某词词形为“设计”的条件下,其词性为名词的概率,这是可以用语料库中名词“设计”的出现次数除以以任何词性出现词形为“设计”的次数。
条件可以用下面公式求:
P ( A ∣ B ) = N ( A B ) / N ( B ) P(A|B)=N(AB)/N(B) P(AB)=N(AB)/N(B)
即用事件AB发生的次数除以事件B发生的次数
如果已知事件AB、B的概率,可以用:
P ( A ∣ B ) = P ( A B ) / P ( B ) P(A|B)=P(AB)/P(B) P(AB)=P(AB)/P(B)

二、信息论基础

1.信息熵

关于信息熵很多人会有一个模糊的概念,始终乱不清楚的内容,就算明白了也会很快忘掉:
事件发生的概率越低,说明不确定性越大,信息量就越大,信息熵就越大
信息熵是用来描述一个离散随机变量的不确定性的均值。计算公式如下:
H ( X ) = H ( P ) = − ∑ p ( x ) l o g 2 p ( x ) H(X)=H(P)=-\sum{p(x)log_2p(x)} H(X)=H(P)=p(x)log2p(x)
它具备一下两个属性:

H ( X ) > = 0 H(X)>=0 H(X)>=0
H ( X ) = 0 H(X)=0 H(X)=0时,说明随机变量X是确定的,此时X没有信息可言。

2. 联合熵

( X , Y ) (X,Y) (X,Y)是一对离散型随机变量,其联合概率分布函数为 p ( x , y ) p(x,y) p(x,y),则联合熵:
H ( X , Y ) = − ∑ ∑ p ( x , y ) l o g 2 p ( x , y ) H(X,Y)=-\sum{\sum{p(x,y)log_2p(x,y)}} H(X,Y)=p(x,y)log2p(x,y)
联合熵用来描述一对离散型随机变量平均所包含的信息量。

3.条件熵

随机变量X已知的情况下,随机变量Y的条件熵:
H ( Y ∣ X ) = ∑ p ( x ) H ( Y ∣ X = x ) H(Y|X)=\sum{p(x)H(Y|X=x)} H(YX)=p(x)H(YX=x)
= ∑ ∑ p ( x , y ) l o g p ( y ∣ x ) =\sum{\sum{p(x,y)logp(y|x)}} =p(x,y)logp(yx)
熵的连锁规则:
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)=H(X)+H(Y|X) H(X,Y)=H(X)+H(YX)
H ( X 1 , X 2 , . . . , X n ) = H ( X 1 ) + H ( X 2 ∣ X 1 ) + . . . + H ( X n ∣ X 1 , X 2 , . . . , X n − 1 ) H(X_1,X_2,…,X_n)=H(X_1)+H(X_2|X_1)+…+H(X_n|X_1,X_2,…,X_{n-1}) H(X1,X2,...,Xn)=H(X1)+H(X2X1)+...+H(XnX1,X2,...,Xn1)

4.互信息

互信息是一种计算亮哥哥随机变量之间共有信息的度量。计算公式:
I ( X , Y ) = H ( X ) − H ( X ∣ Y ) I(X,Y)=H(X)-H(X|Y) I(X,Y)=H(X)H(XY)
∑ ∑ p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) \sum{\sum{p(x,y)log{\frac{p(x,y)}{p(x)p(y)}}}} p(x,y)logp(x)p(y)p(x,y)
特点:

  1. 当两个随机变量相互独立时,互信息为0
  2. 当两个随机变量存在依赖关系时,互信息不为0
5. 交叉熵

交叉熵用来衡量估计概率分布与真实分布之间的差异情况。
如果一个随机变量X~P(x),q(x)时近似估计p(x)的概率分布,那么X和q(x)之间的交叉熵定义为:
H ( X , q ) = − ∑ p ( x ) l o g q ( x ) H(X,q)=-\sum{p(x)logq(x)} H(X,q)=p(x)logq(x)

三、n元语法模型

一个语言模型通常构建为字符串s的概率分布p(s),其中p(s)为s在某种语言中出现的概率。
对于一个有n个基元(字、词、短语、句等语言单位)构成的句子 s = w 1 w 2 w 3 . . . w d s=w_1w_2w_3…w_d s=w1w2w3...wd,假设每个妓院只与前面相邻的n-1个基元有关,这样:
p ( s ) = ∏ p ( w i ∣ w i − n + 1 . . . w i − 1 ) p(s)=\prod{p(w_i|w_{i-n+1}…w_{i-1})} p(s)=p(wiwin+1...wi1)
那么二元语法模型其实就是一个一阶马尔可夫链,所有 p ( w i ∣ w i − 1 ) p(w_i|w_{i-1}) p(wiwi1)就组成了马尔可夫一阶转移概率矩阵。

四、语法模型的性能评价

交叉熵时用来评价语法模型性能的常用度量。语言L与其估计模型(n元语法模型)q的交叉熵为:
H ( L , q ) = − l i m x → ∞ 1 n ∑ p ( x 1 n ) l o g q ( x 1 n ) H(L,q)=-lim_{x\to\infty}\frac{1}{n}\sum{p(x_{1n})logq(x_{1n})} H(L,q)=limxn1p(x1n)logq(x1n)
假设语言L是稳态遍历的随机过程,即N趋于无穷大时, p ( x 1 n ) p(x_{1n}) p(x1n)为常量。这时:
H ( L , q ) = − l i m n → ∞ 1 n l o g q ( x 1 n ) H(L,q)=-lim_{n\to\infty}\frac{1}{n}logq(x_{1n}) H(L,q)=limnn1logq(x1n)
只要样本包含的词语数n足够大:
H ( L , q ) ≈ − 1 n l o g q ( x 1 n ) H(L,q)\approx-\frac{1}{n}logq(x_{1n}) H(L,q)n1logq(x1n)
在设计q时,交叉熵越小,模型就越接近真实的概率分布 p ( x ) p(x) p(x)

今天的文章信息论 概率_信息处理步骤[通俗易懂]分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/86547.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注