原文地址1:https://www.face2ai.com/Math-Probability-5-9-Multinomial-Distribution转载请标明出处
Abstract: 本文介绍多项式分布的相关知识
Keywords: The Multinomial Distributions
多项式分布
本文开始介绍多于一个变量的分布,其实分布我们已经学了不少了后面再讲一个双变量的正态分布本章就算结束了,主要学的就是如何使用前面学到的工具来对新的随机变量的性质进行分析。今天我们来分析多项式分布。
多项式是二项分布的一个扩展。
多项式分布的定义和导出 Definition and Derivation of Multinomial Distribution
把二项分布中的两个变量扩展成多个变量,就能得到我们我们今天要介绍的多项式分布,而且遵守和二项式分布一样的放回的采样方式(with replacement),在计数方法中我们也学过多项式系数这个知识,与我们今天要说的多项式分布是紧密相关的,比如我们举个例子:
人类的血型可以分为 A,B,o,AB 四种类型,每种类型都有相应的比例(这个比例是从所有人的类型中统计计算出来的)现在才去放回式的抽样,假设我们抽取了若干个样本,得到随机变量的向量为: x ⃗ = ( X A , X B , X o , X A B ) \vec{x}=(X_A,X_B,X_o,X_{AB}) x=(XA,XB,Xo,XAB) 对应的概率为 p ⃗ = ( p A , p B , p o , p A B ) \vec{p}=(p_A,p_B,p_o,p_{AB}) p=(pA,pB,po,pAB) 那么我们可以根据多项式系数的相关知识得到其分布:
f ( x ⃗ ∣ 4 , p ⃗ ) = P r ( X A = x 1 , X B = x 2 , X o = x 3 , X A B = x 4 ) = { ( n x 1 x 2 x 3 x 4 ) p A x 1 p B x 2 p o x 3 p A B x 4 if x 1 + x 2 + x 3 + x 4 = n 0 otherwise f(\vec{x}|4,\vec{p})=Pr(X_A=x_1,X_B=x_2,X_o=x_3,X_{AB}=x_4)\\ =\begin{cases} \begin{pmatrix} &n&\\ x_1&x_2&x_3&x_4 \end{pmatrix}p_A^{x_1}p_B^{x_2}p_o^{x_3}p_{AB}^{x_4}&\text{if } x_1+x_2+x_3+x_4=n\\ 0&\text{otherwise} \end{cases} f(x∣4,p)=Pr(XA=x1,XB=x2,Xo=x3,XAB=x4)=⎩⎨⎧(x1nx2x3x4)pAx1pBx2pox3pABx40if x1+x2+x3+x4=notherwise
这就是多项式系数的扩展,称为多项式分布的的样子,对应于多个随机变量,随机变量的个数为固定值。可以写成一下形式:
f ( x ⃗ ∣ n , p ⃗ ) = { ( n x 1 … x k ) p 1 x 1 … p k x k if x 1 + ⋯ + x k = n 0 otherwise (5.9.1) f(\vec{x}|n,\vec{p})= \begin{cases} \begin{pmatrix} &n&\\ x_1&\dots&x_k \end{pmatrix}p_1^{x_1}\dots p_{k}^{x_k}&\text{if } x_1+\dots+x_k=n\\ 0&\text{otherwise} \end{cases}\tag{5.9.1} f(x∣n,p)=⎩⎨⎧(x1n…xk)p1x1…pkxk0if x1+⋯+xk=notherwise(5.9.1)
Definition Multinomial Distributions.A discrete random vector X ⃗ = ( X 1 , … , X k ) \vec{X}=(X_1,\dots,X_k) X=(X1,…,Xk) whose p.f. is given Eq(5.9.1) has the multinomial distribution with parameters n n n and p ⃗ = ( p 1 , … , p k ) \vec{p}=(p_1,\dots,p_k) p=(p1,…,pk) .
这个定义看起来没什么,而且上面的例子也给出了多项式分布的一般用法,接下来我们就说说多项式分布和二项分布的关系。
多项式分布和二项分布的关系 Relation between the Multinomial and Binomial Distributions
Theorem Suppose that the random vector X ⃗ = ( X 1 , X 2 ) \vec{X}=(X_1,X_2) X=(X1,X2) has the multinomial distribution with parameters n n n and p ⃗ = ( p 1 , p 2 ) \vec{p}=(p_1,p_2) p=(p1,p2) .Then X 1 X_1 X1 has the binomial distribution with parameters n n n and p 1 p_1 p1 ,and X 2 = n − X 1 X_2=n-X_1 X2=n−X1
这个定理应该不需要证明了,因为多项式分布无论从定义来看还是原理来看,二项式是多项式的退化,多项式更加宽泛。
上面的定理可以轻易的推导出下面两个推论:
Corollary Suppose that the random vector X ⃗ = ( X 1 , … , X k ) \vec{X}=(X_1,\dots,X_k) X=(X1,…,Xk) has the multinomial distribution with parameters n n n and p ⃗ = ( p 1 , … , p k ) \vec{p}=(p_1,\dots,p_k) p=(p1,…,pk) .The marginal distribution of each variable X i ( i = 1 , … , k ) X_i(i=1,\dots,k) Xi(i=1,…,k) is the binomial distribution with parameters n n n and p p p
这个推论比较好理解,一个多项式分布的边缘分布是其他变量所有可能值求和的结果,比如一个三个随机变量的多项式分布:
f 3 ( x 3 ) = ∑ all x 1 ∑ all x 2 f ( x 1 , x 2 , x 3 ) for x 1 + x 2 + x 3 = n f_3(x_3)=\sum_{\text{all }x_1}\sum_{\text{all }x_2}f(x_1,x_2,x_3)\text{ for }x_1+x_2+x_3=n f3(x3)=all x1∑all x2∑f(x1,x2,x3) for x1+x2+x3=n
那么可见 x 3 x_3 x3 的范围是从0到 n n n 的其概率是 p 3 = 1 − p 1 − p 2 p_3=1-p_1-p_2 p3=1−p1−p2 明显的这是一个二项分布, n = n n=n n=n 以及 p = p 3 p=p_3 p=p3
Corollary Suppose that the random vector X ⃗ = ( X 1 , … , X k ) \vec{X}=(X_1,\dots,X_k) X=(X1,…,Xk) has the multinomial distribution with parameters n n n and p ⃗ = ( p 1 , … , p k ) \vec{p}=(p_1,\dots,p_k) p=(p1,…,pk) with k > 2 k > 2 k>2 .Let ℓ < k \ell<k ℓ<k ,and let i 1 , … , i ℓ i_1,\dots,i_{\ell} i1,…,iℓ be distinct elements of the set { 1 , … , k } \{1,\dots,k\} {
1,…,k} .The distribution of Y = X i 1 + ⋯ + X i ℓ Y=X_{i_1}+\dots+X_{i_{\ell}} Y=Xi1+⋯+Xiℓ is the binomial distribution with parameters n n n and p i 1 + ⋯ + p i ℓ p_{i_1}+\dots+p_{i_{\ell}} pi1+⋯+piℓ
这个推论的证明办法还是从二项分布出发,把本来分成多类的现在分成两类,比如一个分类可以把十个样本分为5类 { 1 , 2 , 3 , 4 , 5 } \{1,2,3,4,5\} {
1,2,3,4,5} 现在我们重新分, A = { 1 , 2 , 3 } A=\{1,2,3\} A={
1,2,3} 以及 B = { 4 , 5 } B=\{4,5\} B={
4,5} 那么新的分布就是二项分布 p A = p 1 + p 2 + p 3 p_A=p_1+p_2+p_3 pA=p1+p2+p3 以及 p B = p 4 + p 5 p_B=p_4+p_5 pB=p4+p5
多项分布也好,二项分布也好,其根本都是伯努利分布,所以我们在考虑这类分布之间的关系的时候可以退回到伯努利分布然后分析不同的试验过程,找出其不同点。
均值,方差,协方差 Means,Variances and Covariances
接着就是多项式的数字特征了,因为其是多随机变量的分布,比前面讲的分布会多一个协方差(Covariances)
Theorem Means,Variances,and Covariances.Let the random vector X X X have the multinomial distribution with parameters n n n and p p p .The means and variances of the coordinates of X X X are
E ( X i ) = n p i and V a r ( X i ) = n p i ( 1 − p i ) for i = 1 , … , k E(X_i)=np_i\text{ and } Var(X_i)=np_i(1-p_i)\text{ for }i=1,\dots,k E(Xi)=npi and Var(Xi)=npi(1−pi) for i=1,…,k
the covariances between the coordinates are
C o v ( X i , X j ) = − n p i p j Cov(X_i,X_j)=-np_ip_j Cov(Xi,Xj)=−npipj
证明过程我们只写最后一个协方差的计算,因为期望和方差我们可以通过前面的定理理解(其边缘分布就是二项分布),其期望和方差形式与二项分布相同。
协方差计算如下
X i + X j X_i+X_j Xi+Xj 为一个随机变量,其他随机变量相加为另一个随机变量,那么新的分布是一个二项分布 p = p i + p j p=p_i+p_j p=pi+pj 以及 n = n n=n n=n 那么其分布是:
V a r ( X i + X j ) = n ( p i + p j ) ( 1 − p i − p j ) Var(X_i+X_j)=n(p_i+p_j)(1-p_i-p_j) Var(Xi+Xj)=n(pi+pj)(1−pi−pj)
根据前面学的有关方差的知识,有:
V a r ( X i + X j ) = V a r ( X i ) + V a r ( X j ) − C o v ( X i , X j ) = n p i ( 1 − p i ) + n p j ( 1 − p j ) − C o v ( X i , X j ) Var(X_i+X_j)=Var(X_i)+Var(X_j)-Cov(X_i,X_j)\\ =np_i(1-p_i)+np_j(1-p_j)-Cov(X_i,X_j) Var(Xi+Xj)=Var(Xi)+Var(Xj)−Cov(Xi,Xj)=npi(1−pi)+npj(1−pj)−Cov(Xi,Xj)
所以
n ( p i + p j ) ( 1 − p i − p j ) = n p i ( 1 − p i ) + n p j ( 1 − p j ) − C o v ( X i , X j ) C o v ( X i , X j ) = − n p i p j \begin{aligned} n(p_i+p_j)(1-p_i-p_j)&=np_i(1-p_i)+np_j(1-p_j)-Cov(X_i,X_j)\\ Cov(X_i,X_j)&=-np_ip_j \end{aligned} n(pi+pj)(1−pi−pj)Cov(Xi,Xj)=npi(1−pi)+npj(1−pj)−Cov(Xi,Xj)=−npipj
多项分布的协方差永远是负的,这是有道理的,因为多项分布的总数有限,所以当一个多了别人肯定就会少,这样的协方差肯定是负的。
总结
今天我们研究了多项分布,第一个多随机变量的分布,明天我们将会学习双变量的正态分布。
待续。。。
今天的文章
多项式分布详解_多项式的计算分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/89791.html