统计学基础之样本方差与总体方差
参考资料:https://www.cnblogs.com/zzdbullet/p/10087196.html
1. 方差(variance)的定义
方差是用来度量随机变量和其数学期望(均值)之间的偏离程度的一个统计量。
统计学中(所有样本)的总体方差公式:
σ 2 = ∑ ( X − μ ) 2 N (1-1) \sigma^2=\frac{\sum(X-\mu)^2}{N} \tag{1-1} σ2=N∑(X−μ)2(1–1)
其中 σ 2 \sigma^2 σ2是总体方差, X X X是随机变量, μ \mu μ是总体均值(有时也用 X ˉ \bar X Xˉ表示), N N N是总体样本数。这里提到的样本,是基于样本数量 N N N(几乎)无限的假设。对应的各个统计量,也是所有的样本所服从的分布的真实参数,是客观正真实的。
2. 样本方差
现实情况中,我们往往得不到所有的无限样本,而只能抽样出一定数量的有限样本。通过有限的样本来计算的方差,称为样本方差,公式如下:
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 (2-1) S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2\tag{2-1} S2=n−11i=1∑n(Xi−Xˉ)2(2–1)
注意上式的系数和总体方差公式里面的系数不一样,分母是 n − 1 n-1 n−1。为什么不用 n n n作为分母呢?这是因为如果沿用总体方差的公式得到的样本方差,是对方差的一个有偏估计。用 n − 1 n-1 n−1作为分母的样本方差公式,才是对方差的无偏估计。
3. 总体方差公式的有偏性证明
1 n ∑ i = 1 n ( X i − X ˉ ) 2 = 1 n ∑ i = 1 n [ ( X i − μ ) + ( μ − X ˉ ) ] 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 + 2 n ∑ i = 1 n ( X i − μ ) ( μ − X ˉ ) + 1 n ∑ i = 1 n ( μ − X ˉ ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 + 2 ( X ˉ − μ ) ( μ − X ˉ ) + ( μ − X ˉ ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 − ( μ − X ˉ ) 2 (3-1) \begin{aligned} \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^2&=\frac{1}{n}\sum_{i=1}^{n}\left[(X_i-\mu)+(\mu-\bar X)\right]^2\\ &=\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2+\frac{2}{n}\sum_{i=1}^{n}(X_i-\mu)(\mu-\bar X)+\frac{1}{n}\sum_{i=1}^{n}(\mu-\bar X)^2\\ &=\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2+2(\bar X-\mu)(\mu-\bar X)+(\mu-\bar X)^2\\ &=\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2-(\mu-\bar X)^2\\ \tag{3-1} \end{aligned} n1i=1∑n(Xi−Xˉ)2=n1i=1∑n[(Xi−μ)+(μ−Xˉ)]2=n1i=1∑n(Xi−μ)2+n2i=1∑n(Xi−μ)(μ−Xˉ)+n1i=1∑n(μ−Xˉ)2=n1i=1∑n(Xi−μ)2+2(Xˉ−μ)(μ−Xˉ)+(μ−Xˉ)2=n1i=1∑n(Xi−μ)2−(μ−Xˉ)2(3–1)
换言之,除非正好有 X ˉ = μ \bar X=\mu Xˉ=μ,否则一定会有
1 n ∑ i = 1 n ( X i − X ˉ ) 2 < 1 n ∑ i = 1 n ( X i − μ ) 2 (3-2) \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^2<\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2\tag{3-2} n1i=1∑n(Xi−Xˉ)2<n1i=1∑n(Xi−μ)2(3–2)
上式的右边是对方差的正确估计,左边是有偏估计。
产生这一偏差的本质是因为均值用的是样本均值 X ˉ \bar X Xˉ。这将导致采样出来的样本之间不是完全相互独立的,自由度从 n n n降为了 n − 1 n-1 n−1。(注意,一个好的采样有两点要求:随机采样,并且样本之间是相互独立的)这是因为,给定 X ˉ \bar X Xˉ和任意 n − 1 n-1 n−1个样本,就能确定剩下的一个样本,也即只有 n − 1 n-1 n−1个样本是完全相互独立的,自由度为 n − 1 n-1 n−1。
4. 样本方差公式分母为n-1的推导
在正式推导之前,先给几个公式作为铺垫:
- 方差计算公式:
D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 (4-1) D(X)=E(X^2)-[E(X)]^2\tag{4-1} D(X)=E(X2)−[E(X)]2(4–1) - 均值的均值:
E ( X ˉ ) = E ( 1 n ∑ i = 1 n X i ) = 1 n E ( ∑ i = 1 n X i ) = E ( X i ) = X ˉ (4-4) \begin{aligned} E(\bar X)&=E\left(\frac{1}{n}\sum_{i=1}^{n}X_i\right)\\ &=\frac{1}{n}E(\sum_{i=1}^{n}X_i)\\ &=E(X_i)\\ &=\bar X\tag{4-4} \end{aligned} E(Xˉ)=E(n1i=1∑nXi)=n1E(i=1∑nXi)=E(Xi)=Xˉ(4–4) - 均值的方差
D ( X ˉ ) = D ( 1 n ∑ i = 1 n X i ) = 1 n 2 D ( ∑ i = 1 n X i ) = 1 n D ( X i ) (4-5) \begin{aligned} D(\bar X)&=D\left(\frac{1}{n}\sum_{i=1}^nX_i\right)\\ &=\frac{1}{n^2}D(\sum_{i=1}^{n}X_i)\\ &=\frac{1}{n}D(X_i)\\ \tag{4-5} \end{aligned} D(Xˉ)=D(n1i=1∑nXi)=n21D(i=1∑nXi)=n1D(Xi)(4–5)
对于没有修正的方差计算公式,计算其期望:
E ( S 2 ) = E ( 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ) = E ( 1 n ∑ i = 1 n ( x i ) 2 − 2 n ( X i ) ( X ˉ ) + 1 n ∑ i = 1 n ( X ˉ ) 2 ) = E ( 1 n ∑ i = 1 n ( x i ) 2 − 2 ( X ˉ ) 2 + ( X ˉ ) 2 ) = E ( 1 n ∑ i = 1 n ( x i ) 2 − ( X ˉ ) 2 ) = E ( ( X i ) 2 ) − E ( ( X ˉ ) 2 ) = D ( X i ) + ( E ( X i ) ) 2 − ( D ( X ˉ ) + ( E ( X ˉ ) ) 2 ) (4-6) \begin{aligned} E(S^2)&=E\left(\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar x)^2\right)\\ &=E\left(\frac{1}{n}\sum_{i=1}^{n}(x_i)^2-\frac{2}{n}(X_i)(\bar X)+\frac{1}{n}\sum_{i=1}^{n}(\bar X)^2\right)\\ &=E\left(\frac{1}{n}\sum_{i=1}^{n}(x_i)^2-2(\bar X)^2+(\bar X)^2\right)\\ &=E\left(\frac{1}{n}\sum_{i=1}^{n}(x_i)^2-(\bar X)^2\right)\\ &=E((X_i)^2)-E((\bar X)^2)\\ &=D(X_i)+\left(E(X_i)\right)^2-\left(D(\bar X)+\left(E(\bar X)\right)^2\right) \tag{4-6} \end{aligned} E(S2)=E(n1i=1∑n(xi−xˉ)2)=E(n1i=1∑n(xi)2−n2(Xi)(Xˉ)+n1i=1∑n(Xˉ)2)=E(n1i=1∑n(xi)2−2(Xˉ)2+(Xˉ)2)=E(n1i=1∑n(xi)2−(Xˉ)2)=E((Xi)2)−E((Xˉ)2)=D(Xi)+(E(Xi))2−(D(Xˉ)+(E(Xˉ))2)(4–6)
结合{4-4}和{4-5},可将{4-6}化简为
E ( S 2 ) = D ( X i ) − 1 n D ( X i ) = n − 1 n D ( X i ) = n − 1 n σ 2 (4-7) \begin{aligned} E(S^2)&=D(X_i)-\frac{1}{n}D(X_i)\\ &=\frac{n-1}{n}D(X_i)\\ &=\frac{n-1}{n}\sigma^2\\ \tag{4-7} \end{aligned} E(S2)=D(Xi)−n1D(Xi)=nn−1D(Xi)=nn−1σ2(4–7)
要使样本方差的期望等于总体方差,就需要进行修正,也即给样本方差乘上 n n − 1 \frac{n}{n-1} n−1n
因此得到修正后的样本方差公式:
S 2 = n n − 1 ( 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ) = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 (4-8) \begin{aligned} S^2&=\frac{n}{n-1}\left(\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar x)^2\right)\\ &=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar x)^2\\ \tag{4-8} \end{aligned} S2=n−1n(n1i=1∑n(xi−xˉ)2)=n−11i=1∑n(xi−xˉ)2(4–8)
推导完毕!
今天的文章样本方差和总体方差一样吗_统计学总体标准差怎么算分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/85739.html