第四章 极限定理(2)
1.Lindeberg-Levy CLT
中心极限定理(CLT, central limit theorem),揭露的是一般分布与正态分布的普遍性联系,这也侧面说明了正态分布在概率论中的重要意义。
CLT的一般定义如下:如果有一列随机变量 { ξ n } \{\xi_n\} {
ξn},若存在常数列 { B n } > 0 \{B_n\}>0 {
Bn}>0和 { A n } \{A_n\} {
An},使得
1 B n ∑ k = 1 n ξ k − A n → d N ( 0 , 1 ) , \frac{1}{B_n}\sum_{k=1}^n \xi_k -A_n\stackrel d\to N(0,1), Bn1k=1∑nξk−An→dN(0,1),
就称 { ξ n } \{\xi_n\} {
ξn}服从中心极限定理。
简单说来,中心极限定理指的是对于一系列随机变量之和,如果能通过一定的线性变换,使得变换后的随机变量依分布收敛于标准正态分布,则称这一系列随机变量服从CLT。当然,这里的 B n , A n B_n,A_n Bn,An是可解析的,也就是给定一个 n n n,能够直接写出 B n , A n B_n,A_n Bn,An的值才行。将随机变量之和通过修饰变成标准正态分布,就可以通过查询标准正态分布表,来判断随机变量之和服从什么样的分布。
至于什么样的随机变量列服从中心极限定理,接下来有几个重要的定理来保证。
Lindeberg-Levy定理指出,对于一系列独立同分布的随机变量 { ξ n } \{\xi_n\} {
ξn},记 S n = ∑ k = 1 n ξ k . a = E ξ i , σ 2 = D ξ i S_n=\sum\limits_{k=1}^n \xi_k.a=E\xi_i,\sigma^2=D\xi_i Sn=k=1∑nξk.a=Eξi,σ2=Dξi,则中心极限定理以如下的形式成立:
S n − n a n σ → d N ( 0 , 1 ) . \frac{S_n-na}{\sqrt n\sigma}\stackrel d\to N(0,1). nσSn−na→dN(0,1).
从形式上看,由于独立随机变量均值与方差的线性可加性,因此 n a na na和 n σ \sqrt n\sigma nσ其实就是 S n S_n Sn的均值和标准差,这个定理的内容,就是独立同分布随机变量之和的标准化服从 N ( 0 , 1 ) N(0,1) N(0,1)。为证明,需要用到特征函数工具,设 f ( t ) f(t) f(t)是 ξ 1 − a \xi_1-a ξ1−a的特征函数, f n ( t ) f_n(t) fn(t)是 S n − n a n σ \frac{S_n-na}{\sqrt n\sigma} nσSn−na的特征函数,从而由特征函数的可加性,有
f n ( t ) = [ f ( t n σ ) ] n . f_n(t)=\left[f\left(\frac{t}{\sqrt n\sigma}\right)\right]^n. fn(t)=[f(nσt)]n.
又因为 E ( ξ i − a ) = 0 , E ( ξ 1 − a ) 2 = σ 2 E(\xi_i-a)=0,E(\xi_1-a)^2=\sigma^2 E(ξi−a)=0,E(ξ1−a)2=σ2,所以对 f ( t ) f(t) f(t)进行Taylor展开,得到
f ( t ) = f ( 0 ) + f ′ ( 0 ) t + 1 2 f ′ ′ ( 0 ) t 2 + o ( t 2 ) , f ( 0 ) = 1 , f ′ ( 0 ) = 0 , f ′ ′ ( 0 ) = i 2 σ 2 = − σ 2 , f ( t / n σ ) = 1 − t 2 2 n + o ( t 2 ) f(t)=f(0)+f'(0)t+\frac{1}{2}f”(0)t^2+o(t^2),\\ f(0)=1,f'(0)=0,f”(0)=i^2\sigma^2=-\sigma^2,\\ f(t/\sqrt n\sigma)=1-\frac{t^2}{2n}+o(t^2) f(t)=f(0)+f′(0)t+21f′′(0)t2+o(t2),f(0)=1,f′(0)=0,f′′(0)=i2σ2=−σ2,f(t/nσ)=1−2nt2+o(t2)
如果将其看成关于 n n n的多项式,则变成
f ( t / n σ ) = 1 − t 2 2 n + o ( 1 n ) . f(t/\sqrt n\sigma)=1-\frac{t^2}{2n}+o(\frac1n). f(t/nσ)=1−2nt2+o(n1).
当 n → ∞ n\to \infty n→∞时,有
f n ( t ) = ( 1 − t 2 2 n + o ( 1 n ) ) n = e − t 2 2 f_n(t)=\left(1-\frac{t^2}{2n}+o(\frac1n)\right)^n=e^{-\frac{t^2}{2}} fn(t)=(1−2nt2+o(n1))n=e−2t2
由于 N ( a , σ 2 ) N(a,\sigma^2) N(a,σ2)的特征函数为 e i a t − 1 2 σ 2 t 2 e^{iat-\frac12\sigma^2t^2} eiat−21σ2t2,所以上式正是 N ( 0 , 1 ) N(0,1) N(0,1)的特征函数,也就证明了 S n − n a σ n → d N ( 0 , 1 ) \frac{S_n-na}{\sigma \sqrt n}\stackrel d\to N(0,1) σnSn−na→dN(0,1)。
- 在此定理以前,已经有人对两点分布的情形做了如下判断,即 B ( 1 , p ) B(1,p) B(1,p)的 S n S_n Sn满足
S n − n p n p q → d N ( 0 , 1 ) . \frac{S_n-np}{\sqrt{npq}}\stackrel d\to N(0,1). npqSn−np→dN(0,1).
这被称为De Moivre-Laplace中心极限定理。
2.Lindeberg-Feller CLT
Lindeberg-Levy定理保证了独立同分布随机变量列的CLT成立,但如果随机变量列仅仅是独立,而不满足同分布呢?Lindeberg-Feller中心极限定理作出如下结论:对于独立随机变量序列 { ξ k } \{\xi_k\} {
ξk},如果满足Lyapunov定理所要求的的条件,即
∃ δ > 0 , ∑ k = 1 n E ∣ ξ k − E ξ k ∣ 2 + δ ( ∑ k = 1 n D ξ k ) 1 + δ / 2 → 0 , \exists \delta >0,\quad \frac{\sum_{k=1}^n E|\xi_k-E\xi_k|^{2+\delta}}{(\sum_{k=1}^n D\xi_k)^{1+\delta/2}}\to 0, ∃δ>0,(∑k=1nDξk)1+δ/2∑k=1nE∣ξk−Eξk∣2+δ→0,
那么Lindeberg-Feller CLT成立,即
∑ k = 1 n ( ξ k − E ξ k ) ∑ k = 1 n D ξ k → d N ( 0 , 1 ) . \frac{\sum_{k=1}^n (\xi_k-E\xi_k)}{\sqrt {\sum_{k=1}^n D\xi_k}}\stackrel d\to N(0,1). ∑k=1nDξk∑k=1n(ξk−Eξk)→dN(0,1).
这个定理其实就是令 S n = ∑ k = 1 n ξ k S_n=\sum\limits_{k=1}^n \xi_k Sn=k=1∑nξk,如果满足一定的条件,那么 S n − E S n D S n → N ( 0 , 1 ) \frac{S_n-ES_n}{\sqrt{DS_n}}\to N(0,1) DSnSn−ESn→N(0,1),条件就是Lyapunov定理所要求的。一般情况下,至多用到 δ = 1 , 2 \delta=1,2 δ=1,2的情况。
日后会在概率估计、参数估计、假设检验等方面都用到CLT,因此对CLT的形式,尤其是Lindeberg-Levy CLT要牢记。
3.(Weak )Law of Large Numbers
前面所提到的CLT,是将一列随机变量求和以后近似服从标准正态分布的定理,而这里的大数定律,只针对样本均值的收敛性作出结论。所谓样本均值,指的是对于一系列独立同分布的随机变量 { ξ i } \{\xi_i\} {
ξi},由于每次试验相当于对一个 ξ i \xi_i ξi进行观测,所以我们称 ξ i \xi_i ξi是一个样本,样本均值指的就是 ∑ i = 1 n ξ i n \frac{\sum_{i=1}^n \xi_i}{n} n∑i=1nξi,也就是对样本加总再除以样本容量。
这里要区分两个概念,对于随机变量,随机变量的均值是一个常数,但对于一系列样本,样本均值依然是一个随机变量。
由常识判断,样本均值一定会趋近于总体数学期望,而大数定律就解释了这个道理,接下来介绍几个重要的大数定律。
KhinChin大数定律针对一系列独立同分布随机变量列 { ξ n } \{\xi_n\} {
ξn},这里 E ξ i = μ E\xi_i=\mu Eξi=μ,记 ∑ i = 1 n ξ i = S n \sum\limits_{i=1}^n \xi_i=S_n i=1∑nξi=Sn,则有
S n n → P μ . \frac{S_n}{n}\stackrel P\to \mu. nSn→Pμ.
证明依然可以用特征函数法,设 f ( t ) f(t) f(t)是 ξ \xi ξ的特征函数, f n ( t ) f_n(t) fn(t)是 S n n \frac{S_n}n nSn的特征函数,则由特征函数的可加性,有 f n ( t ) = [ f ( t n ) ] n f_n(t)=[f(\frac tn)]^n fn(t)=[f(nt)]n。并且对 f ( t ) f(t) f(t)进行Taylor展开,有
f ( t ) = 1 + i μ t + o ( t 2 ) , f(t)=1+i\mu t+o(t^2), f(t)=1+iμt+o(t2),
故以 n n n为主变量,得到
f ( t n ) = 1 + i μ t n + o ( 1 n ) , f n ( t ) = ( 1 + i μ t n + o ( 1 n ) ) n → e i μ t . f(\frac tn)=1+\frac{i\mu t}{n}+o(\frac 1n),\\ f_n(t)=\left(1+\frac{i\mu t}{n}+o(\frac 1n)\right)^n\to e^{i\mu t}. f(nt)=1+niμt+o(n1),fn(t)=(1+niμt+o(n1))n→eiμt.
而 f n ( t ) = e i μ t f_n(t)=e^{i\mu t} fn(t)=eiμt是退化分布(以概率1取值于单点) μ \mu μ的特征函数,所以有 S n n → d μ \frac{S_n}{n}\stackrel d\to \mu nSn→dμ,又由于 μ \mu μ是常数,所以有 S n n → P μ \frac{S_n}{n}\stackrel P\to \mu nSn→Pμ。
要是随机变量列独立,但不是同分布的,则有Chebyshev大数定律如下:对于随机变量列 { ξ n } \{\xi_n\} {
ξn},这里 E ξ i = μ i , D ξ i = σ i 2 E\xi_i=\mu_i,D\xi_i=\sigma_i^2 Eξi=μi,Dξi=σi2,如果
∑ k = 1 n σ k 2 n 2 → 0 , \frac{\sum\limits_{k=1}^n \sigma_k^2}{n^2}\to 0, n2k=1∑nσk2→0,
那么Chebyshev大数定律表现为样本均值依概率收敛到其均值(样本均值的均值),即
S n n → P E ( S n n ) = ∑ k = 1 n μ k n . \frac{S_n}{n}\stackrel P\to E\left(\frac{S_n}{n}\right)=\frac{\sum\limits_{k=1}^n \mu_k}{n}. nSn→PE(nSn)=nk=1∑nμk.
证明用到Chebyshev不等式,即考虑随机变量 1 n ∑ k = 1 n ξ k \frac1n \sum\limits_{k=1}^n \xi_k n1k=1∑nξk,它的期望是 1 n ∑ k = 1 n μ i \frac1n \sum\limits_{k=1}^n \mu_i n1k=1∑nμi,方差是 1 n 2 ∑ k = 1 n σ k 2 \frac 1{n^2}\sum\limits_{k=1}^n\sigma_k^2 n21k=1∑nσk2,有
P ( ∣ S n n − E S n n ∣ ≥ ε ) ) ≤ D ( S n n ) ε 2 → 0. P\left(|\frac{S_n}{n}-E\frac{S_n}{n}|\ge \varepsilon)\right)\le \frac{D(\frac{S_n}{n})}{\varepsilon^2}\to 0. P(∣nSn−EnSn∣≥ε))≤ε2D(nSn)→0.
- 在此定理以前,已经有人对两点分布的情形做了如下判断,即 B ( 1 , p ) B(1,p) B(1,p)的 S n S_n Sn满足
S n n → P p , \frac{S_n}{n}\stackrel P\to p, nSn→Pp,
这被称为Bernoulli(弱)大数定律。
4.Strong Law of Large Numbers
既然弱大数定律是样本均值依概率收敛到总体均值,那么强大数定律就对收敛性进行了更高的要求,即以概率1收敛。
Kolmogorov强大数定律:设 { ξ n } \{\xi_n\} {
ξn}是独立同分布随机变量列,且 E ξ i = μ E\xi_i=\mu Eξi=μ。记 S n = ∑ k = 1 n ξ k S_n=\sum\limits_{k=1}^n \xi_k Sn=k=1∑nξk,则
S n n → μ a.s. \frac{S_n}{n}\to \mu\quad\text{a.s.} nSn→μa.s.
- 在此定理以前,已经有人对两点分布的情形做了如下判断,即 B ( 1 , p ) B(1,p) B(1,p)的 S n S_n Sn满足
S n n → p , a.s. \frac{S_n}{n}\to p,\quad \text{a.s.} nSn→p,a.s.
这被称为Borel强大数定律。
今天的文章第五章极限定理_费马定理[通俗易懂]分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/89427.html