大数定律与中心极限定理的基本理论_中心极限定理在统计学中的意义

大数定律与中心极限定理的基本理论_中心极限定理在统计学中的意义一、大数定律大数定律是叙述随机变量序列的前一些项的算术平均值在某种条件下收敛到这些项的均值的算术平均值

一、大数定律

1.弱大数定理(辛钦大数定理)

我们先用通俗的语言来介绍大数定理是干什么的?然后再给出它严格的数学定义。

通俗地说,辛钦大数定理是说,对于独立同分布且具有均值 μ \mu μ得随机变量 X 1 X_1 X1,…, X n X_n Xn,当n很大时它们得算术平均 1 n ∑ k = 1 n X K \frac{1}{n}\sum _{k=1}^n X_K n1k=1nXK很可能接近于 μ \mu μ

也就是说大数定律讲的是样本均值收敛到总体均值(就是期望),没错,就是这么简单

下面是严格的数学定义:

在这里插入图片描述
注:什么是随机变量序列?

随机变量序列就是一列按某种规则排列的随机变量。 这种规则可随意,但强调的是一个次序。
例如:
若Xi表示第i次抛硬币的结果,那么{Xi}这个序列就是若干次抛硬币的结果序列,X1指第一次抛的结果,Xn指第n次抛的结果。
若Yi表示前i次抛硬币正面向上的次数,(记第i次正面朝上为Xi=1,反面朝上为Xi=0)那么可以有Yi=X1+X2+…+Xi。这样{Yi}这个序列就是前i次抛硬币正面朝上的汇总序列,Y1指的是抛一次硬币正面朝上的次数,Yn指的是抛n次硬币中正面朝上的次数。
可见{Xi}中的随机变量相互独立,而{Yi}中的随机变量则有相互关系,其中前者的结果会影响后者。因此,随机变量序列就是一列按某种规则排列的随机变量。

2.伯努利大数定理

伯努利大数定理是辛钦大数定理的一个重要推论

在这里插入图片描述

二、中心极限定理

我们先用通俗的语言来介绍中心极限定理是干什么的?然后再给出它严格的数学定义。

那么,什么是中心极限定理呢?

中心极限定理是说:
样本的平均值约等于总体的平均值。
不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。

所以我们看到中心极限定理其实是包含了大数定理的,也就是样本的平均值约定于或者说依概率收敛于总体的平均值。

那第二句话是什么意思呢?

比如我们进行取样,每一次取样取一百条数据,这是一个样本,样本中每条数据它的值都是服从相同分布的,我们把这一次的取样结果的平均值即为 X ˉ \bar X Xˉ,称为样本平均值。很明显 X ˉ \bar X Xˉ也是一个变量,意思是每一次的取样这个样本平均值都有可能不同。但是中心极限定理指出 X ˉ \bar X Xˉ围绕着总体的整体平均值周围,并且成正态分布。

这里总体的整体平均值又是什么呢?其实其实并不是指简单的所有数据的平均值。假设我们把V当作随机取到一个数据的值,那么随机变量V的数学期望就是整体平均值。所以它应该是数学期望。这里总体均值上面大数定律中提到的是一样的,都是数学期望。

下面再以一个具体的例子进行说明。

假设有一个群体,如清华毕业的人,我们对这类人群的收入感兴趣。怎么知道这群人的收入呢?我会做这样4步:

  • 第1步.随机抽取1个样本,求该样本的平均值。例如我们抽取了100名毕业于清华的人,然后对这些人的收入求平均值。该样本里的100名清华的人,这里的100就是该样本的大小。有一个经验是,样本大小必须达到30,中心极限定理才能保证成立。

  • 第2步.我将第1步样本抽取的工作重复再三,不断地从毕业的人中随机抽取100个人,例如我抽取了5个样本,并计算出每个样本的平均值,那么5个样本,就会有5个平均值。这里的5个样本,就是指样本数量是5。

  • 第3步.根据中心极限定理,这些样本平均值中的绝大部分都极为接近总体的平均收入。有一些会稍高一点,有一些会稍低一点,只有极少数的样本平均值大大高于或低于群体平均值。

  • 第4步.中心极限定理告诉我们,不论所研究的群体是怎样分布的,这些样本平均值会在总体平均值周围呈现一个正态分布。

下面是数学定义。

在这里插入图片描述
为了跟上面的举例做一个衔接(因为举例是用贴近生活的数理统计,如抽样来举例,而定理是概率论的内容,数理统计是以概率论为基础的)。我们可以把 X 1 , X 2 , . . . X n X_1,X_2,…X_n X1,X2,...Xn看作是一个样本,或者说一次大试验,而每一个X都是描述一个数据,或者说一次小实验。那么这个样本的均值 X ˉ \bar X Xˉ,也就是 1 n ∑ k = 1 n X k \frac{1}{n}\sum _{k=1}^{n} X_k n1k=1nXk 它始终围绕在 μ \mu μ周围,而且它的标准差是 1 n σ \frac{1}{\sqrt n}\sigma n
1
σ
,而且它服从正态分布。 这个可以从上面的定理推出来。

上面的随机变量Y其实就是把变量 Y ′ = X ˉ Y’ = \bar X Y=Xˉ标准化了,变成了均值为0,方差为1的正态分布。

同时上面的极限符号也说明了样本大小或随机变量个数n越大, X ˉ \bar X Xˉ分布就越接近正态分布。当n趋于无穷时,这是 X ˉ \bar X Xˉ分布的标准差就趋于零,也就是这时候的样本平均值几乎等于总体平均值(数学期望)。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
下面是一道例题:

在这里插入图片描述
第二小问跟第一问解法相似,略。

四、参考资料

  1. 《概率论与数理统计》浙大第四版

今天的文章大数定律与中心极限定理的基本理论_中心极限定理在统计学中的意义分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/84318.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注