假设检验的几种典型应用场景和计算方法

更多精彩文章，请关注作者微信公众号：码工笔记。

今天我们复习一下假设检验几种典型应用场景和计算方法。

一、假设检验的概念

假设检验，就是通过分析样本数据来检验某一个针对总体的论断是否成立。

一般来说，在假设检验过程中，会先预设 $H_0$ 假设是成立的，从这里出发进行分析，直到有证据（样本数据和样本统计值）表明其不成立，才会拒绝该假设。

建立零假设 $H_0$ 和备选假设 $H_a$
从总体中随机选取出来一个样本集合，并针对样本集合计算出来一些样本统计值（如均值、标准差等）
根据不同场景，调用相应方法从样本统计值计算出检验值（具体方法见下节）
- 检验值是归一化以后的数据，表示的是当前样本统计值距离目标值相差几个标准差
- 检验值越远离中心点，则说明其发生的概率越小，如下图示（这里 $\pm2$ 就是检验值）：
通过查表等方式，由检验值得到 p 值
- p 值表示在 $H_0$ 成立时样本发生的概率
根据 p 值大小决定是否拒绝零假设 $H_0$
- 如果 p 值小于一定的阈值，则认为在 $H_0$ 假设下发生了不太可能发生的事，以此为依据来拒绝 $H_0$

例如：某人声称成年人体重平均值为 70 公斤，现在我们要来检验这一论断的正确性，则有如下假设：

例如：某人声称所有成年人中体重大于70公斤的占比为 50%，我们要检验这个论断是否正确。

例如：某人声称成年人中吸烟与不吸烟者体重均值相同。

假设
- $H_0: \mu_x – \mu_y = 0$
- $H_a:\mu_x – \mu_y \neq 0$
其中：
- $\mu_x$ 和 $\mu_y$ 分别表示总体 $x$ （吸烟者）和总体 $y$ （不吸烟者）的体重平均值
检验值计算公式

$\frac{(\bar{x}-\bar{y})-0}{\sqrt{\frac{s_x^2}{n_1}+\frac{s_y^2} {n_2}}}$

其中：
- $\bar{x}$ 表示从总体 $x$ （吸烟者）中取出的样本的均值（平均体重）
- $\bar{y}$ 表示从总体 $y$ （不吸烟者）中取出的样本的均值（平均体重）
- $s_x^2$ 表示总体 $x$ （吸烟者）的方差
- $s_y^2$ 表示总体 $y$ （吸烟者）的方差
- $n1$ 表示从总体 $x$ （吸烟者）中取出的样本个数
- $n2$ 表示从总体 $y$ （吸烟者）中取出的样本个数注意：
- 如果不知道总体 $x$ 、 $y$ 的方差，可用样本方差代替
  - 这时需要使用自由度为 $n_1+n_2-1$ 的 t 分布，而不是使用 Z 分布

例如：某人声称成年人早晨起床后与晚上睡觉前的体重相等。

遇到这种需要比较成对数据之差时，先将每个样本中的两个数据相减，得到一个新的样本集合，后续的分析基于这个新样本集合。此例中新样本集合包含的是原样本中每个人的早晚体重差。

例如：某人声称成年男性与成年女性中吸烟者的比例相同。

这里就有两个总体——男性与女性；各自抽样后得到的样本集合也有两个——男性样本与女性样本。

有了上一步计算出的检验统计值后，就可以查表得到 p 值了：

当样本数 $n$ 较大时，在 Z 分布表中查询算出来的检验统计值，得到 p 值
- 对于均值的检验，如果检验值是由总体标准差算出来的，则使用 Z 分布；如果是由样本标准差算出来的，或样本数 n < 30，则需使用自由度为 n-1 的 t 分布（要查下面的 t 分布表）

p 值代表的是当前样本在 $H_0$ 成立的情况下发生的概率：

Z 分布表：

t 分布表：

今天的文章假设检验的几种典型应用场景和计算方法分享到此就结束了，感谢您的阅读。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：http://bianchenghao.cn/15808.html