假设检验的几种典型应用场景和计算方法

假设检验的几种典型应用场景和计算方法今天我们复习一下假设检验几种典型应用场景和计算方法。假设检验,就是通过分析样本数据来检验某一个针对总体的论断是否成立。

更多精彩文章,请关注作者微信公众号:码工笔记

今天我们复习一下假设检验几种典型应用场景和计算方法。

一、假设检验的概念

假设检验,就是通过分析样本数据来检验某一个针对总体的论断是否成立。

  • 待检验的针对总体的论断叫做零假设,一般用
    H 0 H_0
    表示。
  • 与零假设相对立的假设叫做备选假设,一般用
    H a H_a
    表示。

一般来说,在假设检验过程中,会先预设
H 0 H_0
假设是成立的,从这里出发进行分析,直到有证据(样本数据和样本统计值)表明其不成立,才会拒绝该假设。

二、假设检验的一般步骤

  1. 建立零假设
    H 0 H_0
    和备选假设
    H a H_a

  2. 从总体中随机选取出来一个样本集合,并针对样本集合计算出来一些样本统计值(如均值、标准差等)

  3. 根据不同场景,调用相应方法从样本统计值计算出检验值具体方法见下节

    • 检验值是归一化以后的数据,表示的是当前样本统计值距离目标值相差几个标准差

    • 检验值越远离中心点,则说明其发生的概率越小,如下图示(这里
      ± 2 \pm2
      就是检验值):

      “A bell-shaped curve depicting the test statistics that lie roughly within 2 standard errors; Ha is the not-equal-to alternative, resulting in Ho being rejected.”

  4. 通过查表等方式,由检验值得到 p 值

    • p 值表示在
      H 0 H_0
      成立时样本发生的概率
  5. 根据 p 值大小决定是否拒绝零假设
    H 0 H_0

    • 如果 p 值小于一定的阈值,则认为在
      H 0 H_0
      假设下发生了不太可能发生的事,以此为依据来拒绝
      H 0 H_0

三、应用场景 & 检验值计算方法

1. 场景一:检验一个总体的均值大小

例如:某人声称成年人体重平均值为 70 公斤,现在我们要来检验这一论断的正确性,则有如下假设:

  • 假设


    • H 0 : μ = μ 0 H_0: \mu=\mu_0


    • H a : μ > μ 0 H_a: \mu>\mu_0

    其中:


    • μ \mu
      表示真正的总体均值(所有成年人的体重均值)

    • μ 0 \mu_0
      表示
      H 0 H_0
      中假设的总体均值(
      μ 0 = 70 \mu_0 = 70
  • 检验值计算公式


    Z = x ˉ μ 0 σ n Z = \frac{\bar{x} – \mu_0}{\frac{\sigma}{\sqrt{n}}}

    其中:

    • n 表示样本个数;

    • x ˉ \bar{x}
      表示样本的平均值;

    • σ \sigma
      表示总体的标准差;

    如果采样了 100 个样本,分别为
    x 1 , x 2 , . . . , x 100 x_1, x_2, …, x_{100}
    ,则有:


    • n = 100 n=100

    • x ˉ = x 1 + x 2 + . . . + x 100 100 \bar{x} = \frac{x_1 + x_2 + … + x_{100}}{100}
    • 如果不知道总体标准差,可用样本标准差来代替:

      • σ = i = 1 100 ( x i x ˉ ) 2 n 1 \sigma = \sqrt{\frac{\sum_{i=1}^{100}(x_i – \bar{x})^2}{n-1}}
      • 使用样本标准差时需要使用 t 分布,而不是 Z 分布

    最后根据公式算出的 Z 就是检验值。

2. 场景二:检测一个总体中符合某条件的部分的占比

例如:某人声称所有成年人中体重大于70公斤的占比为 50%,我们要检验这个论断是否正确。

  • 假设


    • H 0 : p = p 0 H_0:p = p_0


    • H a : p p 0 H_a:p \neq p_0

    其中:


    • p 0 p_0
      表示声称中所假设的目标比例,这里就是 50%
  • 检验值计算公式


    p ^ p 0 p 0 ( 1 p 0 ) n \frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}

    其中:


    • p ^ \hat{p}
      代表符合条件(即体重大于70公斤)的个体在样本集合中的实际占比;
    • n 表示样本个数

3. 场景三:比较两个总体的平均值

例如:某人声称成年人中吸烟与不吸烟者体重均值相同。

  • 假设


    • H 0 : μ x μ y = 0 H_0: \mu_x – \mu_y = 0


    • H a : μ x μ y 0 H_a:\mu_x – \mu_y \neq 0

    其中:


    • μ x \mu_x

      μ y \mu_y
      分别表示总体
      x x
      (吸烟者)和总体
      y y
      (不吸烟者)的体重平均值
  • 检验值计算公式


    ( x ˉ y ˉ ) 0 s x 2 n 1 + s y 2 n 2 \frac{(\bar{x}-\bar{y})-0}{\sqrt{\frac{s_x^2}{n_1}+\frac{s_y^2} {n_2}}}

    其中:


    • x ˉ \bar{x}
      表示从总体
      x x
      (吸烟者)中取出的样本的均值(平均体重)

    • y ˉ \bar{y}
      表示从总体
      y y
      (不吸烟者)中取出的样本的均值(平均体重)

    • s x 2 s_x^2
      表示总体
      x x
      (吸烟者)的方差

    • s y 2 s_y^2
      表示总体
      y y
      (吸烟者)的方差

    • n 1 n1
      表示从总体
      x x
      (吸烟者)中取出的样本个数

    • n 2 n2
      表示从总体
      y y
      (吸烟者)中取出的样本个数 注意:
    • 如果不知道总体
      x x

      y y
      的方差,可用样本方差代替

      • 这时需要使用自由度为
        n 1 + n 2 1 n_1+n_2-1
        的 t 分布,而不是使用 Z 分布

4. 场景四:检验两个变量之差的平均值:两个变量为成对数据

例如:某人声称成年人早晨起床后与晚上睡觉前的体重相等。

遇到这种需要比较成对数据之差时,先将每个样本中的两个数据相减,得到一个新的样本集合,后续的分析基于这个新样本集合。此例中新样本集合包含的是原样本中每个人的早晚体重差。

  • 假设


    • H 0 : μ d = 0 H_0: \mu_d = 0


    • H a : μ d 0 H_a: \mu_d \neq 0

    其中:


    • μ d \mu_d
      表示所有成年人(总体)早晚体重差的平均值
  • 检验值计算公式


    d ˉ μ d s d n \frac{\bar{d}-\mu_d}{\frac{s_d}{\sqrt{n}}}

    其中:


    • d ˉ \bar{d}
      为样本集合中早晚体重差的均值

    • s d s_d
      为总体的标准差

      • 得不到总体标准差时,可用样本标准差代替
        • 这时需使用自由度为
          n 1 n-1
          的 t 分布

    • n n
      表示样本个数

5. 场景五:检验两个总体中符合某条件的部分的占比差异

例如:某人声称成年男性与成年女性中吸烟者的比例相同。

这里就有两个总体——男性与女性;各自抽样后得到的样本集合也有两个——男性样本与女性样本。

  • 假设


    • H 0 : p 1 p 2 = 0 H_0: p_1 – p_2 = 0


    • H a : p 1 p 2 0 H_a: p_1 – p_2 \neq 0

  • 检验值计算公式


    ( p 1 ^ p 2 ^ ) 0 p ^ ( 1 p ^ ) ( 1 n 1 + 1 n 2 ) \frac{(\hat{p_1}-\hat{p_2})-0}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1}+\frac{1}{n_2})}}

    其中:


    • p ^ \hat{p}
      是将所有样本(包括男、女)混合后,吸烟者占总人数的比例

    • p 1 ^ \hat{p_1}
      表示男性样本中抽烟人数的占比

    • p 2 ^ \hat{p_2}
      表示女性样本中抽烟人数的占比

    • n 1 n1
      表示男性样本的人数

    • n 2 n2
      表示女性样本的人数

四、检验方式

有了上一步计算出的检验统计值后,就可以查表得到 p 值了:

  • 当样本数
    n n
    较大时,在 Z 分布表中查询算出来的检验统计值,得到 p 值

    • 对于均值的检验,如果检验值是由总体标准差算出来的,则使用 Z 分布;如果是由样本标准差算出来的,或样本数 n < 30,则需使用自由度为 n-1 的 t 分布(要查下面的 t 分布表)

p 值代表的是当前样本在
H 0 H_0
成立的情况下发生的概率:

  • 如果在某个场景下我们得到的 p 值太小(小于目标阈值),说明
    H 0 H_0
    假设成立的条件下发生了小概率事件,于是可以由此来拒绝
    H 0 H_0
    的假设。

  • 如果 p 值 > 显著性水平,则说明样本代表的事件发生的概率不低,没有足够的证据拒绝
    H 0 H_0
    的假设。

  • Z 分布表:

    image.png image.png

  • t 分布表:

    image.png

今天的文章假设检验的几种典型应用场景和计算方法分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:http://bianchenghao.cn/15808.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注