【Statistics-4】——假设与统计显著的局限性

【Statistics-4】——假设与统计显著的局限性在上一节中提到,我们做统计分析,倾向于取得一个保守的结果,也就是说要尽可能避免,犯两类错误时的结果

在上一节中提到,我们做统计分析,倾向于取得一个保守的结果,也就是说要尽可能避免,犯两类错误时的结果。“所谓保守的一侧,就是说我们更倾向于“即使做错判断,也不会发生大问题”的情况,这一面可以多犯点错,因此这种错误的错误率可以高一些;而不是“做错判断,会发生大问题”,我们需要严格的控制错误率。换句话说,这里的保守面,就是分析第一类错误时的假设。”前文【Statistics-3】采取这样的手段,但是实际上前文中,我们也一直强调两件事:

  1. 我们在没有上帝视角的情况下,没有先验知识;但是我们上面的例子中,都是探讨“一点的情况”。
  2. 这导致我们讨论错误率是不准确的。我们如果认为有50%的人支持一项决议,完全不等于我们想知道的“是否大多数人(大于等于50%)支持决议”,这影响了我们对于第一类错误的分析;而如果我们探讨“55%的人支持决议”,实际上也不是我们想知道的,第二类错误率的多少,因为这也是在一点上的分析。

因此,在这里我们采取更为保守的方法,如第六节所示。

6. Formalizing Hypotheses

之前几节中,我们其实讨论了频率流派的假设检验内容:置信区间,与两类错误。但是我们清晰感受到,由于我们不具有上帝视角,因此我们对于事件本身的先验并不确定,因此如何做一个合适的假设是值得思考的问题。

做假设:Null Hypothesis

在这里,我们希望提出Null Hypothesis,并且我们往往希望Null Hypothesis被我们拒绝。当我们的实验结果落于Null Hypothesis的置信区间的时候,我们并不会承认假设的成立;但是如果,实验结果落在其置信区间之外时,我们就会拒绝假设。

这是什么意思?相当于Null Hypothesis的置信区间之外,是我们拒绝假设的充分条件,但是置信区间,只是我们接受Null Hypothesis的必要条件,不够充分。因为落在Null Hypothesis置信区间之外的可能性在理论上很小,但实际上发生了,所以我们可以安心的拒绝假设,就是这样。

举个例子,例如制药公司测试新药物的有效性,从主观上,其希望药物是有效力的,但在假设检验测试时,它的Null Hypothesis是“药物没有效力”,并且希望根据实验结果拒绝假设。这就是假设被称作Null Hypothesis的原因:因为它常常不会被接受,而是被拒绝。也就是说,Null Hypothesis是一个常常被证据evidence(抽样实验结果)拒绝的假设。

更具体的,Null Hypothesis是一个“点假设”。例如:
Null: 全体居民对决议的支持率是 50%。我们对一个点假设拒绝是合理的,也是比较容易的。

进而,我们可以更清晰的定义第一类错误第二类错误,而抛开所谓的上帝视角了。

  • 第一类错误:当Null Hypothesis事实上是正确的时候,我们拒绝了假设。
  • 第二类错误:当Null Hypothesis事实上是错误的时候,我们没有拒绝假设。

实例分析

前面说到第二类错误,以及对于Null Hypothesis保守操作的时候说到,当结果落在假设的置信区间内,我们并不会接受,而是说不拒绝(Null Hypothesis may be rejected or not rejected but never accepted. ),这里我们给出例子:

还是回到民意调查的例子。我们考虑一下接受Null Hypothesis会造成什么后果。

如果实际上的民意支持率是50%,统计者1的假设也是50%,其抽样结果为53%,落在置信区间【40,60】之间,那么他就会认为假设成立,即支持率是50%。但是如果实际上的民意支持率是55%,统计者2的假设也是55%,其抽样结果为53%,落在置信区间【45,65】之间那么他就会认为假设成立,即支持率是55%。
这就产生问题了,我们不具有上帝视角,但是抽样是事实,我们有不同的假设,就会导致不同的真值;但是真值只能有一个,不可以允许我们有这样的矛盾。因此,我们不能轻易接受这种“点状”的Null Hypothesis。
我们做这样的保守操作,得到的结果是:对于所有假设真实值是50%的人来说,其抽样结果在[40,60]区间之外,都会被拒绝假设,但在其之内,我们不会拒绝。(不过第二类错误率,有点难以分析了,因为第二类错误是“区间错误”,然而我们没有先验知识)

实际上,我们也可以从“确定性”的角度看待这种操作。上面这种,有50%的人支持决议的点假设,要精确成立,是很难的。所以根据抽样结果,我们不去承认点假设,但可以直接拒绝不合理的假设,就是这个道理。

总结:

In a nutshell: 我们可以根据抽样结果,推断Null Hypothesis 是错误的,但是我们不回去承认它是对的。即抽样结果十分可信的让我们拒绝Null Hypothesis. 当我们拒绝Null Hypothesis时,我们称结果为具有统计显著性(statistically significant)的, α \alpha α被称作为统计显著性水平。

7. 统计显著性的局限性

这里我们讨论一个结果具有“统计显著性”,其局限性。首先回顾什么是统计显著性:When our sample statistic is outside of our 95% confidence interval, we reject the Null Hypothesis and call the result statistically significant.

首先,95%置信区间只是一个”条件置信”,即当我们认为Null Hypothesis成立的时候,当结果落入区间内,有95%的抽样实验是可信的,有5%的可能是不可信的。只有在这种条件下,当出现了落在置信区间以外的情况,我们可以认为假设是不成立的。这一点前文中比较明确了。

其次,如果我们讨论“实际的显著性”(practically significant)时,统计显著性也未必显得如此真实。首先,显著性既然被冠以统计的名字,那么自然是在统计的意义下。我们回顾之前选民选举的例子,如果上帝视角下,真实的支持率为50%,我们分别进行样本大小为100、1000、10000的实验,我们得到的95%置信区间如下:【40,60】,【47,53】,【49,51】,当我们样本大小变大时,置信区间显然会变小,如上,样本大小为10000时,置信区间的半宽度已经只有1%了。

如果我们在样本大小为10000的时候进行实验,得到的结果为51.1%,那么按照假设检验的方法,我们会拒绝这个假设。但是如果从上帝视角看,50%和51.1%,就统计选民的支持率意义下,仅仅相差了1.1%,区别是很小的,如果我们承认假设,其实也没有什么问题。这也体现了我们对于问题实际上的误差的容忍度。即51.1%其实和50%,就这个问题上来看,没有实践的显著性区别。可想而知,如果我们为了降低第二类误差,使得抽样的样本容量更加大,那么可能即便是50.1%的结果都被我们拒绝了,那这样就更加划不来了。

因此,统计显著性在统计上自然是有意义的,但是对于实际问题的分析上来说,是否具有实践显著性差异,那么还取决于问题的假设与抽样结果之间,误差的相对值绝对值

  • Bottom line: You definitely want to know both the relative and absolute differences in order to better assess practical significance.

今天的文章【Statistics-4】——假设与统计显著的局限性分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/62583.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注