在上一节中提到,我们做统计分析,倾向于取得一个保守的结果,也就是说要尽可能避免,犯两类错误时的结果。“所谓保守的一侧,就是说我们更倾向于“即使做错判断,也不会发生大问题”的情况,这一面可以多犯点错,因此这种错误的错误率可以高一些;而不是“做错判断,会发生大问题”,我们需要严格的控制错误率。换句话说,这里的保守面,就是分析第一类错误时的假设。”前文【Statistics-3】
采取这样的手段,但是实际上前文中,我们也一直强调两件事:
- 我们在没有上帝视角的情况下,没有先验知识;但是我们上面的例子中,都是探讨“一点的情况”。
- 这导致我们讨论错误率是不准确的。我们如果认为有50%的人支持一项决议,完全不等于我们想知道的“是否大多数人(大于等于50%)支持决议”,这影响了我们对于第一类错误的分析;而如果我们探讨“55%的人支持决议”,实际上也不是我们想知道的,第二类错误率的多少,因为这也是在一点上的分析。
因此,在这里我们采取更为保守的方法,如第六节所示。
6. Formalizing Hypotheses
之前几节中,我们其实讨论了频率流派的假设检验内容:置信区间,与两类错误。但是我们清晰感受到,由于我们不具有上帝视角,因此我们对于事件本身的先验并不确定,因此如何做一个合适的假设是值得思考的问题。
做假设:Null Hypothesis
在这里,我们希望提出Null Hypothesis
,并且我们往往希望Null Hypothesis
被我们拒绝。当我们的实验结果落于Null Hypothesis
的置信区间的时候,我们并不会承认假设的成立;但是如果,实验结果落在其置信区间之外时,我们就会拒绝假设。
这是什么意思?相当于Null Hypothesis
的置信区间之外,是我们拒绝假设的充分条件,但是置信区间,只是我们接受Null Hypothesis
的必要条件,不够充分。因为落在Null Hypothesis
置信区间之外的可能性在理论上很小,但实际上发生了,所以我们可以安心的拒绝假设,就是这样。
举个例子,例如制药公司测试新药物的有效性,从主观上,其希望药物是有效力的,但在假设检验测试时,它的Null Hypothesis
是“药物没有效力”,并且希望根据实验结果拒绝假设。这就是假设被称作Null Hypothesis
的原因:因为它常常不会被接受,而是被拒绝。也就是说,Null Hypothesis
是一个常常被证据evidence
(抽样实验结果)拒绝的假设。
更具体的,Null Hypothesis
是一个“点假设”。例如:
Null: 全体居民对决议的支持率是 50%。我们对一个点假设拒绝是合理的,也是比较容易的。
进而,我们可以更清晰的定义第一类错误
和第二类错误
,而抛开所谓的上帝视角了。
- 第一类错误:当
Null Hypothesis
事实上是正确的时候,我们拒绝了假设。 - 第二类错误:当
Null Hypothesis
事实上是错误的时候,我们没有拒绝假设。
实例分析
前面说到第二类错误,以及对于Null Hypothesis
保守操作的时候说到,当结果落在假设的置信区间内,我们并不会接受,而是说不拒绝(Null Hypothesis may be rejected or not rejected but never accepted. ),这里我们给出例子:
还是回到民意调查的例子。我们考虑一下接受Null Hypothesis会造成什么后果。
如果实际上的民意支持率是50%,统计者1的假设也是50%,其抽样结果为53%,落在置信区间【40,60】之间,那么他就会认为假设成立,即支持率是50%。但是如果实际上的民意支持率是55%,统计者2的假设也是55%,其抽样结果为53%,落在置信区间【45,65】之间那么他就会认为假设成立,即支持率是55%。
这就产生问题了,我们不具有上帝视角,但是抽样是事实,我们有不同的假设,就会导致不同的真值;但是真值只能有一个,不可以允许我们有这样的矛盾。因此,我们不能轻易接受这种“点状”的Null Hypothesis。
我们做这样的保守操作,得到的结果是:对于所有假设真实值是50%的人来说,其抽样结果在[40,60]区间之外,都会被拒绝假设,但在其之内,我们不会拒绝。(不过第二类错误率,有点难以分析了,因为第二类错误是“区间错误”,然而我们没有先验知识)
实际上,我们也可以从“确定性”的角度看待这种操作。上面这种,有50%的人支持决议的点假设,要精确成立,是很难的。所以根据抽样结果,我们不去承认点假设,但可以直接拒绝不合理的假设,就是这个道理。
总结:
In a nutshell: 我们可以根据抽样结果,推断Null Hypothesis
是错误的,但是我们不回去承认它是对的。即抽样结果十分可信的让我们拒绝Null Hypothesis. 当我们拒绝Null Hypothesis
时,我们称结果为具有统计显著性
(statistically significant)的, α \alpha α被称作为统计显著性水平。
7. 统计显著性的局限性
这里我们讨论一个结果具有“统计显著性”,其局限性。首先回顾什么是统计显著性
:When our sample statistic is outside of our 95% confidence interval, we reject the Null Hypothesis and call the result statistically significant.
首先,95%置信区间只是一个”条件置信”,即当我们认为Null Hypothesis成立的时候,当结果落入区间内,有95%的抽样实验是可信的,有5%的可能是不可信的。只有在这种条件下,当出现了落在置信区间以外的情况,我们可以认为假设是不成立的。这一点前文中比较明确了。
其次,如果我们讨论“实际的显著性”(practically significant)时,统计显著性也未必显得如此真实。首先,显著性既然被冠以统计的名字,那么自然是在统计的意义下。我们回顾之前选民选举的例子,如果上帝视角下,真实的支持率为50%,我们分别进行样本大小为100、1000、10000的实验,我们得到的95%置信区间如下:【40,60】,【47,53】,【49,51】,当我们样本大小变大时,置信区间显然会变小,如上,样本大小为10000时,置信区间的半宽度已经只有1%了。
如果我们在样本大小为10000的时候进行实验,得到的结果为51.1%,那么按照假设检验的方法,我们会拒绝这个假设。但是如果从上帝视角看,50%和51.1%,就统计选民的支持率意义下,仅仅相差了1.1%,区别是很小的,如果我们承认假设,其实也没有什么问题。这也体现了我们对于问题实际上的误差的容忍度。即51.1%其实和50%,就这个问题上来看,没有实践的显著性区别。可想而知,如果我们为了降低第二类误差,使得抽样的样本容量更加大,那么可能即便是50.1%的结果都被我们拒绝了,那这样就更加划不来了。
因此,统计显著性在统计上自然是有意义的,但是对于实际问题的分析上来说,是否具有实践显著性
差异,那么还取决于问题的假设与抽样结果之间,误差的相对值和绝对值。
- Bottom line: You definitely want to know both the relative and absolute differences in order to better assess practical significance.
今天的文章【Statistics-4】——假设与统计显著的局限性分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/62583.html