标准正态分布
A/B Testing 离不开统计学知识,统计学中最重要的一点就是正态分布(normal distribution)
这是一张德国马克,大家可以看到中间还有一个数学图表,它就是伟大的数学家高斯发明的正态分布,所以也叫高斯分布。
这是一张典型的标准正态分布曲线,Y 轴表示随机变量, X 与曲线围成的面积就是发生的概率。
它有什么含义呢?拿一个实际例子来说,当我们对中国成年男性做一个抽样,我们会发现大多数集中在 167cm 左右。身高差 167cm 越多的人数越少,很高或很矮的人很少。简单的说,以 167 为中心身两边递减。这样的例子还有很多,比如医院开的化验单,上面写的正常区间,就是一个正常的区间分布,也是根据抽样计算的结果,它不是说在这个范围之外就不正常,只是对于大多数人群,所以通常也叫常态分配。这样的例子还有很多,如智力,体重,KPI 等等,所有的一切证明了中央极限定率,(普通人还是占大多数的)。
它的公式是概率密度函数:
z 值就是我们经常要用到的一个概率密度。
那它有什么用呢?它的应用范围很广,只要我们想知道所有伴有随机因素影响的数据时,都可以用它得到一个相对精确的概率,比如我们要做的一个页面实验,可能受到人群,UI, 时间,网络等等因素影响,如果我们抽样得到其中一个指标,并用上面的公式计算一下,你会发现它也是一个非常典型的正态分配曲线,随着样本的增多,曲线会越来越光滑。曲线 X 轴中间是平均值,它的左右一个标准差之间的面积代表了机率是 68%,二个标准差之间是 95%,三个标准差是 99.7% 。所以如果我们想知道一个数据出现机率时,就可以用它来计算出来。
(好玩的是,如果我们统计一下我们的羽毛球选手获胜场次的挥拍数,也可以得到这么个曲线, 这样我们可以推算出大概他挥多少次拍会获得胜利。)
(在之后要提到的另一个概念置信区间,它就是根据这个规则,来限定 95% 做为我们合理的置信区间。落在其它区间的数据,我们认为它是不可信的,是小概率事件。这对于验证我们之前提到的第二种假设将会很有帮助。)
计算也非常简单,只要根据上面算出的 z 值,通过查表就可以通过百分比找到样本分数。有一个在线工具,大家可以试试。
t-分布
上面提到的分布曲线都是标准的正态分布(也叫 u-分布),还有一种叫 t-分布,其实它也是正态分布的一种形式。可以应用在小样本来估算母体数据(全体数据)。
比如, 我们常听说的划分数线,也是利用了这个概率分布函数算出,百分之多少的人可以越过这个分数线。当然你可以说不如统计所有的分数,然后排序划百分比就行了,这确实是一个方法。不过万一我们要测量的这个数据量非常之大到呢,比如 TB 级的日志?
所以这时母群体的标准差是未知的,我们就可以运用 t-分布。在样本数量 n 比较小时,它的曲线往往比较平,随着样本量的逐渐增大,它会越来越接近标准正态分布。
上面的红线表示的是均值为-2,方差为1的正态分布曲线,蓝线表示的是均值为2,方差为4的正态分布曲线。从中可以看出,方差越小,图像越“瘦高”,方差越大,图形越“矮胖”。(方差越小,越靠近中位数)。方差小表示大家的平均值非常接近,反之离平均值越远。
t分布是一簇曲线,其形态变化与n(确切地说与自由度df)大小有关。自由度df越小,t分布曲线越低平;自由度df越大,t分布曲线越接近标准正态分布(u分布)曲线。
-
t 分布是由英国著名统计学家哥色特发表,其笔名是“Student”,所以该分布又称为“Student t分布”。该分布的公布,标志着小样本统计推断的开始。
-
那有什么生活形态中,不是正态分布的呢?比如基尼指数,穷的越穷,富的越富,中间的反而很小。LOL
今天的文章小白入门 A/B Testing 之正态分布分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/22852.html