MBA智库对3σ原则的描述:
σ代表标准差,μ代表均值
样本数据服从正态分布的情况下
数值分布在(μ-σ,μ+σ)中的概率为0.6826
数值分布在(μ-2σ,μ+2σ)中的概率为0.9544
数值分布在(μ-3σ,μ+3σ)中的概率为0.9974
可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。
在python中实现
#用numpy随机生成100个服从正态分布的随机数 num=np.random.randn(100) #随机插入两个异常值进去,此时num.shape[0]==102 np.apend(num,[10,20]) #设定法则的左右边界 left=num.mean()-3*num.std() right=num.mean()+3*num.std() #获取在范围内的数据 new_num=num[(left<num)&(num<right)] new_num.shape #结果为100,已经剔除了刚开始插入的两个异常值
今天的文章
python中,使用3σ原则来删除数据中的异常值分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/103580.html