什么是离群点,离群点的来源
离群点:在数据集中偏离大部分数据的数据,使人怀疑这些数据 的偏离并非由随机因素产生,而是产生于完全不同的机制。与数 据集中其余部分不服从相同统计模型足够地不同于数据集中其余部分的数据,足够地不同于数据集中其余部分的数据。
离群点的来源:
- 客体的异常行为导致,如欺诈、入侵、不寻常的实验结果。
- 数据测量和收集误差、度量或执行错误所导致的。例如,一个人的年龄为-999可能是由于对年龄的默认设置所产生的。
- 数据变量内在特性引起。例如,顾客新的购买模式、基因突变等:一个公司的首席执行官的工资远远高于公司其他雇员的工资,也可成为一个离群点。
经典离群点挖掘算法
1.基于统计方法的离群点
即为数据创建一个模型,并且根据对象拟合模甩的 情况来评估它们。大部分用于离群点检测的统计学方法都基于构建一个概率 分布模型,并考虑对象有多大可能符合该模型。
优点与缺点
1)离群点检测的统计学方法具有坚实的基础,建立在标准的统计学技术(如分布参数的估计)之上。
2)当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效。
3)对于单个属性,存在各种统计离群点检测。
4)对于多元数据,可用的选择少一些,并且对于高维数据,这些检验可能性能很差。
2.基于邻近度的离群点检测
量化数据集之间的邻近度,把邻近度低的视为离群点。常用的模型为KNN(k近邻),如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。通常用来度量最相似程度的距离有欧式距离和曼哈顿距离。这种检测的缺陷是不适合大数据集,不能处理具有不同区域密度的数据集。
优点与缺点:与其他相关方案一样,基于邻近度的方法一般需要O(m2)时间。这对于大型数 据集可能代价过高,尽管在低维情况下可以使用专门的算法来提髙性能。该方法对参数的 选择也是敏感的。此外,它不能处理具有不同密度区域的数据集,因为它使用全局阈值, 不能考虑这种密度的变化。
3.基于密度的离群点检测
离群点是在低密度区域中的对象。基于密度的离群点一个对象的离群点得分是该对象 周围密度的逆
今天的文章十大经典算法_十大经典算法[通俗易懂]分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:http://bianchenghao.cn/82344.html