数据挖掘一些基本概念和流程是什么_简述数据挖掘的基本步骤

数据挖掘一些基本概念和流程是什么_简述数据挖掘的基本步骤数据挖掘:数据库知识发现流程:数据清理:消除噪声和不一致数据数据集成:多种数据源可组合一起数据选择:从数据库提取和分析任务相关数据数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式数据挖掘:使用智能方法提取

数据挖掘: 数据库知识发现
流程:

  1. 数据清理:消除噪声和不一致数据
  2. 数据集成:多种数据源可组合一起
  3. 数据选择:从数据库提取和分析任务相关数据
  4. 数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式
  5. 数据挖掘:使用智能方法提取数据模式
  6. 模式评估:根据兴趣度,识别代表知识的真正有趣模式
  7. 知识表示:使用可视化和知识表示技术,向用户提供挖掘知识
    在这里插入图片描述
    (crisp-dm)数据挖掘6个阶段:业务理解,数据理解,数据准备,建模,模型评估和模型发布

OLTP(online transaction processing):主要是生产型数据处理,一般常见于数据产生,故它是实时数据处理系统,比如一笔交易完成,则在数据库系统中立刻记录下来,故在构建数据库是需要考虑三范式来构建,以方便数据增删改。

OLAP(online analitics processing):主要是构建历史数据,方便进行查询,故它的表一般扁平,插入后的数据一般不会进行更改,所以它的数据一般分为事实表和维度表,用来方便分析人员进行从中调取数据进行分析,它也是数据仓库和数据集市的处理方式

数据中的知识发现(KDD)

ER关系图:不同实体之间的相关关系图

频繁项集:指频繁地在事务数据集中一起出现的商品集合,如许多顾客频繁一起购买的牛奶和面包,它一般常用语关联分析中

簇:数据对象的集合,使得同一个簇中对象相互相似,而与其他簇对象相异
离群点分析:基于聚类技术,把可能的离群点看做与其他对象高度相异的对象

数据矩阵和相异性矩阵
通常,基于内存的聚类和KNN(最近邻)算法都是在这两种数据结构上运行
数据矩阵(对象-属性结构):这种数据结构用关系表的形式或np矩阵存放n个数据对象,p个属性
在这里插入图片描述
相异性矩阵(对象-对象结构):存放n个对象两两间邻近度,用n
n矩阵表示
在这里插入图片描述
二元属性邻近性度量
用对称和非对称二元属性刻画对象相异性和相似性度量
在这里插入图片描述
jaccard系数:sim(i,j)描述相似程度
在这里插入图片描述
例子:
在这里插入图片描述
在这里插入图片描述
上例对于对象i,j都取0的值进行了剔除,即不参与属性的比较,故称为非对称二元相异性

参考
Slowly Changing Dimension(缓慢变化维):
https://www.nuwavesolutions.com/slowly-changing-dimensions/

今天的文章数据挖掘一些基本概念和流程是什么_简述数据挖掘的基本步骤分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/71427.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注