什么是数据仓库,什么是ETL

什么是数据仓库,什么是ETL公司最近要搞数据分析,两个项目拥有不同的数据源,有些数据存在Oracle,有些数据存在MongoDB,再加上一些第三方的数据。要将这些数据整合在一起进行数据分析,得想个解决办法才行,不然我就要跑路了。可是该怎么做呢其实说到数据分析,我就会想到hadoop,然后就会联系到数据仓库,我觉得数据仓库就能够非常好的解决这个问题那么什么是数据仓库呢?数据仓库,英文名称Data…

公司最近要搞数据分析,两个项目拥有不同的数据源,有些数据存在Oracle,有些数据存在MongoDB,再加上一些第三方的数据。
这里写图片描述
要将这些数据整合在一起进行数据分析,得想个解决办法才行,不然我就要跑路了。
可是该怎么做呢
这里写图片描述

其实说到数据分析,我就会想到hadoop,然后就会联系到数据仓库,我觉得数据仓库就能够非常好的解决这个问题

那么什么是数据仓库呢?

数据仓库,英文名称Data Warehouse ,简称DW。数据仓库见名知意,就是一个很大的用来储存数据的集合,用于解决企业数据分析性和决策目的创建,对多样的数据进行筛选与整合,指导业务流程改进、成本、质量以及控制。

数据仓库的输入房就是各种各样的数据源,最终的输出用来为企业做数据分析、数据挖掘和数据报表。
这里写图片描述

先说说数据仓库的特点
1、主题性
不同于传统数据库对应于某个或多个项目,数据仓库根据使用者实际需求,将不同数据源的数据在一个较高的抽象层次上做一个整合,所有数据都围绕某一个主题来组织。
这里的主题又是什么呢?比如淘宝,“用户成交分析”就是一个主题,对于美团,那么“交易分析”就是一个主题了。

2、集成性
数据仓库中储存的数据是来源于多个数据源的集合,原始数据来自不同的数据源,要整合为最终的数据集合,需要把数据源经过抽取->清洗->转换的过程。(其实这就是ETL了)

3、稳定性
数据仓库中保存的数据是一系列历史快照,不允许被修改。用户只能通过分析工具进行查询和分析。

4、时变性
数据仓库会定期接收新的集成数据,反应出最新的数据变化。(这个是稳定性并不矛盾)

既然数据源有多种多样,那么数据仓库要做数据集成,所依靠的就是【ETL】。

那么什么是ETL?

ETL的英文全称是Extract-Transform-Load的缩写。

  • Extract:数据抽取,也就是把数据从数据源读取出来
  • Transform:数据转换,把原始数据转换成期望的格式和纬度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。
  • Load:数据加载,把处理后的数据加载到目标处,比如数据仓库。

这里写图片描述

那么市面上常用的数据仓库都有哪些?

在国内最常用的是一款基于Hadoop的开源数据仓库,叫【Hive】。

Hive是基于Hadoop的数据仓库工具,可以对储存在HDFS上的文件数据集进行查询和分析处理。Hive同时也提供了类似与SQL语言的查询语言HiveQL,在做查询时将HQL语句转换成MapReduce任务进行执行。

这里不对Hive进行详解。

总结

这里简单的说明了数据仓库和ETL,如果存在错误或者不全面的地方,请大家指正。

(╯°□°)╯︵┻━┻

今天的文章什么是数据仓库,什么是ETL分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/25460.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注