-
Hdfs:Hadoop分布式文件系统被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。
特点:HDFS是一个高度容错性的系统,适合部署在廉价的机器上。
HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。 -
Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能
特点:Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
良好的容错性,节点出现问题SQL仍可完成执行。 -
Hbase:HBase是一个分布式的、非关系型开源数据库。
特点:HBase是No-SQL的一个典型实现,提升了系统的可扩展性;
HBase支持线性水平扩展,极大提升了系统的可伸缩性和运算能力;
HBase和Google的BigTable有异曲同工之妙,底层也是建立在HDFS(Hadoop分布式文件系统)之上,可以搭建在廉价的PC机集群上。 -
Zookeeper
官方:Zookeeper 是一个分布式的,开放源码的应用协调服务。是以Fast paxos 算法为基础,实现同步服务,配置维护和命名服务等分布式应用。
特点:zookeeper实现了高性能、高可靠性、和有序的访问、高性能保证了其能应用在大型的分布式文件系统中。 -
Yarn
在Hadoop生态当中,作为通用的资源管理系统与调度平台,去实现CPU、内存、磁盘、网络等资源进行统一管理与拆分,以容器的形式,为上层应用提供统一的资源服务。
Yarn主要包含四大组件:分别为ResourceManager、NodeManager、ApplicationMaster、Container。 -
Spark
特点:高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。
Spark 很快,支持交互式计算和复杂算法。
Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。 -
Oozie
特点:Oozie是一个管理Apache Hadoop作业的工作流调度程序系统。
Oozie工作流作业是操作的直接非周期图(DAGs)。
Oozie协调器作业是由时间(频率)和数据可用性触发的周期性Oozie工作流作业。
Oozie与Hadoop堆栈的其他部分集成在一起,支持几种类型的Hadoop开箱即用作业(如Java map-reduce、流映射-reduce、Pig、Hive、Sqoop和Distcp),以及系统特定的作业(如Java程序和shell脚本)。
Oozie是一个可伸缩、可靠和可扩展的系统。 -
Cloudera Manager
核心是Cloudera Manager Server。Server托管Admin Console Web Server和应用程序逻辑。它负责安装软件、配置、启动和停止服务以及管理运行服务的群集。
今天的文章大数据之常见组件_大数据主要组件分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/47286.html