2025年大数据自学路线(大数据 自学)

大数据自学路线(大数据 自学)大数据 大数据学习路线 1 Java 基础 主要部分是 JavaSE 1 1 Java 初级 1 2 Java 高级 1 3 其余常见基础 2 Linux 基础 主要指的是 Linux 基本命令操作 3 Hadoop 生态学习 体系结构 原理 编程 3 1 第一阶段 3 2 第二阶段 3 3 第三阶段 4 Spark 生态学习 4 1 第一阶段 4 2 第二阶段 4 3 第三阶段 4 4 第四个阶段 5 Storm 学习 实时计算 6 其他学习 6 1 Kafka 6 2 机器学习算法



大数据
  • 大数据学习路线
    • 1.Java基础——主要部分是JavaSE
        • 1.1 Java初级
          • 1.2 Java高级
          • 1.3 其余常见基础…
      • 2.Linux基础——主要指的是Linux基本命令操作
      • 3.Hadoop生态学习(体系结构、原理、编程)
        • 3.1第一阶段
          • 3.2第二阶段
          • 3.3第三阶段
      • 4.Spark生态学习
        • 4.1第一阶段
          • 4.2第二阶段
          • 4.3第三阶段
          • 4.4第四个阶段
      • 5.Storm学习——实时计算
      • 6.其他学习
        • 6.1 Kafka
          • 6.2 机器学习算法
          • 6.3 大型网站高并发处理
          • 6.4 Lucene基础
          • 6.5 Solr基础
          • 6.6 Federation
      • 7.总结
      • 8.其他方向
      • 9.项目案例

大数据的本质:两个

  1. 大数据的存储——分布式文件存储
  2. 大数据的计算——分布式计算

大数据核心框架:两个

  1. Hadoop——基于Java语言开发
  2. Spark——基于Scala语言开发,Scala语言基于Java语言。Spark支持Java语言,但使用Scala语言更优。

1.Java基础——主要部分是JavaSE

1.1 Java初级
  1. 基本语法
  2. 封装
  3. 继承
  4. 多态
 
  
1.2 Java高级
  1. Java多线程基本知识
  2. Java同步关键词详解
  3. java并发包线程池及在开源软件中的应用
  4. Java并发包消息队里及在开源软件中的应用
  5. Java JMS技术
  6. Java动态代理反射
  7. I/O流
  8. 泛型
1.3 其余常见基础…

2.Linux基础——主要指的是Linux基本命令操作

  1. Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程
  2. Linux的常用命令:常用命令的介绍、常用命令的使用和练习:包括文件/目录常见操作、用户管理与权限、免密登陆配置与网络管理。
  3. Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用;
  4. Linux启动流程,运行级别详解,chkconfig详解
  5. VI、VIM编辑器:VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键
  6. Linux磁盘管理,lvm逻辑卷,nfs详解
  7. Linux系统文件权限管理:文件权限介绍、文件权限的操作
  8. Linux的RPM软件包管理:RPM包的介绍、RPM安装、卸载等操作
  9. yum命令,yum源搭建
  10. Linux网络:Linux网络的介绍、Linux网络的配置和维护 防火墙配置
  11. Shell编程:Shell的介绍、Shell脚本的编写
  12. Linux上常见软件的安装:安装JDK、安装Tomcat、安装mysql,web项目部署
  13. linux高级文本处理命令cut、sed、awklinux
  14. 定时任务crontab
  15. 其余常见操作…

注:目录,在Linux系统中常称为目录,在Windows系统中常称为文件夹,不同称谓同样的性质。

3.Hadoop生态学习(体系结构、原理、编程)

3.1第一阶段

这一阶段是本节的核心,即HDFS(大数据存储)、MapReduce(大数据计算)、HBse(NoSQL数据库)。

Hadoop是一个对海量数据进行处理的分布式系统架构,可以理解为Hadoop就是一个对大量的数据进行分析的工具,和其他组件搭配使用,来完成对大量数据的收集、存储和计算。

有一个基于Hadoop的数据挖掘库——Mahout。

 
   
3.2第二阶段

数据分析引擎——Hive(数据仓库工具,不是数据库工具。数据仓库是逻辑上的概念,底层使用的是数据库。)、Pig(Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin)

数据采集引擎——Flume(实时日志采集)、Sqoop(数据迁移工具,主要用于在Hive数据库与关系型数据库间进行数据的传递,可将关系型数据库中的数据导入Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。)、DataX(阿里开源)

注:关系型数据库包括,MySQL、Oracle、DB2、Microsoft SQL Server、Microsoft Access、PostgreSQL等。

 
   
 
   
 
   
3.3第三阶段

实现Hadoop的HA(HA是High availability的缩写,即高可用,7*24小时不中断服务)——ZooKeeper(Zookeeper是分布式协调管理服务框架,管理分布式环境中的数据。简要来说,Zookeeper = 文件系统 + 监听通知机制。)

 
   

Web管理工具——Hue(Hue是大数据分析交互平台,是大数据web管理器,是运营和开发Hadoop应用的图形化用户界面。其包括三个主要部分:Hue UI,Hue Server,Hue DB。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,对于单独的用户来说不需要额外的安装。)

工作流引擎——Oozie(Oozie,能够提供对Hadoop的MapReduce和Pig的Jobs任务调度与协调。功能相似的任务调度框架还有Azkaban和Zeus。)

注1:Hadoop-HA严格来说应该分成各个组件的HA机制——HDFSHAYARNHA

注2:大数据四大协作框架——Oozie(任务调度框架)、Sqoop(数据转换工具)、Flume(文件收集库框架)、Hue(大数据Web工具)。

4.Spark生态学习

 
   
4.1第一阶段

Scala编程

1.Scala是一门多范式(Multi-paradigm)的编程语言,类似Java编程语言,设计初衷是实现可伸缩的语言、并要集成面向对象编程和命令式编程、函数式编程的各种特性。

2.Scala是运行在Java虚拟机上的,并兼容现有Java程序。Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。

3.可应用于后端开发,表达能力较强,擅长处理数据,长期运行且吞吐量较大的场景。

 
   
4.2第二阶段

Spark Core——基于内存的数据计算,替代的是Hadoop中的MapReduce部分。MapReduce是基于外存的计算,其计算速度较慢、时效性较差。

4.3第三阶段

Spark SQL——类似于Oracle的SQL语句

4.4第四个阶段

Spark Streaming——进行实时计算(流式计算),典型流式计算的生活场景是自来水厂。

今天的文章 
   2025年大数据自学路线(大数据 自学)分享到此就结束了,感谢您的阅读。 
  
  

                    
编程小号
上一篇 2025-07-12 23:40
下一篇 2025-10-14 17:17

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/6253.html