Hadoop 大数据技术生态体系|学习笔记

2021-09-02 02:57:55

开发者学堂课程【Hadoop 快速入门：Hadoop 大数据技术生态体系】学习笔记，与课程紧密联系，让用户快速学习知识。

大数据技术生态体系如图所示：

Hadoop 大数据技术生态体系|学习笔记数据来源层：数据从哪里来，都有什么类型。

1)文件日志（半结构化结构）：浏览的网页和内容信息都保存在这里。关于半结构化数据，最后只能保存在数据库中。

2)视频、ppt 等非结构化数据。
数据传输层：

1）Sqoop 数据传递：负责从数据库（结构化数据）导出数据。

2）Flume 日志收集：负责从文件日志（半结构化数据）中读取数据，十分专业。

数据存储层：

1）HDFS 文件存储：最为强大的文件存储器。

2）Kafka 消息列队中也能存储一些文件，大概默认为 1G。

3）HBase 非关系型数据库：一般以 <k,v> 一对的形式存储数据。

资源管理层：

都由 YARN 来负责调配。

数据计算层：

1）MapReduce 离线计算：基于 Hadoop

l Hive 数据查询

l Mahout 数据挖掘

2）Spark Core 内存计算:基于内存

l SparkMlib 数据挖掘

l Spark R 数据分析

l Spark Sql 数据查询

实时计算：

1）Spark Streaming 实时计算

2）Storm 实时计算

码农公寓