Hadoop 大数据技术生态体系|学习笔记

开发者学堂课程【Hadoop 快速入门:Hadoop 大数据技术生态体系】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/92/detail/1399


Hadoop 大数据技术生态体系


大数据技术生态体系如图所示:

Hadoop 大数据技术生态体系|学习笔记数据来源层:数据从哪里来,都有什么类型。

1)文件日志(半结构化结构):浏览的网页和内容信息都保存在这里。关于半结构化数据,最后只能保存在数据库中。

2)视频、ppt 等非结构化数据。
数据传输层:

1)Sqoop 数据传递:负责从数据库(结构化数据)导出数据。

2)Flume 日志收集:负责从文件日志(半结构化数据)中读取数据,十分专业。

数据存储层:

1)HDFS 文件存储:最为强大的文件存储器。

2)Kafka 消息列队中也能存储一些文件,大概默认为 1G。

3)HBase 非关系型数据库:一般以 <k,v> 一对的形式存储数据。

资源管理层:

都由 YARN 来负责调配。

数据计算层:

1)MapReduce 离线计算:基于 Hadoop

Hive 数据查询

Mahout 数据挖掘

2)Spark Core 内存计算:基于内存

SparkMlib 数据挖掘

Spark R 数据分析

Spark Sql 数据查询

实时计算:

1)Spark Streaming 实时计算

2)Storm 实时计算

上一篇:用ladon框架封装Python为Webservice接口以及调用接口的方法


下一篇:ReduceJoin 案例 Mapper| 学习笔记