Hadoop 简介

Hadoop框架

1.X MapReduce、HDFS、Common
2.X MapReduce、Yarn、HDFS、Common

  MapReduce: 1.X 计算+资源调度 2.X 计算
  Yarn:资源调度
  HDFS:文件存储
  Common:辅助工具

Hadoop1.X 存在的问题:
  <1>NameNode不能高可用,存在单节点故障问题。
  <2>MR框架将资源和任务调度的耦合导致效率低。
  <3>MR框架基于磁盘计算导致性能低。
Hadoop2.X 发行于2013年10月,解决Hadoop1.X中的问题
  <1>Namenode高可用,2.X只能起两台,3.X才能起3台。
  <2>增加了Yarn资源调度,将资源调度与任务调度解耦。
  <3>计算框架可插拔。

大数据特点:大量、高速、多样、低价值密度
大数据:存储、分析+计算、传输
Hadoop优势:高可靠、高扩展、高效、高容错
数据量级别:TB、PB、EB

Hadoop三大发行版本:
  1.Apache
  2.Cloudera(CDH)
  3.Hortonworks。

Hadoop运行模式
1.本地模式:只依赖与hadoop的一些jar包,跑简单的案例和程序,进行测试,无yarn等。
2.伪分布式模式:仅一台服务器。
3.完全分布式模式 : 多节点 Hadoop102、Hadoop103、Hadoop104

上一篇:面试题-python3 查找字符串数组中的最长公共前缀


下一篇:Android SELinux的avc: denied log是哪里打印的及关闭