奈学教育大数据百万架构师学习笔记分享

一、 Hadoop框架的概述

简介:介绍hadoop相关信息。

1.1 hadoop的简介

Hadoop是一个分布式系统基础框架,它的 HDFA 、 MapReduce 、 HBase 分别是Google的GFS、MapReduce、BigTable这三个思想的实现。

特点:

高可靠。按位存储和处理数据的能力强,可靠性强。
高可用。它是在计算机集群间分配数据并完成计算任务的,这些集群可以扩展数以千计的节点。
高效性。能在节点间动态地移动数据,并保证各个节点的动态平衡,所以处理速度非常快。
高容错性。能够自动保存数据的多个副本,并且能够将失效的任务重新分配。
Google公司三篇论文的思想

GFS的思想:描述了一个分布式文件系统的设计思路。(HDFS是这篇论文思想的实现)
MapReduce的思想:分散任务,汇总结果。(Hadoop的MapReduce与MapReduce论文中的实现思路一样)
BigTable的思想:一个分布式的结构化数据存储系统的设计思路。(HBase是这篇论文思想的实现。HBase是一个分布式、面向列的开源数据库,它是在Hadoop基础上提供类似BigTable的能力。)

1.2 hadoop版本的变化

与 hadoop 2.x 相比, hadoop 3.x 的变化:

jdk的最低依赖从1.7变成1.8。
hadoop-client 这个依赖分为 hadoop-client-api 和 hadoop-client-runtime 两个依赖。
采用 Timeline Server v2 版本。
HDFS 支持可擦除编码(Erasure Encoding)。
支持随机 Container 和分布式调度。
MR进行了 Task 级别的本地优化。
多个端口被改动。
支持多个 Standby 状态的 NameNode 。
DataNode内部添加了负载均衡。
支持 微软(Azure) 和 阿里(Aliyun) 的分布式文件系统。

上一篇:Google Bigtable 简介


下一篇:mysql-不同DBMS之间的可伸缩性比较