1.hadoop前世今生:
1) 搜索引擎:网络爬虫+索引服务器(生成索引+检索)
2) Doung Cutting
3) Nutch
a.分布式存储
b.分布式计算
4)GFS论文 doung cutting写了hdfs
2.hadoop概述
hadoop common:提供网络通信
hadoop hdfs
hadoop mapreduce
hadoop yarn
Hadoop 0.x 1.x
Hadoop 2.x之后的版本
Hadoop 概述
hdfs引入
NameNode是主节点存储元数据,以及每个文件所在的块列表和块所在的DataNode
DataNode存储块数据和校验和
SecondaryNamenode 监控后台数据,获取快照
1)四大模块
2)hdfs(hadoop distributed file system):分布式文件系统
a.文件系统:文件管理+block块管理
单机文件系统
window:FAT16、FAT32、NTFS
linux:ext 2/3/4、 VFS
b.分布式文件系统
多个服务器文件系统
c.三大组件
NameNode
- 元数据:文件名、目录名、属性
- 文件列表与block列表之间的关系
- block与datanode列表映射关系
Datanode
block块数据、校验和编码
SecondaryNameNode
分担namenode压力,合并编辑日志edits和镜像文件fsimage,合并后将最终的文件返回namenode进行处理
Hadoop概述
YARN引入案例