在网易云课堂买了卡夫卡的大数据课程,开始学习咯!
HDFS分布式文件系统
解决问题:海量数据的存储——>分布式结构设计
分布式的特点:
- 集群,有多台机器共同协作完成存储
- 主从架构设计
HDFS设计思想
1.namenode -主节点 -领导
-
主要存储文件的属性信息,即文件的元数据:
- 文件的名称
- 文件的位置
- 文件的副本数
- 文件的拥有者、组、权限
- 存储快
- 各个块在哪些datanode节点上
2.datanode -从节点 -随从
- 存储具体的文件
简单解释一下上图:
1.不同的交换机在不同的机架上,存储文件在不同的机架上,当一个机架中的副本损坏,可以通过最近的一个机架去恢复数据。
2.读文件和写文件,如图上图所示:
- 读文件:客户端先去找namenode拿到文件的元数据,知道文件存储在哪一个datanode上(遵循就近的原则),然后去读文件。
- 写文件:客户端先去namenode去请求,在哪台机器可以写。
读文件:
- client -> namenode
- client ->datanode
写文件
- client ->namenode
- client ->datanode