大数据学习笔记(三):HDFS分布式文件系统架构原理详解

在网易云课堂买了卡夫卡的大数据课程,开始学习咯!

HDFS分布式文件系统

解决问题:海量数据的存储——>分布式结构设计

分布式的特点:

  1. 集群,有多台机器共同协作完成存储
  2. 主从架构设计

HDFS设计思想

1.namenode -主节点 -领导

  • 主要存储文件的属性信息,即文件的元数据

    • 文件的名称
    • 文件的位置
    • 文件的副本数
    • 文件的拥有者、组、权限
    • 存储快
    • 各个块在哪些datanode节点上

2.datanode -从节点 -随从

  • 存储具体的文件
    大数据学习笔记(三):HDFS分布式文件系统架构原理详解

简单解释一下上图
1.不同的交换机在不同的机架上,存储文件在不同的机架上,当一个机架中的副本损坏,可以通过最近的一个机架去恢复数据。
2.读文件和写文件,如图上图所示:

  • 读文件:客户端先去找namenode拿到文件的元数据,知道文件存储在哪一个datanode上(遵循就近的原则),然后去读文件。
  • 写文件:客户端先去namenode去请求,在哪台机器可以写。

读文件:

  • client -> namenode
  • client ->datanode

写文件

  • client ->namenode
  • client ->datanode
上一篇:JavaScript学习笔记2-数组对象


下一篇:2017年重要数据安全事件解读