HDFS:分布式文件系统,适合一次写入,多次读出场景,不适合文件的修改。
HDFS由NN、DN、Secondary NameNode、Client组成。
NN(NameNode) :管理HDFS的名称空间、配置副本策略、管理数据块(Block)的映射信息、处理客户端读写请求;
DN(DataNode) : 存储实际的数据块、执行数据块的读/写操作;
Secondary NameNode:辅助NameNode,分担工作量,定期合并Fsimage和Edits,推送给NameNode,不是NameNode热备;
Client:提供命令访问HDFS,提供增删改查、管理HDFS,格式化NameNode等。
图示:
HDFS文件块:可通过dfs.blocksize规定,2.x版本默认为128M。
HDFS读流程
HDFS写流程