1 HDFS 概述
1.1 HDFS产出背景及定义
产出背景
● 随着数据量变大,系统存不下,分配更多系统磁盘,但是管理不方便。
● 需要一种系统来管理多态机器上的文件,这就是分布式文件管理系统。
● HDFS — 分布式文件管理系统
定义:
● HDFS(Hadoop Distributed File System):文件系统、分布式的
● HDFS的使用场景:一次写入,多次读出,不能修改。
● 适合用来做数据分析,不适合用来做网盘应用。
1.2 HDFS优缺点
优点:
● 高容错性
● 适合处理大数据
● 可构建在廉价机器上
缺点:
● 不适合低延时数据访问
● 无法搞笑的对大量小文件进行存储
● 不支持并发写入、文件随机修改
(1) 一个文件只能有一个写,不允许多个线程同时写
(2) 仅支持数据append(追加),不支持文件的随机修改。
1.3 HDFS组成架构