HDFS

1 HDFS 概述

1.1 HDFS产出背景及定义

产出背景

● 随着数据量变大,系统存不下,分配更多系统磁盘,但是管理不方便。

● 需要一种系统来管理多态机器上的文件,这就是分布式文件管理系统。

● HDFS — 分布式文件管理系统

定义:

● HDFS(Hadoop Distributed File System):文件系统、分布式的

● HDFS的使用场景:一次写入,多次读出,不能修改。

● 适合用来做数据分析,不适合用来做网盘应用。

1.2 HDFS优缺点

优点:

● 高容错性

● 适合处理大数据

● 可构建在廉价机器上

缺点:

● 不适合低延时数据访问

● 无法搞笑的对大量小文件进行存储

● 不支持并发写入、文件随机修改

(1) 一个文件只能有一个写,不允许多个线程同时写

(2) 仅支持数据append(追加),不支持文件的随机修改。

1.3 HDFS组成架构

 

上一篇:大数据之 Hadoop 初识


下一篇:spark 实现HDFS小文件合并