小文件归档案例| 学习笔记

开发者学堂课程【Hadoop 分布式文件系统 HDFS小文件归档案例】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/93/detail/1472


小文件归档案例

------阿里云开发者学院

 

目录

 小文件归档

 实例操作

 

一、小文件归档

1HDFSb 存储小文件弊端

每个文件均按块存储,每个块的元数据存储在 NameNode 的内存中,因此 HDFS 存储小文件会非常低效一个文件就占128MB)。因为大量的小文件会耗尺 NameNode 中的大部分内存。

但注意,存储小文件所需要的磁品容量和数据块的大小无关。例如一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB。

2解决存储小文件办法之一

HDFSb 存档文件或 HAR 文件,是一个更高效的文件存档工具,它将文件存入 HDFS块,在减少 NameNode 内存使用的同时,允许对文件进行透明的访问。具体说来,HDFS 存档文件对内还是一个一个独立文件对 NameNode 而言却是一个整体,减少了 NameNode 的内存

小文件归档案例| 学习笔记


二、实例操作

1、需要启动 YARN 进程

小文件归档案例| 学习笔记

小文件归档案例| 学习笔记

2、归档文件

把/user/atguigu/input目录里面的所有文件归档成一个叫 inputhar 的归档文件,并把归档后文件存储到/user/atguigu/output路径下。

小文件归档案例| 学习笔记

小文件归档案例| 学习笔记

小文件归档案例| 学习笔记

3、查看归档

小文件归档案例| 学习笔记

4、解归档文件

小文件归档案例| 学习笔记

上一篇:网络拓扑-节点距离计算| 学习笔记


下一篇:机架感知(副本存储节点选择)| 学习笔记