HDFS 小文件处理|学习笔记

2022-06-22 11:23:08

开发者学堂课程【Hadoop 企业优化及扩展案例：HDFS 小文件处理】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/96/detail/1571

HDFS 小文件处理

一、HDFS 小文件弊端

二、HDFS 小文件解决方案

1.HDFS 小文件弊端

HDFS. 上每个文件都要在 NameNode 上建立--个索引，这个索引的大小约为150byte, 这样当小文件比较多的时候，就会产生很多的索引文件，一方面会大量占用 NameNode 的内存空间，另一方面就是索引文件过大使得索引速度变慢

2.HDFS 小文件解决方案

1.小文件的优化无非以下几种方式:

(1)在数据采集的时候，就将小文件或小批数据合成大文件再上传 HDFS

（2）在业务处理之前，在 HDFS 上使用 MapReduce 程序对小文件进行合并

（3）在MapReduce 处理时，可采用 CombineTextInputFormat 提高效率

2.HDFS小文件解决方案
(1.1)Hadoop Archive
是一个高效地将小文件放入 HDFS 快中的文件存档工具,它能移将多个小文件打包成一个 HAR 文件,遠祥就減少了 NameNode 的内存使用。
(1.2)Sequence File
Sequence File 由一系列的二进制key/value組成,如果key为文件名,value 为文件内容,则可以将大批小文件合并成一个大文件。

（1.3）CombineFilelnputFormatCombineFileInputFormat 是一种新的IuputFormat，用于将多个文件合并成一个単独的 Split，另外,它会考慮数据的存储位置。

（1.4）开启 JVM 重用

对于大量小文件 Job ,可以开启 JVM 重用会减少45%运行时间。

JVM 重用原理:

-个Map 运行在一个 JVM 上,开启重用的话,该 Map 在 JVM 上运行完毕后, JVM 继续运行其他 Map。
具体设置:

mapreduce.job.jvm.numtasks 值在 10-20 之间。

码农公寓

HDFS 小文件处理

1.HDFS 小文件弊端

2.HDFS 小文件解决方案

相关文章