hive优化

1、mapjion

2、行列过滤

3、列式存储

4、采用分区技术

5、合理设置map个数

6、合理设置reduce个数

7、map端提前combiner

8、小文件产生:

  动态分区导致的

  reduce端生成的

  数据源本身就有小文件

解决:

  在Map执行前合并小文件,减少Map数:CombineHiveInputFormat具有对小文件进行合并的功能(系统默认的格式)。HiveInputFormat没有对小文件合并功能。

  merge

  groupby代替distinct

上一篇:Linux环境下对浏览器用户搜索记录进行大数据处理(自己的大数据大作业附数据集和代码)


下一篇:16.JavaScript filter、map、reduce高级函数