1、mapjion
2、行列过滤
3、列式存储
4、采用分区技术
5、合理设置map个数
6、合理设置reduce个数
7、map端提前combiner
8、小文件产生:
动态分区导致的
reduce端生成的
数据源本身就有小文件
解决:
在Map执行前合并小文件,减少Map数:CombineHiveInputFormat具有对小文件进行合并的功能(系统默认的格式)。HiveInputFormat没有对小文件合并功能。
merge
groupby代替distinct
2024-03-24 16:57:40
1、mapjion
2、行列过滤
3、列式存储
4、采用分区技术
5、合理设置map个数
6、合理设置reduce个数
7、map端提前combiner
8、小文件产生:
动态分区导致的
reduce端生成的
数据源本身就有小文件
解决:
在Map执行前合并小文件,减少Map数:CombineHiveInputFormat具有对小文件进行合并的功能(系统默认的格式)。HiveInputFormat没有对小文件合并功能。
merge
groupby代替distinct