随机分布空 null 值 (1)设置 5 个 reduce 个数 set mapreduce.job.reduces = 5; (2) JOIN 两张表 insert overwrite table jointable select n.* from nullidtable n full join bigtable o on nvl(n.id,rand()) = o.id; 结果:如下图所示,可以看出来,消除了数据倾斜,负载均衡 reducer 的资源消耗
3)SMB(Sort Merge Bucket join)
(1)创建第二张大表测试大表直接 JOIN
(2)创建分通表 1,桶的个数不要超过可用 CPU 的核数
(3)创建分通表 2, 桶的个数不要超过可用 CPU 的核数 (4)设置参数 (5)测试