GBase 8a Mpp Cluster集群产品性能优化篇之关联顺序

2023-10-07 11:45:10

优化器可能不会调整LEFT JOIN语句的顺序，而用户语句的JOIN顺序可能不是最优，导致查询性能较低。

SQL特征

语句包含多个LEFT JOIN

多个LEFT JOIN的ON条件均为t1.colX = tn.colX

如：select x1.* from x1

left join x2 on x1.many_duplicate_value = x2.many_duplicate_value

left join x3 on x1.no_duplicate_value = x3.no_duplicate_value

left join x4 on x1.hash_col = x4.hash_col;

优化场景

语句特征满足上面的特征描述。

LEFT JOIN的右表，一些表可以直接与左表形成Hash JOIN关系，一些表可能会导致左表发生膨胀。

优化效果

让形成Hash JOIN关系的LEFT JOIN先执行，避免拉表。

例如SQL特征中描述的语句，因为left join x4 on x1.hash_col = x4.hash_col是Hash分布式JOIN，因此可以提到最前面，直接分布式执行。

让膨胀率小的LEFT JOIN先执行，减小拉表数据量。

如果参与JOIN条件的列的值的重复度较高，则很可能会造成LEFT JOIN结果发生膨胀。一般来说，使用主键列参与的JOIN条件，膨胀率是最小的；而重复值越多的列，膨胀率就越可能高。

例如SQL特征中描述的语句，因left join x3 on x1.no_duplicate_value = x3.no_duplicate_value对x1的膨胀率比left join x2 on x1.many_duplicate_value = x2.many_duplicate_value小，因此可以把left join x3提到left join x2前面。

通过这种调整，避免对膨胀后的数据拉表，减小了拉表数据量。

示例语句

select x1.* from x1

left join x2 on x1.many_duplicate_value = x2.many_duplicate_value

left join x3 on x1.no_duplicate_value = x3.no_duplicate_value

left join x4 on x1.hash_col = x4.hash_col;

改写后语句

select x1.* from x1

left join x4 on x1.hash_col = x4.hash_col;

left join x3 on x1.no_duplicate_value = x3.no_duplicate_value

left join x2 on x1.many_duplicate_value = x2.many_duplicate_value

     注：因x1.hash_col = x4.hash_col使用Hash分布列，因此left join x4调整到第1个位置；因x1.no_duplicate_value = x3.no_duplicate_value的膨胀率比x1.many_duplicate_value = x2.many_duplicate_value的膨胀率低，因此把left join x3调整到left join x2之前。

码农公寓

相关文章