Greenplum执行计划和pg中的类似,但是由于gp是分布式的shared nothing架构,所以执行计划必然和pg还是有些区别。
gp中查看SQL的执行计划也是通过explain语句,语法如下:
Command: EXPLAIN
Description: show the execution plan of a statement
Syntax:
EXPLAIN [ ANALYZE ] [ VERBOSE ] statement
相较于pg中explain语句选项较少,只有analyze和verbose两个可选项,作用分别是:
analyze:执行命令并显示实际时间。
verbose:显示查询树内部的实际结构,而不是简单的概要。
分布式执行计划:
gp中的shared nothing架构特点为:底层数据完全不共享、每个segment只有部分数据、所有节点都过网络连接起来。
–重分布与广播
因为gp中的数据分布在不同的segment中,因此如何将数据汇聚起来就显得很关键,这便设计到了数据的迁移,即重分布和广播。
广播:将每个segment上的一张表数据全部发送给所有segment,这样相当于每个segment都有全量的数据。
重分布:当需要跨库关联和聚合的时候,当数据无法满足广播的条件,这个时候gp就会选择重分布数据,选择新的分布键(关联键)来将数据重新打散重新分布到所有segment上。
分布式执行计划中相比pg中的执行计划多了一些不同的术语,分别是:
1、Gather Motion (N:1)
聚合操作,将N个节点上的数据聚合到同一个节点。
postgres=# EXPLAIN select * from t3 join t2 on t3.id=t2.id+100 limit 10;
QUERY PLAN
--------------------------------------------------------------------------------------------------------------------
Limit (cost=24028.00..24028.69 rows=10 width=74)
-> Gather Motion 2:1 (slice2; segments: 2) (cost=24028.00..24028.69 rows=10 width=74)
-> Limit (cost=24028.00..24028.49 rows=5 width=74)
-> Hash Join (cost=24028.00..72660.00 rows=500000 width=74)
Hash Cond: (t2.id + 100) = t3.id
-> Redistribute Motion 2:2 (slice1; segments: 2) (cost=0.00..31132.00 rows=500000 width=37)
Hash Key: t2.id + 100
-> Append-only Columnar Scan on t2 (cost=0.00..11132.00 rows=500000 width=37)
-> Hash (cost=11528.00..11528.00 rows=500000 width=37)
-> Append-only Scan on t3 (cost=0.00..11528.00 rows=500000 width=37)
Optimizer status: legacy query optimizer
(11 rows)
2、Broadcast Motion(N:N)
广播,将每一节点上的一张表数据全部分发给所有segment。
3、Redistribute Motion(N:N)
重分布,将数据重新打散重新分布到所有segment上。一般常发生在:关联、group by、开窗函数等情况下。
4、Slice
切片。gp在实现分布式执行计划时,会将SQL拆成多个slice,每个slice就是单库执行的一部分SQL。