我们要做的事情大概分3步:
1、需求的描述(主要把问题点抛出来)
2、解决如何优化sql性能的问题(hive关于一条sql的生命周期源码的分析),也就是如何对你的sql进行RBO和CBO的优化
3、解决如何自动识别sql元数据的问题(antlr关于如何深度优先遍历语法树)
背景:
我们有一套智能中台系统,可以基于配置化的方式就可以做出各种图表。说白了就是可以快速给业务通过图表的方式展现数据
需求:
通过配置来快速展现数据固然是好的事情,但稍微思考一下其实也是通过配置的方式来生成sql; 那么生成的这个sql性能不见得会很好吧?(其实会非常的不好)
比如,我们通过配置的方式生成的sql大概这个样子:
select t0.tree_id, sum(t0.gap) as num from ( SELECT w.tree_id, w.gap, r.executed_sql FROM data_middleground.view_mkt_node_kpi_warning w JOIN data_middleground.view_mkt_node_result r ON w.tree_id = r.tree_id WHERE w.warning_status = 0 and r.is_del = 0 ) t0 where t0.gap > 1 group by t0.tree_id order by tree_id desc
花一分钟仔细看下这个sql,会发现其实很烂,性能点在:
1、表关联的时候,谓词没有下推 2、多个谓词分别出现在关联和聚合的地方,没有做过滤合并和下推 3、有聚合操作,是否可以聚合下推?
烂sql的执行计划:
LogicalSort(sort0=[$0], dir0=[DESC]) LogicalAggregate(group=[{0}], num=[SUM($1)]) LogicalProject(tree_id=[$0], gap=[$1]) LogicalFilter(condition=[>($1, 1)]) LogicalProject(tree_id=[$0], gap=[$1], executed_sql=[$4]) LogicalFilter(condition=[AND(=($2, 0), =($5, 0))]) LogicalJoin(condition=[=($0, $3)], joinType=[inner]) EnumerableTableScan(table=[[data_middleground, view_mkt_node_kpi_warning]]) EnumerableTableScan(table=[[data_middleground, view_mkt_node_result]])
那么能否通过一套代码处理后,让“烂sql1”进入代码,出来后是“好sql2”
先看下成果,优化后的sql:
SELECT `t0`.`tree_id`, SUM(`t0`.`gap`) AS `num` FROM ( SELECT * FROM `data_middleground`.`view_mkt_node_result` WHERE `is_del` = 0 ) AS `t` INNER JOIN ( SELECT * FROM `data_middleground`.`view_mkt_node_kpi_warning` WHERE `warning_status` = 0 AND `gap` > 1 ) AS `t0` ON `t`.`tree_id` = `t0`.`tree_id` GROUP BY `t0`.`tree_id` ORDER BY `t0`.`tree_id` IS NULL DESC, `t0`.`tree_id` DESC
请花一分钟看下sql,会发现这真TM是个好的sql;
执行计划:
LogicalSort(sort0=[$0], dir0=[DESC]) LogicalAggregate(group=[{0}], num=[SUM($1)]) LogicalProject(tree_id=[$0], gap=[$1]) LogicalProject(tree_id=[$0], gap=[$1], executed_sql=[$4]) LogicalJoin(condition=[=($0, $3)], joinType=[inner]) LogicalFilter(condition=[AND(=($2, 0), >($1, 1))]) EnumerableTableScan(table=[[data_middleground, view_mkt_node_kpi_warning]]) LogicalFilter(condition=[=($2, 0)]) EnumerableTableScan(table=[[data_middleground, view_mkt_node_result]])
那么如何实现上面的功能呢?可以参考spark、hive、druid等,他们是如何做的sql优化。这里我参考的是hive;
那么接下来通过走读hive源码的方式来看下,hive是如何处理一条sql的【请看下一篇:做一个平台,让对手发来一个很烂的sql,然后系统返回一个优化好的sql(二)】