最近在做hadoop集群的容量数据,主要依据zabbix的监控数据,因为要计算impala的内存使用情况,就使用了下面的sql
select a.host,avg(b.value) from (select a.host,b.itemid,b.key_ from hosts a,items b where a.hostid=b.hostid and a.host like ‘%hadoop-datanode%‘ and b.key_=‘impala.get[mem]‘)a join (select itemid,clock,value from history) b on a.itemid=b.itemid and b.clock between unix_timestamp(‘2014-02-28 00:00:00‘) and unix_timestamp(‘2014-03-06 00:00:00‘) group by a.host;
在使用explain时发现巨慢,一个生成执行计划的操作都这么慢?
考虑到sql的性能优化,就把上面的查询写成了3个表的join:
select a.host,avg(c.value) from hosts a,items b,history c where a.hostid=b.hostid and a.host like ‘%hadoop-datanode%‘ and b.key_=‘impala.get[mem]‘ and b.itemid=c.itemid and c.clock between unix_timestamp(‘2014-02-28 00:00:00‘) and unix_timestamp(‘2014-03-06 00:00:00‘) group by a.host;
这样性能就好多了。。
其实这是explain的一个bug,在使用subquery时,explain会在后台执行这个sql,这样explain的时间就差不多是sql运行的时间了。。。
看来自己的sql写得太烂了,以后还是要多多的explain啊。。。
本文出自 “菜光光的博客” 博客,请务必保留此出处http://caiguangguang.blog.51cto.com/1652935/1369797