前天线上增加两个Hadoop节点(DN,TT,Impalad),加入后突然一个基于Impala的Job报异常::
ERROR:Couldn't open transport for xxx:22000(Could not resolve host for clientsocket.)
Cancellingquery ...
...
Queryaborted, unable to fetch data
第一个怀疑是网络问题,其次就是impala 的host,恰巧这时报出一个Hive Query慢查询时就锁定了这个问题,一个reduce一直跑不出来,上去一看发现恰巧这个job的一个map跑在xxx上,并且reduce报unknownHost Exception,在看这台reduce的/etc/hosts竟然没有新加节点的IP(线上hadoop通过puppet管理,已经同步了),后来查看是cron不知道咋被注释掉了=。=,因此前面impala的问题(这也是impala不及shark的原因之一)也解释得通了:PlanFragmentExecutor在sink到xxx 上的PFExecutor时无法解析,同步就解决了.
这个case再次说明流程规范+监控太重要了!
本文转自MIKE老毕 51CTO博客,原文链接:http://blog.51cto.com/boylook/1315666,如需转载请自行联系原作者