线上使用了cdh4.2.0,这个版本有几个比较严重的bug,jt 内存泄露和distribute cache阻塞的bug.
(MAPREDUCE-2479和MAPREDUCE-5508)
相关patch:
最近计划升级至4.6.0,,对4.6.0和4.2.0做了相关的对比测试
数据校验和组件兼容性测试:
测试方法:
1)impala测试升级前后数据准确性和性能
结论:
前后结果完全一样(select * order by /count(1) /count(1)+group by)
性能变化不大。
2)hive测试升级前后数据准确性和性能(因为时间有限,没有做TPC的测试)
(text gz/rcfile/sequencefile)
load 4G的text gz文件,分布清洗成rcfile和sequencefile表
结论:
hive测试数据正常(count(1) /count(1)+group by)
性能变化不大,其中因为从text gz清洗至rcfile和sequencefile时不能split,只能一个map做处理,耗时比较长,没有取多次的平均值。
其他数据是取多次的平均值。
3)flume测试写入
升级前后flume hdfs sink有效性。
结论:
升级前后flume写入hdfs正常,可以直接使用4.2.0的hadoop lib做写入操作。
本文转自菜菜光 51CTO博客,原文链接:http://blog.51cto.com/caiguangguang/1401406,如需转载请自行联系原作者