看了几篇博文,感觉还是云里雾里的。
http://blog.csdn.net/opennaive/article/details/7514146
http://www.aboutyun.com/thread-6723-1-1.html
http://blog.csdn.net/thomas0yang/article/details/8562910
这三篇看下来,大概有了个框架,但是具体的细节都不是很清楚。
下面是自问自答环节:
- 为什么hadoop可以处理大数据?
因为hadoop用了好多好多好多台电脑,如果只部署在一台电脑上hadoop完全没有什么优势的。
- MapReduce做了什么?
MapReduce负责大数据处理时各个电脑之间的调度,数据的划分,数据在内部的传输,中间结果的洗牌排序,最终结果的整合等等。总之是一个计算框架,使得任务能够更高效的执行。