mapreduce基础概念
mapreduce是一个分布式计算框架(hadoop是mapreduce框架的一个免费开源java实现)。
mapreduce要点
主节点(master node)控制mapreduce的作业流程
mapreduce的作业可分为map任务和reduce任务
map任务之间不做数据交流,reduce同理
在map和reduce阶段有一个sort或combine阶段
数据被重复放在不同的机器上,以防某个机器失效
map和reduce传输数据的形式为key/value对