前段时间给team同学制定的分布式系统学习计划:做完MIT 6.824的Lab,相关论文也要读一下,今天是第一篇Google MapReduce。
Google要做网页搜索,涉及到大量网页排名,单机已经无法满足计算需求,因此只能写分布式程序,使计算在多台机器执行。分布式程序开发会遇到诸多难题,如进行数据分区,调度程序在多台机器执行,处理节点宕机,处理机器间通信等等。
MapReduce是一种编程模型,它的出现帮助我们屏蔽了分布式程序的实现细节,简化了大规模数据计算的过程。
一、模型
二、实例
三、容错
四、性能优化