[论文阅读]MapReduce: Simplified Data Processing on Large Clusters

前段时间给team同学制定的分布式系统学习计划:做完MIT 6.824的Lab,相关论文也要读一下,今天是第一篇Google MapReduce。


 

Google要做网页搜索,涉及到大量网页排名,单机已经无法满足计算需求,因此只能写分布式程序,使计算在多台机器执行。分布式程序开发会遇到诸多难题,如进行数据分区,调度程序在多台机器执行,处理节点宕机,处理机器间通信等等。

MapReduce是一种编程模型,它的出现帮助我们屏蔽了分布式程序的实现细节,简化了大规模数据计算的过程。

一、模型

二、实例

三、容错

四、性能优化

上一篇:简单SSM搭建


下一篇:用Python进行自然语言处理PDF高清完整版书籍免费下载|百度云盘