mapreduce学习指导及疑难解惑汇总

2022-12-20 15:07:25

原文链接http://www.aboutyun.com/thread-7091-1-1.html

1.思想起源：

我们在学习mapreduce，首先我们从思想上来认识。其实任何的奇思妙想，抽象的，好的想法、都来源于我们生活，而我们也更容易理解我们身边所发生事情。所以下面一篇便是从生活的角度，来让我们理解，什么是mapreduce。
Hadoop简介(1):什么是Map/Reduce

2.设计思路

我们从思想上认识了mapreduce，那么mapreduce具体是什么，我们需要看得见，摸得着。我们该如何实现这个思想，我们该如何设计mapreduce。那么现在来说说它的设计思路。

设计思路如何表示:ok下面的帖子，是通过一张图来表达的。
Mapreduce 整个工作机制图

mapreduce是hadoop的核心，正因为mapreduce，所以才产生了分布式。所以我们可能通过一张图，了解的不够清楚和详细。我们还需要了解里面的原理：
MapReduce工作原理讲解

3.模型实现

通过上面我们可能有了自己的一些看法。但是我们可能还是认识不太清楚。那么咱们在来看看编程模型，来进一步的了解。

MapReduce 编程模型概述

mapreduce编程模型

4.产生问题

我们看了上面的文章，这时候会有一些名词、概念进入我们的脑海。
除了map，reduce，task,job，shuffe，partition，combiner这些把我们给弄糊涂了。
我们产生问题如下：
map的个数由谁来决定，如何计算？
reduce个数由谁来决定，如何计算？
简单来讲map由split来决定，reduce则是由partition来决定。
详细可以查看
如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么？

---------------------------------------------------------------------------------------------------
shuffle是什么？
partition是什么？
combiner是什麽？
他们三者之间的关系是什么？

mapreduce是hadoop核心，而shuffle是mapreduce的核心，shuffle个人认为它是一个动态的过程，包含了Combiner，merge等的过程，那么这里因为讲到shuffle，很多人都讲的全面，Combiner，merge，sort几乎全都讲了，这样讲是没有错误的，但是容易给初学者造成一个假象，那就是这些过程必须都是包含的，其实这些是根据个人的需求来确定的。
彻底了解mapreduce核心Shuffle--解惑各种mapreduce问题

同样关于上面的问题可以参考
关于Mapper、Reducer的个人总结

5.编程实现

mapreduce是一种编程模型，我们认识了解，下面就需要编程实现了。那么mapreduce都能做些什么？下面我们可以看看

MapReduce初级案例（1）：使用MapReduce去重

MapReduce初级案例（2）：使用MapReduce数据排序

MapReduce初级案例（3）：使用MapReduce实现平均成绩

通过上面三个例子，也是我们验证前面所理解的内容。
同样可以参考下面内容

Hadoop mapper类的阅读

Hadoop reducer类的阅读

Mapreduce shuffle和排序

hadoop中mapreduce包及制作文档指导

Hadoop开发环境搭建及map-reduce开发实例讲解视频下载