Hadoop学习笔记(9) ——源码初窥

2022-01-23 13:36:51

Hadoop学习笔记(9)

——源码初窥

之前我们把Hadoop算是入了门，下载的源码，写了HelloWorld，简要分析了其编程要点，然后也编了个较复杂的示例。接下来其实就有两条路可走了，一条是继续深入研究其编程及部署等，让其功能使用的淋漓尽致。二是停下来，先看看其源码，研究下如何实现的。在这里我就选择第二条路。

研究源码，那我们就来先看一下整个目录里有点啥：

这个是刚下完代码后，目录列表中的内容。

目录/文件	说明
bin	下面存放着可执行的sh命名，所有操作都在这里
conf	配置文件所在目录
ivy	Apache Ivy是专门用来管理项目的jar包依赖的，这个是ivy的主要目录
lib	引用的库文件目录，里面存放用到的jar包
src	这个里面就是主要的源码了
build.xml	用于编译的配置文件。编译我们用的是ant
CHANGES.txt	文本文件，记录着本版本的变更历史
ivy.xml	Ivy的配置文件
LICENSE.txt	文件本文件，
NOTICE.txt	文本文件，记录着需要注意的地方
README.txt	说明文件。

进入src目录，我们看到了：

目录/文件	说明
ant	为ant命令编写的扩展指定
benchmarks	笔者也没弄明白L
build	就存放一个打包信息文件
c++	linux下amd64-64位系统以及i386-32位系统提供的库文件集合
contrib	是开源界或第三方为hadoop编写的一些扩展程序，如eclipse插件等
core	Hadoop的核心代码
docs	文档
examples	示例程序
hdfs	HDFS模块的代码
marped	MapReduce模块代码
native	笔者也没弄明白L
test	测试程序
tools	工具集
webapps	网页管理工具的代码，主要是jsp文件。
fixFontsPath.sh	用于修正字体路径的批处理命令。
saveVersion.sh	用于生成打包信息文件批处理命令。

这些目录及文件命名及分布还是很清晰的，基本上根据命名也能猜出其意思来了。当我们拿到这些文件时，做了两件事，编译和运行，接下来我们一块块仔细来看看。

编译

当我们拿到手时，第一章中讲到，我们用了以下命令就完成了编译：

~/hadoop-0.20.2$ant

~/hadoop-0.20.2$ant jar

~/hadoop-0.20.2$ant examples

在编译完后，我们发现，目录中多了一个build文件夹。这个文件夹下，我们发现有大量的子文件夹，再深入看，可以找到了N多个.class文件。那这个正是java程序的编译产出物。

我们在第5章中，简要的描述了java程序与.net的差别。一个.java程序对应一个.class文件，手动的话用javac来编译。我们要将这么多的java文件都要编译成一个个的.class文件，敲javac命令肯定是不行的，我们得找个打包处理的办法。这个就是ant。简单的说ant就是将编译命名进行打包处理的程序，这个程序有一个配置文件就是build.xml。所以我们进入hadoop根目录后输入了ant后就开始运行了，因为它在当前目录下找到了build.xml文件。那ant能做啥，其实百度上一搜就有很多了。这里就不详述了。我们简要的来看一下build.xml。打开一看，build.xml文件貌似很复杂，有1千8百多行。不要怕，简单看下：

一上来，定义了一个project，看来这是一个工程，有名称和default属性（default后面看是啥）。

接下来发现是一堆的property，然后是name-value的健值。应该猜的出，这些就是后面真正执行用的一些变量或参数。

再往下，看到有这些：

看到有target，然后取了个名，字面意思是目标，然后看看子结点，发现是mkdir，好熟悉的字眼，这不是在创建目录么，看下第一个dir是啥，${build.dir}。然后立即跑回上面property中，看下是否有呢？

果然，这个就是在编译后的产生的目录，第一步创建之，很正常。

既然这样，这个target就是一个个目标，然后往下拖一下，发现下面的都是一个个的目录，全文搜索一下：

发现里面有106个。

继续搜，发现了亮点：

这个target（目标）好眼熟，~/hadoop-0.20.2$ant jar 没错，当时在编译时，输入这个命令后，就产出了一个jar文件。看来这个target就是在形成jar文件，略看下其子命令，的确就是在生成jar包了。

简单了解了这个target后，就可以继续找找，我们的examples命令了。现回想起来，在编译时第一个命令是~/hadoop-0.20.2$ant，而这个好象没有写target么？又想到了：

难道这个default就是传说中的默认目标？ compile。熬不住了，立即展开搜索：

果然，猜的没错。找到了这个默认目录，然后发现好多target后还有depends，字面意思，依赖吧，然后可以继续找，依赖里面的目录，也是一个个的target。

了解了这个之后，我们又在想，现在知道的target也就默认、jar、example，还有哪些呢，我们就可以搜target name="这个字符。当然会发现有很多，但是不是每个都对我们有用，因为好多是为了编写方便，将一个大的拆成多个小的，以便于维护。至于哪些有用的，这里我就不一一列出。可以自己看看。比如clean就不错，可以把编译后的结果清理掉，还原到开始状态。

编译成.class包括jar包现在都没问题了。我们知道hadoop是用java写的，在src下可找到大量java类文件。难道这个hadoop就没有引用一个第三方的组件？答案是有的，一开始没看到几个，在lib下就只有几个。但是在ant完后，在build下搜，发现有好多个jar文件。哪来的？下载的。谁负责下载的，为什么知道要下载这些文件？

我们发现，在build.xml中，第一个target init就有depends:

然后就可以一级级查到，是通用ivy进行下载的，至于下载哪些，在ivy.xml中就有配置。好了，这块并不是我们的重点，了解到这里就够了，反正所用到的lib文件都下来了。

运行

在第一章中，我们了解到启用整个hadoop，全到了这个命令：bin/start-all.sh，关闭是用到了bin/stop-all.sh。而这个又是什么文件，我们来研究一下看。

不急看start-all，我们打开bin目录看一下：

在bin下有很多个sh文件，hadoop这个命令，虽然没有后缀，但打开看后，发现跟其他sh文件样，类似的脚本。

什么是sh文件？在windows中我们知道bat文件，就是将若干个命令放到一个文件中，依次执行，称之为批处理文件。在Linux中，这个bat文件就是sh文件了。

先不急着打开文件内容，我们观察下所以文件，看到下面8个，很有规律，4个startXXX.sh然后4个stopXXX.sh文件。看来这些就是用户启动和关闭hadoop用的。

打开start-all.sh，发现内容并不多，也很好理解：

这里，先调了一下hadoop-config.sh，字面意思，设置配置文件。然后再调了start-dfs 和start-mapred。这里就很明显了，start-all是启动整个hadoop，然后里面包含了两个动作，启动dfs和mapreduce。同理，如果我想只启动dfs，那么只需要运行start-dfs.sh即可。

同样，打开stop-all.sh文件，也可以看到比较简单，

发现是分别调了stop-mapred.sh和stop-dfs.sh这两个文件。

这里我们就不每个文件进行分析了,我们只挑几个关键文件看一下。

继续前行，打开start-dfs.sh和stop-dfs.sh文件，发现里面

和

大家可以打开其他所有的startXX和stopXX文件，发现所有的操作都又转入了hadoop-daemon.sh和hadoop-daemons.sh这两个命令，同时传入了参数—config stop/start 名称（opt参数）。

继续，打开hadoop-daemons.sh，发现内容也很简单：

这里，先调用了slaves.sh后，又调回来hadoop-daemon.sh，所以现在目标焦点就只有两个了hadoop-daemon.sh和slaves.sh了。打开slaves.sh看一下：

这个文件的字面意思应该就是启动各分布式子机的hadoop咯。看一下代码，第一个if与fi之间，可以看到是取得conf文件夹下的slaves文件。记得在配置分配布式里面，在slaves中配置写了是node1 node2用回车换行隔开。所以第二段代码，for循环slaves中的文件，然后调用ssh命令，调到了子系统中的相应的命令，这里，就完全可以想通了，为什么子系统中部署的hadoop目录需要与主目录相同，然后slaves中配置的是子系统机器的名称。

到这里，整个bin目录的脚本，就集中在剩下的两个hadoop-daemon.sh和hadoop了。胜利在望了。先看hadoop-daemon.sh。

一开始，代码是在取参数，startstop和command，从前面的传入可以看到，startstop参数传的是start和stop，看来是启动和关闭， command是namenode、datanode之类的。

继续往下看：

case语句下进行了分类，将start和stop命令分开处理。在start时，先是创建一个文件夹PID_DIR，具体值可以看上面，然后第一段if，是在判断进程有没有启动，然后最关健是执行nohup nice …. /bin/hadoop。也就是说归根到底又都是在执行hadoop命令了。这里nohup，是指启动进程后不被卡住，即转为后台进程，又称守护进程，所以该sh文件命名为daemon也不为过。

然后stop段时，把进程进行kill掉。这里有疑问了，启动的命令kill里需要知道进程的PID，而kill里哪里获取呢，在启动时，将启动进程后的pid记录在PID文件夹内，然后kill时就可以跟据这些PID来处理了。这块在代码中，也比较清晰的体现了。

在执行hadoop命令时，又将namenode、datanode、secondarynamenode等命令传入。所以现在可以打开hadoop命令文件了：（这里直接跳入重点看）

这里，看到有大量的if语句，条件是command判断，然后执行中对class和hadoop_opts进行了赋值。继续往下看：（在最后）

我们发现，是在执行java命令，传入的main函数入口正是上面条件处理中的CLASS变量。换句话说，这个CLASS应该对应一个个的main函数咯？验证一下，找一个，比如dataNode，其CLASS是org.apache.hadoop.hdfs.server.datanode.DataNode。按这路径在src中找到文件DataNode.java，打开，然后搜main：

果然，完全应正了我们的想法。

总结一下：整个hadoop程序，是一个java为主的程序，在编译是将.class文件生成在build目录，在运行时，虽然执行的是.sh文件，但一步步，最终都是在执行java命令，传入的入口，就是各个子程序的main函数入口。

想法1：看了这个sh命令后，又有一个想法，之前通过starg-all.sh就把整个程序启动起来了，而且是在后台运行的，输出内容只能从log文件夹内看，能否直接从命令行启动呢？当然行，输入 bin/hadoop namenode试试，果然，启动了namenode程序，然后日志信息也直接打印在屏幕上了。

想法2：既然从hadoop这个sh文件夹内，可以看到所有的入口，那就可以整理一下，所有的入口成一个列表，方便以后找到其main函数。

命令	入口
namenode	org.apache.hadoop.hdfs.server.namenode.NameNode
secondarynamenode	org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode
datanode	org.apache.hadoop.hdfs.server.datanode.DataNode
fs / dfs	org.apache.hadoop.fs.FsShell
dfsadmin	org.apache.hadoop.hdfs.tools.DFSAdmin
mradmin	org.apache.hadoop.mapred.tools.MRAdmin
fsck	org.apache.hadoop.hdfs.tools.DFSck
balancer	org.apache.hadoop.hdfs.server.balancer.Balancer
jobtracker	org.apache.hadoop.mapred.JobTracker
tasktracker	org.apache.hadoop.mapred.TaskTracker
job	org.apache.hadoop.mapred.JobClient
queue	org.apache.hadoop.mapred.JobQueueClient
pipes	org.apache.hadoop.mapred.pipes.Submitter
version	org.apache.hadoop.util.VersionInfo
jar	org.apache.hadoop.util.RunJar
distcp	org.apache.hadoop.tools.DistCp
daemonlog	org.apache.hadoop.log.LogLevel
archive	org.apache.hadoop.tools.HadoopArchives
sampler	org.apache.hadoop.mapred.lib.InputSampler

至此整个目录有了一个初步的了解，接下来，那就可以顺着这些入口深入研究了。且慢，还差个调试环境呢！下一章来。

码农公寓

相关文章