Eclipse上Hadoop插件中Run On Hadoop原理[转]

2024-04-01 20:14:58

通过Eclipse的hadoop插件中的"run on hadoop"命令的原理：它不是把jar包发送到hadoop集群上去运行，而只是使用了hadoop集群上的hdfs，从hdfs中获取文件，至于执行，是执行你本地的hadoop包来运行你编写的MapReduce程序，所以Hadoop集群中不用启动YARN也可以运行。

因为要想在集群中让程序分布式运行还要经历上传类文件、分发到各个节点等过程，一个简单的“run on hadoop”只是启动了本地hadoop类库来运行你的程序而已，在Hadoop cluster的web管理页面（http://192.168.2.2:8088/cluster/apps）上是看不到任何作业信息的，因为你的作业根本就没有运行在集群上。