1、hadoop-env.sh
2.core-site.xml
参数 |
解释 |
fs.defaultFS |
描述集群中NameNode节点的URI(包括协议、主机名称、端口号),其主机是NameNode的主机名称或IP地址,端口是NameNode监听RPC的端口,如果没有指定,默认是8020。集群里面的每一台机器都需要知道NameNode的地址,DataNode会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。 |
io.file.buffer.size |
SequenceFiles文件中.读写缓存size设定 |
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.1.100:900</value>
<description>192.168.1.100为服务器IP地址,其实也可以使用主机名</description>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
<description>该属性值单位为KB,131072KB即为默认的64M</description>
</property>
</configuration>
3、hdfs-site.xml
属性 |
含义 |
dfs.namenode.name.dir |
以逗号分隔的目录名称,是NameNode存储永久性的元数据的目录列表。NameNode在列表上的各个目录中均存放相同的元数据文件。例如:file:/data/hadoop/dfs/name |
dfs.datanode.data.dir |
以逗号分隔的目录名称,是DataNode存放数据块的目录列表。各个数据块分别存放在某一个目录中。例如:file:/data/hadoop/dfs/data |
– |
– |
dfs.namenode.checkpoint.dir |
以逗号分隔的目录名称,是辅助NameNode存放检查点的目录列表。在所列每个目录中均存放一份检查点文件的副本。 |
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
<description>分片数量,伪分布式将其配置成1即可</description>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/namenode</value>
<description>命名空间和事务在本地文件系统永久存储的路径</description>
</property>
<property>
<name>dfs.namenode.hosts</name>
<value>datanode1, datanode2</value>
<description>datanode1, datanode2分别对应DataNode所在服务器主机名</description>
</property>
<property>
<name>dfs.blocksize</name>
<value>268435456</value>
<description>大文件系统HDFS块大小为256M,默认值为64M</description>
</property>
<property>
<name>dfs.namenode.handler.count</name>
<value>100</value>
<description>更多的NameNode服务器线程处理来自DataNodes的RPCS</description>
</property>
</configuration>
4、yarn-site.xml
属性 |
含义 |
yarn.resourcemanager.hostname |
运行资源管理器的机器主机名,默认值为0.0.0.0。例如:10.200.4.117 |
yarn.resourcemanager.address |
运行资源管理器的PRC服务器的主机名和端口。例如:10.200.4.117:8032 |
– |
– |
yarn.nodemanager.local-dirs |
逗号分隔的目录名称,是YARN容器本地临时存储空间。当应用结束时,数据被清除。最好将这些目录分散到所有本地磁盘,以提升磁盘I/O操作的效率。通常情况下,YARN本地存储会使用与DataNode数据块存储相同的磁盘和分区(但是不同的目录)。 |
yarn.nodemanager.aux-services |
逗号分隔的服务名称,是节点管理器运行的附加服务列表。每项服务由属性yarn.nodemanager.auxservices.servicename.class所定义的类实现。默认情况下,不指定附加服务。 |
<configuration>
<property>
<name>yarn.resourcemanager.address</name>
<value>192.168.1.100:8081</value>
<description>IP地址192.168.1.100也可替换为主机名</description>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>192.168.1.100:8082</value>
<description>IP地址192.168.1.100也可替换为主机名</description>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>192.168.1.100:8083</value>
<description>IP地址192.168.1.100也可替换为主机名</description>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>192.168.1.100:8084</value>
<description>IP地址192.168.1.100也可替换为主机名</description>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>192.168.1.100:8085</value>
<description>IP地址192.168.1.100也可替换为主机名</description>
</property>
<property>
<name>yarn.resourcemanager.scheduler.class</name>
<value>FairScheduler</value>
<description>常用类:CapacityScheduler、FairScheduler、orFifoScheduler</description>
</property>
<property>
<name>yarn.scheduler.minimum</name>
<value>100</value>
<description>单位:MB</description>
</property>
<property>
<name>yarn.scheduler.maximum</name>
<value>256</value>
<description>单位:MB</description>
</property>
<property>
<name>yarn.resourcemanager.nodes.include-path</name>
<value>nodeManager1, nodeManager2</value>
<description>nodeManager1, nodeManager2分别对应服务器主机名</description>
</property>
</configuration>
5、slaves
[root@Hadoop171 hadoop]# vim workers
配置datanode的节点
6.mapred-site.xml
参数 |
解释 |
mapreduce.framework.name |
执行框架设置为 Hadoop YARN. |
<configuration>
<property>
<name> mapreduce.framework.name</name>
<value>yarn</value>
<description>执行框架设置为Hadoop YARN</description>
</property>
</configuration>
参数 |
解释 |
maprecude.jobhistory.address |
默认端口号 10020 |
mapreduce.jobhistory.webapp.address |
默认端口号 19888 |
<configuration>
<property>
<name> mapreduce.jobhistory.address</name>
<value>192.168.1.100:10200</value>
<description>IP地址192.168.1.100可替换为主机名</description>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>192.168.1.100:19888</value>
<description>IP地址192.168.1.100可替换为主机名 </description>
</property>
</configuration>
web 访问端口
NameNode |
默认端口号50070 3.x版本 默认端口号9870 |
ResourceManager |
默认端口号8088 |
MapReduce JobHistory Server |
默认端口号19888 |
secondnamenode |
默认端口号50090 |