Hadoop配置文件详解

Hadoop配置文件详解

1、hadoop-env.sh

Hadoop配置文件详解

2.core-site.xml

参数 解释
fs.defaultFS 描述集群中NameNode节点的URI(包括协议、主机名称、端口号),其主机是NameNode的主机名称或IP地址,端口是NameNode监听RPC的端口,如果没有指定,默认是8020。集群里面的每一台机器都需要知道NameNode的地址,DataNode会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。
io.file.buffer.size SequenceFiles文件中.读写缓存size设定
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.1.100:900</value>
        <description>192.168.1.100为服务器IP地址,其实也可以使用主机名</description>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
        <description>该属性值单位为KB,131072KB即为默认的64M</description>
    </property> 
    </configuration>

3、hdfs-site.xml

属性 含义
dfs.namenode.name.dir 以逗号分隔的目录名称,是NameNode存储永久性的元数据的目录列表。NameNode在列表上的各个目录中均存放相同的元数据文件。例如:file:/data/hadoop/dfs/name
dfs.datanode.data.dir 以逗号分隔的目录名称,是DataNode存放数据块的目录列表。各个数据块分别存放在某一个目录中。例如:file:/data/hadoop/dfs/data
dfs.namenode.checkpoint.dir 以逗号分隔的目录名称,是辅助NameNode存放检查点的目录列表。在所列每个目录中均存放一份检查点文件的副本。
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
        <description>分片数量,伪分布式将其配置成1即可</description>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/namenode</value>
        <description>命名空间和事务在本地文件系统永久存储的路径</description>
    </property>
    <property>
        <name>dfs.namenode.hosts</name>
        <value>datanode1, datanode2</value>
        <description>datanode1, datanode2分别对应DataNode所在服务器主机名</description>
    </property>
    <property>
        <name>dfs.blocksize</name>
        <value>268435456</value>
        <description>大文件系统HDFS块大小为256M,默认值为64M</description>
    </property>
    <property>
        <name>dfs.namenode.handler.count</name>
        <value>100</value>
        <description>更多的NameNode服务器线程处理来自DataNodes的RPCS</description>
    </property>
</configuration>

4、yarn-site.xml

属性 含义
yarn.resourcemanager.hostname 运行资源管理器的机器主机名,默认值为0.0.0.0。例如:10.200.4.117
yarn.resourcemanager.address 运行资源管理器的PRC服务器的主机名和端口。例如:10.200.4.117:8032
yarn.nodemanager.local-dirs 逗号分隔的目录名称,是YARN容器本地临时存储空间。当应用结束时,数据被清除。最好将这些目录分散到所有本地磁盘,以提升磁盘I/O操作的效率。通常情况下,YARN本地存储会使用与DataNode数据块存储相同的磁盘和分区(但是不同的目录)。
yarn.nodemanager.aux-services 逗号分隔的服务名称,是节点管理器运行的附加服务列表。每项服务由属性yarn.nodemanager.auxservices.servicename.class所定义的类实现。默认情况下,不指定附加服务。
<configuration>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>192.168.1.100:8081</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>192.168.1.100:8082</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>192.168.1.100:8083</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>192.168.1.100:8084</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>192.168.1.100:8085</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.class</name>
        <value>FairScheduler</value>
        <description>常用类:CapacityScheduler、FairScheduler、orFifoScheduler</description>
    </property>
    <property>
        <name>yarn.scheduler.minimum</name>
        <value>100</value>
        <description>单位:MB</description>
    </property>
    <property>
        <name>yarn.scheduler.maximum</name>
        <value>256</value>
        <description>单位:MB</description>
    </property>
    <property>
        <name>yarn.resourcemanager.nodes.include-path</name>
        <value>nodeManager1, nodeManager2</value>
        <description>nodeManager1, nodeManager2分别对应服务器主机名</description>
    </property>
</configuration>

5、slaves

[root@Hadoop171 hadoop]# vim workers
配置datanode的节点

Hadoop配置文件详解

6.mapred-site.xml

参数 解释
mapreduce.framework.name 执行框架设置为 Hadoop YARN.
<configuration>
    <property>
    <name> mapreduce.framework.name</name>
      <value>yarn</value>
       <description>执行框架设置为Hadoop YARN</description>
    </property>
 </configuration>
参数 解释
maprecude.jobhistory.address 默认端口号 10020
mapreduce.jobhistory.webapp.address 默认端口号 19888
<configuration>
<property>
        <name> mapreduce.jobhistory.address</name>
        <value>192.168.1.100:10200</value>
          <description>IP地址192.168.1.100可替换为主机名</description>
     </property>
      <property>
        <name>mapreduce.jobhistory.webapp.address</name>
          <value>192.168.1.100:19888</value>
        <description>IP地址192.168.1.100可替换为主机名      </description>
    </property>
    </configuration>

web 访问端口

NameNode 默认端口号50070 3.x版本 默认端口号9870
ResourceManager 默认端口号8088
MapReduce JobHistory Server 默认端口号19888
secondnamenode 默认端口号50090
上一篇:整个Hadoop框架工作流程


下一篇:hadoop的datanode没有正常启动