并行是指“并排行走”或“同时实行或实施”。在操作系统中是指，一组程序按独立异步的速度执行，无论从微观还是宏观，程序都是一起执行的。对比地，并发是指:在同一个时间段内，两个或多个程序执行，有时间上的重叠(宏观上是同时,微观上仍是顺序执行)。
并发，在操作系统中，是指一个时间段中有几个程序都处于已启动运行到运行完毕之间，且这几个程序都是在同一个处理机上运行，但任一个时刻点上只有一个程序在处理机上运行。

四、Hadoop组成：

1.HDFS架构概述：

Hadoop Distributed File System：Hadoop分布式文件系统

a）NameNode（nn）：

存储文件的元数据，如：文件名、目录结构、文件属性（生成时间、副本数、文件权限）、以及每个文件的块列表和块所在的DataNode等。

b）DataNode（dn）：

在本地文件系统存储文件数据模块，以及块数据的校验和。

c）Secondary NameNode（2nn）：

每隔一段时间对NameNode元数据备份（注意：他不是nn的热备份，不能替代nn执行相关的功能），协助nn执行功能。

2.YARN架构概述：

YARN资源调度：cpu、内存等

3.MapReduce框架概述：

MapReduce：将计算过程分为两个阶段：Map、Reduce

Map阶段并行处理输入的数据
Reduce阶段对Map结果进行汇总

五、大数据生态体系：

Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySql）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；

Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；
Storm：Storm用于“连续计算”，对数据流做连续查询，在计算时就将结果以流的形式输出给用户。

Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

Oozie：Oozie是一个管理Hdoop作业（job）的工作流程调度管理系统。
Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

六、VMware安装：

传送口：安装虚拟机

1.配置IP和主机名称：

修改虚拟机IP：

打开虚拟网络编辑器：

更改配置：

在虚拟机中修改配置：

在虚拟机中执行：vim /etc/sysconfig/network-scripts/ifcfg-ens33：打开Linux中的网络配置文件

TYPE="Ethernet"
PROXY_METHOD="none"
BROWSER_ONLY="no"
BOOTPROTO="static"  //修改IP地址为静态地址，dhcp为动态IP地址
DEFROUTE="yes"
IPV4_FAILURE_FATAL="no"
IPV6INIT="yes"
IPV6_AUTOCONF="yes"
IPV6_DEFROUTE="yes"
IPV6_FAILURE_FATAL="no"
IPV6_ADDR_GEN_MODE="stable-privacy"
NAME="ens33"
UUID="19026c39-6efe-4f7c-9122-7a8de708270e"
DEVICE="ens33"
ONBOOT="yes"

IPADDR=192.168.10.100
GATEWAY=192.168.10.2
DNS1=192.168.10.2

vim /etc/hostname：修改主机名称

vim /etc/hosts：主机名映射

192.168.10.100 hadoop01
192.168.10.101 hadoop02
192.168.10.102 hadoop03
192.168.10.103 hadoop04
192.168.10.104 hadoop05
192.168.10.105 hadoop06
192.168.10.106 hadoop07
192.168.10.107 hadoop08
192.268.10.108 hadoop09

reboot：重启Linux

ipconfig：查看ip地址

ping 外部网站连接：能ping成功说明网络连接成功

ctl+C：停止ping操作

在Windows中修该配置：

打开网络设置，修改适配器选项

右键打开VMware属性，双击internet协议版本4（TCP/IPv4），修改常规

2.使用远程连接软件访问服务器：

Xshell：远程连接工具

Xftp：远程文件上传工具

3.配置模板虚拟机：

安装epel-release：

yum install -y epel-release

注意：

如果安装的是Linux最小系统版本，还需要安装如下工具，如果安装的是Linux的桌面标准版，则不需要执行以下操作：

net-tool：工具包集合，包含ifconfig等命令：yum install -y net-tools
vim：编辑器：yum install -y vim

关闭防火墙，关闭防火墙开机自启：

systemctl stop firewalld：关闭防火墙

systemctl disable firewalld.service：关闭防火墙开机自启

配置用户权限：

创建用户，配置用户权限（我这里直接使用root用户）

4.创捷文件夹：

cd /opt：进入opt目录

sudo mkdir module：创建module文件夹

sudo mkdir software：创建software文件夹

5.卸载虚拟机自带的JDK：

注意：虚拟机是最小安装，可以不执行这一步！

rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

rpm -qa：查询安装的所有rpm软件包
grep -i：忽略大小写

xargs -n1：表示每一次只传递一个参数
rpm -e --nodeps：强制卸载软件

6.重启虚拟机：

reboot：重启虚拟机

六、克隆虚拟机：

注意：需要关闭虚拟机！！！（学习时只克隆了三台）

修改克隆后的虚拟机IP：

打开Hadoop_02虚拟机：

vim /etc/sysconfig/network-scripts/ifcfg-ens33：修改IP

vim /etc/hostname：修改主机名

注意：按照上述步骤修改每一台虚拟机的配置！！！

七、在Hadoop_02虚拟机上安装JDK：

上传JDK和Hadoop的压缩包到主机：

使用Xftp上传文件到创建的software目录中：（cd /opt/software）

tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/：解压tar压缩包

cd /etc/profile.d：进入目录

sudo vim my_env.sh：创建一个新的文件，对JAVA_HOME配置：

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

resource /etc/profile：重新加载配置文件

八、在Hadoop_02虚拟机上安装Hadoop：

cd /opt/software

tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/：解压Hadoop压缩包

配置环境变量：

sudo vim /etc/profile.d/my_env.sh：编写配置文件

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3

export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADDOP_HOME/sbin

source /etc/profile

/opt/module/hadoop-3.1.3hadoop内容：

bin目录：

etc目录：

sbin目录：

码农公寓

一、什么是Hadoop框架：

二、Hadoop三大发行版：

1.Apache Hadoop

2.Cloudera Hadoop

3.Hortonworks Hadoop

三、Hadoop的优势：