今天学习了大数据的一些基本的概念。
什么是Hadoop:
大数据主要还是解决海量数据的存储和海量数据的分析计算。
大数据的特点:大量、高效、多样(结构化数据和非结构化数据)、低价值密度。
Hadoop的三大发行版本:
Apache、cloundera、hortonworks。
当然现在cloundera收购了hortonworks(准确来说算是强强联合吧),Apache入门学习最好。
Hadoop的优势:
Hadoop有四个优势
高可靠性、高扩展性、高效性、高容错性。
Hadoop的组成:
Hadoop1.x主要是MapReduce(负责计算和资源调度)这时还没有yarn、hdfs(数据存储)、common(辅助工具)。
Hadoop2.x和Hadoop3.x在组成上没太大区别:MapReduce(计算)、yarn(资源调度)、hdfs(数据存储)、common(辅助工具)
HDFS的概述:
其中主要包括namenode(nn)、DataNode(dn)、secondary namanode(2nn)
这就是今天初步学习的一些大数据知识。