04 Hadoop思想与原理

2024-03-02 17:58:58

什么是hadoop

adoop起源于开源网络搜索引擎Apache Nutch，后者本身也是Lucene项目的一部分。Nutch项目面世后，面对数据量巨大的网页显示出了架构的灵活性不够。当时正好借鉴了谷歌分布式文件系统，做出了自己的开源系统NDFS分布式文件系统。第二年谷歌又发表了论文介绍了MapReduce系统，Nutch开发人员也开发出了MapReduce系统。随后NDFS和MapReduce命名为Hadoop，成为了Apache*项目。从Hadoop的发展历程来看，它的思想来源于Google的三篇技术性论文，一是GFS：Goolgle　File　System分布式处理系统，这解决了Hadoop的存储问题；二是Mapreduce：分布式计算模型，这解决了Hadoop对数据进行计算处理的问题；三是BigTable，这解决了查询分布式存储文件慢的问题。

Hadoop是一个对海量数据存储和海量数据分析计算的分布式系统。
Hadoop 1.x
            海量数据存储 ----> HDFS
            海量数据分析计算 ----> MapReduce
       Hadoop 2.x 增加
            资源调度系统 ----> Yarn
从hadoop最初的原型来看，hadoop已经远远超过了本身的批处理。从广义上来说，hadoop现在可以是指更广泛的一个hadoop生态了，而不仅仅是HDFS，MapReduce和Yarn。例如Hive，Hbase，Flume，Sqoop等等项目都属于这个生态。

码农公寓

相关文章