不了解大数据的历史,就没有真正掌握大数据。接下来,一起看一下开源大数据的发展历程,看它是如何顺应时代而诞生的。
大数据初期
首先在2002年的时候,Doug Cutting、Mike Cafarella创建了开源网页爬虫项目Nutch,而爬虫的特征就是源源不断的爬取数据,那这样就急需一种解决方案来存储这些海量的数据,并且可以随着数据量的增长而扩展。
恰好在第二年(2003年),Google发表了Google File System论文,论述的就是一种新型的分布式文件系统,可以满足海量数据的存储。
于是2004年,Doug Cutting、Mike Cafarella在Nutch中实现了GFS的功能,这就是著名的HDFS(Hadoop Distributed File System)的前身。
但数据存储起来之后,只有经过处理运算,才能发挥其应有的作用。在2004年07月,Google发表了MapReduce论文,论述了如何在分布式文件系统GFS上进行分布式运算。
依然是第二年,Mike Cafarella在Nutch中实现了MapReduce的功能。
至此,其实大数据就已经初具成型了,因为海量数据的存储有了,在数据存储之上的分布式运算也解决了,接下来就等待这两种技术的逐渐成熟。之后,有一个公司,为开源大数据打了一针强心剂,引领了大数据的发展。
2006年,Doug Cutting加入Yahoo&#