大数据编年史

不了解大数据的历史,就没有真正掌握大数据。接下来,一起看一下开源大数据的发展历程,看它是如何顺应时代而诞生的。

大数据初期

大数据编年史

首先在2002年的时候,Doug Cutting、Mike Cafarella创建了开源网页爬虫项目Nutch,而爬虫的特征就是源源不断的爬取数据,那这样就急需一种解决方案来存储这些海量的数据,并且可以随着数据量的增长而扩展。

恰好在第二年(2003年),Google发表了Google File System论文,论述的就是一种新型的分布式文件系统,可以满足海量数据的存储。

于是2004年,Doug Cutting、Mike Cafarella在Nutch中实现了GFS的功能,这就是著名的HDFS(Hadoop Distributed File System)的前身。

但数据存储起来之后,只有经过处理运算,才能发挥其应有的作用。在2004年07月,Google发表了MapReduce论文,论述了如何在分布式文件系统GFS上进行分布式运算。

依然是第二年,Mike Cafarella在Nutch中实现了MapReduce的功能。

至此,其实大数据就已经初具成型了,因为海量数据的存储有了,在数据存储之上的分布式运算也解决了,接下来就等待这两种技术的逐渐成熟。之后,有一个公司,为开源大数据打了一针强心剂,引领了大数据的发展。

2006年,Doug Cutting加入Yahoo&#

上一篇:Vi快捷操作 vim配置【shell文件格式从windows转换为linux】


下一篇:【Python 第16课】 字符串格式化