大数据编年史

2023-12-05 17:06:28

不了解大数据的历史，就没有真正掌握大数据。接下来，一起看一下开源大数据的发展历程，看它是如何顺应时代而诞生的。

首先在2002年的时候，Doug Cutting、Mike Cafarella创建了开源网页爬虫项目Nutch，而爬虫的特征就是源源不断的爬取数据，那这样就急需一种解决方案来存储这些海量的数据，并且可以随着数据量的增长而扩展。

恰好在第二年（2003年），Google发表了Google File System论文，论述的就是一种新型的分布式文件系统，可以满足海量数据的存储。

于是2004年，Doug Cutting、Mike Cafarella在Nutch中实现了GFS的功能，这就是著名的HDFS（Hadoop Distributed File System）的前身。

但数据存储起来之后，只有经过处理运算，才能发挥其应有的作用。在2004年07月，Google发表了MapReduce论文，论述了如何在分布式文件系统GFS上进行分布式运算。

依然是第二年，Mike Cafarella在Nutch中实现了MapReduce的功能。

至此，其实大数据就已经初具成型了，因为海量数据的存储有了，在数据存储之上的分布式运算也解决了，接下来就等待这两种技术的逐渐成熟。之后，有一个公司，为开源大数据打了一针强心剂，引领了大数据的发展。

2006年，Doug Cutting加入Yahoo&#

码农公寓