周末查询了一些大数据相关的资料,今天简单以Hadoop的视角来总结一下我对大数据发展里程的总结:
2004:Google 发表大数据论文, “三驾马车”横空出世
2006:Nutch 搜索引擎 分离出 Hadoop
Doug Cutting 将大数据相关的功能从 Nutch 中分离出来
2007:陆续应用于 雅虎、百度、阿里 等企业
Hadoop 应用于互联网大厂的大数据存储与计算
-
Cloudera 成立,运营 Hadoop 的商业公司
-
Pig(Yahoo 开发) 脚本语言 转换为 MapReduce 任务
-
Hive (Facebook 开发) 用 SQL 转换为 MapReduce 任务
-
Cassandra (Facebook 开发) 分布式 NoSQL 数据库
2011:Hadoop 生态逐步形成
2012:Yarn 资源调度系统
Spark 开始崭露头角:源于 伯克利 AMP 实验室。
新概念引入:
-
批处理计算、大数据离线计算
-
代表:MapReduce、Spark
大数据流计算、大数据实时计算
-
代表:Storm、Flink、Spark Streaming
大数据分析与大数据仓库
-
代表:Hive、Spark SQL
大数据挖掘与机器学习
-
代表:Mahout、MLlib、TensorFlow
本次总结粒度比较粗,面相对窄。后续我们继续