迄今为止,Hadoop 的发展已经经历了两代,分别为Hadoop 1.0 和Hadoop 2.0。与《Hadoop 权威指南(第3版)》相比,第4版在重点介绍Hadoop 2.0的基础上,新增了对当前热门的Hadoop 技术(如YARN、Parquet、Flume、Crunch和Spark)的专门讲解,有助于Hadoop开发者更好地理解相关技术的背景、原理及使用。此外,第4版还引入了Hadoop在医疗健康领域和分子生物学领域的最新应用成果,并为此新增了相关的实例学习,这对广大Hadoop用户而言,具有更好的实践指导意义。
今天,Hadoop 开源项目已经成为研究大数据、开发大数据应用的重要平台,在我国已经形成一个庞大的Hadoop用户社群,他们对学习、掌握和提高Hadoop提出了很高的需求,《Hadoop权威指南》系列版本的推出恰好可以满足这样的需要。该书从第1版发行以来,历次再版后的畅销也证明了它的用途和价值。
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,
第I部分介绍Hadoop基础知识,主题涉及Hadoop、 MapReduce、 Hadoop分布式文件系统、YARN、Hadoop 的I/O操作。
第II部分介绍MapReduce,主题包括MapReduce应用开发; MapReduce 的工作机制、MapReduce 的类型与格式、MapReduce 的特性。
第三部分介绍Hadoop的运维,主要涉及构建Hadoop集群、管理Hadoop。
第IV部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、 Flume、 Sqoop、 Pig、 Hive、 Crunch、 Spark、 HBase、 ZooKeeper。
第V部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。
本书是一本权威、全面的Hadoop参考与工具书,阐述了Hadoop生态圈的最新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解Hadoop集群的安装和运维。
目录总览由于篇幅限制小编,小编只在这里给大家展示目录及部分内容,有需要完整文档的程序猿(媛)可以帮忙转发+关注,公众号“愿天堂没有BUG”获取
第|部分Hadoop基础知识
第1章初识Hadoop
第2章关于MapReduce
第3章Hadoop 分布式文件系统
第4章关于YARN
第5章Hadoop的I/O操作
第2部分关于MapReduce
第6章MapReduce应用开发
第7章MapReduce的工作机制
第8章MapReduce的类型与格式
第9章MapReduce的特性
由于篇幅限制小编,pdf文档的详解资料太全面,细节内容实在太多啦,所以只把部分知识点截图出来粗略的介绍,每个小节点里面都有更细化的内容!不会只有大纲和目录,有需要的程序猿(媛)可以帮忙转发+关注,公众号“愿天堂没有BUG”获取
第3部分Hadoop的操作
第10章构建Hadoop集群
第11章管理Hadoop
第IV部分Hadoop相关开源项目
第12章关于Avro
第13章关于Parquet
第14章关于Flume
第15章关于Sqoop
第16章关于Pig
第17章关于HiveHive的shel环境
第18章关于Crunch
第19章关于Spark
第20章关于HBase
第21章关于ZooKeeper
第V部分案例学习
第22章医疗公司塞纳(Cerner) 的可聚合数据
第23章生物数据科学:用软件拯救生命
第24章开源项目Cascading
附录
附录A安装Apache Hadoop
附录B关于CDH
附录C准备NCDC气象数据
附录D新版和旧版JavaMapReduce API