《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一第一部分 批 处 理 层

本节书摘来自华章出版社《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一书中的第一部分,南森·马茨(Nathan Marz) [美] 詹姆斯·沃伦(JamesWarren) 著 马延辉 向 磊 魏东琦 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第一部分

批 处 理 层

第一部分主要介绍Lambda架构的批处理层。这部分的章节结合示例讲述相关理论。
第2章探讨了如何对主数据集中的数据进行建模和视图化。
第3章使用Apache Thrift工具来阐述第2章涉及的概念。
第4章探讨了主数据集的存储要求。你会发现数据库解决方案提供的许多典型特性不适用于主数据集,而且实际上阻碍了主数据存储的优化。一个更简单、更精致的全能型存储解决方案可以更好地满足需求。
第5章使用Hadoop的分布式文件系统来阐述主数据集的物理存储。
第6章探讨了在主数据集上使用MapReduce范式来计算任意的函数。一般来说,MapReduce足以计算任何可扩展的函数。尽管MapReduce是强大的,但是你会发现更高阶的抽象应用程序会使它变得更容易使用。
第7章会介绍一个名为JCascalog的强大MapReduce高阶抽象应用。
为了将所有概念联系起来,第8章和第9章给出了为运行SuperWebAnalytics.com示例而实现的完整批处理层。其中,第8章介绍总体架构和算法,而第9章详细介绍工作代码。

上一篇:《Hadoop实战手册》一1.10 在Greenplum外部表中使用HDFS


下一篇:大数据助力物流透明,不只为了你的快递