《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一第一部分批处理层

2022-04-23 00:37:23

本节书摘来自华章出版社《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一书中的第一部分，南森·马茨（Nathan Marz） [美]　詹姆斯·沃伦（JamesWarren）　著马延辉　向　磊　魏东琦　译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第一部分

批处理层

第一部分主要介绍Lambda架构的批处理层。这部分的章节结合示例讲述相关理论。
第2章探讨了如何对主数据集中的数据进行建模和视图化。
第3章使用Apache Thrift工具来阐述第2章涉及的概念。
第4章探讨了主数据集的存储要求。你会发现数据库解决方案提供的许多典型特性不适用于主数据集，而且实际上阻碍了主数据存储的优化。一个更简单、更精致的全能型存储解决方案可以更好地满足需求。
第5章使用Hadoop的分布式文件系统来阐述主数据集的物理存储。
第6章探讨了在主数据集上使用MapReduce范式来计算任意的函数。一般来说，MapReduce足以计算任何可扩展的函数。尽管MapReduce是强大的，但是你会发现更高阶的抽象应用程序会使它变得更容易使用。
第7章会介绍一个名为JCascalog的强大MapReduce高阶抽象应用。
为了将所有概念联系起来，第8章和第9章给出了为运行SuperWebAnalytics.com示例而实现的完整批处理层。其中，第8章介绍总体架构和算法，而第9章详细介绍工作代码。

码农公寓

第一部分

批 处 理 层

相关文章

批处理层