前 言
在过去的数年中,Hadoop已经成为数据集成平台的标准解决方案。各企业都在数据基础设施架构中融入新的技术,这要求系统工程师和数据管理员要迅速地掌握新组件的各个方面。由于Hadoop是一款包含多种软件的产品,其中集成了多种不同的开源项目,因此掌握这些技术并不简单,需要进行正确安装和配置才能确保Hadoop平台的健壮性和稳定性。
许多已有的Hadoop发行版本通过某种类型的图形界面来简化Hadoop的安装。这种方法极大地缩短了构建完整Hadoop集群所需的时间,同时也降低了管理集群配置的复杂性。自动化安装和配置的问题在于隐藏了许多有关Hadoop组件协同工作的重要细节,比如某些组件需要其他组件的原因或者哪些是最为关键的配置参数,等等。
本书前6章讲解如何手动安装和配置所有主要Hadoop组件。通过设置一个完全可运行的集群,你将会对Hadoop内部的运行机制产生一定的了解并且有助于你调试任何可能发生的问题。你也可以将第1~6章用作主要Hadoop组件和综合配置选项的快速参考。在编写本书的过程中,我自己在实际配置Hadoop集群时也参阅了本书来查找某个特定的变量或者在配置操作系统时寻找最佳步骤。这更加让我坚信,本书会为其他充满热情和经验丰富的Hadoop管理员与开发者提供帮助。
目前,许多组织在生产环境中实现Hadoop。当一个组织开始大数据之旅,大数据的安全就成为一个重要的问题,而保障敏感数据的安全具有最高的优先级。企业安全部门会担心将Hadoop集成到企业系统后带来的安全隐患。本书第7~13章则提供保障基于Hadoop的大数据平台安全的实现方案和最佳实践,覆盖Kerberos安全协议和Hadoop安全机制的设计思想,并且包括在企业内部来确保Hadoop及其生态系统安全的详细方法。这部分的目标是通过深入研究大数据安全参考架构,从企业视角提供端到端的大数据安全,并且详细介绍如何集成各种技术构建一个安全的大数据平台。
目 录
第1章 构建Hadoop集群
1.1 选择Hadoop集群硬件
1.2 Hadoop发行版
1.3 为Hadoop集群选择操作系统
1.4 小结
第2章 安装和配置Hadoop
2.1 在Hadoop集群中配置操作系统
2.2 设置NameNode
2.3 小结
第3章 配置Hadoop生态系统
3.1托管Hadoop生态项目
3.2 Sqoop
3.2.1安装和配置Sqoop
3.2.2 Sqoop导入示例
3.2.3 Sqoop导出示例
3.3 Hive
3.3.1Hive架构
3.3.2安装Hive Metastore
3.3.3 安装Hive客户端
3.3.4 安装Hive Server
3.4Impala
3.4.1 Impala架构
3.4.2 安装Impala state store
3.4.3 安装Impala server
3.5 小结