《Hadoop实战手册》一导读


《Hadoop实战手册》一导读

前 言

Hadoop实战手册
本书能帮助开发者更方便地使用Hadoop,从而熟练地解决问题。读者会更加熟悉Hadoop相关的各种工具从而进行最佳的实践。

本书指导读者使用各种工具解决各种问题。这些工具包括:Apache Hive、Pig、MapReduce、Mahout、Giraph、HDFS、Accumulo、Redis以及Ganglia。

本书提供了深入的解释以及代码实例。每章的内容包含一组问题集的描述,并对面临的技术挑战提出了解决方案,最后完整地解决了这些问题。每节将单一问题分解成不同的步骤,这样更容易按照步骤执行相关操作。本书覆盖的内容包括:关于HDFS的导入、导出数据,使用Giraph进行图分析,使用Hive、Pig以及MapReduce进行批量数据分析,使用Mahout进行机器学习方法,调试并修改MapReduce作业的错误,使用Apache Accumulo对结构数据进行列存储与检索。

本书的示例中涉及的Hadoop技术同样也可以应用于读者自己所面对的问题。

目 录

第1章 Hadoop分布式文件系统——导入和导出数据
1.1 介绍
1.2 使用Hadoop shell命令导入和导出数据到HDFS
1.3 使用distcp实现集群间数据复制
1.4 使用Sqoop从MySQL数据库导入数据到HDFS[](https://yq.aliyun.com/articles/96750)
1.5 使用Sqoop从HDFS导出数据到MySQL
1.6 配置Sqoop以支持SQL Server
1.7 从HDFS导出数据到MongoDB
1.8 从MongoDB导入数据到HDFS
1.9 使用Pig从HDFS导出数据到MongoDB
1.10 在Greenplum外部表中使用HDFS
1.11 利用Flume加载数据到HDFS中
第2章HDFS
第3章 抽取和转换数据
第4章使用Hive、Pig和MapReduce处理常见的任务
第5章高级连接操作
第6章大数据分析
第7章高级大数据分析
第8章调试
第9章系统管理
第10章使用Apache Accumulo进行持久化

上一篇:是什么让程序员成了一份苦逼的工作?


下一篇:历史首次,阿里云用互联网技术将亚运会送到了斐济、柬埔寨