王家林的81门一站式云计算分布式大数据&移动互联网解决方案课程第三门课程:云计算分布式大数据Hadoop征服之旅:HDFS&MapReduce&HBase&Hive&集群管理

一:课程简介:

作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生,使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的、高效,的、可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择。

本课程会助你深入浅出的掌握Hadoop开发(包括HDFS、MapReduce、HBase、Hive等),并且在此基础上掌握Hadoop集群的配置、维护、管理、监控、运维、测试、优化等主题,理论结合实际案例;助你轻松驾驭Hadoop以满足大数据的分布式处理与存储。

二:课程特色

1,      一次性贯通Hadoop开发和集群管理;

2,      掌握Hadoop四大焦点:MapReduce、HDFS、HBase、Hive

3,      涵盖Hadoop集群的配置、维护、管理、监控、运维、测试、优化等主题

4,      强调动手实战

 

三:适合对象:

   软件工程师;

    数据库开发人员;

    网络后台开发人员;

    运维人员;

四:基础要求

   了解Linux系统;

    了解网络;

    了解Java;

五:讲师简介

Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的*爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发中国电信的多次Hadoop培训,花旗银行的Hadoop内训,金立手机的Hadoop内训等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

Android架构师、高级工程师、咨询顾问、培训专家;     

通晓Android、HTML5、Hadoop,迷恋英语播音和健美;

致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;

国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

超过10本的IT畅销书作者;

 

六:培训内容

 

时间

内容

备注

第一天

第1个主题:Hadoop思考

1.Hadoop的设计目标和适用场景

2.Hadoop架构解析

3.MapReduce工作原理和案例说明

 

第2个主题: Hadoop安装和配置实战

1. 安装和配置单机版Hadoop实战

2. 安装和配置伪分布式Hadoop实战

3.安装和配置分布式Hadoop集群实战

 

第3个主题:HDFS

1. HDFS命令行操作实战

2. HDFS的配置管理

3. NameNode的工作机制

 

第4个主题:HDFS案例实战

1. HDFS案例的分析和设计

2. 环境搭建

3.使用Hadoop Java API实现对HDFS写入、读取、删除文件等操作

 

第5个主题:MapReduce剖析

1. MapReduce的原理和运行过程  

2. 构建MapReduce的开发环境

 

第6个主题:MapReduce案例实战

1. 使用MapReduce的Java接口实现经典的WordCount 

2. wordcount运行过程解析

3. MapReduce实现数据去重操作

4. MapReduce实现数据排序

5. MapReduce实现数据平均数据的计算

 

 

时间

内容

备注

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第二天

第1个主题:HBase架构设计和实现剖析

1. HBase架构设计

2. HBase中的表结构等

3. HBase:Master、Region、Region Server

 

第2个主题:HBase案例实战1---使用HBase实现微博系统

1. 项目架构和设计

2. 开发环境搭建

3. 实现用户登录和注销

4.“关注”功能的设计和实现

5.“发微博”功能的设计和实现

6.发布和运行整个基于HBase的微博系统

 

第3个主题:HBase与MapReduce

1. HBase与MapReduce的关系

2. HBase如何使用MapReduce

 

第4个主题:HBase案例实战2---话单查询与统计

1. 项目架构设计

2. 开发环境搭建

3. 话单入库和查询的设计与实现

4.统计功能的设计与实现

 

第5个主题:MapReduce高级实战

1. Split实现剖析

2. 自定义输入的实现

3. Reduce的partition 

4. 案例实战

 

第6个主题:安装和使用Hive

1. Hive剖析

2. 安装Hive

3.Hive的基本使用

 

第7个主题:Hive与HDFS、MapReduce

1. Hive向HDFS存入结构化数据

2. 使用MySQL作为Hive的元数据库

3.Hive与MapReduce

 

第8个主题:Hive案例实战---数据统计

1. 项目架构设计

2. 表结构设计

3.数据的插入与统计实现

 

 

时间

内容

备注

第三天

第1个主题:Hadoop集群配置:机架感知,开启压缩和任务均衡

  1. Hadoop 集群安装和开启LZO压缩
  2. Hadoop 配置集群具备机架感知
  3. Hadoop 集群开启公平任务调度器
  4. Hadoop 集群开启能力任务调度器

 

第2个主题:Hadoop 集群维护与管理

  1. 查看集群状态
  2. HDFS数据管理
  3. Mapreduce 任务管理
  4. HDFS安全模式
  5. 模拟集群Namenode,jobtrack失效
  6. 添加删除节点
  7. 数据平衡
  8. 文件数据跨集群拷贝
  9. 集群升级

 

第3个主题:Hadoop 集群规划和测试

  1. 集群规划(硬件,系统,网络)

2. 集群性能测试

 

第4个主题:Hadoop 集群监控和运维

1. 使用Ganglia 监控Hadoop集群

2. 使用Cacti 监控操作系统

 

第5个主题:Hadoop HDFS高可用

  1. Hadoop 元数据NFS备份方案

2. Hadoop SecondaryNameNode备份方案

3. Hadoop CheckpointNode备份方案

4. Hadoop BackupNode备份方案

Hadoop Cloudera HA Namenode 方案

 

第6个主题:Hadoop开发者之路

1. Hadoop技能模型

2. Hadoop开发者最佳学习路线和方式

3.Hadoop开发者最佳成长路线

 

 

 

王家林的81门一站式云计算分布式大数据&移动互联网解决方案课程第三门课程:云计算分布式大数据Hadoop征服之旅:HDFS&MapReduce&HBase&Hive&集群管理

上一篇:windows环境下配置zookeeper


下一篇:tesseract ocr文字识别Android实例程序和训练工具全部源代码