冰河的《海量数据处理与大数据技术实战》已经全面上架并正式开售将近10天了。说实话,在短短的10天内,书籍的总体销量还是不错的。光我知道的自己的公众号读者就入手100多本了。在此,感谢大家的支持和认可。
总之,非常感谢大家的认可和支持。
冰河把自己从事大数据多年的工作经验以通俗易懂的形式进行了总结,从基本原理到环境搭建,再到编程案例,完整讲解了大数据离线批处理处理技术和大数据在线实时处理技术。
本书总共分为四大篇章:
第一篇 大数据基础篇(第1~3章)
本篇主要对大数据的基础知识、Hadoop和Storm的基础知识和基本技术以及应用现状和发展趋势进行了简单的介绍。
第二篇 大数据离线批处理技术篇(第4~11章)
本篇主要介绍的是大数据离线批处理计算领域所涉及的技术和框架,包括:Hadoop、Hive和Sqoop。分别介绍了每种框架的基本原理和使用案例,包括:安装CentOS 6.8虚拟机环境,搭建每种框架的运行环境,分别以命令行和API方式实现HDFS的数据操作,以Java语言和Python语言实现多个Hadoop MapReduce开发案例,使用HiveQL操作Hive中的数据库和数据表以及自定义Hive函数,使用Sqoop实现HDFS与MySQL之间的数据导入导出。
第三篇 大数据在线实时处理技术篇(第12~17章)
本篇主要介绍了大数据在线实时计算领域所涉及的技术和框架,包括:Flume、Kafka和Storm。分别介绍了每种框架的基本原理和使用案例,包括:搭建每种框架的运行环境,Flume基于内存、文件和目录的Channel,Flume写数据到HDFS和Kafka,Flume采集Nginx日志到Hive、Flume采集Nginx日志到多个目标系统,自定义Flume的Agent,Flume监控,分别使用Java语言和Python语言实现Kafka客户端编程,使用Storm实现单词计数、追加字符串、聚合多种数据流、实现分组聚合和实现事务处理,实现Storm监控等。
第四篇 大数据处理实战案例篇(第18~22章)
本篇主要详解介绍了基于海量日志数据的分析统计系统的开发过程,介绍了系统的项目背景。在实现上将系统分为离线批处理计算子系统和在线实时计算子系统,分别介绍了两个子系统的需求、架构设计、功能设计、存储选型、技术选型、环境搭建和具体的系统实现过程。
对于渴望学习大数据的小伙伴,无论你是正在学习计算机专业的在校生,还是已经进入职场的新人,或者是已经在职场跌打滚爬多年的老手,这本《海量数据处理与大数据技术实战》都能够帮助你更加清晰的理解构建大数据平台的基础设施与框架,帮助你更好的掌握大数据核心技术。
在写书的过程中,冰河深切的感受到:写书真的是一件非常艰苦的事情,它与写博客和写文章是不可同日而语的。但是,看到小伙伴们的认可和支持,即使再辛苦也是值得的!