《Hadoop与大数据挖掘》——导读


《Hadoop与大数据挖掘》——导读

前  言

为什么要写这本书

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

早在2012年,大数据(big data)一词已经被广泛提起,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。那时就有人预计,从2013年至2020年,全球数据规模将增长10倍,每年产生的数据量将由当时的4.4万亿GB,增长至44万亿GB,每两年翻一番。

既然“大数据”浪潮已经来临,那么与之对应的大数据人才呢?在国外,大数据技术发展正如火如荼,各种方便大家学习的资料、教程应有尽有。但是,在国内,这种资料却是有“门槛”的。其一,这类资料是英文的,对于部分人员来说,阅读是有难度的;其二,这些资料对于初学者或在校生来说,在理论理解上也有一些难度,没有充分的动手实践来协助理解大数据相关技术的原理、架构等;其三,在如何应用大数据技术来解决企业实实在在遇到的大数据相关问题方面,没有很好的资料;其四,对于企业用户来说,如何将大数据技术和数据挖掘技术相结合,对企业大量数据进行挖掘,以挖掘出有价值的信息,也是难点。

作为大数据相关技术,Hadoop无疑应用很广泛。Hadoop具有以下优势:高可靠性、高扩展性、高效性、高容错性、低成本、生态系统完善。

一般来说,使用Hadoop相关技术可以解决企业相关大数据应用,特别是结合诸如Mahout、Spark MLlib等技术,不仅可以对企业相关大数据进行基础分析,还能构建挖掘模型,挖掘企业大数据中有价值的信息。

对于学习大数据相关技术的高校师生来说,本书不仅提供了大数据相关技术的基础讲解及原理、架构分析,还针对这些原理,配备有对应的动手实践章节,帮助读者加深对原理、架构的认识。同时,在每个模块结束后,书中会有一个相对独立的企业应用案例,帮助读者巩固学到的大数据技术相关知识。

对于企业用户或大数据挖掘开发者来说,特别是对想要了解如何将大数据技术应用到企业大数据项目中的企业用户或者开发者来说,本书也是一份优秀的参考资料。

目 录

[第一篇 基础篇
第1章 浅谈大数据
1.1 大数据概述](https://yq.aliyun.com/articles/119062/)
1.2 大数据平台
1.3 本章小结
[第2章 大数据存储与运算利器—Hadoop
2.1 Hadoop概述](https://yq.aliyun.com/articles/119094/)
2.1.1 Hadoop简介
2.1.2 Hadoop存储—HDFS
2.1.3 Hadoop计算—MapReduce
2.1.4 Hadoop资源管理—YARN
2.1.5 Hadoop生态系统
2.2 Hadoop配置及IDE配置
2.2.1 准备工作
2.2.2 环境配置
2.2.3 集群启动关闭与监控
2.2.4 动手实践:一键式Hadoop集群启动关闭
2.2.5 动手实践:Hadoop IDE配置
2.3 Hadoop集群命令
2.3.1 HDFS常用命令hdfs dfs
2.3.2 动手实践:hdfs dfs命令实战
2.3.3 MapReduce常用命令mapred job
2.3.4 YARN常用命令yarn jar
2.3.5 动手实践:运行MapReduce任务
2.4 Hadoop编程开发
2.4.1 HDFS Java API操作
2.4.2 MapReduce原理
2.4.3 动手实践:编写Word Count程序并打包运行
2.4.4 MapReduce组件分析与编程实践
2.5 K-Means算法原理及HadoopMapReduce实现
2.5.1 K-Means算法原理
2.5.2 动手实践:K-Means算法实现
2.5.3 Hadoop K-Means算法实现思路
2.5.4 Hadoop K-Means编程实现
2.6 TF-IDF算法原理及HadoopMapReduce实现
2.6.1 TF-IDF算法原理
2.6.2 Hadoop TF-IDF编程思路
2.6.3 Hadoop TF-IDF编程实现
2.7 本章小结

上一篇:ASP.NET的单值绑定


下一篇:linux系统之rpm打包