大数据和hadoop有什么关系？

2023-08-09 13:22:58

本文资料来自百度文库相关文档

Hadoop，Spark和Storm是目前最重要的三大分布式计算系统，Hadoop常用于离线的复杂的大数据处理，Spark常用于离线的快速的大数据处理，而Storm常用于在线的实时的大数据处理。

简单说，Hadoop或者说Hadoop生态圈，是为了解决大数据应用场景而出现的，它包含了文件系统、计算框架、调度系统等，Spark是Hadoop生态圈里的一种分布式计算引擎。

大数据就是Hadoop吗?当然不是，但是很多人一提到大数据就会立刻想到Hadoop。现在数据科学家利用海量数据创建数据模型为企业带来的利益是以前所不可想象的，但是数据的潜力已经被完全挖掘出来了吗，它满足了人们的期待了吗?今天小编就从Hadoop项目开始为你抽丝剥茧了解hadoop。

Hadoop是什么？
Hadoop是一个对海量数据进行处理的分布式系统架构，可以理解为Hadoop就是一个对大量的数据进行分析的工具，和其他组件搭配使用，来完成对大量数据的收集、存储和计算。
下面就以千锋教育的hadoop教学实战项目为例，为hadoop做一个详细的解析：
项目说明:hadoop_storm_spark结合实验的例子，模拟双11，根据订单详细信息，汇总出总销售量，各个地区销售排行，以及后期的SQL分析，数据分析，数据挖掘等。

- 第一阶段（storm实时报表）
- (1)用户订单入kafka队列，
- (2)经过storm，实时计算出总销售量，和各个省份的的销售量，
- (3)将计算结果保存到hbase数据库中。

- 第二阶段（离线报表）
- (1)用户订单入oracle数据库，
- (2)通过sqoop把数据导入hadoop上。
- (3)使用mr和rdd对hadoop上的原始订单做etl清洗
- (4)建立hive表和sparkSQL内存表。为后期分析做基础
- (5)使用HQL实现业务指标分析，和用户画像分析，将结果存在mysql中。供web前台使用

- 第三阶段（大规模订单即席查询,和多维度查询）
- (1)用户订单入oracle数据库，
- (2)通过sqoop把数据导入hadoop上。
- (3)写mr把hadoop的数据加载到hbase上
- (4)使用hbase java api实现订单的即席查询
- (5)solr绑定hbase，做多维度的条件查询

- 第四阶段（数据挖掘和图计算）
- (1)用户订单入oracle数据库，
- (2)通过sqoop把数据导入hadoop上。
- (3)使用mr和rdd对hadoop上的原始订单做etl清洗

总的来说Hadoop适合应用于大数据存储和大数据分析的应用，适合于服务器几千台到几万台的集群运行，支持PB级的存储容量。
Hadoop典型应用有：搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。

码农公寓

相关文章