《Spark大数据分析实战》——第3章BDAS简介

2023-09-29 13:42:34

本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章BDAS简介，作者高彦杰　倪亚宇，更多章节内容可以访问云栖社区“华章社区”公众号查看

第3章
BDAS简介
提到Spark不得不说伯克利大学AMPLab开发的BDAS（Berkeley Data Analytics Stack）数据分析的软件栈，如图3-1所示是其中的Spark生态系统。其中用内存分布式大数据计算引擎Spark替代原有的MapReduce，上层通过Spark SQL替代Hive等SQL on Hadoop系统，Spark Streaming替换Storm等流式计算框架，GraphX替换GraphLab等大规模图计算框架，MLlib替换Mahout等机器学习框架等，其整体框架基于内存计算解决了原来Hadoop的性能瓶颈问题。AmpLab提出One Framework to Rule Them All的理念，用户可以利用Spark一站式构建自己的数据分析流水线。
在一些数据分析应用中，用户可以使用Spark SQL预处理结构化数据，GraphX预处理图数据，Spark Streaming实时捕获和处理流数据，最终通过MLlib将数据融合，进行模型训练，底层各个系统通过Spark进行运算。
下面将介绍其中主要的项目。

码农公寓

相关文章