本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章,第3.5节本章小结,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看
3.5 本章小结
本章主要介绍了BDAS中广泛应用的几个数据分析组件。SQL on Spark提供在Spark上的SQL查询功能。让用户可以基于内存计算和SQL进行大数据分析。通过Spark Streaming,用户可以构建实时流处理应用,其高吞吐量,以及适合历史和实时数据混合分析的特性使其在流数据处理框架中突出重围。GraphX充当Spark生态系统中图计算的角色,其简洁的API让图处理算法的书写更加便捷。最后介绍了MLlib——Spark上的机器学习库,它充分利用Spark内存计算和适合迭代的特性,使分布式系统与并行机器学习算法实现了完美的结合。相信随着Spark生态系统的日臻完善,这些组件还会取得长足发展。