1.9 小结
本章介绍了Apache Spark所有的基础知识,这也是所有想把Apache Spark应用于机器学习实际项目的从业者必须理解掌握的。我们重点探讨了Apache Spark计算,并涉及一些最重要的机器学习组件,以便把Apache Spark和机器学习关联起来,让开展机器学习项目的读者做好充分准备。
第一,我们作了Spark总体概述,还讨论了Spark优点以及面向机器学习的Spark计算模型。
第二,我们回顾了机器学习算法,Spark的MLlib库和其他机器学习库。
第三,讨论了Spark RDD的核心创新和DataFrame,以及用于R语言的Spark DataFrame API。
第四,我们回顾了一些机器学习框架,通过案例具体讨论了机器学习的RM4E框架,进一步讨论了Spark机器学习计算框架。
第五,我们讨论了机器学习的工作流,并举例说明,然后介绍了Spark pipeline模型及其API。
最后,我们研究了用于机器学习的notebook方法,回顾了R语言notebook Markdown标签格式,然后讨论了Databricks提供的Spark notebook,通过应用Spark notebook,我们可以便捷地为机器学习实践融合上述所有的Spark元素。
结合上述讨论的Spark基础知识,读者可以着手准备使用Apache Spark开展机器学习项目。为此,我们将在下一章讲述Spark数据准备工作,然后在第3章讨论第一个实际生活中的机器学习项目。