Apache Spark机器学习.1.9　小结

2021-07-19 12:17:04

1.9　小结

本章介绍了Apache Spark所有的基础知识，这也是所有想把Apache Spark应用于机器学习实际项目的从业者必须理解掌握的。我们重点探讨了Apache Spark计算，并涉及一些最重要的机器学习组件，以便把Apache Spark和机器学习关联起来，让开展机器学习项目的读者做好充分准备。

第一，我们作了Spark总体概述，还讨论了Spark优点以及面向机器学习的Spark计算模型。

第二，我们回顾了机器学习算法，Spark的MLlib库和其他机器学习库。

第三，讨论了Spark RDD的核心创新和DataFrame，以及用于R语言的Spark DataFrame API。

第四，我们回顾了一些机器学习框架，通过案例具体讨论了机器学习的RM4E框架，进一步讨论了Spark机器学习计算框架。

第五，我们讨论了机器学习的工作流，并举例说明，然后介绍了Spark pipeline模型及其API。

最后，我们研究了用于机器学习的notebook方法，回顾了R语言notebook Markdown标签格式，然后讨论了Databricks提供的Spark notebook，通过应用Spark notebook，我们可以便捷地为机器学习实践融合上述所有的Spark元素。

结合上述讨论的Spark基础知识，读者可以着手准备使用Apache Spark开展机器学习项目。为此，我们将在下一章讲述Spark数据准备工作，然后在第3章讨论第一个实际生活中的机器学习项目。

码农公寓