1.6 机器学习工作流和Spark pipeline
在本节中,我们介绍机器学习工作流和Spark pipeline,然后讨论Spark pipeline作为机器学习计算工作流的优秀工具是如何发挥作用的。
学习完本节,读者将掌握这两个重要概念,并且为编程和实现机器学习工作流的Spark pipeline做好准备。
机器学习的工作流步骤
几乎所有的机器学习项目均涉及数据清洗、特征挖掘、模型估计、模型评估,然后是结果解释,这些都可以组织为循序渐进的工作流。这些工作流有时称为分析过程。
有些人甚至定义机器学习是将数据转化为可执行的洞察结果的工作流,有些人会在工作流中增加对业务的理解或问题的定义,以作为他们工作的出发点。
在数据挖掘领域,跨行业数据挖掘标准过程(CRISP-DM)是一个被广泛接受和采用的标准流程。许多标准机器学习的工作流都只是CRISP-DM工作流某种形式上的变型。
正如上图所示,任何标准CRISP-DM的工作流都需要以下所有的6个步骤:
1.业务理解
2.数据理解
3.数据准备
4.建模
5.评估
6.部署
一些人可能会在其中补充分析方法选择和结果解释,以使其更加完整。对于复杂的机器学习项目,会有一些分支和反馈回路,使工作流程变得非常复杂。
换句话说,有一些机器学习的项目,在我们完成模型评估之后,可能会回到建模甚至是数据准备的步骤。在数据准备步骤之后,我们可以将其分为两种以上的建模类型分支。