Spark Pipeline

2024-03-04 20:02:30

　　一个简单的Pipeline，用作estimator。Pipeline由有序列的stages组成，每个stage是一个Estimator或者一个Transformer。

　　当Pipeline调用fit，stages按顺序被执行。如果一个stage是一个Estimator，将调用Estimator的fit方法，使用“输入dataset”来拟合一个模型。然后，作为transformer的model将dataset变换为下一个stage的输入。

　　如果一个stage是Transformer，调用Transformer的transform方法以产生下一个stage使用的数据集。

　　从Pipeline拟合的model是PipelineModel，其由fitted models和transformers组成如果没有stages，pipeline充当身份transformer。

码农公寓