如何自定义开发算法组件

2022-11-01 14:32:16

一、目的

使用【阿里云-机器学习PAI-pai studio】，用python开发自定义算法组件，并且上传内网，发布部署到PAI平台。但是我现在准备好数据源（已经数据清洗，拆分后），执行到我自定义开发的组件（python工程），就卡住了，也不报错，初步判断是无法接收上面组件节点传来的参数，请问该如何处理？

①、开发语言：python

②、开发框架：TensorFlow（最好不要用，导入TensorFlow库后，项目非常大）

③、平台：阿里云，机器学习PAI，DataWorks

④、目录结构

现在纯python的代码开发完毕了。将我的python项目，打包成tar.gz包，然后上传内网的机器学习PAI平台。具体的【上传-发布-订阅-拖动组件到实验桌布-配置-运行】这套流程已经熟悉。

包括：【数据源表】→【SQL脚本-3】→【拆分-3】→【am.pre...006-1(我自己开发的算法组件)】→【预测-3】

我创建了1个实验，3个分支，左边2个流程是我用官方给的组件做的流程对照组。右边第3个流程是我自己开发的流程，用来完成个性化算法。

实验进行到【am.pre...006-1】(我自己开发的算法组件)就卡住了。这里初步推断是我自己开发的组件（python项目）中，没有使用机器学习PAI平台，规范的入参接口代码，接下来开始寻找，组件之间如何交互（传参）。

三、解决问题

3.1、搜集资料

目前，我照着这个帖子进行

②、资料②

这里面的demo中，是最基本的代码，只有导包tensorflow和打印语句。

进入【TensorFlow_example】目录后：

点击查看train.py文件内容，这里告诉了我们如何引入tensorflow组件，没有设计组件之间如何交互的问题。

3.2、工单询问阿里云-机器学习PAI平台工程师

3.3、与同事交流