阿里云机器学习平台PAI使用简明教程(二)

Step By Step


1、Dataworks 数据集成
  • 1.1 配置数据源

阿里云机器学习平台PAI使用简明教程(二)

阿里云机器学习平台PAI使用简明教程(二)

白名单
目前支持的数据源

  • 1.2 Mysql数据库表
/*------- CREATE SQL---------*/
CREATE TABLE `paitable` (
  `f0` double DEFAULT NULL,
  `f1` double DEFAULT NULL,
  `f2` double DEFAULT NULL,
  `f3` double DEFAULT NULL,
  `label` bigint(20) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8
INSERT INTO `paitable` VALUES(1,0,0,0,0);
INSERT INTO `paitable` VALUES(0,1,0,0,0);
INSERT INTO `paitable` VALUES(0,0,1,0,1);
INSERT INTO `paitable` VALUES(0,0,0,1,1);
INSERT INTO `paitable` VALUES(1,0,0,0,0);
INSERT INTO `paitable` VALUES(0,1,0,0,0);

SELECT * FROM paitable;

阿里云机器学习平台PAI使用简明教程(二)

  • 1.3 maxcompute数据表
drop table if exists dual;
create table dual (f0 DOUBLE ,f1 DOUBLE ,f2 DOUBLE ,f3 DOUBLE,label BIGINT);

特别提示 特别提示 特别提示

目前因为PAI Studio兼容的数据类型有限,所以在maxcompute中建表的数据类型只能是如下几种:
bigint
double
decimal
boolean
datatime
string
本身maxcompute支持的数据类型很多,如果表中字段包含了其它类型,在PAI Studio 读数据表组件查询不到相关的表。

1.4 配置离线同步

阿里云机器学习平台PAI使用简明教程(二)

阿里云机器学习平台PAI使用简明教程(二)

阿里云机器学习平台PAI使用简明教程(二)

1.5 离线同步

阿里云机器学习平台PAI使用简明教程(二)

2020-02-29 13:00:13.384 [job-226408512] INFO  JobContainer -
任务启动时刻                    : 2020-02-29 12:59:49
任务结束时刻                    : 2020-02-29 13:00:13
任务总计耗时                    :                 24s
任务平均流量                    :                1B/s
记录写入速度                    :              0rec/s
读出记录总数                    :                   6
读写失败总数                    :                   0

阿里云机器学习平台PAI使用简明教程(二)


2 PAI Studio GBDT二分类组件使用

2.1 模块搭建及参数配置

阿里云机器学习平台PAI使用简明教程(二)

阿里云机器学习平台PAI使用简明教程(二)

阿里云机器学习平台PAI使用简明教程(二)

阿里云机器学习平台PAI使用简明教程(二)

2.2 训练及结果查看

阿里云机器学习平台PAI使用简明教程(二)

阿里云机器学习平台PAI使用简明教程(二)

阿里云机器学习平台PAI使用简明教程(二)

参考链接

GBDT二分类
阿里云机器学习平台PAI使用简明教程

上一篇:网站有收录没排名的原因与解决办法


下一篇:Linux平台用C++实现事件对象,同步线程