PAI平台公共数据集导出

Step By Step

1、数据读取
2、数据导出到自己的maxcompute项目表
3、通过DataWorks下载数据
4、通过odps cmd下载数据


一、数据读取
这里以基于对象特征推荐实验为例,获取公共数据集数据:pai_online_project.tao_train
  • 1.1 模板创建实验

PAI平台公共数据集导出

  • 1.2 一键运行实验

PAI平台公共数据集导出

二、数据导出到自己的maxcompute项目表
  • 2.1 使用写数据表组件将数据写入到自己的maxcompute项目

PAI平台公共数据集导出

三、通过DataWorks下载数据
  • 3.1 创建odps sql查询数据,快速下载

PAI平台公共数据集导出

注意: 目前DataWorks界面一次下载数据的上限是10000条,如果数据集超过1万条,无法通过修改SQL分次下载实现,建议可以通过DataWorks的数据集成功能,将数据导出到阿里云MySQL数据库或者本地支持公网连接的MySQL数据库。

四、通过odps cli下载数据
tunnel 命令是专门用来上传下载maxcompute数据的,也不受10000条下载的限制
  • 下载指令
tunnel download download_table_test log.txt //下载指定表数据

cli客户端工具安装:MaxCompute客户端(odpscmd)


相关参考

数据集成导出数据
数据上传下载常见问题

上一篇:阿里云PAI Studio Python脚本组件使用Quick Start


下一篇:阿里云机器学习模型在线服务自定义Processor部署PMML模型(一)