看云栖说云栖 —— 机器学习PAI

以下是一段用蒙特卡洛法求PAI近似值的python程序
程序每迭代一百万次打印一下结果。

看云栖说云栖 —— 机器学习PAI

以下内容来自阿里云2019杭州云栖大会《机器学习专场》。
说实话,在这个分会场我听懂的东西并不太多。那我就近似的讲一讲吧,假如偏差比较大的话,那是因为迭代的次数还不够多。

开场演讲的题目叫做《机器学习平台的建设和思考》。
首先回顾了阿里云机器学习平台PAI的建设历程,最初在阿里巴巴也是各个业务团队自建机器学习平台,在2014年阿里云完成登月计划统一大数据分析平台后也开始统一机器学习平台,当时的叫法是大规模参数服务器。这个平台在2015年支撑了淘宝的千人前面的推荐,正好在2015年Google开源了TensorFlow,引发了深度学习的热潮,降低了算法开发的门槛,阿里云在2016年发布了PAI1.0,但是很多人还是希望使用深度学习,在2017年PAI 2.0发布,引入了深度学习,从2018年以来,PAI更加注重平台化和系统化,更加注重AI的自动化,让使用者更加关注模型本身,由PAI来完成各种异构硬件的高效优化和执行,加速用户上线业务模型的速度,通过PAI系统的优化能力来提高效率,降低成本。后面的几个演讲都是围绕PAI如何进行系统的优化来提高效率的,包括《支持超大规模稀疏数据训练的深度学习引擎PAI-Tensorflow》、《PAI-Blade 一站式通用推理优化框架》、《EFlops集群:面向大规模AI训练的硬件基础设施》。从打磨Tensorflow框架到推理引擎的优化、再到网络和硬件基础设施层面的优化,总之阿里巴巴有很多人用围绕深度学习做了大量的优化工作,比起自己攒机器鼓捣Tensorflow肯定是要事倍功半。

还有两个演讲分别是有关Flink和Spark生态的。
《PAI-Alink:基于Flink的通用算法平台》讲的是阿里巴巴基于Flink的在线实时机器学习库,包含常用的统计分析、机器学习、文本处理、推荐、异常检测等算法,覆盖了数据分析、建模和部署的全部流程。这个平台的关键优势是支持数十种数据源的流/批式读写。
批式读写支持:

  • MaxCompute
  • CSV
  • Mongo
  • MySQL
  • AliHbase
  • TDDL
  • 随机表/张量

流式读写:

  • MaxCompute
  • DataHub
  • CSV
  • Tair
  • MetaQ
  • Notify
  • SLS
  • Swift
  • AliHbase
  • TDDL
  • Surfire
  • TableStore
  • Kafka
  • ElasticSearch

从Flink 1.9开始,Flink原有的机器学习库FlinkML已经不再支持,转为使用Alink的算法,目标是覆盖SparkML的全部算法并在性能上持平或超过。

《基于Spark和TensorFlow的机器学习实践》讲的是在阿里云EMR托管Hadoop集群上的Tensorflow on Spark。假如您对Hadoop生态情有独钟,并希望使用Tensorflow也可以使用这个产品。
TensorFlow on Spark的设计目标包括:

  • 方便的与现有的Spark数据处理流程结合
  • 用户现有TensorFlow程序不需要改动就可以迁移
  • 支持TensorFlow的所有功能
  • 支持高效的数据传输,加速从特征工程到训练时间
  • PAI TensorFlow底层的通信优化及大量的算法组件
  • 快速支持各种框架接入,包括MXNet,Caffe

在客户分享环节,请到了携程和一家一站式育儿服务平台「亲宝宝」来进行分享。在携程的案例中主要使用了Flink和TensorFlow来进行异常检测的实时告警,而在亲宝宝的案例中使用MaxCompute和PAI来进行用户画像和个性化推荐。

前面讲了那么多,最后一个演讲《云原生一站式机器学习平台PAI》才是整体介绍PAI这个产品的。
PAI这个产品最大的应用场景就是手机淘宝的个性化推荐,手机淘宝拥有7.55亿移动月活用户、数十亿的商品、需要结合用户的购买力、兴趣、年龄、家庭等要素进行推荐。

从2012年发展到现在,目前整个PAI平台包括五大部分:

  • PAI-AutoLearning、自动学习,可零门槛使用。
  • PAI-Studio、可视化建模,通过拖拉拽的方式组合200种算法,可支持百亿特征样本。
  • PAI-DSW、NoteBook建模,提供jupyter开发环境和深度优化的TensorFlow实现神经网络的可视化编辑,新近增加pytorch支持。
  • PAI-EAS、模型在线服务,通过上述三种方式建立的模型可以一键部署到云端。
  • 智能生态市场、就像淘宝一样链接技术提供与业务需求方。
上一篇:数据库那些事儿?


下一篇:阿里云独门绝技之无代理混合云数据库实时增量备份