去年谷歌发布了自己的AI集成化产品-AIHub,旨在解决当下数据科学从架构到落地的各种问题,包括各类分布式的算力资源(CPU, GPU, TPU,尤其在跨环境的情况,如将云端负载转移到本地那将是噩梦),数据科学团队的协同(工具、模型和解决方案等的复用)以及跨团队的协作--数据科学家不懂云,云架构师不懂特征工程,DBA不懂数据科学,而AIHub是谷歌推动企业数据科学协同的重要板块以及唯一的平台级工具。
毕竟企业AI不光是数据科学家的事,还需要业务分析团队从现有的数据中获取洞见;应用开发团队在程序中嵌入定制化机器学习模型的API;机器学习工程师构建CI/CD管道推动模型落地。当然还包括数据科学团队来建设和部署机器学习模型。
既然建立企业AI能力涉及到这么多角色和分工,势必不同团队需要功能不同但又互相交互的工具来协同工作。谷歌的AI技术栈自底向上包含了其云平台的物理资源,包括存储、计算与处理器,当然如果用户有自己的数据中心,也可以与GCP集成或以docker形式构建上层谷歌的AI技术栈。
基于GCP的云架构,官方会推荐使用托管的容器云服务,包括深度学习的专用虚拟机、AI平台的训练环境、自动机器学习的IDE等。如果底层是本地数据中心可以通过谷歌的K8S引擎或开源版的K8S自行搭建工具层(Kubeflow)的核心服务。
工具层包括了数据科学家最首席的notebook工具,面向敏捷开发的CI/CD管道(Kubeflow Pipeline)以及面向架构团队可以按需分布AI负载的Kubeflow Fairing。
这次发布的AIHub相当于是所有AI工具的中心,面向各协作团队提供了一站式搜索、快速部署以及内外部共享的产品体验。其中搜索功能包括了面向即插即用的AI管道和Google合作伙伴和用户创建的内容的快速搜索;快速部署包括了在GCP上通过Kubeflow对AI管道的一键式部署;共享体验包括了AI管道和制品的复用以及内容端的开放共享。
下面我们聊聊针对不同的协作方,AIHub提供的用户旅程。包括应用开发人员通过API部署智能应用;数据科学家通过AIHub发现、自定义、训练并共享机器学习模型;机器学习工程师整合端到端的机器学习路径形成AI产品。
首先对于开发人员来说,AIHub提供了各种开箱即用的认知服务接口,就像一个API超市一样,可以在左边栏选择输入的类别,例如图像、文字、语音或视频等,也可以根据接口类别来搜索。
我们拿之前微软认知服务识别不出来的两张图片来给谷歌做个测试,分别是恒隆广场和易烊千玺,结果发现谷歌的计算机视觉可以识别出来!而在微软的图像识别里仅能识别为一个建筑和一个男孩......可见谷歌对*人物的图像资源库要比微软更完备,哪怕它被*所封禁。
对于API调用的便利性,经过小编的体验,跟微软的认知服务配置差不多,一键启用自动机器学习,然后安装gcloud工具,同样需要输入秘钥并配置谷歌服务账户。
针对数据科学团队,AIHub页面里集成了Tensorflow的编译器,可以直接对训练模型进行校正(Kubeflow Fairing内含各种通用的卷积算法和归类算法),也可以将notebook分享给团队其他科学家以供校验。
对于机器学习工程师,他们并没有数学科学家的建模水平,他们更关注数据的输入和模型的输出及产品化,他们可以设计模块间的逻辑,前序输入、后续输出等等。通过Kubeflow Pipeline可以很方便地以拖拉拽的形式完成运算逻辑。
目前为止,埃森哲、英特尔、英伟达、思科等的云服务都是基于谷歌的AIHub和认知服务开发的自己的人工智能能力。