摘要:2016年1月20日,阿里云大数据产品家族数加在上海正式发布,在两年之后的今天,阿里云的大数据产品又有了什么样的发展变化呢?本文中阿里云高级产品专家班公就将为大家揭秘阿里巴巴大数据技术前瞻与案例。
本文内容根据演讲视频以及PPT整理而成。
本次分享将主要围绕以阿里巴巴大数据产品的整体布局进行分享,这里就会提到两个比较核心的关键词:
全域赋能和智慧全球。
大数据行业发展到今天已经远远超越本身这个行业,也不仅仅是服务于某一类或者某几类行业了,现在大数据已经深入到各行各业了。大数据领域最核心的一点其实就是计算能力的升级,其实现在计算力就像水电煤一样成为了一种新的能源,而能源的特点是具备普惠的能力。而计算力如果能够做到普惠,那就需要大幅度地提升核心计算力的性能、稳定性以及性价比。那么就需要关注在计算力方面的基础引擎的建设。其次,近年来人工智能可以说是非常火爆,那么AI到底和大数据有什么关系呢?其实大数据+计算力+算法就能够促成AI行业繁荣发展。AI对于大数据行业而言是纵向上的发展,也就是说有了大数据,有了非常强大的计算能力,结合算法以及AI的解决方案,能够在行业中解决之前我们不敢想象或者以前用人肉方法非常低效的问题。所以阿里云希望通过产品和解决方案能够赋能自己的合作伙伴以及客户,能够在纵向上真正地解决一个有一个实际的问题。横向上需要做计算力的大幅度提升,在纵向上则需要借力于AI产业。
说到全域,其实我们今天如果想去中国的任何一个地方,无论是旅游还是商务出行,今天计划,明天就能到达,到达之后也不用担心不知道当地的信息,基本上无论是国内还是国外,打开APP就能够知道当地的一切信息,而且还可能因为推送的信息太多了,导致产生了选择上的障碍,这样也没关系,还有AI智能助手帮你做规划,并且这个规划还不要钱。在不要钱的基础之上,按照它购买套餐还更加便宜。这就是大数据行业在出行方面一个很小的案例,其实大数据技术和AI技术在我们生活中的各个领域都已经全面地铺开了,他们真的就像水电煤一样,可能大家平时感受不到他们,因为他们是看不见摸不着的。但是当真正用到他们的时候一定是信手拈来的。这也是对大数据行业的简单畅想。
阿里云大数据产品家族
如下图所示的是整个阿里云大数据产品的大致体系,这张图虽然没有列举出来阿里云究竟有哪些产品,但是在概念上有了一个大致的划分。这张图中的右下角是计算力的核心,因为有足够多的数据之后,这些数据需要非常强大的计算力,这就涉及到几个非常核心的引擎。当有了数据和引擎,数据分析师可能需要做一些基本的数据分析以及BI的工作,这些就需要传统的大数据分析以及展现产品。图中上面两层相当于在应用方面提供的服务,这里有典型的大数据应用,还有人工智能的应用。图中间是一个开发平台。也就是说整个大数据过程中,阿里巴巴有了强大的计算力,也有了各种各样的应用,还希望帮助合作伙伴能够与阿里云一起非常简便地去打造专业级的、高效的应用。
计算引擎、研发体系、应用生态
所以阿里云的大数据产品大致可以分为三个类别:计算引擎、研发体系和应用生态。计算引擎就是计算力的核心;研发体系就是如何去帮助更多的合作伙伴能够上来和阿里巴巴一起构建整体的生态;应用生态则是为各种各样的应用提供专业性的生态,并且使得应用具备横向可扩展的能力。在这里面,也打造了很多官方的原子型应用,同时也有一些解决方案级别的应用,而这些也都是结合阿里巴巴内部的一些经验以及在阿里云上耕耘这么多年所积累的行业上面的经验,所以也希望这些应用能够帮助到大家。
在下图中也罗列了一些三个方向上面的阿里云的相关产品。在计算引擎方面,首先就是阿里云自建的MaxCompute大数据计算引擎,也包括了分析型数据库等。对于其他的就不再赘述了,下面会挑选一些比较重要的产品进行详细说明。
MaxCompute2.0
MaxCompute是计算力的核心,而作为计算力的核心引擎,在2018年要重点打造的就是它的性能。而性能的提升其实是可以帮助生态上的合作伙伴进一步降低其使用成本的。同时大家也能够看到,现在大数据时代已经有非常多的产品和行业出现了,但是大数据和水电煤之间还是有一定的差距的。计算力要想升级成为一种新的能源,在整个平台上面需要有更多的平台上来,这些数据包括了传统的结构化数据还有异构的数据。当这些数据全部上来之后,就会对于计算力产生非常大的挑战,这也是MaxCompute一直以来非常关注的工作,而MaxCompute也是首个在100TB测试通过的引擎,并且分数已经达到了8200分,MaxCompute在性价比上也是在持续提升,而阿里云MaxCompute在2018年也将继续释放存储、计算等方面的红利,给到阿里云的合作伙伴和客户。
DataWorks
DataWorks处在阿里云大数据产品家族中间的研发平台的角色,也就是说整个大数据产品有各种各样的引擎,在这个过程中引擎应该如何使用,如何更加高效地使用,而DataWorks提供一站式的大数据云研发平台,基于这个平台能够大大地降低大家在做大数据相关工作的门槛。DataWorks希望能够辅助合作伙伴以及客户快速高效地上云。同时,因为在整个大数据行业中,存在很多的专业领域需要很多的配套设施,包括数据治理、数据安全这种保障在DataWorks上就已经天然具备了。而作为DataWorks的用户可以天然地借助这些能力。对于DataWorks而言,可以从下图中看到从底层的引擎到数据的采集,一步步往上一直到数据服务以及数据解决方案。
阿里云流计算
下图是2017年天猫双11购物狂欢节在24点时的一张图片。这里是为了介绍阿里云的流计算产品。其实现在整个行业在数据的实时处理方面都会有非常多的需求,而阿里云的流计算产品是经历过阿里巴巴双11磨炼的非常强大的实时计算引擎。在双11当天,这款产品服务了全球几十亿的客户。每秒钟处理的事件数量能够达到4.7亿以上,而反馈的延迟全部都是亚秒级别的。这样反应在客户的体验上就是非常好的流畅度,这背后就依赖了MaxCompute以及流计算引擎,而现在也能够将这样的能力释放给阿里云的所有客户。
在上海云栖大会上,阿里云的流计算也将正式发布独享模式。
而独享模式则会有以下一些优势:UDX开放、网络连通、硬件适配以及Data Lake。开放UDF等底层的API,将允许用户定义自己的方法,能够获得更好的可扩展性,满足用户的业务需求。在网络连通方面,独享模式可以无缝地和用户进行对接,用户也可以自主定制访问权限的控制方式。同时,非常关键的一点就是在硬件方面也会适配各种各样的机型。而在异构计算方面,也会与GPU和FPGA进行对接,这样就能够大幅度提升用户计算的效率,也会降低使用的成本。当然还会有一些配套设施的建设工作。
阿里云希望流计算的独享模式能够在大规模场景下,成本能够降低30%,而且能够和上下游的生态系统对接。
阿里云Elasticsearch
现如今,无论是开源的还是传统的搜索引擎提供了各种各样的能力。那么为什么阿里云还要做Elasticsearch呢?首先,阿里云Elasticsearch能够兼容开源的Elasticsearch,并且同时提供一种托管的服务。在这种情况下,用户不需要担心太多可用性的问题、扩展性的问题以及运维的问题。阿里云Elasticsearch会提供各种X-Pack的商业化插件,保障整个系统的数据安全性。阿里云Elasticsearch也会在新版本中提供APM以及SQL的功能。同时非常关键的一点就是会推出智能运维的产品,因为大家在使用开源工具搭建系统的时候会感受到搭建的过程非常容易,但是维护的成本就会非常高。此外,因为在云上,所以弹性也会非常高。
阿里云开放搜索
开放搜索在今年最强调的就是“智能”,今年将会把淘宝搜索算法的技术能力通过开放搜索透传出去,也就是当未来大家使用OpenSearch开放搜索时就能够具备和淘宝一样的能力。
个性化推荐
同时在开放搜索里面也会支持个性化推荐,这也是当今业内非常火热的一个领域。未来,阿里云的客户在电商、小说、视频以及导购等众多场景下将能够很好地应用阿里云、天猫和淘宝的现有技术能力。
领先,从AI的基石开始
前面的分享主要围绕计算力,而后面这部分则围绕人工智能。阿里云所理解的人工智能最核心的三个要素就是数据、计算力和算法。现如今,基于阿里云的大数据平台,能够提供海量数据的处理能力以及实时数据的处理能力,计算力也是非常领先的,而因为整个深度学习领域的需求,对于异构计算也有非常高的要求,阿里云在异构计算的资源上面也做了全球化的部署,也就是说客户走到哪里,阿里云的产品就能够跟到哪里。阿里云也希望能够帮助所有的客户能力立足中国,走向国际市场。而在算法层面,基于阿里巴巴集团和阿里云上面现有的最佳实践,已经沉淀了非常多的东西。那么如何将这三种能力很好地结合起来赋能客户呢?接下来将为大家分享。
AI已经彻底改变了阿里经济体的商业效率
首先,大家可以看到在阿里巴巴内部,AI已经彻底改变了阿里经济体的运行效率。AI最核心的能力就是做以前我们想都不敢想的事情,做以前我们手工去做会非常低效的事情。比如在工业上“见远”平台就是一个非常典型的工业解决方案,它利用图像处理和图像识别的能力帮我们识别工业生产和工业过程中的问题。再比如在设计部分的“鹿班”智能设计师,因为在双11的时候手淘中有非常丰富的产品,也有各种各样非常丰富的场景,而且每个人看到的都不一样,因为是个性化的,而这里面就涉及到大量的物料设计问题。如果以传统的方式让设计师一个场景一个场景地去设计,即便是在多招10倍的设计师也无法解决这么多的需求。而“鹿班”智能设计师能够根据之前的物料学习之前设计师的一些设计经验自动地按照场景做出设计,大幅度地提升了工作效率。同时在很多场景下,我们发现“鹿班”设计师的智能产出的物料设计其实已经达到甚至超越了人工设计的水平,并且达到了相应的商业效果。
面向开发者的AI开发平台
今天,阿里也希望让所有的企业也能够具备和自己一样的AI能力。那么在机器学习这个领域,因为其属于需要开发者重度参与的一个领域,所以阿里云也推出了一系列面向开发者的AI平台。首先最上面的就是机器学习PAI平台,这相当于是一个人工智能的工厂。下边的大多属于子啊人工智能领域的原子性服务,比如NLP自然交互平台、ALiGenie语音开放平台,这种服务在AI的领域就相当于是一块又一块的小积木。积木本身的制作需要比较高的专业性,但是对于使用者而言,却不需要完全了解其内部的细节。阿里云就希望能够提供更多的这样的积木,能够完全开放给开发者,让开发者能够快速地基于这些积木搭建自己的业务,让开发者更加专注于自己的业务场景。
阿里云机器学习平台 PAI商业化、国际化
阿里云的机器学习平台PAI在2018年正式完成了商业化和国际化。PAI平台集成了100多种现成的算法,涵盖了传统机器学习的各个领域,而且能够提供一种拖拽式的体验,开发者可以通过类似于在画布上面搭积木的样子实现整个人工智能的过程,实现从数据处理、算法训练、算法评估,到模型产出、离线预测和在线预测一整条链路。对于近年来非常火热的深度学习部分,PAI平台也是支持了各种深度学习框架以及GPU分布式计算。开源的深度学习框架可能在稳定性或者性能上存在一些问题,另外最关键的一点就是其分布式能力,针对于这些问题,PAI团队针对于尤其像TensorFlow这样的非常流行的引擎进行大幅度的升级,在线性加速比上面,在能够支持的计算力上面以及支持模型的复杂度上面是远远超过现在的开源产品的。同时作为端到端的解决方案,在算法训练之后,在在线预测方面,今年PAI平台也会推出高性能弹性在线预测服务EAS,也就是弹性算法服务。也就是说将来不管是深度学习模型还是传统机器学习模型,在PAI上面训练完成之后可以一键变成在线预测服务,并且这个服务是弹性可伸缩的,并且结合阿里云在深度学习和传统机器学习上面的一些优化,使得在线预测的效率也变得更高。
NLP:自然的语言,自然的人机交互
在人工智能领域还有很多原子性的操作,AliNLP平台就是一个非常电信更多例子。其实阿里云是将NLP的能力通过这个平台释放出来,目前已经有230多种业务场景,每天的API调用量已经超过了200亿次,覆盖各种各样的行业。当然了,NLP只是AI原子操作的冰山一角而已。
阿里云AI产品家族
可以看到,阿里云整个AI的产品家族已经有了非常丰富的版图。阿里云希望自己和合作伙伴的系统能够听得懂,能够看得见,能够了解背后的知识。那么在语音服务、图像服务、自然语言处理以及背后的体系建设上面,阿里云都提供了非常丰富的积木供大家来拼搭。
阿里云AI解决方案
而这里也存在一个问题,作为在该领域内非常熟悉的专家,给到了这些积木能够拼搭出一个又一个的系统,但是如果没有足够的经验,阿里云也提供了非常丰富的解决方案,比如司法领域、直播领域、舆情等解决方案。在整个过程中,一方面大家可以复用这些解决方案,同时通过系统的拼接能力以及开放的开发能力,大家可以有针对性地定制自己的解决方案。这样就能够释放AI在各个行业中的应用价值。
下图就展现了阿里云的计算力在国际上的布局,阿里云也希望能够与客户一起去推动计算力的能源化,去把AI人工智能的能力在纵向上打穿打透。