【沉淀】何云飞:双11计算的本质是脉冲计算

《沉淀》是云栖社区展示专家风采的人物栏目。它呈现每个专家独一无二的人生经历、认识和感悟的同时,也能帮助你沉淀技术,收获对技术和人生的判断。我们的想法是:“若你想精进为一个很厉害的人,不妨细细品味这些技术牛人背后的沉淀。”如果你想了解这些云栖专家更多分享时,请点击云栖专家频道,当然我们也欢迎你往前走一步,成为我们的云栖专家(https://yq.aliyun.com/expert),与技术大牛一起“煮酒论英雄”。

本文作者为:云栖社区特约记者林易

以下为正文:

“在从计算机诞生到90年代,计算资源都是作为“可计划性”的资源来使用的。”

在阿里云资深专家何云飞看来,传统IT行业的整个链条,都围绕着这样的资源调度来实现的。
无论是探索月球,还是计算天体运动,计算资源本身是可规划的。

一个典型的例子,就是阿波罗计划。

这是人类第一个大规模使用计算机的场景,虽然计算量复杂,但什么时候上天。

什么时候计算轨道,轨交雷达什么时候返回数据,都是可预测的。

然而,随着互联网时代的到来,越来越多的应用场景,让计算资源变成了“脉冲式”的使用。
一个爆发的事件,就有可能考验你的整个计算资源。

“所谓的脉冲计算,就是指在一个确定的时间内发生的海量信息事件,且必须在这个确定的极短时间内处理完的计算事件。”何云飞认为,这样的事件在互联网时代会变得越来越普遍。
而双11就是这样的一个典型场景。

【沉淀】何云飞:双11计算的本质是脉冲计算

何云飞有一个观点,“其实我们在比较早的时候,就发现了传统IT与脉冲计算并不那么match。”

在我们的传统IT架构中,扩展是向上拓展的,我们最常见到的就是小型计算机,

但是,小型计算机所有的硬件资源都是特定的,备货周期长,维护成本高,波峰使用以后闲置的情况比较多。

最简单的总结,就是传统IT的弹性不够。

工程师们把眼光瞄准了当时市场上通用的x86服务器,希望通过x86服务器,来挑战传统的小机。
通过遍布全球的数据中心,以及大规模的分布式调度系统,分布式文件系统,分布式计算系统,来整合计算能力,实现资源的弹性利用。
通用的x86服务器,可以通过很多渠道快速部署,而在脉冲结束以后,又可以迅速的被碎片化的切刀其他应用场景中去。
“这就是阿里云最早做云计算的理念,飞天就是从这里开始的。”何云飞说。

2012年,飞天在2011年商业化以后,第一次面对双11,彼时双11还不像今天这样令人瞩目。
随着订单的海量化,在双11中,一个突出的问题出现了:商家自己的订单系统与阿里系统同步的问题。
过去的处理方法很简单,阿里把API开放给商家,商家通过一定的安全验证以后,使用自己开发的软件来读取这个接口的数据。
“这样海量的数据访问,受到架构限制是很明显的。”在何云飞眼中,这是个典型的脉冲事件中的脉冲事件。
 “当时就想,那么能不能把“飞天”的弹性计算能力,开放给商家,让商家在一个稳定的数据环境中工作。”这就是聚石塔的缘起。
 2012年7月10日,天猫与阿里云、万网宣布联合推出聚石塔平台,率先以云计算为“塔基”,为天猫、淘宝平台上的电商及电商服务商提供IT基础设施和数据云服务。
通过阿里云的ECS云服务器,RDS云数据库,SLB负载均衡网络,双11的商家订单,直接源源不断的推送到了商家平台上,保障了数据的稳定和延续。

“那年双11,我们无一漏单,错单。”何云飞很高兴的讲述了飞天与双11的第一次相遇。

而2013年发生的挑战,则与一个火热的产品有关:余额宝。
2013年7月,余额宝决定上云,上云并非一句话那么简单,使用云计算支撑当时国内最大的基金直销和清算系统,前无古人,但开弓没有回头箭。
而短短4个月以后,双11就来了。
对于阿里云来说,双11期间余额宝巨额资金流入流出,已经是极大的考验了。
“但是,你别忘了,余额宝,最大的特点是,资金是有利息的。”何云飞说。
而余额宝的利息,必须在第二天早上6点完成计算,这是雷打不动的。
ODPS(现在称为Maxcompute)在这个过程中发挥出了性能优势,在短短6小时中,ODPS完成了这个复杂的计算。
12日凌晨6点悄然而至,早起的用户发现,余额宝用户账户里的资金都更新了。
也就是从这一年,阿里云金融云聚宝盆对外服务,双11的云服务能力,开始助力金融行业。

2014年的双11,在何云飞看来,经过多年的演进,阿里云对于脉冲计算的应对能力,开始变得完善起来:金融云的系统支撑能力达到了2013年的3倍以上,可支撑十亿笔以上的超大日支付处理能力。
    而更重要的是,这一年双11前夕,阿里云联合阿里集团电商平台一起攻克了另外两项世界级的创新难题--“服务器资源弹性部署”和“数据中心异地双活”。服务器资源弹性部署,可以应对不可预知的业务爆发。
“一旦有超出预期的业务热点出现,系统可自动调用其他资源使用不足的服务器,实现"分钟级无缝切换",在不增加硬件部署的情况下应对更复杂的流量变化。”这是阿里云已经能够完善的应对脉冲计算的标志性事件。
而脉冲计算的另外一个特征是,无法从头再来,必须保持最高标准的可靠性,“数据中心异地双活”,则可以帮助阿里巴巴应对极端的自然灾害,即使杭州的数据中心“挂掉”,双11仍然能够顺利运转。

这项技术可实现跨省的两地数据中心像一个数据中心一样工作,同时支持双11 的所有应用。

“两地数据中心的切换,能在不中断业务的情况下完成,这就像为正在飞行的飞机更换引擎,不仅不影响飞行,飞机上的乘客也不会有感觉。”何云飞谈到。

“2015年,基于公共云的“飞天”平台成了双11最重要的核心设施,这意味着阿里云已经能够为脉冲计算提供最可靠的解决方案了。”这是何云飞对2015年双11的解读。
2015年,双11淘宝天猫核心交易链条和支付宝核心支付链条的部分流量,直接切换到阿里云的公共云计算平台上。通过将公共云和专有云无缝连接的模式,全面支撑双11。
因此,如果从技术层面来看,2015年双11成为了一场全球最大规模的混合云弹性架构实践。而阿里巴巴也成为全球大型互联网公司中,首个将核心交易系统放在云上的企业。

与此印证的是,阿里云成为全球第一家有能力支撑核心交易系统的云服务商。

“这一混合云架构完全基于阿里云官网在售的标准化产品搭建的。也就是说,你通过这些标准化的产品,也可以搭建这样一个像淘宝、天猫这样万亿级的企业应用,满足任何极端的业务挑战。”阿里云总裁胡晓明曾经在一篇报道中这样评价。

2016年阿里视频云支撑起了千万级的直播,同时观看到达4000万人以上,通过阿里云的600多个CDN节点,欢乐到达了全球。

而八分钟新建一万台计算资源的能力,相当于能交付一个中型互联网公司的弹性资源,这才是阿里云应对海量峰值的底气。

而基于阿里云和菜鸟物流联合开发的物流云,提高了物流系统的流转效率:双11第一单在13分钟内送到了用户手中。

而飞天的对象存储系统OSS,承担了所有的图片及小文件存储的重任,让消费者得以在一秒钟内,就可以打开自己心仪商品的图片。
聚石塔一如既往的无漏单错单。
而“飞天”支撑起了人工智能ET,让买买买更智能,更懂未来。

2016年的双11对今天的阿里云来说,具有着节点意味:在此前的中国,没有一家云计算厂商能够与合伙伙伴携手建成一个如此完整的PAAS解决方案,并且能对外输出,而“飞天”已经不仅仅是保障天猫双11的链条,而是整个“双11”的真正基础设施。

11月12日的零点钟声响起,数字定格在千亿之上。
然而,重要的不仅仅是这个数字。
“这意味着,阿里云已经能够随时为社会输出双11的计算能力。”何云飞认为,阿里云能够应对社会在任何时候,任何领域对于脉冲计算的需求。

这样的需求,不仅仅在双11中,也在春运火车票回家的脚步中,高并发的购票需求得以平稳应对。
在春节的红包狂欢中,金融云支撑起了红包的快乐,还在今日头条,微博突发的新闻事件中:信息得以飞速的流动,并让每一个人都平等获得。更在台风来临之际的预测中,保障着城市的安全。

“脉冲计算,已经是人类社会计算的‘新常态’,更是人类探索未知的‘核武器’。”何云飞认真的说(文/林易)。
上一篇:飞天技术汇“2018杭州.云栖大会”| 企业应用专场等你加入!


下一篇:阿里云算力的十年更迭史,重点都在这了!