杨旭,花名杨曦,这是他的第六个双11。
从2012年开始,阿里云通过云计算技术为天猫双11提供计算服务。
3年前,杨旭开始作为双11阿里云技术负责人,负责搭建全球最大的混合云结构,把 “双11”的电商业务和技术场景在阿里云上实现,并保障这个混合云在双11当天能够满足全球客户的购物需求。
11月11日晚上零点整,海量峰值如期而至,项目室里的每一个人都屏息静气的看着陡增的峰值。
几个小时以后,第一波峰值顺利度过,项目室里又恢复了喧闹。
“每一年的双11,都是一次赶考。”杨旭一边喝可乐,一边与记者聊了起来。
杨曦
充分准备是成功的关键
阿里云的技术支持,早在一年前就开始准备了。去年12月中旬左右,杨旭就筹备召开了阿里巴巴的2017的双11策划会,制定了工作目标,详细到每个单元的产品和技术方案的验证。通过多次测试,以及全链路的压测,确保所有的方案和实施都能满足双11的业务需要。
在杨旭看来,这其中的每一项工作都关系到今年双11的阿里云表现,每一项工作都是一道考题。“特别是下半年压测的时候,只有那么几次机会,如果不成功可能要影响整个双11的项目结果,压力大的时候,经常半夜睡不着觉,梦里都在记录解决方案。”
有一次遇到一个业务问题没解决,担心影响到双11的交易成功率,整个团队基本一个星期通宵处理问题,优化升级系统。杨旭说,为了支持这个项目,团队很多同事也都牺牲很大。压测期间,网络业务线抽调的一位同事整整48小时没有睡觉,等解决完问题回家,才想起2天前准备给妻子过生日的蛋糕,还藏在卧室的衣柜里,打开柜门一看,蛋糕早已融化。有时候问题紧急,还常常请相关业务的同事半夜从家里来现场支持。“阿里云的双11团队,这是一只铁军”,杨旭感慨的说。
从2012年的最小单元验证开始,阿里云不断迭代优化,2017年,已经成长为“应用+存储+缓存+数据库+网络”的全业务上云的混合云解决方案,可以有效应对处理双11这样的脉冲计算。
云化架构使多个数据中心像一台计算机一样来管理,可以跨多个不同的平台来调度业务发展所需的资源,构建混合云以极低成本拿到服务器,通过混合部署大幅提升资源利用率,支撑系统容量。在今年双11,阿里交易峰值再创新高达到32.5W笔/秒,这背后是靠云化架构在支撑,得以真正实现弹性资源平滑复用、任务灵活混合部署。
有了阿里云的保驾护航,杨旭表示,距离双11的成功更近了一步。
谈笑间方显大将风范
早在今年9月底,杨旭就带领队伍进了阿里巴巴西溪园区的作战室。11月9日晚上20点,在1号楼,阿里云的双11项目正式拉开帷幕。
在顶层的作战室里,杨旭带领着这个位于全球各地,共百余人的队伍,在双11的24小时内保障了视频云、图片云、电商云、金融云、物流云的正常运转。
累了,团队的同事就找个凳子,或者按摩椅睡上1-2个小时,这个时候,业务部门的就会有负责这块工作的其他同事顶上,保证双11期间阿里云上所有业务都有人实时盯守。
“所有人都有人轮换,只有我是10号晚上八点进去,11号凌晨才能出来。”杨旭笑着告诉记者。“这不仅仅是阿里云的项目,更是阿里巴巴的项目,还是全国人民,甚至全球人民的狂欢购物节,不能出一点差错。”。
阿里云的能力虽然让杨旭信心十足,但今年的大考,又比往年更不容易。
零点将至,虽然有些疲惫,但杨旭似乎越来越有信心,甚至成为了项目室情绪的调动者。
“大家双11的购物车都装满了吗?”杨旭的这个问题,让项目室里七嘴八舌起来。
一切似乎尽在掌握中,直到零点将至,氛围开始变得严肃起来。
零点时分,大促正式开始,不断的有人在小声报出各个指标。
“水位正常!”
“资源正常!”
“核心链路畅通!”
这是最紧张的时刻,然而杨旭告诉记者。
“养兵千日,用兵一时,这个时候我是最放心的人。”
2017年天猫双11购物狂欢节开场仅11秒交易就额破亿,3分钟突破100亿,6分钟超200亿,24小时后成交额定格于1682亿元。今年交易峰值32.5万/秒,支付峰值25.6万/秒,比去年增长超1.1倍,再次刷新全球纪录。
脉冲计算
在持续高压力冲击下,整个双11期间阿里云表现坚如磐石,各项技术指标也再次刷新世界纪录。直播支撑了4000万用户观看晚会,CDN提供了80T的访问加速带宽,混合云提供了将近100万的弹性计算资源调度,存储提供了340P的图片存储和2.3万亿的文件,物流云全天支撑订单流转8亿+,ApsaraDB数据库最高QPS达到554万,HTTPDNS在承载上千亿次日解析量的同时保持了平均10ms以下的低响应延迟……
这一串串华丽数字的背后,作为整个天猫商家的基石,阿里云是如何保障在零点洪峰来临时候稳定、安全和顺畅?
杨旭认为,优秀的产品和技术是阿里云制胜的法宝,举几个例子:
直播技术:窄带高清2.0技术,用户观看质量上以360P带宽可以达到480P清晰度,480P带宽可以达到720P清晰度,同样清晰度下带宽节约30%,H.265相当比H.264为用户节约30%带宽。
计算能力:通过对虚拟化技术的优化,让极限情况下虚拟机的计算能力和物理机保持一致,后续阿里云将进一步挖掘产品的计算能力。阿里云还推出了神龙服务器,通过异构计算彻底将虚拟化损耗降为0。
实例存储:通过结合SPDK+DPDK减少IO访问路径,可以将单机的IOPS提高到210w,满足大计算、重IO的高端用户场景。
CloudDBA产品:通过自动化,自助化小白诊断,实现物流云等商家的全覆盖,实现事务分析,TOP SQL,SQL Review,死锁分析等全场景自动化,无论是给客户,还是给阿里云自己都节约成本,提升用户体验。
大数据:线下推出感知零售产品,通过数据化向智能化的转变,让数据也有情感,提升新零售的转化率。
用最好的技术回馈社会
阿里云的技术每年都在突飞猛进的发展,即便作为一名资深技术人员,杨旭每年也会被新的技术、新的产品所深深震惊,比如今年双11阿里云部署的网络产品,使用的规模非常大,对性能的支持力度很大,这在全球也是领先的水平。
“马总说过,双11是锻炼技术的。我们云上的技术方案,新技术的尝试,新的产品都会先自己验证,然后再给客户用。特别是通过全球唯一的双11这种极端环境对新技术压测,还有每年多次大型活动和项目的锤炼,让我们的产品和技术都有最好的保证,然后我们会沉淀下来,放在公有云上再提供给客户使用。” 杨旭时刻谨记,在阿里巴巴客户永远是第一位的。
阿里云的双11混合云架构,是全球最大的混合云架构,具备极致的弹性调度管控能力,杨旭认为,这套成功的经验可以快速满足公司国际化战略对全球资源部署的调度。
在杨旭看来,云计算不是简单的物理机虚拟化,更是一种计算和服务能力的体现,目前云上的产品大多是阿里云内部精华技术的沉淀,希望大家以一种开放的心态来用拥抱云计算,大胆尝试使用新技术,一定有意想不到的收获
正是因为每个团队在这几个月里默默的努力和不放过每一个细节,才让今年双11变成史上最轻松的双11。
“我们不仅完美的支撑的阿里巴巴的主战场,也可以骄傲的说我们用最完美的技术支撑了全社会的狂欢,我们阿里云客户的狂欢!今年的双11,非常完美”。在11月12日凌晨2点的阿里巴巴西溪园区,连续值守52小时后,杨旭顺利完成了今年双11混合云的接入和保障任务,他揉着双眼,轻松地笑着说。
技术扩展着商业的边界,商业的效率,创造着生活的美好前行,双11的技术能力,终将化为未来社会的常态。以阿里云为代表的云计算行业,也已是社会的基础设施,正如所有的超级工程一样,一个个工程师们的努力,将异想天开的想象力变成了现实。这样的故事在过去的一百年,两百年,一千年,两千年间不断发生,才让人类得以创造出任何生命都未曾创造出的奇迹,这个奇迹被人们称为:文明。