前几天,由瞭望智库、《财经国家周刊》共同主办的“第四届(2019)中国新金融高峰论坛”上,蚂蚁金服金融级分布式架构 SOFAStack 获得了“十三五”金融科技产业示范案例奖。
说起 SOFAStack,它已经在2019年天猫双11中大放异彩,证明了自己。其中,SOFAMesh 覆盖了100%核心支付链路,几十万容器规模,峰值千万QPS……SOFAMesh 已是业界最大的 Service Mesh 集群。
下面,我们就一起来看看 SOFAMesh 在2019天猫双11中发生的那些故事。
“Service Mesh 真稳。”
这次双11大促,将业务搬上了 Service Mesh 的同学们都这么说。
但在双11收官之前,鲁直、齐风等负责支付宝技术架构的工程师们,听到最多的,却不是肯定和鼓励,而是来自四面八方的“退堂鼓”。
尽管结果满分,在等待双11到来前的几个小时里,紧张到“手抖”才是他们真正的备战状态。
毕竟双11全天2684亿交易额依靠的,是来自支付宝自研分布式数据库 OceanBase 每秒峰值6100万次的处理能力,和首次登上大促舞台的 Service Mesh 搭建的全球最大金融级云原生集群。但只有他们最清楚,这样世界级的数字金融运算能力背后,有多少付出和煎熬。
“不行,风险太大,不和你们玩了”
“不行,风险太大,不和你们玩了。”
这是今年双11前,齐风听过最让人丧气的话。
虽然每年的双11大促,支付宝都会提前做足技术准备。但是对于今年大促中,Service Mesh 搭建的全球最大金融级云原生集群首次登上舞台,不仅CTO线的技术同学们高度紧张,来自各方的质疑声,才是最终所有业务登上架构的最大挑战。
作为CTO线系统部的负责人之一,齐风深有所感。
“一直到11月初,还有业务的同学坚持:‘不和你们玩了’。”甚至在更早的时间里,连支付宝的会员和金融网络业务,都差点在架构中下线。齐风也理解所有业务同学,出自责任心的担忧,“毕竟一旦真的出问题,大促就黄了。”
但他和团队很清楚,原本在运行过程当中,一定幅度的抖动和报错,是可以解决和承担的。不过因为是新的架构系统,难免要为所有的不稳定背锅。“当时是在压测的高峰期时,监测到连抖动和较高的报错率,所以就连支付宝会员和金融网络业务,都提出了下线要求。”齐风回忆,这可是件大事。
一旦最基础的会员和金融网络功能下线,新架构面临的,将是接二连三的下线要求,那么承担大促的目标,就成了空谈。
“我们为了加强和业务方的交流和培训,成立了大促项目组,每周都会进行沟通。10月份在西溪园区开会的时候,还定下过类似‘军令状’。”齐风跟会员和金融网络业务的同学约定,在既定的时点内,如果解决不了,就同意下线。
于是两天内,系统部一百多个同学中,分散在各个方向、所有与之相关的人力全都扑在上面,聚焦于解决这个问题。
支付宝中间件服务与框架的负责人鲁直,和团队一起,光是从中秋到国庆期间,经历的 Service Mesh 升级就达到了数十次。
不同的是,以往每一次基础设施的下沉,都会给业务研发团队带来影响。
“像网商银行、蚂蚁森林和农场,都会在这个过程中被推动升级,而某个阶段出现bug的话,就要重新来。”但今年 Service Mesh 的升级过程,会尽可能地减少业务的参与。
可快速的升级,带来的是问题被快速放大。通宵解决就成了团队的家常便饭。
随后为大促进行的压测,一直持续到了双11前——8日的那个周五。“通过模拟下单、到app付款页面,一直在提高峰值,不断去尝试摸到更高点。”
双11临近时“光明顶”内几百人鸦雀无声
其实支付宝经历了过去大促峰值时差点崩溃,如今早已能让大家在当天能够安安稳稳地喝着红酒度过考验。
之所以今年还会如此拼命,大抵是来自于对技术的那份“贪心”。
“今天最好的表现,是明天最低的要求”这是阿里巴巴成立20周年之际,新六脉神剑中的价值观之一,同样也是支付宝的同学们,对技术成就所抱有的心态。
“Service Mesh 从一个 demo 到经历双11考验,其实经历了两年时间。”鲁直表示,虽然过去支付宝的各个功能已经能够良好运行,但能不能在不影响用户顺滑体验的基础上,更加合理地调用资源,甚至降低成本?
于是今年尝试了对资源进行调度。比如当早上7点前准备好蚂蚁森林的使用资源,峰值度过后在8点左右调用补齐到公交、当面付等场景中。
就连在10日晚上22:00的淘宝开奖结束后,资源也经历了多次调配。第二天零点的订单峰值,到一点的尾款开放,差不多到夜里三四点峰值度过趋于稳定时,还要为11日的早高峰、聚划算等需求做好规划和准备。
“当晚我在阿里巴巴西溪园区的光明顶作战室,看上去很冷静,其实我紧张得手都是抖的。”当晚的光明顶,坐着200多位来自各个BU、业务的技术同学,从底层架构到双11的多个环节,大家都在那里共度紧张的时刻。
齐风作为其中一员,整晚都对着数据和切换效果,除了新的技术尝试让他紧张到手抖,作战室的氛围,也让他难忘。
“基本上从10号的23:30开始,一直到11号的1:00,整个光明顶是没有声音的。”齐风身边没有人说话,甚至没有大的响动。零食和大闸蟹都不能在此时引起大家的兴趣,“在那个时间之前大家都已经补充好了,当时很难分心或是放松。”
在另一处作战点——蚂蚁Z空间,鲁直也忙着紧跟实况。“本来计划在双11时买副耳机给自己,AirPods Pro 还有大额券,结果等我熬过峰值时段,回过神想起来购物的时候,券早就被抢空了。”
但回过头在看这一切,鲁直和齐风,包括蚂蚁金服的CTO鲁肃在直播里,都为今年双11支付宝的表现,打了满分。
可攻坚技术的人,从来不安于“满足”。
鲁直认为,结果满分,但过程还能更优化。虽说是错是技术推进绕不开的弯路,“但是比如快速更新会加快和放大问题暴露的情况,我们能不能提早预料到,就是值得更加提升的部分。”
“这些资源调配和切换,今年靠的都是系统自动完成,每次切换,只用三分多钟。”但齐风觉得,这个动作,还能完成得更快。甚至不仅仅是服务于大促,“让大促技术日常化,才是我们真正的目标。”