文/ 康鑫磊(子昊) 、胡欢武(瑾为)
如果将日常网络平稳运营比喻成人体的日常态,双11流量则相当于人体血压瞬间暴增,正如血液在人体供应受阻会引起心梗、脑梗,流量洪峰时的网络堵塞也会引起交易的不畅。
如何提前识别双11交易峰值网络流量的隐患,从而确保业务在交易峰值时的网络丝般顺滑,稳如磐石?本文将分享2021年双11 网络流量风险隐患识别的一个场景案例,来真实呈现日常工作中如何通过技术创新实现“更高效率、更低成本、更精细化”的网络运营。
01
全面上云新机遇
在全面上云的大背景下,2021年的双11给网络运营的同学带来了新挑战:
1 多个BU参加双11大促,数万个应用、多地域、云上云下调用链关系复杂,单纯靠人工手工梳理无法精准识别核心链路和关键节点。
2 部分数据密集型业务上云,摆脱了传统独享物理集群的束缚,与交易型业务实例混布在一起,在边缘,泛边缘与接入层的流量路径上有一定程度的重叠和耦合,在流量评估、业务规划、故障诊断上增加了复杂度。
3 叠加了公有云业务的本身背景流量。
4 国内,海外二个主战场同时作战,国内主场涉及多个地域的数据中心,海外涉及多个国家和地域。
5 物理设备叠加集团虚拟化层面的网元实例体量巨大……
在过往双11备战中,技术同学最关注的是自己系统在零点流量洪峰中的表现,尤其是极限峰值压力场景下秒级交易大盘是否出现各种‘抖动’,哪怕有一次‘抖动’即使上下波动很小,在技术人眼中这就是遗憾。细节决定成败,对于双11的网络运营,魔鬼般的小细节就藏在这些‘抖动’里……
针对出现的问题,运营团队反复复盘过往各种压测和历次双11真实出现过的不同‘抖动’场景,最终发现了在峰值场景下‘抖动’或多或少存在一些共性特征。这些共性的特征,如果用一个形象的比喻就像是:人体血压瞬间暴增,主动脉虽畅通无阻,但极少毛细血管存在一些小拥塞(如各种热点,冷热负载不均,局部缓存击穿等),如果拥塞的血管正好在心脏附近,则容易造成心梗,甚至有生命危险。
基于这些分析总结,2021年双11,在全面上云的背景下,在往年双11 网络高保套餐的基础上,网络运营团队新增了一个高级检查项——‘防抖动’之交易促销型流量的网络链路精准识别与精准风险防控。这是什么名词?换用一个通俗易懂的解释就是:从被动变主动,针对上面提到的毛细血管小拥塞,提前主动筛查它们在血压暴增时是否有爆管的隐患,从而精准识别并定向解决,防患于未然。
02
挑战:人工规则定义识别
什么是交易促销型流量?
什么是交易促销型流量?为什么需要重点关注交易促销型流量?下图是一个典型的应用场景:零点时刻,交易峰值的理想趋势图是一竖一横,即竖直横平(注:横平是因为到达业务预设容量峰值,触发限流导致,符合预期),零点时刻的峰值压力通常是其他时段的成百上千倍。
(注:光看曲线图还没有实际的体感,网络运营君从网上找了一个上世纪某线下商场开业的排队图,大家脑补一下容量峰值压力)
从网络视角看零点业务峰值带来的流量都可以认为是交易促销型流量,这些交易促销型流量经过网络全路径相关链路,包括网络虚拟化实例(LB实例、NAT实例、ENI等与网络相关的虚拟化实例) 都需要重点关注。
理想丰满,而现实骨感。事实上,超大数据中心的流量组成往往十分复杂,尤其当在线业务容器化和微服务化之后,由叠加部分数据密集型业务上云后产生的混布流量。数百万级业务容器规模下,如果能做到零点峰值交易促销型流量全链路精细化识别,那对容量风险将进一步精准化管控,从而对容量精细化规划有较大收益。
数据密集型业务:典型流量特征的定义,通常流量占比较大,但对网络抖动,拥塞相对交易容忍度更高,典型场景如大数据离线计算业务型业务、图像视频类AI算法训练业务等。
人工规则定义带来的挑战:
真正的技术挑战是:我们很难用人工规则定义识别清楚这些交易促销型流量的精细化分布;尤其针对毛细血管层面的风险,很难精准识别并定向解决。
在超大复杂业务体量下,假如交易促销型流量识别采用传统的人工规则定义方案,有如下劣势:
1 规则源存在一定的系统偏见
因为系统规则由人定义,业务输入过程中,下述3种情况较为常见:
-
评估遗漏型-梳理未到位导致规则遗漏,风险未识别;
-
人为偏见型-定义非核心链路资源,加入黑名单;
-
资源浪费型-业务评估输入时层层加码,一定程度上造成了部分资源浪费。
2 人工定义的规则结论质量依赖于专家经验
存在一定程度的‘误报、漏报’;需要有专业人士二次分析研判,对人的技能和经验要求较高。
3 工作量大
非常精细的场景下,大体量的规则定义和维护带来的工作量较大。
03
解决方案:“AI网眼”
随着算法、算力、大数据技术的快速迭代,人工智能在各种专业领域的应用不断取得新成就和新突破。在上述场景中,“AI网眼”就是一种基于人工智能的网络运营自主原创解决方案。其核心思路是基于全网的数百万链路流量数据,结合全链路压测期产生了大量的交易流量样本,基于算法生成交易促销型流量特征模型,最终由机器给出大促交易相关的网络容量风险模型。
只是在数百万级链路中看了一眼,风险便已纳入AI 网眼
实战效果
该方案已用于2021 双11 大促网络容量风险排查实战中,一位项目成员说:“这么大的体量,我不知道如何用规则来检验机器自动识别出来的准确率,但多次随机抽样识别效果确实准确度非常高”。
效果一:风险排查:识别并解决了近百个未被关注到的业务网络实例容量隐患风险。
效果二:人工偏见之纠错:算法识别出之前未被人工规则关注的一些应用系统,这些应用系统属于‘沉默的大多数’,看流量图趋势又确实参加了0点大促流量组成;这些未被关注到的应用系统,是否会成为未来异常流量中‘灰犀牛',值得进一步关注。
04
未来
在《十四五规划和二〇三五远景目标建议》中,人工智能被放在了第一位。正如技术创造新商业,阿里云基础设施网络运营团队也在积极推动内部自动化向智能化技术方向演进,在部分风险预警场景上,结合历史沉淀的海量运营数据,对故障数据进行机器学习和深度数据挖掘。创新性的设计并引入部分AI算法模型用于风险预警。目前仅仅是万里长征第一步,希望此文能给业内同行在方案上带来一些新的视角输入。
风正潮平,自当扬帆破浪;任重道远,更需策马扬鞭!