1. 项目简介
云栖大会,从2009年的站长大会,到2011年全国的开发者聚会,再到2019年云栖大会都是阿里云的一次转身成为科学、技术、经济、商业等跨思想领域交汇的国际性盛会,同时也是对平台技术部门进行一年一次护航服务的大考,特别是2020云栖大会升级为“云端直播、百城共振、千万人互动”的科技盛会,这不止是全速重构的云栖大会,也是对护航服务的一次重构;保障的目标已从单一的直播护航保障变成了全局高可用的护航保障。
2. 项目成果
通过事前重规划(通过业务目标梳理,系统性地通过全链路压测,深度巡检、性能优化、风险治理、预案编制、容量规划、故障演练等前置工作),事中重保障(7*24现场护航、监控、预警等确保第一时间解决风险),最终在大家协同有序、密切配合下,高质量地完成了护航重保工作。 护航期间:重大故障0,重大客情0,大会活动达到预期目标。
3. 护航故事
云栖大会即将拉开帷幕,大会对整体指标提出了更高要求,需要提升五条关键业务路径的所有性能指标。经过新一轮的全链路压测评测后,发现距离新目标仍有不小差距,这时离大会开幕,只剩不到48小时。由于只能在特定时间进行压测,真正的剩余时间不足30小时,护航团队必须要对不同链路进行兜底预案设定和定向优化来满足最终的业务指标,为保大会万无一失,经过大家2个通宵的通力合作终于攻克了难关。 前12个小时对所有java接口通过边压边查的方式,共进行了30+轮压测,完成所有连接数的最优调整,同时对应用层热点大key进行业务逻辑优化(数据库写入控制、前端并发请求随机打散)等措施最终大幅提升性能到了目标值以上。对无法进一步提升php性能的接口进行资源紧急扩容和性能调优,由于资源在OXS区域,涉及资源调配和批量部署的限制,只能在协调资源扩容的同时,进行边压边测边优化的策略,历经了18个小时的奋斗,终于在大会开始前7个小时,将资源全部扩容完成。在大会开始前5个小时完成所有压测和优化,达到稳态的业务指标。前3个小时完成最终流量保护验证,在流量入口层做了稳态阈值的限流机制以及非关键链路的降级预案来确保紧急状态的核心链路高可用,保障用户核心体验不受影响。
我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。