筑牢高可用基石,AHAS赋能溪鸟安全生产探索与实践

分享人:周洋 阿里云智能资深技术专家

正文:

本篇内容将通过个部分来介绍筑牢高可用基石,AHAS赋能溪鸟安全生产探索与实践。

一、阿里安全生产的发展

二、AHAS新能力探索与实践

筑牢高可用基石,AHAS赋能溪鸟安全生产探索与实践

一、阿里安全生产的发展

对于任何一个高速发展的企安全生产都是非常重要的。一次没有恰当处理的故障,会给客户体验。公司品牌带来影响在阿里巴巴安全生产体系中,有两个组成部分第一,企业的架构要具备高可用能力。第二,企业组织也要具备相关的韧性所以我们形成了两相对完整的指导的体系在长时间发展过程中,这两个体系一直在螺旋上升

我们从三个维度度量企业技术的综合实力第一个指标,故障应急对于单故障事件,我们要求技术人员在1分钟发现5分钟内定位10分钟恢复第二个指标,业务可能率指标统计当前因为各种非预期故障导致系统不可用的时间,对全局带来的影响。第三个指标,灾难性故障,我们会从RTO和RPO两个指标来衡量通过这三个维度,我们可以时刻量化当天企业安全生产的能力在过去几年,我们把整套安全生产理念,通过产品矩阵化的方式输出它的平台就叫AHAS应用高可用平台。

为了解决容错问题,我们提升你的容错能力。在这个领域,诞生混沌工程产品稳定性防护产品技术为了解决容灾能力,我们也有异地多模容灾架构的解决方案而在性能可观测性方面,我们也会有相关的产品

筑牢高可用基石,AHAS赋能溪鸟安全生产探索与实践

二、AHAS新能力探索与实践

容灾解决方案2.0以客户视角来看,它以客户应用业务为中心的原生方案如果企业刚刚上云,可以充分利用不同的可用区之间的机器达到互相容灾的效果如果采用最新发布的这一套产品,企业可以在代码几乎不改造的情况下达到同城容灾能力

如果企业增量非常快,资源不够用,可能因为地域的灾难导致问题,以考虑采用异地双活架构,在这套架构下,我们给客户提供两种模式如果当前业务发展压力较大,在选址的时候可以就近的两个地域,我们会帮你实现机房流量的封闭以及数据库公用如果希望一次性把事情做到位可以考虑从应用层到底层的数据全部封闭的架构异地多活架构如果企业上云的过程持续很久,我们会推荐客户去做混合运容灾的架构

筑牢高可用基石,AHAS赋能溪鸟安全生产探索与实践

经过10年经验积累我们200支持多个固定的场景支撑Linuxwindows平台,让更多的企业享受混沌工程的能力。微服务方面,支持服务级别强弱依赖自动化验让企业更好地实现微服务的容错处理。第二,多样化的演练形式帮助企业做自动化的架构梳理可以灵活*的自定义演练机器与场景。经验库一键演练和高阶演练方案,让企业按需配置。

第三,易用的演练平台。 Chaos平台支持业务0改造,一键接入。业务系统架构实现自动化感知。我们的社区版已经在线托管至企业版,大家可以一键升级至企业版。第四,安全的演练保障。我们有多种演练恢复策略,多维度的权限管控,以及应用级别的爆炸半径。成功实现演练的安全可控。

筑牢高可用基石,AHAS赋能溪鸟安全生产探索与实践

业务系统全方位可用性防护今年支持Nginx/Ingress 层面流控技术,可以更细致地实现API层面的流控,并且支持一键式的开箱即用。第二,它免运维的方式,让大家更简单实施集权流,更便捷解决传统流控带来的单机流量不均问题

筑牢高可用基石,AHAS赋能溪鸟安全生产探索与实践

最后,我们讲一讲性能压测领域的升级全链路压测被称为大促备战核武器通过近几年的压测,我们发现每一次的峰值都会比前一次的峰值更猛烈。而且大家备战促销的流程越来越频繁所以这次升级主要有两个新的特性。第一支持各种业务场景压测。第二,在阿里内部的全链路压测技术架构下,企业架构不用做任何的改造,基于Agent 无侵入技术的生产环境全链路压测更全面、精准的验证系统。

上一篇:ECS 服务器购买和准备|学习笔记


下一篇:LINUX高性能服务器读书笔记之程序规范