分享人:周洋 阿里云智能资深技术专家
正文:
本篇内容将通过两个部分来介绍筑牢高可用基石,AHAS赋能溪鸟安全生产探索与实践。
一、阿里安全生产的发展
二、AHAS新能力探索与实践
一、阿里安全生产的发展
对于任何一个高速发展的企,安全生产都是非常重要的。一次没有恰当处理的故障,会给客户体验。公司品牌带来影响。在阿里巴巴安全生产体系中,有两个组成部分。第一,企业的架构需要具备高可用的能力。第二,企业组织也要具备相关的韧性。所以我们形成了两个相对完整的指导的体系。在长时间的发展过程中,这两个体系一直在螺旋上升。
而我们从三个维度度量企业技术的综合实力。第一个指标,故障应急。对于单次故障事件,我们要求技术人员在1分钟发现,5分钟内定位,10分钟恢复。第二个指标,业务可能率指标。统计当前,因为各种非预期故障导致系统不可用的时间,对全局带来的影响。第三个指标,灾难性故障,我们会从RTO和RPO两个指标来衡量。通过这三个维度,我们可以时刻量化,当天企业安全生产的能力。在过去几年,我们把整套安全生产理念,通过产品矩阵化的方式输出。它的平台就叫AHAS应用高可用平台。
为了解决容错问题,我们会提升你的容错能力。在这个领域,诞生了混沌工程产品和稳定性防护的产品技术。为了解决容灾能力,我们也有异地多模容灾架构的解决方案。而在性能,可观测性方面,我们也会有相关的产品。
二、AHAS新能力探索与实践
活容灾解决方案2.0,以客户视角来看,它是以客户的应用业务为中心的云原生方案。如果企业刚刚上云,可以充分利用不同的可用区之间的机器,达到互相容灾的效果。如果采用最新发布的这一套产品,企业可以在代码几乎不改造的情况下,达到同城容灾能力。
如果企业增量非常快,资源不够用,可能因为地域级的灾难导致问题,可以考虑采用异地双活架构,在这套架构下,我们给客户提供了两种模式。如果当前业务发展压力较大,在选址的时候,可以选择就近的两个地域,我们会帮你实现机房流量的封闭以及数据库的公用。如果希望一次性把事情做到位,可以考虑从应用层到底层的数据全部封闭的架构,即异地多活架构。如果企业上云的过程持续很久,我们会推荐客户去做混合运容灾的架构。
经过10年经验的积累,我们200支持多个固定的场景,支撑Linux,windows平台,让更多的企业享受混沌工程的能力。在微服务方面,支持服务级别强弱依赖自动化验证。让企业更好地实现微服务的容错处理。第二,多样化的演练形式,帮助企业做自动化的架构梳理。可以灵活*的自定义演练机器与场景。经验库一键演练和高阶演练方案,让企业按需配置。
第三,易用的演练平台。 Chaos平台支持业务0改造,一键接入。业务系统架构实现自动化感知。我们的社区版已经在线托管至企业版,大家可以一键升级至企业版。第四,安全的演练保障。我们有多种演练恢复策略,多维度的权限管控,以及应用级别的爆炸半径。成功实现演练的安全可控。
业务系统的全方位可用性防护,今年支持Nginx/Ingress 层面的流控技术,可以更细致地实现API层面的流控,并且支持一键式的开箱即用。第二,它以免运维的方式,让大家更简单的实施集权流控,更便捷地解决,传统流控带来的单机流量不均等问题。
最后,我们讲一讲性能压测领域的升级。全链路压测被称为大促备战核武器。通过近几年的压测,我们发现每一次的峰值都会比前一次的峰值更猛烈。而且大家备战促销的流程也越来越频繁。所以这次升级主要有两个新的特性。第一,支持各种业务场景的压测。第二,在阿里内部的全链路压测技术架构下,企业架构不用做任何的改造,基于Agent 无侵入技术的生产环境,全链路压测是更全面、精准的验证系统。