AWS 再次发生宕机事件，云时代下的我们该如何补救？

2024-02-11 21:22:28

屋漏偏逢连夜雨。据外媒 ZDnet 报道，美国东部时间上午 10：26 左右，AWS 网络再次开始出现严重的问题。根据 Outages 邮件列表（供 ISP 和网络运营商报告和跟踪重大互联网问题的*邮件列表）上的报告显示，AWS 托管服务于早晨开始变得“不稳定”。

许多基于 AWS 的业务服务，如双因素身份验证端点安全服务 Duo、视频会议平台 Zoom、消息传递服务 Slack，以及 Hulu、Xbox Live 和 Halo 在内的娱乐服务均受到了不同程度影响。

一周前 AWS 的宕机事件

之所以用“再次”，是因为在本月的 7 号，AWS 已经发生了一次大规模的宕机事件，此次宕机事件对亚马逊配送业务造成了严重破坏，以及 Facebook、Coinbase、Robinhood、迪士尼+、Netflix、任天堂等网站纷纷“躺枪”，彼时亚马逊在筛查问题后给出解释称：

绝大部分 AWS 服务和所有客户应用都在其主网络内运行，但它还用一个内部网络托管了基础性的服务，包括监视、内部 DNS 服务等。鉴于其重要性，AWS 用了多个地理位置上隔离的网络设备连接到这个内部网络，大幅扩展网络容量，确保其高可用性。12 月 7 日 7:30 AM PST，主网络的一个自动容量扩展活动意外引发了内部网络客户端的活动，导致了连接激增，连接内部网络和主网络的网络设备出现拥堵，通信延迟，引发了持续的拥堵和性能问题，影响到了团队实时监控的能力，使得他们难以快速识别问题的根源，只能依靠日志判断发生了什么。

亚马逊回应其已采取了行动确保相同的问题不会再次发生。但如今 AWS US-West-1、2 再次发生问题，AWS 虽然迅速发布报告，排查出问题出在美国西部 1 区和 2 区两个区域的互联网连接上，并表示“我们已经解决了影响与 US-WEST-1 区域的互联网连接的问题。区域内的连接不受此事件的影响。问题已得到解决，服务运行正常。”但仍有不少用户反驳道，“它看起来已经稳定了一些，但仍然存在一些 Bug。”

宕机原因

如今上云时代，云计算为数字化建设带来的功能性、效率与稳定性不容置喙，不过宕机事件也时有发生，且全球领先的云计算平台也未能幸免。在探究宕机的主要原因时，我们发现主要有以下几种：

人为错误。这是唯一一种可归类于物理、软件层面的因素。人存在很大的“不确定性”，也正因此，很多云服务提供商会在产品中借助 AI 等技术来提高系统的智能与自动化功能，尽量减少人为错误带来的影响。
网络问题。在这一层面上，云服务商通常会与电信提供商合作，其中关于网络问题，尤其是连接问题会超出云提供商的控制范围，他们必须要依赖本地的通信服务商们。不过，现在比较好的一点是，如果云服务商在全球范围内都有运营政策，且在不同地理位置的数据中心之间平衡工作负载，这样当网络出现中断时，他们会在合作伙伴解决网络中断的同时也能够继续为终端用户提供服务。
停电。它是一种常见的物理原因，这对不同国家的电网或独立发电厂的电源提出了很高的要求。幸运的是，很多云服务供应商的数据中心会有备用发电机，如果发生断电等情况，数据中心的备用发电机可以支撑一段时间。
网络安全。与很多人常规想象中的有所不同，其实网络攻击是云服务商无法使用云服务中极其罕见的原因之一。因为通过分布式基础设施，云服务已经具备很强的抵御能力，网络攻击事件虽有不少，但真正能够成功的并不多见。
环境原因。云服务厂商无法控制的一件事就是自然灾害或与天气相关的事情，如飓风、雷暴、海啸和地震等等。
维护问题。虽然最终用户只需为他们使用的服务付费，但云提供商需要维护、管理和运营他们整个复杂的 IT 基础设施。在这个过程中，云提供商也许按计划改进和升级系统，但也有可能会导致计划内的服务中断或系统完全重启。

宕机无法 100% 避免，我们所能做的就是在日常的操作、开发、使用过程中去降低出错率的同时，也正如微软顾问咨询服务大中华区 Cybersecurity 首席架构师张美波曾建议道：

“虽然云计算技术带来了按需服务、高扩展性、超大规模资源支持等优点，但是同样的，由于云计算平台的用户、应用和数据资源的高度集中，从而在云计算平台出现故障时，会导致更为严重的破坏和影响。
因此强烈建议大家在选择云计算服务平台时，尽量选择更安全的、更具有领先技术的全球领先云计算平台。”

码农公寓

一周前 AWS 的宕机事件

宕机原因

相关文章