今年下午13:20-14:20左右,突增的访问量引发数据库服务器(阿里云RDS)IOPS跑满,造成大量请求执行缓慢,从而严重影响了网站的正常访问,给大家带来很大的麻烦,望大家谅解!
在出现故障时,当我们定位到是由于数据库服务器IOPS跑满的原因后,立即对这个RDS实例进行了升级。但升级后,由于SQL Server需要一个预热过程,在预热期间大量的数据库查询依然非常缓慢,等SQL Server完成预热后,才恢复正常。而这个预热过程竟然耗时30分钟左右,造成这次故障时间如此之长,真的非常抱歉!
我们会吸取这次教训,防患于未然,更多地分析访问统计数据,在访问量可能出现大的增长时,提前进行升级。同时,我们也期待能够动态按需扩展IOPS能力的云数据库产品。