西安健康码系统崩事件溃

系统崩溃

线上巡检:每隔XX分钟进行定时的自动扫描,验证服务对应的产品是否可用,如不可用的情况下,触发把平静(短信,钉钉,企业微信)

混沌:在一定的可稳定性的秩序下,存在不确定性,所以就需要新的秩序来建设可确定性的东西

分布式的架构集群:去中心化,多服务的实例化

弹性计算(容器化):可伸缩的架构

cpu:大家都进行扫描二维码,以及查看自己的健康码

内存:大量的健康码数据在进行大量的查询和写入

OOM(Java Lang Out Of Memory):内存泄漏

排查思路:

1、首先搞清楚这个服务是在那个阿里云机器上部署的

2、登录到阿里云的服务器上

3、到二维码服务的logs目录下

4、查看上午7:35至7:45的日志

      1)日志文件疯狂的写

       2)还是继续写,但不是疯狂的写,查找关键字Out Of Memory,7:40

最直接的方式:服务重新启动,内存释放

健康码的数据,必须进行持久化的处理

1、持久化的技术方案:redis内存中数据回进行备份的

2、数据存储的数据库,那么数据库里面的数据也会进行冷热备份

网址:TAPD

测试流程,测试先描写BUG步骤,流转开发,处理完成,验证通过后可以进行关闭

上一篇:C++ happens-before 关系是不可传递的


下一篇:测试流程测试报告