大家好,昨天AMSV3.6测试数据库故障已恢复正常,针对本次的故障进行复盘总结: 问题描述: 由于硬件/底层系统问题,AMS测试数据库受损,业务测试无法正常开展。 问题影响: 影响版本测试时间1.5天(故障处理时长1天,db恢复验证花费0.5天),造成测试时间的损耗,影响到版本发布计划。 解决方案: 1.拉通测试运维、研发/测试,在1.27凌晨2点恢复了db基础数据,1.28上午修复配置数据并重新构造测试数据,问题得以解决 2.不影响版本正常上线:测试、产品周末加班进行测试及验收,保证按原计划(1月31日)上线 改善措施: 1. 测试环境问题管理机制:出现阻塞进度的问题发生时,测试人员务必走系统工单上报问题,及时联系问题处理人处理问题; 1) 工单超出5分钟未得到响应,则电话工单责任人/测试运维值班人 参考:http://confluence.sf-express.com/x/F4ppBg 2) 问题超过2小时未得到解决,项目测试Lead将问题上升到部门Lead,并拉起电话会议将研发、测试、测试运维主要负责人等拉入,处理问题并全程跟进问题处理过程; 3) 实时跟进问题处理状态,跟相关干系人反馈进度。直到问题得以解决; 2. 问题复盘机制:在阻塞问题解决后,1天内完成问题复盘,包含内容如下。 1) 问题描述/影响范围/解决方案/改善计划 2) 统计问题处理的时效,并登记好问题到wiki 参考:http://confluence.sf-express.com/x/s_MdC 3) 复盘结果,以邮件等正式文书通知 3. 针对本次问题的行动计划 1) 配置类数据,定期从生产环境同步到测试环境并及时做本地备份。 2) 就测试DB的管理问题,协同部门领导将IBU科技所有业务线的非云环境DB迁移到顺丰云;对于无法迁移上云的部分环境,测试数据库要做好主从备份或本地备份。预计2月底前完成;-- 责任人:王渊、张学飞 3) 在IBU科技研发质量内部,完成一次问题处理和复盘总结。预计2月3号前完成; -- 责任人:张学飞 附: 一、复盘会议纪要
问题过程 | 问题跟进方 |
在DBA数据库无前兆崩溃,表数据丢失的情况,未深挖具体原因,等待DBA恢复数据,DBA恢复失败导致浪费了一中午的时间,未及时升级问题,比较被动 | 测试侧、DBA |
如果问题超时未得到处理,要及时跟进,启动应急响应机制(如电话值班人、研发/测试主管)拉通相关人员快速解决问题。 | 研发侧、测试侧 |
非云数据库上云,多次失败,仍然在上云计划中;但是由于版本测试影响,未及时跟进 | 研发侧 |
针对数据库故障、应用服务器、中间件故障宕机等系统级别的故障,在无法重启恢复的情况下,应当第一时间去上报it服务台,电话、会议联系对应(运维、DBA)负责人处理,同时快速反馈上级负责人 | 研发侧、测试侧 |