故障定义:在日常运营中,无论什么原因导致我们服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户方环境或自身操作引起的问题。
故障报告:(需要由处理人在故障处理结束后填写完成)
故障标题
影响业务
故障时长
原因分析
发现来源
action动作
action优化责任人
故障review:处理结束后,在2个工作日内召集相关人员召开故障review会议。
必参人员 :研发、运维、测试、故障涉及人。
可选人员:业务方、运营、客服
Review流程:故障回顾、处理过程简述、故障原因分析、改进预防措施制定、故障评级、不可用时间确认、action制定。
action制定的努力原则:系统的解决方案、可执行、关键action。
故障review完成后,故障主要处理人在wiki上完成对内故障报告,并由各组组长确认后正式发布。