一,【基础运维检查】
或叫 例行检查 或叫 例行巡检
mail cacti
1.理解例行检查列表的内容、检查项的含义以及可能引发的问题。
2.按照例行检查表,定期检查系统状态,发现异常立即通报并推进解决。
3.定期检查线上服务模块,排除可疑进程, 发现问题及时通报。
4.理解监控和统计报表的各项含义,每天定时检查报表,发现异常立即通报并推进解决。
5.制定服务例行检查要点和方法,部署执行并不断完善,避免检查的盲点。
工作清单参考
1.在预期的时间内,根据执行手册,保质保量完成产品线既定的例行检查工作。
2.通过技术方式提高例行检查的效率。
3.有能力发现潜在问题,制定或者补充合理的检查清单和检查方式,保证基础运维有效进行。
4.进行问题和追查,并解决可能的隐患。
具体检查项举例
机器性能:idle>60%,memfree>60%,io<30MB/s,nic<90MB/s,disk_used<80%
模块日志:请求次数<800次/s ,耗时<300ms/次,日志fatal|error|warnning条数
系统日志:查检内核日志是否有异常输出 ‘(I/O error|EXT2-fs error|ERROR on|Medium Error|error recovery|disk error|Illegal block|Out of Memory|dead device|readonly)‘
数据报表:前一天用户访问量报表,前一天用户提交量报表,各地域访问服务流量情况和耗时情况,非正常用户(网页抓取)访问量情况
备份检查:检查夜间的数据备份是否正常。
如在排查过程中遇到问题,需要及时跟进:
凭估问题影响,及时通报,跟进问题,定位问题,提出解决方案,经确认后执行解决方案,最后通报问题已解决 并 给出如何让此类问题不再次发生。
二,【整理预案】
工作清单参考
1.根据服务稳定性和部署现状,整理服务执行预案。
2.将服务分级别,分层次,整理不同重要性的应急预案。
3.定期进行预案演练,每季度进行一次大规模预案演练,但如有重要级别的服务,可以加快预案练习频率(每月演练一次)
4.记录预案执行时间,人员,操作耗时,影响服务时间,服务恢复时间,最后整理整个预案演习的时间和真正影响服务时间。
5.根据预案演练发现的问题,记录问题原因,并更新预案,如果有遗漏的监控应在预案演练后及时添加监控。
6.优化预案执行过程,预案执行自动化,降低影响服务的时间。
三,【故障处理】
1.熟悉服务日常故障处理方法和预案执行要点。
2.对已知线上故障能按流程进行通报并按预案执行。
3.及时处理并回复相关的服务报警信息。
4.能透彻分析报警原因,并推动报警问题解决。
5.能发现服务隐患,总结处理方法和提出预案改进建议。
四,【数据备份】
1.根据服务类型,将需要备份的数据划分重要级别,理解什么数据需要全量备份,什么时候需要增量备份,并且需要确认数据需要保留天数。
2.编写数据恢复预案,定期演练,包含但不限于每季度的数据恢复测试;
3.根据服务调整、机器迁移等服务变更须及时更新备份方案;
五,【机器管理】
1.熟悉服务器资源状况,机房分布情况,并能做到批量管理,自动化管理。
2.合理使用服务器资源,根据不同服务的需求,安排不同配置的服务器。
3.保证服务器正常运行,对服务器硬件添加或变更来解决资源不足问题。
4.熟悉服务器上下架、上下线、搬迁相关流程。
六,【服务管理】
服务与服务间的关联关系。
线上服务操作注意事项。
及时发现服务上的问题,并及时跟进、推动解决。
整理运维文档,记录每个服务的问题或潜在问题和这个服务的特殊点。
七,【技术审核】
1.编制或审核上线步骤、回滚方案。
2.按流程高质量地完成上线、操作,包括上线后的检查复核以及紧急情况下的回滚操作。
3.用脚本和自动化的方法实现上线和操作,改进上线/操作过程。
具体审核点:
1.评估变更对运维影响(如资源、接口、平台),产出评估影响,以及应对策略。
2.评估变更对业务的影响(如流量、收入、网页数等)
3.变更执行
3.1变更时间、地点、参与;
3.2变更方案(含 执行方案、预案);
3.3变更执行;
3.4变更check;(业务和运维);
3.5变更回顾;
4.对所做的变更进行回顾和总结
4.1变更问题总结和改进;
4.2改进措施与实施;
4.3改进对业务推动;
4.4改进对运维推动;