linux运维工作的七项内容

2021-10-01 00:59:01

一，【基础运维检查】

或叫例行检查或叫例行巡检

mail cacti

1.理解例行检查列表的内容、检查项的含义以及可能引发的问题。

2.按照例行检查表，定期检查系统状态，发现异常立即通报并推进解决。

3.定期检查线上服务模块，排除可疑进程, 发现问题及时通报。

4.理解监控和统计报表的各项含义，每天定时检查报表，发现异常立即通报并推进解决。

5.制定服务例行检查要点和方法，部署执行并不断完善，避免检查的盲点。

工作清单参考

1.在预期的时间内，根据执行手册，保质保量完成产品线既定的例行检查工作。

2.通过技术方式提高例行检查的效率。

3.有能力发现潜在问题，制定或者补充合理的检查清单和检查方式，保证基础运维有效进行。

4.进行问题和追查，并解决可能的隐患。

具体检查项举例

机器性能：idle>60%，memfree>60%，io<30MB/s，nic<90MB/s，disk_used<80%

模块日志：请求次数<800次/s ，耗时<300ms/次，日志fatal|error|warnning条数

数据报表：前一天用户访问量报表，前一天用户提交量报表，各地域访问服务流量情况和耗时情况，非正常用户(网页抓取)访问量情况

备份检查：检查夜间的数据备份是否正常。

如在排查过程中遇到问题，需要及时跟进：

凭估问题影响，及时通报，跟进问题，定位问题，提出解决方案，经确认后执行解决方案，最后通报问题已解决并给出如何让此类问题不再次发生。

二，【整理预案】

工作清单参考

1.根据服务稳定性和部署现状，整理服务执行预案。

2.将服务分级别，分层次，整理不同重要性的应急预案。

3.定期进行预案演练，每季度进行一次大规模预案演练，但如有重要级别的服务，可以加快预案练习频率（每月演练一次）

4.记录预案执行时间，人员，操作耗时，影响服务时间，服务恢复时间，最后整理整个预案演习的时间和真正影响服务时间。

5.根据预案演练发现的问题，记录问题原因，并更新预案，如果有遗漏的监控应在预案演练后及时添加监控。

6.优化预案执行过程，预案执行自动化，降低影响服务的时间。

三，【故障处理】

1.熟悉服务日常故障处理方法和预案执行要点。

2.对已知线上故障能按流程进行通报并按预案执行。

3.及时处理并回复相关的服务报警信息。

4.能透彻分析报警原因,并推动报警问题解决。

5.能发现服务隐患，总结处理方法和提出预案改进建议。

四，【数据备份】

1.根据服务类型，将需要备份的数据划分重要级别，理解什么数据需要全量备份，什么时候需要增量备份，并且需要确认数据需要保留天数。

2.编写数据恢复预案，定期演练，包含但不限于每季度的数据恢复测试；

3.根据服务调整、机器迁移等服务变更须及时更新备份方案；

五，【机器管理】

1.熟悉服务器资源状况，机房分布情况，并能做到批量管理，自动化管理。

2.合理使用服务器资源，根据不同服务的需求，安排不同配置的服务器。

3.保证服务器正常运行，对服务器硬件添加或变更来解决资源不足问题。

4.熟悉服务器上下架、上下线、搬迁相关流程。

六，【服务管理】

服务与服务间的关联关系。

线上服务操作注意事项。

及时发现服务上的问题，并及时跟进、推动解决。

整理运维文档，记录每个服务的问题或潜在问题和这个服务的特殊点。

七，【技术审核】

1.编制或审核上线步骤、回滚方案。

2.按流程高质量地完成上线、操作，包括上线后的检查复核以及紧急情况下的回滚操作。

3.用脚本和自动化的方法实现上线和操作,改进上线/操作过程。

具体审核点：

1.评估变更对运维影响（如资源、接口、平台），产出评估影响，以及应对策略。

2.评估变更对业务的影响（如流量、收入、网页数等）

3.变更执行

3.1变更时间、地点、参与；

3.2变更方案（含执行方案、预案）；

3.3变更执行；

3.4变更check；（业务和运维）；

3.5变更回顾；

4.对所做的变更进行回顾和总结

4.1变更问题总结和改进；

4.2改进措施与实施；

4.3改进对业务推动；

4.4改进对运维推动；

linux运维工作的七项内容,布布扣,bubuko.com

linux运维工作的七项内容

码农公寓

相关文章