jenkins master 与slave 异常断开引起task 任务失败之故障深入分析


环境信息: 

      网络环境 :   同一个子网中

      jenkins master :     centos 7   jenkins 2.0  master 

      jenkins slave :  windows    slave 


故障现象: 


     任务的报错信息:     



现象分析: 

     1,   master slave 异常断开

     2,  任务执行失败

     3,  tcp 长连接异常断开 

    4,   断开连接失败,  4 层问题  或者是 3层问题



原因猜测:  

     1, master  负载过高  引起异常断开

     2, 网络质量差,引起异常断开

     3,  slave  进程假死 引起 异常断开  



排查方法: 

    1, 网络质量监控  (秒级)

    2,  进程存活监控   

    3,  debug 日志打开   master  slave  

    4,    tcp 长连接抓包分析 

    5,  全链路 数据包 路由质量检测 监控 



短期解决办法:

1, 剔除 问题节点



长期解决方案:    


1,  查看debug 日志 

2,  windows slave  自动重连 master 

3,   task 设置 retry  功能

4,  windows slave  守护脚本的开发  



          本文转自heavenseahill 51CTO博客,原文链接:http://blog.51cto.com/shower/1973379,如需转载请自行联系原作者




上一篇:《机器人爱好者(第2辑)》——机器人天地


下一篇:教程 | 一个基于TensorFlow的简单故事生成案例:带你了解LSTM