滴滴夜莺nightingale v2版本 collector发生endpoint冲突

案例描述

说明

  1. 模版机新克隆机器,或者现有生产服务器重启,agent报警无法恢复

案例分析

事故过程

说明

  1. 模版机新克隆机器,或者现有生产服务器重启,endpoint报警无法恢复

问题影响

说明

无法监控目标主机,服务端transfer的debug日志会有相同endpoint相同时间刷冲突日志

技术分析

说明

查看最近的collector启动日志

endpoint: 这个字段是否和目标主机相同

没有启动日志的需要重启

最后发现,是模版机克隆出来的虚机,虽然主机名更新了,但是collector的endpoint不是实时更新的,是缓存的

 

解决方案

说明

手动重启夜莺collector

 

根本原因

说明

虚机克隆更改主机名无法实时同步到夜莺collector

 

预防措施

说明

关注报警,排查endpoint标识

上一篇:生成二维码


下一篇:rizhuti-V2 修改文章查看次数