上午收到报警,某台机器上的CPU负载过高,通过逐步的排查,解决了问题,下面记录一下整个排查的过程。
首先,登录上对应的机器,通过top命令找到占用CPU过高的进程ID,也就是PID,为29126, 然后通过ps命令和grep命令找到PID为29126对应的服务,具体命令如下:
ps -ef | grep
结果如下:
找到对应的服务之后,可以直接查看服务打印的日志,没有发现任何异常,所以只能通过jdk提供的JVM工具来排查问题。
先通过jdk自带的工具jstack保存一下JVM进程对应的栈信息,具体的命令是:
jstack > 29126_stack.log
然后通过top命令找到占用CPU较多时间的线程,具体的命令如下:
top -p -H
找到目标线程的PID为22050,然后将PID转换为16进制,可以使用printf命令,具体命令如下:
printf "%x\n" 22050
转化结果为:5622
然后在之前保存的JVM进程的栈信息的文件中找到nid=0x5622的线程的栈信息,结果如下:
通过线程的栈信息,我们可以找到该线程在执行的代码,然后通过排查这段代码找出问题所在。