问题现象
点击某一个dee任务查看详细,系统立即宕机,各页面无响应,java进程存在。
分析处理过程
1、尝试部署SeeyonDumpTools跟踪,对此问题未能有效,宕机前各项指标正常,宕机后无法导出各dump文件;
2、尝试部署arthas以及火焰图工具跟踪,宕机前接入正常,点击dee任务以后arthas控制台也假死无任何响应;
3、top命令查看,java进程存在,cpu使用率持续200%左右;
4、手工执行jstack <pid>尝试导出线程dump失败,导出命令一直卡住;
5、jstack命令存在强制导出线程dump的参数,查看其使用说明 jstack --help
Usage:
……
Options:
-F to force a thread dump. Use when jstack <pid> does not respond (process is hung)
jstack -F <pid>成功导出了线程dump文件;
6、top -Hp <pid>命令查看线程资源消耗,发现两个线程id各消耗cpu100%左右;
7、在第5步导出的线程dump文件中搜索第6步操作发现的两个线程id,找到关键信息;
几乎所有线程都是(state = BLOCKED)
搜索到的线程Thread 9101: (state = IN_JAVA)
com.alibaba.fastjson.JSON.toJSONString
8、dee开发肖左伟提供跟踪包,输出json发现跟踪对象15M大小,确认了宕机问题点,分析及处理过程如下。
1)、dee出问题代码:
ConfigInfo configInfo = JSONUtil.parseJSONString(adaptersDetal.get(name + ".interfaceData").toString(), ConfigInfo.class);
2)、报错:Thread 11254: (state = IN_JAVA)
- com.alibaba.fastjson.serializer.SerializeWriter.writeStringWithDoubleQuote(java.lang.String, char) @bci=959, line=1002 (Compiled frame; information may be imprecise)
- com.alibaba.fastjson.serializer.SerializeWriter.writeString(java.lang.String) @bci=18, line=2189 (Compiled frame)
- com.alibaba.fastjson.serializer.StringCodec.write(com.alibaba.fastjson.serializer.JSONSerializer, java.lang.String) @bci=19, line=46 (Compiled frame)
3)、原因:JSONUtil.parseJSONString(dataXml)反序列化时,由于dataXml太大(15M多),猜测死循环了,导致cpu 200%,其他所有线程BLOCKED,表现为宕机不响应任何请求
处理办法
在记录同步底表接口时将数据量大的interface参数赋值为空,存储的日志从15M多减小到现在的7KB。打上补丁后,再次点击对应功能,一切正常,问题到此处理完毕。