事故表现形式:
昨天下午4点多的时候,有同学反映说,某个服务响应时间过长,怀疑是负载均衡的问题。
排查过程:
1,查看阿里云负载均衡表现正常,排除。
2,查看单台服务日志出现OOM,可以断定是服务出问题了。
分析原因:
1,先重启服务。
2,下载 *.hprof 日志,用MAT分析结果如下图:
3,结果明显指示tomcat线程池满了,并指向了其中一个controller的外部请求。
4,结合代码分析是请求外部HTTP连接没有设置超时时间,导致大量请求堆积,tomcat线程池满了,造成OOM。
解决办法:
1,HTTP请求使用连接池,设置超时响应时间
2,加上监控。