Tomcat线程数占满而导致的线上事故

事故表现形式:

昨天下午4点多的时候,有同学反映说,某个服务响应时间过长,怀疑是负载均衡的问题。

排查过程:

1,查看阿里云负载均衡表现正常,排除。

2,查看单台服务日志出现OOM,可以断定是服务出问题了。

分析原因:

1,先重启服务。

2,下载 *.hprof 日志,用MAT分析结果如下图:

3,结果明显指示tomcat线程池满了,并指向了其中一个controller的外部请求。

4,结合代码分析是请求外部HTTP连接没有设置超时时间,导致大量请求堆积,tomcat线程池满了,造成OOM。

解决办法:

1,HTTP请求使用连接池,设置超时响应时间

2,加上监控。

Tomcat线程数占满而导致的线上事故

Tomcat线程数占满而导致的线上事故

上一篇:由一个stack OOM引发的血案


下一篇:最常见的Android内存优化方式及防止泄漏造成OOM总结篇