结合鹰眼排查内存溢出问题

本文由曹素杰(阿里云 MVP 石化盈科信息技术有限责任公司 高级工程师)提供,若使用请标明出处。

  1. 内存溢出的表现:
    a) CPU会飙升到100%,如果是多核则乘以核数

b) 日志中会出现OutOfMemoryError

  1. 分析原因步骤:
    a) 使用jmap创建heap文件,命令如下:

/opt/edas/jdk/java/bin/jmap -F -dump:format=b,file=/home/admin/csc.dmp pid
b) 创建成功后压缩下dump文件,命令如下:

        gzip  -c  csc.dmp  > /home/admin/csc.gzip

c) 下载dump文件到本地,命令如下:

        sz /home/admin/csc.gzip

d) 本地使用jprofiler打开快照文件,界面如下:
结合鹰眼排查内存溢出问题

从图中可以看到字符串和hashmap占用的比较多,相对来讲,hashmap比string要好分析一些,这里使用hashmap,选中hashmap节点,右键use selected instanced出现界面
结合鹰眼排查内存溢出问题

点击确定
随机选择一个hashmap的节点,展开查看引用对象,如下:
结合鹰眼排查内存溢出问题

可以看到正在进行HSF的hessian序列话,说明正在接收一个HSF服务结果,并且该结果超大,可以展开map查看结果数据,如图:
结合鹰眼排查内存溢出问题
从这里可以看到调用的是客户中心的数据,这时可以上EDAS控制台,查看鹰眼的调用情况,时间选择奔溃的时间点,返回结果选择大于10K,如图:
结合鹰眼排查内存溢出问题

能看到有一个延迟较大的调用
结合鹰眼排查内存溢出问题

点击进入详情
结合鹰眼排查内存溢出问题

可以看到返回的结果超大,再结合应用端的日志则可以排查对应的接口为什么返回大量的数据?

另外也可以和RDS慢日志配合,大部分情况数据都来自于RDS,可以进入到RDS性能优化控制台,查看返回行数较大的sql,如图:
结合鹰眼排查内存溢出问题

这样也可以分析到是哪个接口导致的。

建议在EDAS台添加如下配置,内存溢出的时候可以自动创建dump文件,以下为docker配置示例,ecs配置换个路径:
结合鹰眼排查内存溢出问题

上一篇:深度 | API 设计最佳实践的思考


下一篇:云栖TechDay开放日---我的活动我做主