Cannot allocate memory 的分析及解决方法
问题
业务方使用Python虚拟的子进程和主进程共享内存,主进程启动后,启动子进程时报错"Cannot allocate memory"
问题分析
可能的原因:
- 系统的物理RAM或交换空间不足
- 进程在启用CompressedOops的情况下运行,Java堆可能会阻止本机堆的增长
可能的解决方案:
- 减少系统内存负载
- 增加物理内存或交换空间
- 检查交换备份存储是否已满
- 减小Java堆大小(-Xmx/-Xms)
- 减少Java线程数
- 减少Java线程堆栈大小(-Xss)
- 使用-XX:ReservedCodeCacheSize设置更大的代码缓存=
- JVM运行的是无标度的压缩Oops模式,其中Java堆是
- 放在第一个4GB地址空间。Java堆基址是
- 本机堆增长的最大限制。请使用-XX:HeapBaseMinAddress
- 设置Java堆基并将Java堆放置在4GB虚拟地址之上
咋一看是怀疑内存不足,但从监控来看,内存还有很多富裕
进程
看到提供的可能的解决方案中有需要减少java线程数,联想到服务器的进程数是不是满了,首先查看服务器最大进程数 sysctl kernel.pid_max
接着一查看进程数ps -eLf | wc –l,16149远远还没到32768啊,那肯定也不是进程数满了的原因,排除。
内核参数overcommit_memory
Linux下有个内核参数overcommit_memory,是内存分配策略,程序在启动的时候会先去申请内存,尽管不一定都会用的到那么多。
overcommit_memory此参数决定是否接受超大内存请求的条件。这个参数有三个可能的值:
- 0 — 默认设置。内核执行启发式内存过量使用处理,方法是估算可用内存量,并拒绝明显无效的请求。遗憾的是因为内存是使用启发式而非准确算法计算进行部署,这个设置有时可能会造成系统中的可用内存超载。
- 1 — 内核执行无内存过量使用处理。使用这个设置会增大内存超载的可能性,但也可以增强大量使用内存任务的性能。
- 2 — 内存拒绝等于或者大于总可用 swap 大小以及overcommit_ratio指定的物理RAM比例的内存请求。如果您希望减小内存过度使用的风险,这个设置就是最好的。
目前的内存申请和可用情况cat /proc/meminfo | grep Commit - CommitLimit 表示系统可申请的总内存
- Committed_AS为当前已经申请的内存
理解下什么是Overcommit和OOM:
Linux对大部分申请内存的请求都回复"yes",以便能跑更多更大的程序。因为申请内存后,并不会马上使用内存。这种技术叫做Overcommit。当linux发现内存不足时,会发生OOM killer(OOM=out-of-memory)。它会选择杀死一些进程(用户态进程,不是内核线程),以便释放内存。
当oom-killer发生时,linux会选择杀死哪些进程?选择进程的函数是oom_badness函数(在mm/oom_kill.c中),该函数会计算每个进程的点数(0~1000)。点数越高,这个进程越有可能被杀死。每个进程的点数跟oom_score_adj有关,而且oom_score_adj可以被设置(-1000最低,1000最高)。
解决方法
有三种方式修改内核参数,但要有root权限:
- 编辑/etc/sysctl.conf ,改vm.overcommit_memory=1,然后sysctl -p使配置文件生效
- sysctl vm.overcommit_memory=1
- echo 1 > /proc/sys/vm/overcommit_memory,然后sysctl –p永久生效