****** 服务器上跑过程序经常能遇到out of memory 这个问题,下面是我经常在实验室碰到的解决方法。
1.使用命令nvidia-smi,看到GPU显存被占满:
2.尝试使用 ps aux|grep PID命令查看占用GPU内存的线程的使用情况。如下
解决办法:
1.根据以上操作即可确认同与你使用一台服务器的其他人是谁在占用GPU。与对方沟通后如果程序已经跑完但是仍在占用显存可KILL掉该进程。
***因服务器资源有限,大家在使用过程中及时互相沟通,保证机器利用效率。
2.多GPU的服务器在程序训练EPOCH 较多的时候应该指定GPU_DEVICE,不要占用全部资源。
3.使用jupyter的同学在程序结束后应当及时在RUNNING界面将程序shutdown,否则该程序还会一直占用资源。(如下)