linux – slurmstepd的可能影响:错误:在某些时候超出了步骤内存限制?

对于那些熟悉调度程序Slurm的人,我有一个问题.有时我得到以下错误消息slurmstepd:错误:在某些时候超过步骤内存限制.

我知道这意味着分配给我的进程的内存是不够的.尽管如此,该过程并未被调度程序杀死,并且通常看起来无害:程序运行完成并且输出文件看起来状态良好.

如果我收到错误消息,我是否应该总是假设输出有问题并重新运行程序?为什么有时可以超出分配的内存,但程序没有被杀死?

解决方法:

除非您收到一条消息称该工作被SLURM杀死且sacct显示已完成状态,否则您应该合理地认为该工作已完成.

上一篇:在SLURM中使用sbatch命令时如何导入本地python模块


下一篇:php – 自动检索bsub的结果