我有一个简单的test.ksh,我正在使用该命令运行:
sbatch test.ksh
我一直得到“JobState = FAILED Reason = NonZeroExitCode”(使用“scontrol show job”)
我已经确定了以下内容:
> slurmd和slurmctld启动并正常运行
>“test.ksh”的用户权限是777.
>命令“srun test.ksh”(单独使用,不使用sbatch)成功没有问题
>我试着在“test.ksh”的最后一行输入“return 0”而没有运气
>我试着在“test.ksh”的最后一行输入“exit 0”而没有运气
>我试着在“test.ksh”的最后一行输入“hostname”而没有运气
>我尝试在“test.ksh”的最后一行输入“srun hostname”,但没有运气
解决方法:
我发现我没有设置–error和–output,这意味着默认是我发出命令的当前目录.
问题是我没有足够的权限写入当前目录.
解决方案是将–error和–output目录设置为我有权限的地方.