今天继续炼丹,调代码。突然出现这个错误: RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED
我的内心:黑人问号脸???
遂必应一下报错,然后gayhub上说原因是Pytorch, cuda驱动等等不匹配的原因。我继续黑人问号脸???周六,我才因为ubuntu内核更新,而装了新的CUDA驱动。而且我刚刚debug一直没问题啊!
查一下GPU的情况,发现我用的那张卡的显存被占满???继续黑人问号。有大概6个进程占着显存,而且肯定是我之前的进程(捂脸)
僵尸进程了呗,于是一 一杀掉,然后就又能跑了。。
回想了下,应该是退出Ipdb调试状态的时候直接crtl-z了,应该是实际上没退出了(捂脸哭),导致显存不够了,可是为啥不是报显存OOV的错误呢!!!!!!OMG不知道不知道。
嫌长不看版:
遇到这个错请看一下自己GPU们的状态,万一就跟我一样,进程没杀死呢(智障错误OMG)
附一个github issue链接:github 关于此报错的讨论