RuntimeError: cuda runtime error (999)

项目场景:

模型训练开始–结束过程


问题描述:

一个数据集刚跑完,换另一个数据集继续做实验,训练一开始就爆出个Error,了不得!反正就是999未知错误。

RuntimeError: cuda runtime error (999) : unknown error at C:/cb/pytorch_1000000000000/work/aten/src\THCUNN/generic/ClassNLLCriterion.cu:235
RuntimeError: cuda runtime error (999) : unknown error at C:/cb/pytorch_1595629403081/work/aten/src/THC/THCGeneral.cpp:47

原因分析:

看到cuda runtime error,很好知道cuda出毛病了,然后看到999这是神马?感冒灵?就换了一下数据集的路径,总不可能动到其他文件吧,所以代码错误排除。

大概可能或许就是cuda初始化或者加载出问题了吧。


解决方案:

1.针对linux系统(网上通用解决办法):

重新加载nvidia内核模块

sudo rmmod nvidia_uvm
sudo modprobe nvidia_uvm

2.针对所有系统
没什么问题是重装不能解决的,如果有那就重装CUDA两遍!!!

3.针对Windows系统
用惯了windows就是不想换系统,重装CUDA又那么费劲,懒人有懒人的万能解决办法:重启电脑,just so so!

上一篇:根据年月获取起止日期


下一篇:【placehlder修改css样式】