项目场景:
模型训练开始–结束过程
问题描述:
一个数据集刚跑完,换另一个数据集继续做实验,训练一开始就爆出个Error,了不得!反正就是999未知错误。
RuntimeError: cuda runtime error (999) : unknown error at C:/cb/pytorch_1000000000000/work/aten/src\THCUNN/generic/ClassNLLCriterion.cu:235
RuntimeError: cuda runtime error (999) : unknown error at C:/cb/pytorch_1595629403081/work/aten/src/THC/THCGeneral.cpp:47
原因分析:
看到cuda runtime error,很好知道cuda出毛病了,然后看到999这是神马?感冒灵?就换了一下数据集的路径,总不可能动到其他文件吧,所以代码错误排除。
大概可能或许就是cuda初始化或者加载出问题了吧。
解决方案:
1.针对linux系统(网上通用解决办法):
重新加载nvidia内核模块
sudo rmmod nvidia_uvm
sudo modprobe nvidia_uvm
2.针对所有系统
没什么问题是重装不能解决的,如果有那就重装CUDA两遍!!!
3.针对Windows系统
用惯了windows就是不想换系统,重装CUDA又那么费劲,懒人有懒人的万能解决办法:重启电脑,just so so!