前几天买了张亮机卡,终于把主显卡成功直连到Unraid OS的虚拟机上了。然后就开始安装ubuntu系统开始配置环境,遇到了不少坑,特此记录。
-
gcc版本问题
在安装显卡驱动的时候,不要修改gcc版本,使用与内核对应的版本(默认版本,1804应该是7.3.0)。否则安装驱动会出现编译失败的问题。
-
新版本驱动自带Cuda10.1
装完驱动以后,使用nvidia-smi会发现看到Cuda10.1,不要慌,按照正常流程再装一边Cuda即可,然后再配置环境变量。
-
重装显卡驱动
如果驱动安装有问题,卸载重装。18.04和16.04重启图形界面的指令不同,不要用错了。我是直接装的NVIDIA网站上下载的驱动。自动安装确实会方便很多,但是万一出错了就不知道是哪里有问题了,很麻烦。
接下来就是在跑训练的时候遇到的一个小问题。数据量特别大的情况下,内存不够用,会出现Memory Error的问题。排除所有其他问题,最终发现内存不足。Ubuntu在安装的时候默认给我分配了1GB的虚拟内存,太小,于是增加一个swap文件。
sudo fallocate -l xxxG /swapfile #<xxx>用多少就写多少
sudo chmod /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
如果发现内存仍然不够,可以扩容。
sudo swapoff /swapfile
sudo dd if=/dev/zero of=/swapfile bs= count=xxxG #<xxx>用多少就写多少
sudo swapon /swapfile
如果扩容大的话,会占用比较长的时间,取决于硬盘速度。