显卡: NVIDIA 2070 super
版本配置:
操作系统: Ubuntu 18.04 LTS
显卡驱动*: Driver Version: 440.44
CUDA 版本: CUDA Toolkit 10.1 update2, (cuda_10.1.243_418.87.00_linux.run)
pytorch 版本: 1.3 stable
- 注意, 显卡驱动版本不一定要和CUDA一致,但是显卡驱动版本一定要高于或等于相应的CUDA版本,向下兼容
- 建议最后安装pytorch, 因为安装pytorch时如果没有检测到系统已经有CUDA,会自动安装一个低版本的CUDA,这个低版本的我们并不使用
安装显卡驱动(这里采用手动安装):
Ubuntu 在安装的时候系统默认安装了一个Nouveau的驱动,用于显示,在安装NVIDIA官网驱动时要先禁用这个驱动,(禁用后,屏幕分辨率会降低,显示模糊)
禁用Nouveau驱动
在/etc/modprobe.d/blacklist.conf 里添加如下内容
blacklist nouveau
blacklist vga16fb
blacklist rivafb
blacklist rivatv
blacklist vidiafb
重启计算机
查看是否禁用成功
lsmod | grep nouveau
如果无输出信息,则说明禁用成功
另一种方案时由Nvidia 官网提供,在/etc/modprobe.d/blacklist.conf 里添加
blacklist nouveau options nouveau modeset=0
然后重启计算机
下载NVIDIA-Linux-x86_64-440.44.run
sudo sh NVIDIA-Linux-x86_64-440.44.run
如遇到组件缺失,(例如gcc等), 根据提示和log文件, 用sudo apt-get install 安装缺失组件后重新运行.run 进行安装
查看驱动信息:
$ nvidia-smi
安装CUDA Toolkit
按照NVIDIA 官网的说明,执行以下(示例)命令安装:
$ wget http://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_版本号_linux.run
$sudo sh cuda_10.1.版本号_linux.run
因为显卡驱动已安装, 这里在安装页面里取消勾选显卡驱动并accept条款
如果之前安装过pytroch, 会自动安装一个低版本的CUDA,这个低版本CUDA默认路径为
/usr/local/cuda/
新安装的CUDA 10.1 版本默路径为:\
/usr/local/cuda-10.1
更改环境变量, 另10.1 版本为默认CUDA,执行
$ vim ~/.bashrc
在文件最后添加如下两行:
export CUDA_HOME=/usr/local/cuda-10.1/
export PATH=$PATH:/usr/local/cuda-10.1/bin/
退出vim, 执行
source ~/.bashrc
以更新环境变量
检验是否安装成功, 查看CUDA版本号:
$ nvcc -V
可以看到, CUDA 10.1 安装成功
安装cuDNN:
到NVIDIA 官网下载与CUDA10.1 相对应的cuDNN (v7.6.5),下载cuDNN需要NVIDIA账号
下载包为tar格式,解压到文件夹,会看到cuda文件夹,里面包含如下内容
ls cuda/
复制以下文件到CUDA的安装路径,这里是/usr/local/cuda-10.1/
$ sudo cp cuda/include/cudnn.h /usr/local/cuda-10.1/include
$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda-10.1/lib64
给文件增加权限:
$ sudo chmod a+r /usr/local/cuda-10.1/include/cudnn.h /usr/local/cuda-10.1/lib64/libcudnn*
安装完毕, 查看cuDNN版本:
$ cat /usr/local/cuda-10.1/include/cudnn.h | grep CUDNN_MAJOR -A 2
可以看到cuDNN版本为 7
安装pytorch
最后, 安装pytorch, 选择对应 CUDA 10.1 版本的pytorch, ubuntu 可命令安装
启动相应的conda虚拟环境, 这里虚拟环境名为pytorch_env, 为专为pytorch创建的一个conda环境
conda activate pytorch_env
安装:
(pytorch_env)$ conda install pytorch torchvision cudatoolkit=10.1 -c pytorch
安装完成后,查看pytorch 版本:
在相应的conda环境下:
进入python
(pytorch_env)$ python
查看pytorch 版本信息:
>>> import torch
>>> print(torch.__version__)
可以看到pytorch 的版本号为1.3
注:
1.CPU超频可能导致显卡驱动编译卡死报错
2.安装显卡驱动有问题尝试卸载现有驱动
sudo apt-get --perge remove nvidia-*