pytorch 安装和基本配置 (包括NVIDIA驱动), Ubuntu

显卡: NVIDIA 2070 super
版本配置:
操作系统: Ubuntu 18.04 LTS
显卡驱动*: Driver Version: 440.44
CUDA 版本: CUDA Toolkit 10.1 update2, (cuda_10.1.243_418.87.00_linux.run)
pytorch 版本: 1.3 stable

  • 注意, 显卡驱动版本不一定要和CUDA一致,但是显卡驱动版本一定要高于或等于相应的CUDA版本,向下兼容
  • 建议最后安装pytorch, 因为安装pytorch时如果没有检测到系统已经有CUDA,会自动安装一个低版本的CUDA,这个低版本的我们并不使用

安装显卡驱动(这里采用手动安装):

Ubuntu 在安装的时候系统默认安装了一个Nouveau的驱动,用于显示,在安装NVIDIA官网驱动时要先禁用这个驱动,(禁用后,屏幕分辨率会降低,显示模糊)

禁用Nouveau驱动
在/etc/modprobe.d/blacklist.conf 里添加如下内容

blacklist nouveau
blacklist vga16fb
blacklist rivafb
blacklist rivatv
blacklist vidiafb

重启计算机
查看是否禁用成功

lsmod | grep nouveau

如果无输出信息,则说明禁用成功

另一种方案时由Nvidia 官网提供,在/etc/modprobe.d/blacklist.conf 里添加

blacklist nouveau
options nouveau modeset=0

然后重启计算机

下载NVIDIA-Linux-x86_64-440.44.run

sudo sh NVIDIA-Linux-x86_64-440.44.run

如遇到组件缺失,(例如gcc等), 根据提示和log文件, 用sudo apt-get install 安装缺失组件后重新运行.run 进行安装
查看驱动信息:

$ nvidia-smi

安装CUDA Toolkit

按照NVIDIA 官网的说明,执行以下(示例)命令安装:

$ wget http://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_版本号_linux.run
$sudo sh cuda_10.1.版本号_linux.run

因为显卡驱动已安装, 这里在安装页面里取消勾选显卡驱动并accept条款
如果之前安装过pytroch, 会自动安装一个低版本的CUDA,这个低版本CUDA默认路径为

/usr/local/cuda/

新安装的CUDA 10.1 版本默路径为:\

/usr/local/cuda-10.1

更改环境变量, 另10.1 版本为默认CUDA,执行

$ vim ~/.bashrc

在文件最后添加如下两行:

export CUDA_HOME=/usr/local/cuda-10.1/
export PATH=$PATH:/usr/local/cuda-10.1/bin/

退出vim, 执行

source ~/.bashrc

以更新环境变量

检验是否安装成功, 查看CUDA版本号:

$ nvcc -V

pytorch 安装和基本配置 (包括NVIDIA驱动), Ubuntu

可以看到, CUDA 10.1 安装成功

安装cuDNN:

到NVIDIA 官网下载与CUDA10.1 相对应的cuDNN (v7.6.5),下载cuDNN需要NVIDIA账号
下载包为tar格式,解压到文件夹,会看到cuda文件夹,里面包含如下内容

ls cuda/

pytorch 安装和基本配置 (包括NVIDIA驱动), Ubuntu

复制以下文件到CUDA的安装路径,这里是/usr/local/cuda-10.1/

$ sudo cp cuda/include/cudnn.h /usr/local/cuda-10.1/include
$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda-10.1/lib64

给文件增加权限:

$ sudo chmod a+r /usr/local/cuda-10.1/include/cudnn.h /usr/local/cuda-10.1/lib64/libcudnn*

安装完毕, 查看cuDNN版本:

$ cat /usr/local/cuda-10.1/include/cudnn.h | grep CUDNN_MAJOR -A 2

pytorch 安装和基本配置 (包括NVIDIA驱动), Ubuntu

可以看到cuDNN版本为 7

安装pytorch

最后, 安装pytorch, 选择对应 CUDA 10.1 版本的pytorch, ubuntu 可命令安装
启动相应的conda虚拟环境, 这里虚拟环境名为pytorch_env, 为专为pytorch创建的一个conda环境

conda activate pytorch_env

安装:

(pytorch_env)$ conda install pytorch torchvision cudatoolkit=10.1 -c pytorch

安装完成后,查看pytorch 版本:
在相应的conda环境下:
进入python

(pytorch_env)$ python

查看pytorch 版本信息:

>>> import torch
>>> print(torch.__version__)

pytorch 安装和基本配置 (包括NVIDIA驱动), Ubuntu

可以看到pytorch 的版本号为1.3

注:

1.CPU超频可能导致显卡驱动编译卡死报错
2.安装显卡驱动有问题尝试卸载现有驱动

sudo apt-get --perge remove nvidia-*

以上步骤结合了网上其他blog资料、Nvidia官方文档,以及笔者亲自尝试经验总结,对其他资料来源再次一并表示感谢

上一篇:关闭“未发现 NVIDIA 控制面板”的弹窗


下一篇:NVIDIA公司推出的GPU运行环境下的机器人仿真环境(NVIDIA Isaac Gym)—— 到底实现了什么功能,意义价值又是什么???