在整个机器学习的过程中,配置环境一直是一个比较复杂的事情,今天介绍几种根据英伟达官方文档来配置环境的方法。
安装方案
https://gitlab.com/nvidia/container-images/cuda/
国内同步镜像:https://gitee.com/zionfuo/cuda
安装脚本在dist目录下
选择cuda的版本号
矩池云上cuda8/cuda9使用的是ubuntu16.04,cuda10及以上都是ubuntu18.04
- base:cuda安装方式
- devel:nvcc等安装方式
- runtime:cudnn等安装方式
检查系统版本
source /etc/os-release && echo $VERSION_ID
cuda 与 nvcc 安装教程
导入apt仓库和其GPG key
# 检查系统若输出 16.04,请用下面的命令
curl -fsSL https://mirrors.aliyun.com/nvidia-cuda/ubuntu1604/x86_64/7fa2af80.pub | apt-key add -
echo "deb https://mirrors.aliyun.com/nvidia-cuda/ubuntu1604/x86_64/ /" > /etc/apt/sources.list.d/cuda.list
# 检查系统若输出 18.04,请用下面的命令
curl -fsSL https://mirrors.aliyun.com/nvidia-cuda/ubuntu1804/x86_64/7fa2af80.pub | apt-key add -
echo "deb https://mirrors.aliyun.com/nvidia-cuda/ubuntu1804/x86_64/ /" > /etc/apt/sources.list.d/cuda.list
cuda、nvcc在阿里源的nvidia-cuda中有,软件的对应的版本可以在阿里源中搜索查到。
https://mirrors.aliyun.com/nvidia-cuda/ubuntu1804(1604)/x86_64/
安装所需版本的 cuda
以cuda11为例,根据Dockerfile得出安装命令如下
# 以升级到cuda11为例
apt-get update && apt-get install -y --no-install-recommends \
cuda-cudart-11-0=11.0.221-1 \
cuda-compat-11-0 &&\
ln -s cuda-11.0 /usr/local/cuda && \
rm -rf /var/lib/apt/lists/*
安装所需版本的 nvcc
以cuda10版本的nvcc为例,根据Dockerfile得出安装命令如下
# "10-0" 表示安装CUDA10.0版本的 nvcc, 应根据镜像中cuda版本安装
apt-get update && apt-get install -y --no-install-recommends \
apt install cuda-command-line-tools-10-0 \
rm -rf /var/lib/apt/lists/*
cudnn 与 tensorRT 安装教程
# 检查系统若输出 16.04,请用下面的命令
curl -fsSL https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1604/x86_64/7fa2af80.pub | apt-key add -
echo "deb https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1604/x86_64//" > /etc/apt/sources.list.d/cuda.list
# 检查系统若输出 18.04,请用下面的命令
curl -fsSL https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1804/x86_64/7fa2af80.pub | apt-key add -
echo "deb https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1804/x86_64//" > /etc/apt/sources.list.d/cuda.list
cudnn、tensorRT在腾讯源的nvidia-machine-learning中有,软件的对应的版本可以在腾讯源中搜索查到。
https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1804(1604)/x86_64/
安装所需版本的 cudnn
以cuda10.2下cudnn 8.0.3版本为例,根据Dockerfile得出安装命令如下
# 这里以cudnn 8.0.3.33版本为例
apt-get update && apt-get install -y --no-install-recommends \
libcudnn8=8.0.3.33-1+cuda10.2 \
&& apt-mark hold libcudnn8 && \
rm -rf /var/lib/apt/lists/*
安装所需版本的 tensorRT
根据TensorFlow的官方文档得出安装命令如下
# 这里以tensorRT 7.1.3版本为例
apt-get install -y --no-install-recommends libnvinfer7=7.1.3-1+cuda11.0 \
libnvinfer-dev=7.1.3-1+cuda11.0 \
libnvinfer-plugin7=7.1.3-1+cuda11.0