Ubuntu 18.04 LTS+GTX1080Ti+CUDA10.0 深度学习主机环境搭建

前言

由于之前的主机存在运行docker自动重启的问题,跑模型没问题,排查之后没有发现问题所在,所以最后决定升级技嘉主板的bios并重新安装系统和环境。

1 硬件环境

显卡:GTX1080Ti
内存:32G
硬盘:256G SSD+1T机械

2 安装Ubuntu 18.04 LTS

2.1 下载官方镜像

下载地址:https://link.zhihu.com/?target=https%3A//ubuntu.com/download/desktop

2.2 制作USB启动盘

使用Refus烧录镜像到U盘,Refus下载地址:Refus
Ubuntu 18.04 LTS+GTX1080Ti+CUDA10.0 深度学习主机环境搭建

2.3 安装系统

安装系统的步骤不在这里赘述,其他的博客[1]写的很好了,在这里提几个关键点,我的磁盘分区方案是:

  1. 2G的EFI分区
  2. 32G的swap分区(和内存大小一样)
  3. 剩下的ssd存储空间分给根目录
  4. home挂载在机械硬盘下

之后按照步骤直到完成系统的安装。

3 安装显卡驱动

在这一步花费了大量时间,根据网上搜索的结果,大部分博客都是总结了显卡驱动安装的三种方法:

1.使用标准Ubuntu仓库进行自动化安装
2.使用PPA仓库进行自动化安装
3.使用官方的NVIDIA驱动进行手动安装

在尝试这三种方法之后,使用nvidia-smi显示连接不到显卡,重启机器也是直接进入命令行模式。

所以,换了另外一种方法,具体过程如下:

首先,在系统安装完成之后不要换源,执行下面的命令去检查软件的更新

sudo apt-get update

之后在应用列表中打开Software & Updates,点击Additional Drivers,这个时候,官方推荐的列表就会显示了,其实这个跟执行

ubuntu-drivers devices

是一样的显示效果,但是在Software & Updates中操作会更稳妥一些。

Ubuntu 18.04 LTS+GTX1080Ti+CUDA10.0 深度学习主机环境搭建
点击 Apply Changes,等待进度条走完重启机器就安装完成了。执行nvidia-smi,显示如图,表示成功安装显卡驱动。

Ubuntu 18.04 LTS+GTX1080Ti+CUDA10.0 深度学习主机环境搭建

4 安装CUDA10.0

下载地址:https://developer.nvidia.com/cuda-toolkit-archive
选择CUDA 10.0
Ubuntu 18.04 LTS+GTX1080Ti+CUDA10.0 深度学习主机环境搭建
Ubuntu 18.04 LTS+GTX1080Ti+CUDA10.0 深度学习主机环境搭建
建议下载runfile,安装命令如下:

sudo sh cuda_<version>_linux.run

在安装过程中,

  • 选择是否安装显卡驱动时选择否
  • 是否构建/usr/local/cuda软链接时选择是
  • 其他选项按需选择
    安装完成后,需要在~/.bashrc(/home/用户名/.bashrc,.表示隐藏文件,直接用vi打开这个文件就行)文件中添加如下语句
export PATH=/usr/local/cuda-10.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

5 安装cuDNN

cuDNN的下载需要匹配CUDA的版本,也需要适配接下来需要安装的TensorFlow的版本。
Ubuntu 18.04 LTS+GTX1080Ti+CUDA10.0 深度学习主机环境搭建
cuDNN的下载地址:https://link.zhihu.com/?target=https%3A//developer.nvidia.com/rdp/cudnn-download

6 安装深度学习套件

6.1 安装anaconda

官方下载地址:
https://link.zhihu.com/?target=https%3A//www.anaconda.com/distribution/%23linux
安装命令:

bash Anaconda3-5.3.0-Linux-x86_64.sh

安装过程中询问是否将anaconda的安装位置写入.bashrc选择是。
Ubuntu 18.04 LTS+GTX1080Ti+CUDA10.0 深度学习主机环境搭建
为conda换源:

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes

6.2 安装TensorFlow.

官方教程:https://link.zhihu.com/?target=https%3A//tensorflow.google.cn/install/pip
首先,下载TensorFlow的离线镜像
Ubuntu 18.04 LTS+GTX1080Ti+CUDA10.0 深度学习主机环境搭建
新建虚拟环境

conda create -n keras pip python=3.6

激活虚拟环境

source activate keras

安装TensorFlow

pip install --ignore-installed --upgrade packageURL

测试

import tensorflow as tf
hello = tf.constant('first tensorflow')
sess = tf.Session()
print sess.run(hello)

参考链接
[1]LotusPanda:[Ubuntu18+RTX2080Ti]从0开始搭建深度学习环境TensorFlow+PyTorch

上一篇:传统企业业务升级的一些思路和方法


下一篇:Java判等问题:细节决定成败