前言
由于之前的主机存在运行docker自动重启的问题,跑模型没问题,排查之后没有发现问题所在,所以最后决定升级技嘉主板的bios并重新安装系统和环境。
1 硬件环境
显卡:GTX1080Ti
内存:32G
硬盘:256G SSD+1T机械
2 安装Ubuntu 18.04 LTS
2.1 下载官方镜像
下载地址:https://link.zhihu.com/?target=https%3A//ubuntu.com/download/desktop
2.2 制作USB启动盘
使用Refus烧录镜像到U盘,Refus下载地址:Refus
2.3 安装系统
安装系统的步骤不在这里赘述,其他的博客[1]写的很好了,在这里提几个关键点,我的磁盘分区方案是:
- 2G的EFI分区
- 32G的swap分区(和内存大小一样)
- 剩下的ssd存储空间分给根目录
- home挂载在机械硬盘下
之后按照步骤直到完成系统的安装。
3 安装显卡驱动
在这一步花费了大量时间,根据网上搜索的结果,大部分博客都是总结了显卡驱动安装的三种方法:
1.使用标准Ubuntu仓库进行自动化安装
2.使用PPA仓库进行自动化安装
3.使用官方的NVIDIA驱动进行手动安装
在尝试这三种方法之后,使用nvidia-smi显示连接不到显卡,重启机器也是直接进入命令行模式。
所以,换了另外一种方法,具体过程如下:
首先,在系统安装完成之后不要换源,执行下面的命令去检查软件的更新
sudo apt-get update
之后在应用列表中打开Software & Updates,点击Additional Drivers,这个时候,官方推荐的列表就会显示了,其实这个跟执行
ubuntu-drivers devices
是一样的显示效果,但是在Software & Updates中操作会更稳妥一些。
点击 Apply Changes,等待进度条走完重启机器就安装完成了。执行nvidia-smi,显示如图,表示成功安装显卡驱动。
4 安装CUDA10.0
下载地址:https://developer.nvidia.com/cuda-toolkit-archive
选择CUDA 10.0
建议下载runfile,安装命令如下:
sudo sh cuda_<version>_linux.run
在安装过程中,
- 选择是否安装显卡驱动时选择否
- 是否构建/usr/local/cuda软链接时选择是
- 其他选项按需选择
安装完成后,需要在~/.bashrc(/home/用户名/.bashrc,.表示隐藏文件,直接用vi打开这个文件就行)文件中添加如下语句
export PATH=/usr/local/cuda-10.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
5 安装cuDNN
cuDNN的下载需要匹配CUDA的版本,也需要适配接下来需要安装的TensorFlow的版本。
cuDNN的下载地址:https://link.zhihu.com/?target=https%3A//developer.nvidia.com/rdp/cudnn-download
6 安装深度学习套件
6.1 安装anaconda
官方下载地址:
https://link.zhihu.com/?target=https%3A//www.anaconda.com/distribution/%23linux
安装命令:
bash Anaconda3-5.3.0-Linux-x86_64.sh
安装过程中询问是否将anaconda的安装位置写入.bashrc选择是。
为conda换源:
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
6.2 安装TensorFlow.
官方教程:https://link.zhihu.com/?target=https%3A//tensorflow.google.cn/install/pip
首先,下载TensorFlow的离线镜像
新建虚拟环境
conda create -n keras pip python=3.6
激活虚拟环境
source activate keras
安装TensorFlow
pip install --ignore-installed --upgrade packageURL
测试
import tensorflow as tf
hello = tf.constant('first tensorflow')
sess = tf.Session()
print sess.run(hello)
参考链接
[1]LotusPanda:[Ubuntu18+RTX2080Ti]从0开始搭建深度学习环境TensorFlow+PyTorch