Tensorflow testing for Ubuntu 18.04.1
首先,安装Ubuntu 18.04.1 Desktop系统,系统安装完后再安装 NVIDIA显卡驱动。Ubuntu 18.04的系统使用NVxxx.run安装时会提示GCC版本不匹配,所以这里换一种方式安装NVIDIA驱动,具体方法如下:
在安装之前首先就是要禁用Nouveau的驱动:
1. 按Ctrl+Alt+T打开终端,在终端输入sudo su,输入系统登入密码后按Enter键
2. 在命令行输入 #nano /etc/modprobe.d/blacklist.conf 回车
在最后一行添加“blacklist nouveau”,输入完之后按Ctrl+O,然后按Enter键,再按Ctrl+X退出编辑介面
3.#mv /lib/modules/3.19.0-25-generic (根据系统版本定,在命令行输入uname –r可以查看此版本) /kernel/drivers/gpu/drm/nouveau/nouveau.ko /lib/modules/3.19.0-25-generic/kernel/drivers/gpu/drm/nouveau/nouveau.ko.org
4. #update-initramfs –u 等待执行完是否出错
5. #reboot
6.重启后再次登入系统,在终端输入如下命令
#lsmod | grep nouveau (没有输出表明禁用成功)
打开终端运行如下指令安装NVIDIA驱动:
# sudo add-apt-repository ppa:graphics-drivers/ppa 回车
# sudo apt-get update
# sudo ubuntu-drivers devices
# sudo ubuntu-drivers autoinstall
执行完后,重启系统再次进入 Ubuntu Desktop, 运行nvidia-smi查看是否正常识别到所有显卡。
备注:如需要卸载驱动:
sudo apt remove --purge nvidia-*
sudo nvidia-uninstall
CUDA10.0安装
STEP1:CUDA官网选择适合自己系统的版本下载。
https://developer.nvidia.com/cuda-toolkit-archive
我的系统是Ubuntu18.04、64位,选择CUDA10版本如下:
STEP2:安装CUDA(右键有自带解压选项)
在命令行中键入:
加入可执行权限:
# chmod +x cuda_10.0.130_410.48_linux.run
安装CUDA
# sudo sh cuda_10.0.130_410.48_linux.run
一直按Enter直至把声明读完, 如果驱动是独立安装了,一定要选择不安装驱动!选择如下:
会提示:
***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 384.00 is required for CUDA 10.0 functionality to work.
To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
sudo <CudaInstaller>.run -silent –driver
这是因为我们在安装CUDA的时候没有选择安装驱动,提示需要安装驱动,忽略就行。
STEP3:添加环境变量:#nano ~/.bashrc
export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:$CUDA_HOME/bin
export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
保存并退出
source ~/.bashrc
STEP4:测试是否安装成功
上面的选项选择安装了CUDA例子,运行其中一个来测试是否安装成功:
# cd /usr/local/cuda/samples/1_Utilities/deviceQuery
# sudo make
# ./deviceQuery
结果如下就表明成功啦
STEP5:安装CUDNN
在官网下载安装包,需要注册登录才能下载。选择适合自己的版本
https://developer.nvidia.com/rdp/cudnn-archive
下载完成后解压并进入文件夹:
# sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
# sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
# sudo chmod a+r /usr/local/cuda/include/cudnn.h
# sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
在终端查看CUDNN版本:
# cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
Anaconda安装 (Anaconda3-5.2.0-Linux-x86_64)
cd到存放目录并执行:bash Anaconda3-5.2.0-Linux-x86_64.sh
按照提示安装即可,安装路径可以选择默认。
安装完之后(最后一个问题选no,选了yes会继续提问,则选no则可)执行:
source ~/.bashrc
检查是否安装成功
终端执行:conda list
若提示命令无法找到,则修改.profile文件:
sudo gedit ~/.profile
添加以下几行:
if [ -d "$HOME/anaconda3/bin" ] ; then
PATH="$HOME/anaconda3/bin:$PATH"
fi
使生效:
source ~/.profile
git的安装
# sudo apt-get install git
Tensorflow安装
1.创建tensorflow环境:
# conda create -n tensorflow pip python=3.6 (#python版本根据要安装的tensorflow选择)(后面选择y后开始下载安装,久)
2.激活环境:
# source activate tensorflow
3.安装tensorflow:
# conda install tensorflow-gpu=1.13.1
4.后面如果需要使用tensorflow,则打开终端输入:source activate tensorflw,如果关闭虚拟环境,
输入source deactivate tensorflow (or conda tensorflow)即可。
5.验证tensorflow测试:
进入tensorflow虚拟环境后,输入python后回车,再逐条输入以下指令:
import tensorflow as tf
hello = tf.constant(‘Hello, TensorFlow!‘)
sess = tf.Session()
print(sess.run(hello))
输出结果应该是Hello, TensorFlow,并附带有GPU相关信息。
6.退出python script,请输入“quit()” 并回车。
Tensorflow tf_cnn_benchmark的安装及运行
1.在tensorflow环境下,下载benchmark的source code
# cd ~
# git clone https://github.com/tensorflow/benchmarks.git
2. # cd ~/benchmarks
3. # git reset --hard 6c2ccb45049673f09fdea9406372d6561db5c4fd
4.进入测试tff_cnn_benchmarks的子目录:
# cd scripts/tf_cnn_benchmarks
5. Tensorflow性能测试:
下面是测试1张卡的指令:
#python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=64 --model=resnet50 --variable_update=independent --local_parameter_device=gpu
#python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=64 --model=inception3 --variable_update=independent --local_parameter_dev ice=gpu
#python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=64 --model=alexnet --variable_update=independent --local_parameter_device=gpu
#python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=64 --model=vgg16 --variable_update=independent --local_parameter_device=gpu
如果要测试多张卡时,只要改动--num_gpus=1这项的数值就行。
循环测试指令:
python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=64 --model=resnet50 --variable_update=independent --local_parameter_device=gpu --nodistortions --gradient_repacking=8 --num_epochs=90 --weight_decay=1e-4
watch -n 0.2 nvidia-smi