目录
本篇博文根据本人亲装碰到的问题搜寻总结而成,具体参考见结尾REFERENCE
安装GCC
服务器版未装有gcc,但英伟达驱动安装需要gcc,尝试过换源、更新软件库、以及overstack的几种方法均未能解决,最终发现可以通过安装build-essential软件包来解决问题,它会安装一堆新包,包括gcc, g++和make。
sudo apt install build-essential
安装NVIDIA驱动
由于直接安装cuda如果选择安装驱动会直接版本较低的驱动,所以采用先装驱动后装cuda的方式。
1. 卸载原有驱动(没装跳过)
- 方法一、通用
sudo apt-get remove –purge nvidia*
- 方法二、 非官网驱动
sudo apt-get remove --purge nvidia(版本全称,如我的nvidia-384.130)
- 方法三、官网驱动
sh ./nvidia.run --uninstall
2. 禁用nouveau
安装NVIDIA需要先禁用系统自带的驱动
打开文件
sudo gedit /etc/modprobe.d/blacklist.conf
-
在文本末尾添加
blacklist nouveau option nouveau modeset=0
无视warn
wq, 执行
sudo update-initramfs -u
检测,
lsmod | grep nouveau
,没有任何输出说明禁用成功
3. 安装NVIDIA显卡驱动
-
查看支持的驱动版本
sudo apt-cache search nvidia*
,一般安装大于等于最大的版本就好,我安装的是418.87 -
下载NVIDIA驱动,
-
禁用X服务(最好有一台备用电脑,因为这一步会黑屏...因为我是采用ssh连接,所以对我没影响)
sudo service lightdm stop
-
给文件赋执行权限并cd到下载目录
cd ~ sudo chmod a+x NVIDIA-Linux-x86_64-384.130.run
-
安装
sudo sh ./NVIDIA-Linux-x86_64-375.20.run –no-opengl-files
检测是否成功
nvidia-smi
安装CUDA10.1
-
禁用X服务(黑屏)
sudo service lightdm stop
-
给文件赋执行权限并安装
sudo chmod a+x cuda_10.1.243_418.87.00_linux.run sudo sh cuda_10.1.243_418.87.00_linux.run --override
accepted, 除了驱动不选择,其他都选。
-
打开配置文件
vim ~/.bashrc
,末尾写入export PATH=/usr/local/cuda-8.0/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
生效
source ~/.bashrc
检测是否成功
nvcc -V
安装cudnn
-
官网下载,找到与cuda版本配对的cudnn,查看官网配对,以及更全的版本配对,我的cuda为10.1所以,cudnn选的是7.6.4
-
将下载的添加为压缩包并解压
# compression cp cudnn-8.0-linux-x64-v5.1.solitairetheme8 good.tgz # decompression tar -xvf good.tgz
-
安装,其实就是改变文件位置和权限
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/ $ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ -d $ sudo chmod a+r /usr/local/cuda/include/cudnn.h $ sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
-
查看cudnn版本:
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
以上便配置好服务器,以下为非root用户根据需要安装。
我安装的是anaconda、tensorflow、pytorch
安装anaconda
卸载anaconda(如有)
rm-rf ~/anaconda
,然后修改配置文件~/.bashrc
官网下载并安装
-
配置文件/home/yourusername/.profile,在最后一行添加如下
# Anaconda export PATH=$PATH:/home/username/anaconda3/bin
生效
source /home/username/.profile
安装tensorflow
查看官网配对,确定安装版本
# 如果你安装的是 Python 3.6 版的Anaconda:
conda create --name tf_gpu_env tensorflow-gpu # tf_gpu_env是这个环境的名字
# 如果你安装的是 Python 3.7 版的Anaconda,则需要声明新创建的环境使用 Python 3.6:
conda create --name tf_gpu_env python=3.6 anaconda tensorflow-gpu
安装pytorch
-
新建虚拟环境并激活环境
conda create -n pytorch python=3.7 activate pytroch
-
查看官网选择版本,获得代码
如我的
解决问题:
- ERROR: Cannot uninstall 'wrapt'. during upgrade
- tensorboard 1.14.0 has requirement setuptools>=41.0.0, but you'll have setuptools 39.1.0
Reference
https://blog.csdn.net/zhang970187013/article/details/81012845
https://www.linuxidc.com/Linux/2019-06/159059.htm
https://blog.csdn.net/Eddy_zheng/article/details/52910249
https://blog.csdn.net/DarrenXf/article/details/82182449
https://blog.csdn.net/qq_41620607/article/details/81236525
https://www.cnblogs.com/onemorepoint/p/7453766.html
https://blog.csdn.net/qq_22474567/article/details/54984257
https://blog.csdn.net/yuejisuo1948/article/details/81043962
https://github.com/tensorflow/tensorflow/issues/30191
https://blog.csdn.net/weixin_44179909/article/details/96973208
https://zhuanlan.zhihu.com/p/59278962