安装conda,pytorch

发现cuda又不能用了,不知道怎么回事
1,gpu-2上重新安装pytorch,但是http错误,换源不能解决问题
2,尝试在v-100上安装conda,然后再安装pytorch
参考
vim ~/.bashrc
这步,进入这个文件,常用操作:
https://blog.csdn.net/ylhsuper/article/details/61925713?ops_request_misc=&request_id=&biz_id=102&utm_term=%E5%A6%82%E4%BD%95%E9%80%80%E5%87%BA/.bashrc%E6%96%87%E4%BB%B6&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduwebdefault-3-.first_rank_v2_pc_rank_v29&spm=1018.2226.3001.4187

2021-06-03
更新,之前是在v-100上安装anacconda,这次尝试在gpu-2上重装anaconda

为什么要重装gpu-2的conda,因为安装了合适版本的pytorch之后,运行:

torch.cuda.is_available()   # 在my-rdkit-env环境中

结果为False

先查看gpu-2 和v-100 的anaconda版本:

conda -V

结果:
gpu-2
安装conda,pytorch
v-100
安装conda,pytorch
说明conda4.8.3的是可用的,4.10.1是不可用的,可能。。。

开始!!!

还是按照这个教程来参考
1,下载anaconda,

wget -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2021.05-Linux-x86_64.sh

运行完成之后 conda -V 发现还是4.10.1版本,不知道为啥

conda list

安装conda,pytorch
安装conda,pytorch

尝试重装pytorch

首先需要查看cuda版本

安装conda,pytorch网上的办法不可行,只有用如下命令才行得通:

nvidia-smi

安装conda,pytorch
可知gpu-2的cuda版本为10.0

可以顺便查看v100 cuda版本
CUDA Version: 11.2
安装对应版本的pytorch

采取官网安装:

        如果命令输错了,但是已经按下enter健时可以用ctrl+c终止

查看后决定安装:pytorch==1.7.1

conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.0 -c pytorch
# 官网是cudatoolkit=10.1, 我改成了cudatoolkit=10.0

运行不成功
安装conda,pytorch
按照报错提示查看channels:

conda config --show channels

这里对比着看了一下:
gpu-2的channels有很多,都是后来添加的
安装conda,pytorch

v100的channels只有默认的
安装conda,pytorch
关于channels的其他命令:

conda config --show channels   # 显示有哪些channels
conda config --show-sources    # 显示channels文件所在位置,同时显示有哪些channels

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/    # 添加channel
conda config --set show_channel_urls yes 

conda config --remove channels 'https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/' # 删除channel

报channel的错误的话就尝试删除掉channels,只剩默认
conda config --remove channels 链接

最后只剩下defaults

重新运行安装代码
conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.0 -c pytorch

安装完成了,但是发现导入torch模块时报错找不到该模块,于是尝试重新安装1.7.版本的

conda install pytorch==1.7.0 torchvision==0.8.0 torchaudio==0.7.0 cudatoolkit=10.0 -c pytorch
# 同样还是官网是cudatoolkit=10.1, 我改成了cudatoolkit=10.0
还是不行,后来看到python是3.8.5的所以,尝试降到3.7

创建一个新环境: test

conda create --name test python=3.7

pytorch包是安装在当前所在环境下的,需要在当前所在环境下删除

在my-rdkit-env环境下删除pytorch包
conda uninstall pytorch

经检查卸载成功

在my-rdkit-env环境下安装pytorch包
conda install pytorch==1.7.0 torchvision==0.8.0 torchaudio==0.7.0 cudatoolkit=10.0 -c pytorch

说明想要换pytorch版本是需要先卸载后安装的
想到前面的重新安装conda可能也是需要先卸载再安装的

我的天呐!!!好像从一开始就搞错了一件事情,好像只是下载了anaconda并没有安装,我去!!!

按照之前的步骤重新安装anaconda ,提示该文件夹已经存在,(安装到了服务器 /home/zhangzimei 目录下)
安装conda,pytorch
运行如下刚刚下载的.sh文件,进行anaconda的安装(命令行输入ls可以找到这个文件)

bash Anaconda3-2020.07-Linux-x86_64.sh

还需要导入环境变量 ,vim ~/.bashrc 进入这个文件

vim ~/.bashrc

点击 i 可以对这个文件进行编辑
在文件末尾加入语句

export PATH=/home/user_name/anaconda3/bin:$PATH

按下Esc 退出编辑模式

输入 :wq 写入并退出

     其他常用的命令:
     
     :wq! 是写入并强制退出
     :w    保存但不退出(常用)
     :w!   若文件属性为『只读』时,强制写入该档案
     :q    离开 vi (常用)
     :q!   若曾修改过档案,又不想储存,使用 ! 为强制离开不储存档案
     :e!   将档案还原到最原始的状态!

更新配置文件

source ~/.bashrc

完成之后发现还是不能用,pytorch无法安装,报错好像是找不到匹配的包
尝试安装2020.07版本的
安装过程中提示 已经存在anaconda3文件夹(由于刚刚安装过了)
使用命令:

bash Anaconda3-2020.07-Linux-x86_64.sh -u

即可解决这个问题

这次安装过程中发现之前操作有误:忘记改加入语句export PATH=/home/user_name/anaconda3/bin:$PATH 中的user_name改为zhangzimei
这可能就是之前一直不成功的原因
还有需要注意的一点是anaconda配置好以后自动退回到base,所有环境的conda版本都变为了新安装的这个版本,说明所有的环境使用的conda是一个

接下来安装pytorch

提示10.0那里错了,说明不能简单地修改那里
又修改回10.1进行尝试 ,安装成功,可以导入,但是torch.cuda.is_available()时,是False
卸载以后,重新安装,cudatoolkit=9.2,终于是True了!!!太不容易了!

最后在gpu2上面都安装好了,可以使用了,但是v100不能使用,因为输入jupyter notebook时不能够弹出X-manager 之后再想办法解决吧,可以先使用gpu2

上一篇:detectron2更新Pytorch版本后的报错记录


下一篇:Detectron2系列:detectron2更改日志