深度学习服务器崩溃后修理

1. 紧急模式

参考

Ubuntu gives message “Welcome to emergency mode !”

修复 Ubuntu gives message “Welcome to emergency mode !”

The Emergency Mode sometime means that your file system may be corrupted. In such cases, you will be left out with a prompt to go nowhere.
All you have to do is perform a file system check using,
fsck.ext4 /dev/sda3
where sda3 can be your partition and if you are using ext3 file system, change the command as follows:
fsck.ext3 /dev/sda3
About the partition number, Linux shows you the partition before arriving at the prompt.

2. 修复ubuntu 黑屏 进入不了图形界面 dev/sda1: clean, 552599/6111232 files, 7119295/24414464 blocks

参考

ubuntu 黑屏 进入不了图形界面 dev/sda1: clean, 552599/6111232 files, 7119295/24414464 blocks
Ubuntu16.04开机后黑屏无法进入登陆界面的解决办法

一)、修改boot启动项

开始的时候电脑开不了机(开机之后,先是紫屏,再一直是黑屏),重启了几次发现依旧如此,就修改了boot启动顺序,LEFI启动Leacy启动都试了;之后根据启动的瞬间屏幕亮出的in unsecure boot,也尝试改成不安全启动;

有了效果,开机画面变了,然后出现了一个黑框,嗯,就是最开头的图,可以输入内容、Enter键,但是不会执行,Ctrl+Alt+F2,居然能用,切换到TTY2界面,长舒了口气,还有救。

二)、修改grub 引导项(很多人通过这个解决了,但是这招对我没用)

在黑窗口里面(Ctrl+Alt+F2-7都行,输入用户名、密码),输入

sudo gedit /etc/default/grub
找到quiet splash并在后面添加nomodeset;修改前:

GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
修改后:

GRUB_CMDLINE_LINUX_DEFAULT="quiet splash nomodeset

然后输入
sudo update-grub
再重启就行了。

如果出现无法使用sudo update-grub,比如:/usr/sbin/grub-mkconfig 1 /etc/default/grub i# not found

解决方法: sudo cp /usr/share/grub/default/grub /etc/default/grub

三) 推荐
在启动Ubuntu的时候出现黑屏的情况,是因为升级了内核导致显卡不兼容,启动的时候应该告诉内核不要加载显卡。

开机后自动显示grub选项,提示要选择哪个操作系统的时候,默认选择光标是在第一行Ubuntu上的(整个第一行为白色),
按E键(edit的意思)进入编辑该引导选项的界面,可以看到,中下部分有一处写着“ro“,这才发现端倪所在:
深度学习服务器崩溃后修理

”ro“是”read only“只读的意思,在操作系统的基础知识中,我们知道一个操作系统在开机启动的过程中,有些软件会需要在此时写入一些信息和数据到系统中,才能正常运行,这里写成了”ro“会导致开机的时候一些软件无法写入数据,导致一直等待可以写入的时机否则不进行下一步,从而系统一直等待无法启动。

这里我的解决方法是把”ro“改成”rw“,即”read & write“,可以读取并且可以写入,

同时为了排除独立显卡的影响因素也在splash后面加上了nomodeset,然后按F10或者ctrl+x重启。

通过这个方法成功进入了系统,发现系统报错,推测可能是这个版本的内核运行出了问题,

然后在命令行用

sudo apt update,以及

sudo apt upgrade 更新自己的系统内核,然后用

sudo apt install -f

sudo apt autoremove来无副作用的删除旧内核,

更新系统后重启一切正常

nvidia-smi指令报错:Failed to initialize NVML: Driver解决

参考

nvidia-smi指令报错:Failed to initialize NVML: Driver解决

1.查看内核版本
cat /proc/driver/nvidia/version
2.查看驱动版本
dpkg -l | grep nvidia
3.不一致,卸载驱动,安装跟内核一样版本的驱动
sudo apt-get --purge remove nvidia*

sudo apt autoremove
sudo apt-get remove --purge nvidia-\*
sudo add-apt-repository ppa:graphics-drivers
sudo apt-get update
sudo apt-cache search nvidia

查看推荐版本,并安装推荐版本
ubuntu-drivers devices
sudo apt-get install nvidia-415 nvidia-settings nvidia-prime

上一篇:救援修复grub菜单


下一篇:Linux驱动编程1——内核编译