Linux后台任务运行的方法

2022-02-20 01:46:37

Linux后台任务运行的方法

最近在远程服务器跑算法模型，远程服务器的工具我用的是MobaXterm，推荐推荐，很好用~

言归正传，跑算法模型要好久，因为服务器性能不是很好，我跑一次要好几天，那就难免远程连接服务器工具会断开，这时候跑了几天的这个模型进程就无了…，也差点把我气的送走~~

最后，自己知道了如何后台运行，恩，真香，自己也就调研学习了一下Linux后台运行任务的方法，在现在跑模型的时候也使用了其中的一种，余下几种自己玩了玩，来记录一下，方便下次看~，学到的方法写在总结里哦！！

1、原理知识剖析（问题引出）

问题：

为什么远程工具断了，进程就没了呢？
为什么我们平时用ctrl+c，那进程也就断了呢？

为了来探究这两个问题，我们首先要了解一下Linux的一些信号，我们可以在终端输入以下命令来查看：

kill -l

可以看到总共有64个信号，我们一般称1 ~ 31的信号为不可靠信号，传统UNIX支持的非实时的信号；32 ~ 64为可靠信号，即后来扩充的可靠信号，两者的区别是不可靠信号不支持排队，从而可能会造成信号丢失，而可靠信号则不会。下面介绍几个终端常见到的几个（大家可以试试，看看都是什么效果）：

1) SIGHUP：本信号在用户终端连接(正常或非正常)结束时发出

2) SIGINT：程序终止(interrupt)信号, 在用户键入INTR字符(通常是Ctrl-C)时发出，用于通知前台进程组终止进程。
 
3) SIGQUIT：与SIGINT类似, 但由QUIT字符(通常是Ctrl-\)来控制

9) SIGKILL：用来立即结束程序的运行. 本信号不能被阻塞、处理和忽略。如果某个进程终止不了，发送这个信号

20) SIGTSTP：停止进程的运行, 但该信号可以被处理和忽略. 用户键入SUSP字符时(通常是Ctrl-Z)发出这个信号

而上面两个问题背后的主要原因会涉及到SIGHUP 、SIGINT信号，下面说明原因：

原因：在我们登录Linux服务器的时候，系统会分配给我们一个终端，也就是一个Session。在我们登录成功之后，我们运行的所有程序，无论是前台进程还是后台进程一般都属于这个Session，那如果我们关闭了终端或者用了ctrl+c，shell默认会发送中断信号给该终端Session关联的进程，从而导致进程终止。

sighup: signal hang up，用户退出Linux登录时或者关闭终端时候，若有对终端输出的进程，其将会收到SIGHUP信号。这个信号的默认操作为终止进程，因此该向终端输出的进程就会中止。不过可以对这个信号进行捕获，比如wget能捕获SIGHUP信号并忽略它，这就是为什么就算退出了Linux登录，wget也能继续下载的原因
sigint： signal interrupt，ctrl+c 会发送此信号，主动关闭程序

2、问题处理

在上面我们知道了：

远程工具断了，发送了sighup信号，进程没了
Ctrl+c发送 sigint ，那进程也没了

那首先想到的就是，我执行上面的操作，我不让其发送信号不就好了？或者说，你发送信号，我采取机制忽略你？这就对应有两个东西的出现：

2.1 忽略sigint信号（& 符号）

第一种，我们让启动的程序忽略sigint信号，从而让导致进程关闭的sigint信号无效，那就用到了 & 符号

例如：（是不是real简单，哈哈哈哈哈）

tail -f logs.log &

2.2 忽略sigup信号（nohup）

介绍一种命令：nohup ，英文全称 no hang up（不挂起），我们可以用这个命令来使任务不挂断一直在系统后台运行

原理：nohup捕获了SIGHUP信号，对其进行了忽略，从而让发送能让进程关闭sigup信号的操作无效

nohup的命令语法：

nohup Command [ Arg … ] [　& ]

Command：要执行的命令。
Arg：可选，一些参数，可以指定输出文件。
&：可选，让命令在后台执行

在默认情况下（没有指定输出文件的时候）会输出一个名叫 nohup.out 的文件到当前目录下，如果当前目录的 nohup.out 文件不可写，输出重定向到 $HOME/nohup.out 文件中。

使用：

nohup tail -f logs.log

其他使用（指定输出文件）：

nohup ./example.sh > logs.log 2>err.log

后台不中断执行./example.sh，正常stdout输出给logs.log，错误stderr输出给err.log日志中

官网对这里的相关的数字含义解释如下：

0 – stdin (standard input，标准输入)
1 – stdout (standard output，标准输出)
2 – stderr (standard error，标准错误输出)

官网的一种举例，其含义是将标准错误 2 重定向到标准输出 &1 ，标准输出 &1 再被重定向输入到 runoob.log 文件中

nohup /root/runoob.sh > runoob.log 2>&1 &

也可以看到，一般我们将nohup命令与&符合结合起来使用。那么这两个信号都没有作用了，very nice，我现在也是喜欢用这个方法来跑模型，把日志输出我自己的输出日志中，体验感不错~

2.3 不接受sigup信号（setsid命令）

介绍一种命令：setsid ，可以用这个命令重新创建一个session，让子进程继承父进程的SessionId，但可以脱离父进程，不受负进程控制

原理：nohup 可以通过忽略 HUP 信号来使我们的进程避免中途被中断，但角度思考，如果我们的进程不属于接受 HUP 信号的终端的子进程，那么自然也就不会受到 HUP 信号的影响了，setsid 就是这样的

setsid的命令语法：

setsid Command [ Arg … ]

Command：要执行的命令。
Arg：可选，一些参数

使用：

setsid tail -f logs.log

我们来查看进程看看：

可以看到：

我们终端的进程ID是20953，框框上面的是上面的几种后台任务进行的方式产生的，可见各自的进程ID不同，但是父进程ID都是20953
而框框是执行setsid得到的，进程 ID(PID)为22161，而它的父 ID为1，并不是当前终端的进程 ID 20953

3、其他的方法

下面介绍几种其他的方法：

.ctrl + z、jobs、fg、bg（任务调度的方式）
screen （多重视窗管理程序）
tmux （终端复用软件）

3.1 任务调度的方式

在上面有一个信号 SIGTSTP 主要是来使终端输出的进程停止，也就是挂起，我们可以使用 Ctrl+Z来发送这个信号

例如：我们tail查看一个日志的时候，按下Ctrl+Z，会对应有一个 Stopped，【1】为其作业号，我们在将其重新运行的时候就用到这个作业号

所以针对这种情况，我们挂起，肯定有重新运行，所以这就涉及到了几个命令：

jobs：查看当前有多少在后台运行的命令
fg：将后台中的作业进程调至前台继续运行
bg：将后台中暂停（挂起）的作业进程继续运行

举例使用：

>jobs

[1]+  Stopped                 tail -f /home/hiudawn/mlpan/faster-rcnn/logs/res.log

>fg 1 # 重新运行作业号为1的作业

tail -f /home/hiudawn/mlpan/faster-rcnn/logs/res.log

>bg 1 # # 重新运行挂起的作业号为1的作业（后台运行）
[1]+ tail -f /home/hiudawn/mlpan/faster-rcnn/logs/res.log &

3.2 screen

官方解释：screen命令用于多重视窗管理程序。screen为多重视窗管理程序。此处所谓的视窗，是指一个全屏幕的文字模式画面（终端页面）。通常只有在使用telnet登入主机或是使用老式的终端机时，才有可能用到screen程序。

粗略解释：可以粗略地认为screen是一个虚拟终端软件，它直接在linux系统里面启动了另外一个后台程序接管（维持）了你的这个终端会话，当你直接连接的终端ssh断开时他仍然让程序认为你的ssh持续链接着，这样也就不会出现进程接收到中断信号而退出。

语法：

screen [-AmRvx -ls -wipe][-d <作业名称>][-h <行数>][-r <作业名称>][-s <shell>][-S <作业名称>]

解释

[-AmRvx -ls -wipe]
- -A 　将所有的视窗都调整为目前终端机的大小。
- -m 　即使目前已在作业中的screen作业，仍强制建立新的screen作业。
- -R 　先试图恢复离线的作业。若找不到离线的作业，即建立新的screen作业。
- -v 　显示版本信息。
- -x 　恢复之前离线的screen作业。
- -ls或–list 　显示目前所有的screen作业。
- -wipe 　检查目前所有的screen作业，并删除已经无法使用的screen作业。
-r <作业名称> 　恢复离线的screen作业。
-d <作业名称> 　将指定的screen作业离线。
-h <行数> 　指定视窗的缓冲区行数。
-s 　指定建立新视窗时，所要执行的shell。
-S <作业名称> 　指定screen作业的名称。

使用：

（1）在使用前需要先安装：

apt-get install  screen

yum install  screen

（2）常用选项：

用screen -dmS name来建立一个处于断开模式下的会话（并指定其会话名name）。
用screen -list来列出所有会话。
用screen -r name来重新连接指定会话（连接会话名为name的会话）
用快捷键CTRL+d来暂时断开当前会话

例如：（简单使用，创建几个会话）

可以自己试试效果 screen -r u 连接u会话就可以干一些想干的事情了~~，下面我们看看进程的变化

1. 未使用 screen 时新进程的进程树

(base) hiudawn@1060:~$ ping www.google.com &
[1] 9499
(base) hiudawn@1060:~$ pstree -H 9499
init─┬─Xvnc
├─acpid  
├─atd  
├─2*[sendmail]   
├─sshd─┬─sshd───bash───pstree   
│      └─sshd───bash───ping

我们可以看出，未使用 screen 时我们所处的 bash 是 sshd 的子进程，当 ssh 断开连接时，HUP 信号自然会影响到它下面的所有子进程（包括我们新建立的 ping 进程）。

2. 使用了 screen 后新进程的进程树

(base) hiudawn@1060:~$ screen -r u
(base) hiudawn@1060:~$ ping www.ibm.com &
[1] 9488
(base) hiudawn@1060:~$ pstree -H 9488
init─┬─Xvnc   
├─acpid
├─atd   
├─screen───bash───ping   
├─2*[sendmail]

而使用了 screen 后就不同了，此时 bash 是 screen 的子进程，而 screen 是 **init（PID为1）**的子进程。那么当 ssh 断开连接时，HUP 信号自然不会影响到 screen 下面的子进程了。

3.3 tmux

Tmux是一个优秀的终端复用软件，类似screen，我们通过一个终端登录远程主机然后并运行tmux后，可开启多个控制台而无需再“浪费”多余的终端来连接这台远程主机。其可以说是Screen的替代品。tmux的功能很多，很复杂，具体的可以查看这篇文章 tmux终端复用详解，这里不再细说了。

语法：

tmux [-2CluvV] [-c <shell>] [-f file] [-L socket-name] [-S socket-path] [command [flags]]

总结

& 符号：忽略sigint信号
nohup命令：忽略sigup信号
setsid命令：开启新session，不接受sigup信号
.ctrl + z、jobs、fg、bg：任务调度的方式
screen ：多重视窗管理程序
tmux ：终端复用软件

码农公寓

Linux后台任务运行的方法

1、原理知识剖析（问题引出）

2、问题处理

2.1 忽略sigint信号（& 符号）

2.2 忽略sigup信号（nohup）

2.3 不接受sigup信号（setsid命令）

3、其他的方法

3.1 任务调度的方式

3.2 screen

1. 未使用 screen 时新进程的进程树

2. 使用了 screen 后新进程的进程树

3.3 tmux

总结

相关文章